लेखक:
(1) प्रेरक गांधी, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, prerakgandhi@cse.iitb.ac.in, और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(2) विशाल प्रमाणिक, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई, vishalpramanik,pb@cse.iitb.ac.in, और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया;
(3) पुष्पक भट्टाचार्य, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान बॉम्बे, मुंबई।
कहानी सुनाना मनोरंजन उद्योग की जीवन रेखा है- फ़िल्में, टीवी शो और स्टैंड-अप कॉमेडी, सभी को कहानियों की ज़रूरत होती है। एक अच्छी और मनोरंजक स्क्रिप्ट कहानी सुनाने की जीवन रेखा है और रचनात्मकता और संसाधन निवेश की मांग करती है। अच्छे स्क्रिप्ट राइटर मिलना मुश्किल है और अक्सर समय के दबाव में काम करते हैं। नतीजतन, मनोरंजन मीडिया सक्रिय रूप से स्वचालन की तलाश कर रहा है। इस पेपर में, हम KUROSAWA नामक एक AI आधारित स्क्रिप्ट-लेखन कार्यक्षेत्र प्रस्तुत करते हैं जो प्लॉट निर्माण और स्क्रिप्ट निर्माण के कार्यों को संबोधित करता है। प्लॉट निर्माण का उद्देश्य एक संकेत (15-40 शब्द) दिए जाने पर एक सुसंगत और रचनात्मक प्लॉट (600-800 शब्द) उत्पन्न करना है। दूसरी ओर, स्क्रिप्ट निर्माण एक संक्षिप्त विवरण (15-40 शब्द) से स्क्रीनप्ले प्रारूप में एक दृश्य (200-500 शब्द) उत्पन्न करता है। कुरोसावा को प्रशिक्षित करने के लिए डेटा की आवश्यकता होती है। हम प्लॉट डेटासेट को मैन्युअल रूप से एनोटेट करने के लिए कहानी कहने की 4-अधिनियम संरचना का उपयोग करते हैं। हम 1000 मैन्युअल रूप से एनोटेट किए गए प्लॉट और उनके संबंधित प्रॉम्प्ट/स्टोरीलाइन का एक डेटासेट और 1000 दृश्यों का एक गोल्ड-स्टैंडर्ड डेटासेट बनाते हैं जिसमें चार मुख्य तत्व होते हैं - सीन हेडिंग, एक्शन लाइन, डायलॉग और कैरेक्टर नाम - जिन्हें अलग-अलग टैग किया जाता है। हम प्लॉट और सीन बनाने के लिए उपरोक्त डेटासेट के साथ GPT-3 को फाइन-ट्यून करते हैं। इन प्लॉट और सीन का पहले मूल्यांकन किया जाता है और फिर एक बड़े और प्रसिद्ध मीडिया प्लेटफ़ॉर्म ErosNow[1] के स्क्रिप्ट राइटर द्वारा उपयोग किया जाता है। हम एनोटेट किए गए डेटासेट और इन डेटासेट पर प्रशिक्षित मॉडल को स्वचालित मूवी प्लॉट और स्क्रिप्ट जनरेशन के लिए एक कार्यशील बेंचमार्क के रूप में जारी करते हैं।
फ़िल्में दुनिया भर के लोगों के लिए मनोरंजन के सबसे लोकप्रिय स्रोतों में से एक हैं और शिक्षा और सामाजिक जागरूकता के लिए एक मजबूत माध्यम हो सकती हैं। फ़िल्म उद्योगों के प्रभाव और प्रभाव का अंदाजा इस बात से लगाया जा सकता है कि हॉलीवुड फ़िल्में इस काम में लाखों डॉलर का निवेश करती हैं और अक्सर अरबों डॉलर का बॉक्सऑफ़िस कलेक्शन करती हैं। पहली मोशन पिक्चर द ग्रेट ट्रेन रॉबरी, 1903 - बिना आवाज़ के ब्लैक एंड व्हाइट - 20वीं सदी की शुरुआत में बनाई गई थी। तब से, कला कई परिवर्तनों से गुज़री है, और अब लोग किसी भी स्मार्ट डिवाइस पर अपनी पसंद की 4K HD फ़िल्में तुरंत एक्सेस कर सकते हैं।
फिल्म के इतिहास में, किसी फिल्म की ब्लॉकबस्टर सफलता में योगदान देने वाले दो कारक हैं, उसका कथानक और कहानी कहने का तरीका। अगर दर्शकों को कथानक बहुत ही नीरस लगता है तो फिल्म की अपील बहुत कम हो जाती है। इसलिए, एक रचनात्मक और रोमांचक स्क्रिप्ट लिखना एक महत्वपूर्ण आवश्यकता है और बेहद चुनौतीपूर्ण है। इसमें समय और बजट की कमी को जोड़ दें, तो स्क्रिप्ट लेखन में (कम से कम आंशिक रूप से) स्वचालन की आवश्यकता स्पष्ट हो जाती है।
AI-आधारित कहानी निर्माण का उपयोग पहले भी किया जा चुका है। लेखन की संलग्नता-प्रतिबिंब संज्ञानात्मक व्याख्या के आधार पर, कंप्यूटर मॉडल MEXICA (पेरेज़ और शार्पल्स, 2001) छोटी कहानियों के लिए रूपरेखा तैयार करता है। BRUTUS (ब्रिंग्सजॉर्ड और फेरुची, 1999) विश्वासघात जैसे पूर्वनिर्धारित विषयों के साथ छोटी कहानियाँ बनाता है। पूर्व-प्रशिक्षित ट्रांसफ़ॉर्मर मॉडल के आगमन के साथ, स्वचालित कहानी निर्माण को बढ़ावा मिला है। GPT-2 और GPT-3 जैसे ट्रांसफ़ॉर्मर मॉडल का उपयोग टेक्स्ट निर्माण के लिए बड़े पैमाने पर किया जाता है। इन मॉडलों ने रचनात्मक टेक्स्ट बनाने की क्षमता दिखाई है, हालांकि कभी-कभी मतिभ्रम के साथ (झाओ एट अल।, 2020)। इन मॉडलों द्वारा उत्पन्न टेक्स्ट में कभी-कभी सुसंगतता और एकजुटता का अभाव होता है। दूसरी ओर, टेम्प्लेट-आधारित मॉडल सुसंगत टेक्स्ट उत्पन्न कर सकते हैं, लेकिन कथानक में नए पात्रों और घटनाओं को उत्पन्न करने में रचनात्मकता की कमी होती है (काले और रस्तोगी, 2020)।
फिल्म बनाने की प्रक्रिया आम तौर पर एक विचार से शुरू होती है, जिसका उपयोग फिर कथानक बनाने के लिए किया जाता है, जिसे फिल्म की पटकथा बनाने के लिए आधार के रूप में उपयोग किया जाता है (चित्र 1)।
इस शोधपत्र की एक महत्वपूर्ण विशेषता नए डेटासेट हैं। हमने बॉलीवुड और हॉलीवुड की फिल्मों के कथानक और संकेतों का बारीकी से अध्ययन किया। ऐसे कथानक और संकेत क्रमशः विकिपीडिया[2] और IMDb[3] से लिए गए थे। फिर कथानक को 4-अधिनियम कहानी संरचना का उपयोग करके एनोटेट किया जाता है - जो कि प्रसिद्ध 3-अधिनियम संरचना (फील्ड, 1979) का विस्तार है। 4-अधिनियम संरचना और एनोटेशन विधियों को क्रमशः परिशिष्ट A.5 और अनुभाग 4 में विस्तार से समझाया गया है।
हम 1000 हॉलीवुड मूवी दृश्यों और उनके संक्षिप्त विवरणों का एक डेटासेट पेश करते हैं। स्क्रिप्ट IMSDb[4] से स्क्रैप की गई हैं। दृश्यों को स्क्रीनप्ले के चार प्रमुख घटकों के साथ एनोटेट किया गया है: स्लगलाइन, एक्शन लाइन, चरित्र नाम और संवाद, जिनका विवरण परिशिष्ट A.4 में दिया गया है।
हम एक वर्कबेंच पेश करते हैं जिसे हम "कुरोसावा" कहते हैं, जिसमें डेटासेट और GPT-3 (ब्राउन एट अल., 2020) मॉडल की एक जोड़ी शामिल है, जो उक्त डेटासेट के साथ ठीक से ट्यून की गई है। एक GPT-3 मॉडल कहानी के संक्षिप्त विवरण (15-40 शब्द) के आधार पर एक मूवी प्लॉट तैयार करता है, जबकि दूसरा आवश्यक दृश्य के संक्षिप्त विवरण के आधार पर एक दृश्य बनाता है।
महत्वपूर्ण बात यह है कि हमने फिल्मों और टीवी शो बनाने, संगीत और साउंडट्रैक आदि के निर्माण के व्यवसाय में लगे सबसे बड़े मीडिया प्लेटफार्मों में से एक को "कुरोसावा" मंच प्रदान किया है - ताकि विभिन्न फिल्म उद्योगों के पटकथा और सामग्री लेखकों को नई फिल्म प्लॉट बनाने में मदद मिल सके।
इस कार्य में हमारा योगदान इस प्रकार है:
• जहां तक हमारी जानकारी है, यह किसी दृश्य विवरण से फिल्म के दृश्य तैयार करने का पहला काम है।
• हम दो डेटासेट बनाते हैं और सार्वजनिक रूप से जारी करते हैं: (ए) 1000 मूवी स्टोरीलाइन और उनके संबंधित प्लॉट का एक समानांतर डेटासेट, (बी) 1000 मूवी दृश्यों और उनके संबंधित विवरणों का एक समानांतर डेटासेट। (ए) में, हम IMDb से उपलब्ध मूवी स्टोरीलाइन को विकिपीडिया से उपलब्ध संबंधित मूवी प्लॉट के साथ जोड़ते हैं। (बी) में, हम IMSDb से उपलब्ध मूवी दृश्यों को IMDb से संबंधित विवरणों के साथ जोड़ते हैं।
• हम 4-अधिनियम संरचना के अनुसार मैन्युअल रूप से मूवी प्लॉट को एनोटेट करते हैं जो कि प्रसिद्ध 3-अधिनियम संरचना (फील्ड, 1979) का विस्तार है। मीडिया और मनोरंजन उद्योग के पेशेवर पटकथा लेखकों ने हमारा बहुत बारीकी से मार्गदर्शन किया।
• हम फिल्म के दृश्यों को मैन्युअल रूप से चार प्रमुख घटकों के साथ एनोटेट करते हैं: स्लगलाइन, एक्शन लाइन, चरित्र नाम और संवाद, साथ ही दृश्य का संक्षिप्त विवरण।
• हम "कुरोसावा" पेश करते हैं: एक कार्यक्षेत्र जिसमें कई डेटासेट और मॉडल शामिल हैं जो फिल्म उद्योग में पटकथा और दृश्य लेखकों की सहायता कर सकते हैं।
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] https://erosnow.com/
[2] https://www.wikipedia.org/
[3] https://www.imdb.com/
[4] https://www.imsdb.com/