paint-brush
「黒澤」脚本家アシスタント 付録@teleplay
149 測定値

「黒澤」脚本家アシスタント 付録

Teleplay Technology 5m2024/05/23
Read on Terminal Reader

長すぎる; 読むには

この論文では、研究者らが、エンターテインメント メディアの自動化に取り組むプロットとスクリプト生成のための AI スクリプト作成ワークベンチである KUROSAWA を紹介しています。
featured image - 「黒澤」脚本家アシスタント 付録
Teleplay Technology  HackerNoon profile picture
0-item

著者:

(1)Prerak Gandhi、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、prerakgandhi@cse.iitb.ac.in、およびこれらの著者は本研究に等しく貢献した。

(2)ヴィシャル・プラマニック、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ、vishalpramanik、pb@cse.iitb.ac.in、およびこれらの著者は本研究に等しく貢献した。

(3)プシュパク・バタチャリヤ、インド工科大学ボンベイ校コンピュータサイエンス工学部、ムンバイ。

リンク一覧

A. 付録

A.1. 倫理的考慮

すべてのスクリプトは IMDB および IMSDb データベースから取得しました。この Web サイトには、研究目的でのスクリプトの使用に関する免責事項があり、このリンク https://imsdb.com/disclaimer.html で確認できます。スクリプトは公正かつ著作権を侵害することなく使用しています。

A.2. アノテータープロファイル

外部の注釈者の協力が必要だったのは、(i) 手動で脚本に注釈を付ける場合と、(ii) 脚本からシーンとその説明を作成する場合の 2 つのケースです。最初のタスクでは、10 人の注釈者の協力を得ました。彼らの年齢は 21~28 歳で、全員がアジア人でした。注釈者には、注釈を付ける例とともに詳細なガイドラインが与えられました。また、定期的にセッションを行って、理解度を確認したり、疑問や間違いを解決したりしました。2 番目のタスクでは、2 人の注釈者の協力を得ました。2 人とも 21~23 歳のアジア人女性です。2 人とも、シーン作成タスクに関する詳細なガイドラインが与えられました。いくつかのデータ ポイントがランダムに選択され、概念上の間違いを見つけて修正するためにチェックされました。注釈者は、STEM と芸術の学士号と修士号を取得していました。

A.3. 評価指標

評価指標は以下の通りです。


• パープレキシティ (PPL):パープレキシティは、言語モデルを評価するための最も一般的な指標の 1 つです。エントロピーの指数として計算されます。PPL の値が小さいほど、生成されたテキストの流暢性が高くなります。


• BLEU:バイリンガル評価アンダースタディ多くの NLP タスク、特に機械翻訳の分野で一般的な指標です。生成された出力とゴールド スタンダード データとの重複を測定します。この指標ではモデルの創造性は考慮されませんが、BLEU を使用して候補テキストと参照テキストの違いを推測できます。BLEU の測定値が高いほど、優れています。


• ROUGE:スティングのための想起指向アンダースタディ評価は通常、自動要約を評価するために使用されます。この場合、生成されたプロットと元のプロット間の最長の重複シーケンスを測定します。ROUGE 指標が高いほど、優れています。


• N-gram:繰り返しと区別の N-gram スコアを計算することで、映画のプロットの冗長性と多様性を測定します。

A.4. 脚本の構造

映画の脚本やシナリオは、物語とは異なる形式を持っています。脚本はシーンの集まりです。これらのシーンはそれぞれ、以下で説明するいくつかの主要な要素で構成されています。


シーンの見出し/スラッグライン -このコンポーネントは、シーンの時間と場所を説明します。これは、カメラが新しいシーンを撮影する最初のショットと考えることができます。たとえば、INT. - RESTAURANT - NIGHT は、シーンが夜のレストラン内で始まることを示します。スラッグラインは通常、大文字で左揃えで記述されます。


キャラクター名- キャラクターがセリフを発するたびに言及されます。各キャラクターの名前は大文字で中央揃えで記載されます。


会話- 会話は登場人物が話すセリフです。台本の中で登場人物名のすぐ後に表示され、中央揃えになります。


アクション ライン- アクション ラインは、シーンのほぼすべてを説明します。各スクリプトのナレーションとして説明できます。アクション ラインは、ダイアログまたはスラッグラインの後に配置され、左揃えになります。


トランジション- トランジションは、あるシーンから次のシーンへの変化を示します。また、シーンの終了方法も示します。たとえば、DISSOLVE、FADE、CUT は、トランジションを示すために使用されるさまざまなキーワードです。これらは通常、大文字で右揃えで表示されます。


図8は脚本要素の例を示しています。

A.5. ストーリーテンプレート

長い時間をかけて、物語の作成に役立つさまざまなテンプレートが開発されてきました。最も有名なテンプレートの 1 つは、3 幕構成です (Field、1979)。この構成では、物語を設定、対立、解決に分けます。この作業では、4 幕構成を使用しており、これについて詳しく説明します。


第 1 幕- これはオープニング/導入幕です。主人公の性格を説明し、映画のテーマを簡単に紹介します。この幕は、主人公の新たな旅の始まりで終わります。


第 2 幕 A - 第 2 幕は長いため、2 幕に分けることができます。この幕では通常、ラブ ストーリーが始まります。また、主人公が新しい旅に適応しようとする様子が観客を楽しませてくれます。この幕は、映画の中間点、つまり映画の重要な瞬間の 1 つとして、非常に肯定的または否定的なシーンで終わります。


第 2 幕 B - この幕では通常、主人公の没落が描かれます。悪役または敵対者が優位に立つようになり、主人公は重要な何かまたは誰かを失います。この幕は、主人公がどん底に陥った後に新たな使命に気づくところで終わります。


第 3 幕— 主人公は、自分たちに必要な変化に気づき、スリリングな結末で敵を倒そうとします。映画は、冒頭には欠けていた主人公の嬉しい変化を見せて終わります。


図6: 4幕構成を用いた映画「ミュージック・オブ・ザ・ハート」のあらすじの手動注釈の例

A.6. GPT-3の微調整

GPT-3は昨年、OpenAIによって一般公開されたとみなされました(Brown et al.、2020)。その最良のモデルには1750億のパラメーターがあり、これはGPT2の29億のパラメーターよりもはるかに多いです。私たちは、シーン生成モデルとともにGPT-3を使用して、複数のプロット生成モデルを微調整しました。プロット生成モデルの複数の組み合わせは、短いプロンプトまたは長いプロンプト、ジャンルの有無です。GPT-3モデルとハイパーパラメータは、上記のすべての組み合わせで同じままです。GPT-3 Curieモデルを4エポック微調整しました。テキストを生成するために、GPT-3はさまざまなハイパーパラメータを提供し、調整して目的の結果に近づけることができます。テストでは、他のハイパーパラメータを次のように設定しました。温度を0.7、トップpを1、頻度ペナルティを0.1、存在ペナルティを0.1、最大トークンを900に設定しました。


図 7: 短い入力で生成された完全なシーンの例。


図8: 脚本の要素


この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています