Autores:
(1) Prerak Gandhi, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, prerakgandhi@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(2) Vishal Pramanik, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai, vishalpramanik,pb@cse.iitb.ac.in, e esses autores contribuíram igualmente para este trabalho;
(3) Pushpak Bhattacharyya, Departamento de Ciência da Computação e Engenharia, Instituto Indiano de Tecnologia de Bombaim, Mumbai.
Contar histórias é a salvação da indústria do entretenimento - filmes, programas de TV e comédias stand-up, todos precisam de histórias. Um roteiro bom e envolvente é a salvação da narrativa e exige criatividade e investimento de recursos. Bons roteiristas são raros de encontrar e muitas vezes trabalham sob forte pressão de tempo. Conseqüentemente, a mídia de entretenimento está buscando ativamente a automação. Neste artigo, apresentamos um ambiente de trabalho de escrita de roteiro baseado em IA chamado KUROSAWA, que aborda as tarefas de geração de enredo e geração de roteiro. A geração de enredo visa gerar um enredo coerente e criativo (600–800 palavras) a partir de um prompt (15–40 palavras). A geração de roteiro, por outro lado, gera uma cena (200–500 palavras) em formato de roteiro a partir de uma breve descrição (15–40 palavras). Kurosawa precisa de dados para treinar. Usamos uma estrutura de narrativa de 4 atos para anotar manualmente o conjunto de dados do enredo. Criamos um conjunto de dados de 1.000 enredos anotados manualmente e seus prompts/enredos correspondentes e um conjunto de dados padrão ouro de 1.000 cenas com quatro elementos principais - títulos de cena, linhas de ação, diálogos e nomes de personagens - marcados individualmente. Ajustamos o GPT-3 com os conjuntos de dados acima para gerar gráficos e cenas. Esses enredos e cenas são primeiro avaliados e depois usados pelos roteiristas de uma grande e famosa plataforma de mídia ErosNow[1]. Lançamos os conjuntos de dados anotados e os modelos treinados nesses conjuntos de dados como uma referência de trabalho para a geração automática de enredos e roteiros de filmes.
Os filmes são uma das fontes de entretenimento mais populares para pessoas em todo o mundo e podem ser um forte meio de educação e conscientização social. O impacto e a influência das indústrias cinematográficas podem ser avaliados pelo facto de os filmes de Hollywood investirem *Estes autores contribuíram igualmente para este trabalho 1 https://erosnow.com/ Centenas de milhões de dólares e muitas vezes fazem arrecadações de bilheteira de milhares de milhões de dólares. O primeiro filme The Great Train Robbery, 1903 — preto e branco sem som — foi criado no início do século XX. Desde então, a arte passou por diversas transformações e agora as pessoas podem acessar instantaneamente filmes 4K HD de sua preferência em qualquer dispositivo inteligente.
Ao longo da história do cinema, dois dos fatores que contribuíram para o sucesso de bilheteria de um filme foram a qualidade de seu enredo e a maneira de contar histórias. O apelo do filme diminui drasticamente se os espectadores acharem o enredo bastante previsível. Escrever um roteiro criativo e emocionante é, portanto, uma necessidade crítica e extremamente desafiadora. Adicione a isso as restrições de tempo e orçamento, e a necessidade de automação (pelo menos parcial) na escrita do roteiro se torna óbvia.
A geração de histórias baseada em IA já foi usada antes. Com base na explicação cognitiva da escrita, o modelo computacional MEXICA (Pérez e Sharples, 2001) gera estruturas para contos curtos. BRUTUS (Bringsjord e Ferrucci, 1999) cria contos com temas pré-determinados como traição. Com a chegada de modelos de transformadores pré-treinados, a geração automática de histórias ganhou um impulso. Modelos de transformadores como GPT-2 e GPT-3 são amplamente utilizados para geração de texto. Estes modelos têm demonstrado a capacidade de gerar texto criativo, embora por vezes com alucinações (Zhao et al., 2020). O texto gerado por esses modelos às vezes também carece de coerência e coesão. Por outro lado, modelos baseados em templates podem gerar texto coerente, mas carecem de criatividade na geração de novos personagens e eventos na trama (Kale e Rastogi, 2020).
O processo de criação de um filme geralmente começa com uma ideia que é então utilizada para criar um enredo que serve de base para a construção do roteiro do filme (Figura 1).
Novos conjuntos de dados são uma característica importante deste artigo. Estudamos de perto os enredos e sugestões de filmes de Bollywood e Hollywood. Tais enredos e instruções foram extraídos da Wikipedia[2] e IMDb[3], respectivamente. Os enredos são então anotados usando a estrutura de história de 4 atos – uma extensão da conhecida estrutura de 3 atos (Field, 1979). A estrutura de 4 atos e os métodos de anotação são explicados detalhadamente no apêndice A.5 e na seção 4, respectivamente.
Apresentamos um conjunto de dados de 1000 cenas de filmes de Hollywood e suas breves descrições. Os scripts são extraídos do IMSDb[4]. As cenas são anotadas com os quatro componentes principais de um roteiro: sluglines, linhas de ação, nomes de personagens e diálogos, descritos em detalhes no apêndice A.4
Introduzimos uma bancada que chamamos de “Kurosawa”, composta por conjuntos de dados e um par de modelos GPT-3 (Brown et al., 2020) ajustados com os referidos conjuntos de dados. Um modelo GPT-3 gera um enredo de filme com uma breve descrição do enredo (15 a 40 palavras), enquanto o outro cria uma cena baseada em uma breve descrição da cena necessária.
É importante ressaltar que fornecemos a plataforma “Kurosawa” para uma das maiores plataformas de mídia envolvidas no negócio de fazer filmes e programas de TV, produzir música e trilha sonora, etc. - para ajudar escritores de roteiros e conteúdo de diferentes indústrias cinematográficas a criar novos enredos de filmes.
Nossas contribuições neste trabalho são as seguintes:
• Até onde sabemos, este é o primeiro trabalho na geração de cenas de filmes a partir de uma descrição de cena.
• Criamos e divulgamos publicamente dois conjuntos de dados: (a) um conjunto de dados paralelo de 1.000 histórias de filmes e seus enredos correspondentes, (b) um conjunto de dados paralelo de 1.000 cenas de filmes e suas descrições correspondentes. Em (a), vinculamos histórias de filmes disponíveis na IMDb com tramas de filmes correspondentes disponíveis na Wikipedia. Em (b), vinculamos cenas de filmes disponíveis no IMSDb com descrições correspondentes do IMDb.
• Anotamos manualmente os enredos dos filmes de acordo com uma estrutura de 4 atos que é uma extensão da conhecida estrutura de 3 atos (Field, 1979). Roteiristas profissionais da indústria de mídia e entretenimento nos guiaram de perto.
• Anotamos manualmente cenas de filmes com quatro componentes principais de uma cena: sluglines, linhas de ação, nomes de personagens e diálogos, juntamente com uma breve descrição da cena.
• Apresentamos “Kurosawa”: um ambiente de trabalho que consiste em múltiplos conjuntos de dados e modelos que podem auxiliar escritores de roteiros e cenas na indústria cinematográfica.
Este artigo está disponível no arxiv sob licença CC 4.0 DEED.
[1] https://erosnow.com/
[2] https://www.wikipedia.org/
[3] https://www.imdb.com/
[4] https://www.imsdb.com/