Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: peter.zhren@berkeley.edu);
(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: jefferson_ortega@berkeley.edu);
(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: wyf020803@berkeley.edu);
(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: zhimin@berkeley.edu);
(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: yunhui.guo@utdallas.edu);
(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: stellayu@umich.edu);
(7) David Whitney, Universidad de California, Berkeley (correo electrónico: dwhitney@berkeley.edu).
En esta sección, presentamos el conjunto de datos de seguimiento de emociones y afectos en contexto basado en videos ( VEATIC ). Primero, describimos cómo obtuvimos todos los videoclips. A continuación, ilustramos los procedimientos de anotación de datos y el proceso de preprocesamiento. Finalmente, informamos estadísticas importantes de conjuntos de datos y visualizamos los resultados del análisis de datos.
Todos los videoclips utilizados en el conjunto de datos se adquirieron de un sitio web para compartir videos en línea (YouTube) y los videoclips se seleccionaron sobre la base de que las emociones/afectos de los personajes de los clips deben variar a lo largo del tiempo. En total, el conjunto de datos VEATIC contiene 124 videoclips, 104 clips de películas de Hollywood, 15 clips de videos caseros y 5 clips de documentales o reality shows de televisión. En la (Figura 2) se muestran marcos de muestra del conjunto de datos VEATIC. Estos videos contienen de cero a múltiples personajes que interactúan. Se eliminó todo el sonido de los videos para que los observadores solo tuvieran acceso a información visual al rastrear la emoción del personaje objetivo.
En total, tuvimos 192 observadores que participaron en la anotación de los videos en el conjunto de datos. Todos los participantes dieron su consentimiento firmado de acuerdo con las pautas y regulaciones de la Junta de Revisión Institucional de UC Berkeley y todos los procedimientos experimentales fueron aprobados.
Los participantes vieron y calificaron un total de 124 videos en el conjunto de datos. Para evitar que los observadores se cansen, dividimos el procedimiento de anotación en dos sesiones de anotación de 1 hora y 30 minutos. Antes de que los participantes pudieran anotar cualquier video, se les mostró una versión impresa de la cuadrícula de calificación de afecto de valencia-excitación con ejemplos de emociones etiquetadas en diferentes ubicaciones de la cuadrícula de acuerdo con las calificaciones proporcionadas por Bradley y Lang (1999) [6]. Se pidió a los anotadores que se familiarizaran con las dimensiones y las ubicaciones de las palabras de muestra que luego utilizarían en el proceso de anotación. Después de que los participantes se familiarizaron con la cuadrícula de calificación de afecto, completaron una anotación de práctica de dos minutos en la que rastrearon continuamente la valencia y la excitación de un personaje objetivo en un video (Figura 3b). Se instruyó a los anotadores para que rastrearan la valencia y la excitación del personaje objetivo en el video moviendo continuamente el puntero del mouse en tiempo real dentro de la cuadrícula de valencia-excitación 2D. La cuadrícula se asignaría a sus calificaciones de valencia y excitación en el rango de [−1, 1]. Para controlar posibles sesgos motores, contrapesamos las dimensiones de valencia-excitación entre los participantes donde la mitad de los anotadores tenían valencia en el eje x y excitación en el eje y y la otra mitad tenía las dimensiones invertidas para que la excitación estuviera en el eje x. -el eje y la valencia estaban en el eje y. Una vez que los observadores terminaron la sesión de práctica de anotación, comenzaron a anotar los videos en el conjunto de datos.
Antes de que los participantes comenzaran las anotaciones, se les mostró una imagen con el personaje objetivo rodeado por un círculo (Figura 3a), que les informa a qué personaje seguirán cuando comience el video. Luego, anotaron los videoclips en tiempo real. Al final de cada anotación de video, los participantes informaron su familiaridad con el videoclip usando una escala Likert discreta del 1 al 5 que iba desde "No familiarizado", "Ligeramente familiar", "Algo familiar", "Moderadamente familiar" y "Extremadamente familiar". familiar". También se preguntó a los participantes sobre su nivel de disfrute mientras veían el clip, que se calificó utilizando una escala Likert discreta del 1 al 9 que iba del 1 (No disfrutable) al 9 (Extremadamente disfrutable). Además, para que los participantes no se aburrieran, los 124 videoclips se dividieron en dos sesiones. Los participantes calificaron los videoclips en dos sesiones por separado.
Durante cada prueba, evaluamos si los participantes no estaban prestando atención mediante el seguimiento del tiempo que mantuvieron el puntero del mouse en un solo lugar. Si la duración fuera superior a 10 segundos, la cuadrícula de clasificación de afecto comenzaría a fluctuar, lo que recordaría a los participantes que continuaran rastreando la emoción del personaje objetivo. Para evaluar si había anotadores ruidosos en nuestro conjunto de datos, calculamos el acuerdo de cada anotador individual con el consenso calculando la correlación de Pearson entre cada anotador y el consenso de dejar uno fuera (agregado de respuestas excepto el anotador actual) para cada vídeo. Descubrimos que solo un anotador tenía una correlación inferior a 0,2 en todos los vídeos con el consenso de dejar uno fuera. Dado que solo un anotador cayó por debajo de nuestro umbral, decidimos mantenerlo en el conjunto de datos para no eliminar ninguna anotación alternativa importante a los videos.
La Figura 4 muestra muestras de calificaciones medias y cuadros clave en 2 videoclips diferentes. Es evidente que aquí tanto la valencia como la excitación tienen una amplia gama de valoraciones. Además, muestra que la información contextual, ya sea espacial y/o temporal, juega un papel importante en las tareas de reconocimiento de emociones. En el ejemplo de valencia (figura superior), sin la información del contexto temporal y/o espacial de la pelea, sería difícil reconocer si el personaje (la mujer) en el último cuadro (amarillo) está sorprendentemente feliz o asombrado. En el ejemplo de excitación (figura inferior), incluso sin la cara del personaje seleccionado, los observadores pueden inferir fácil y consistentemente la excitación del personaje a través del contexto intenso.
La Figura 5 ilustra muestras de calificaciones de valencia y excitación de todos los participantes para un solo video en nuestro conjunto de datos. Las calificaciones de los sujetos individuales (líneas grises) siguieron las calificaciones de consenso entre los participantes (línea verde) tanto para las calificaciones de valencia como de excitación. La densa línea gris que se superpone alrededor de la línea verde de consenso indica acuerdos entre una amplia gama de observadores. Además, investigamos cómo variaban las respuestas de los observadores entre los videos calculando la desviación estándar entre los observadores para cada video. Descubrimos que la varianza entre los observadores para las dimensiones de valencia y excitación era pequeña: la valencia tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,222 y la excitación tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,244, que son comparable con la variación de la calificación de valencia y excitación de EMOTIC [32].
La distribución de las calificaciones de valencia y excitación en todos nuestros videos se muestra en la Figura 6. Descubrimos que las calificaciones de los participantes individuales se distribuyeron completamente en las dimensiones de valencia y excitación, lo que resalta la diversidad del conjunto de datos VEATIC. También recopilamos calificaciones de familiaridad y disfrute de cada video entre los participantes (como se muestra en la Figura 7). Descubrimos que los observadores no estaban familiarizados con los vídeos utilizados en el conjunto de datos, ya que la calificación de familiaridad promedio fue de 1,61 para los ID de vídeo del 0 al 97. Además, los observadores calificaron su disfrute mientras miraban los videos con un promedio de 4,98 para los ID de video 0-97, lo que indica que los observadores disfrutaron moderadamente viendo y anotando los videoclips. No se recopilaron calificaciones de familiaridad y disfrute para los ID de video 98-123, ya que las anotaciones de estos videos se recopilaron en un momento anterior durante la recopilación de datos que no incluía estas calificaciones.
La Tabla 2 a continuación resume las estadísticas básicas del conjunto de datos VEATIC. En pocas palabras, VEATIC tiene una larga duración total de videoclips y una variedad de fuentes de video que cubren una amplia gama de contextos y condiciones emocionales. Además, en comparación con conjuntos de datos anteriores, reclutamos a muchos más participantes para anotar las calificaciones.
Este documento está disponible en arxiv bajo licencia CC 4.0.