Emotion recognition system to detect knowledge gaps on lectures

Susillo Ridao, Alejandro (2020). Emotion recognition system to detect knowledge gaps on lectures. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).

Description

Title: Emotion recognition system to detect knowledge gaps on lectures
Author/s:
  • Susillo Ridao, Alejandro
Contributor/s:
  • Moreno Díaz, Arminda
  • Zheng, Yong
Item Type: Thesis (Master thesis)
Masters title: Ingeniería Informática
Date: 29 June 2020
Subjects:
Faculty: E.T.S. de Ingenieros Informáticos (UPM)
Department: Inteligencia Artificial
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB) | Preview

Abstract

El presente documento se trata del proyecto final para la asignatura Trabajo Fin de Máster (TFM) del Máster Universitario de Ingeniería Informática de la Universidad Politécnica de Madrid (UPM), y el proyecto final para la asignatura Proyecto de Investigación (Research Project) del Máster en Tecnología y Gestión de la Información del Instituto Tecnológico de Illinois (IIT). Ha sido realizado por el alumno Alejandro Susillo Ridao y el profesor Yong Zheng del departamento School Applied Technology del IIT y como tutor interno de la UPM, Arminda Moreno Diaz. Dadas las tecnologías que se van a emplear en este proyecto, podríamos englobar el mismo bajo el campo de la Inteligencia Artificial (IA) que se dedica al estudio de cómo los ordenadores pueden obtener información de imágenes o vídeos, es decir, Computer Vision o Visión Artificial en español. En otras palabras, podríamos definir la Visión Artificial como la emulación de la visión de los seres humanos por parte de los ordenadores. El resultado de aplicar métodos provenientes de este campo de la ciencia sería, en nuestro caso, la detección de caras en vídeos, o como se conoce esto de forma general, la detección de objetos. Una vez se detectan dichas caras en los vídeos, utilizaremos técnicas de otra rama de la IA, el Machine Learning o Aprendizaje Automático, para detectar las emociones que estas caras están expresando. Se usarán desde algoritmos de clasificación hasta redes neuronales convolucionales. De esta manera, con las caras detectadas y las emociones identificadas por cada cara, el algoritmo propuesto devolverá una serie de estadísticas descriptivas que serán usadas para un estudio de correlaciones entre estas y otros campos que se definirán a lo largo del proyecto por considerarse interesantes para conseguir el objetivo final del presente proyecto. La idea principal (u objetivo final) tras este proyecto, es dar una solución a aquellos alumnos que, durante una clase, en la que se pueden llegar a abordar varios temas o conceptos importantes, se pierden o desconectan de esta debido a que no entienden un punto clave o un conocimiento en el que se basa un futuro conocimiento. Esto puede provocar varios efectos negativos en el alumno. Uno de ellos es que el alumno pierda interés en la clase al ver que no comprende ningún tema. Otro posible efecto puede ser que el alumno crea que entiende los conceptos cuando en realidad no es así. Esta situación es bien conocida independientemente de que nos encontremos en una clase de colegio, instituto o universidad. Desde este proyecto entendemos que los profesores están exigidos a dar un temario definido en cada curso y con un tiempo limitado, lo cual no permite a los profesores realizar una educación personalizada para cada alumno, propiciando estas circunstancias, así que, buscamos en este proyecto dar una solución a estas situaciones con la ayuda de la informática. Tras un proceso de investigación, se tomó la decisión de acudir a las emociones por ser un buen método de extracción de información de nuestros videos. Al disponer de videos como datos de entrada, teníamos que encontrar algún método que nos permitiera de alguna manera extraer información sobre los alumnos mientras estaban en clase, y así poder saber cuáles son los conceptos que los alumnos no están entendiendo y proporcionarles material extra para reforzar conocimientos. De esta manera, era necesario primero saber si existe una relación entre las emociones que los alumnos expresan en clase y su rendimiento posterior en los exámenes. Así pues, pasamos a investigar sobre qué modelos o algoritmos podían ayudarnos a, en primer lugar, identificar las caras de los alumnos y, a continuación, identificar las emociones que se expresan en ellas. Se decidió usar modelos ya entrenados por otras personas (estilo de trabajo llamado Transfer Learning) debido a que estos modelos necesitan unos recursos que en la normalidad una persona no dispone, como por ejemplo, varios núcleos de potencia en un ordenador o una GPU. En el caso de los modelos que identifican las emociones, buscamos aquellos que devolvían el porcentaje de emoción de cada una de las emociones básicas. Se hablará más sobre los modelos investigados, el elegido y los resultados que nos devuelve en futuros apartados. Finalmente, se llevó a cabo una comparación de los métodos usados para la detección facial y emocional. Además, una vez aplicados estos modelos sobre nuestros datos, que en nuestro caso serán videos grabados por el tutor de este proyecto, el profesor Yong Zheng, y recopilados los resultados devueltos por el algoritmo implementado en un fichero (un conjunto de siete estadísticas descriptivas), pasamos a realizar un análisis de correlaciones entre estas estadísticas y una serie de variables nominales que en futuros apartados se detallarán de qué se tratan. Como resultado del análisis de correlación, se obtuvo que existe una relación entre las estadísticas descriptivas y el ratio de error de los alumnos por sesión, mientras que el resto de análisis de correlacione daban independencia entre las variables. Habría gustado disponer de un mayor número de datos pero debido a la pandemia que en el momento de la realización del presente proyecto estaba azotando el mundo, no se pudo recoger más datos.---ABSTRACT---This document is the final project for the course Trabajo Final de Master (TFM) of the Master's Degree in Computer Engineering of the Universidad Politécnica de Madrid (UPM), and the final project for the course Research Project of the Master's Degree in Information Technology and Management of the Illinois Institute of Technology (IIT). It has been carried out by the student Alejandro Susillo Ridao and Professor Yong Zheng from the School Applied Technology department of the IIT and as internal tutor of the UPM, Arminda Moreno Diaz. Given the technologies to be used in this project, we could include it under the field of Artificial Intelligence (AI) which is dedicated to the study of how computers can obtain information from images or videos, that is, Computer Vision. In other words, we could define Artificial Vision as the emulation of human vision by computers. The result of applying methods from this field of science would be, in our case, face detection in videos, which is generally known as object detection. Once these faces are detected in the videos, we will use techniques from another branch of AI, Machine Learning, to detect the emotions that these faces are expressing. We will use everything from classification algorithms to convolutional neural networks. In this way, with the faces detected and the emotions identified by each face, the proposed algorithm will return a series of descriptive statistics that will be used for a study of correlations between these and other fields that will be defined throughout the project as being of interest for achieving the final objective of this project. The main idea (or final objective) behind this project is to give a solution to those students who, during a class, in which several important topics or concepts can be addressed, get lost or disconnected from it because they do not understand a key point or a knowledge on which a future knowledge is based. This can have several negative effects on the student. One of them is that the student loses interest in the class when he or she sees that he or she does not understand any topic. Another possible effect may be that the student believes that he or she understands the concepts when in fact they do not. This situation is well known regardless of whether we are in a school, high school or university class. From this project we understand that teachers are required to give a defined agenda in each course and with a limited time, which does not allow teachers to make a personalized education for each student, promoting these circumstances, so, we seek in this project to give a solution to these situations with the help of computers. After a process of investigation, the decision was made to turn to emotions as a good method of extracting information from our videos. Since we had videos as input data, we had to find some method that would allow us to somehow extract information about the students while they were in class, so we could know which concepts the students were not understanding and provide them with extra material to reinforce their knowledge. In this way, it was first necessary to know if there is a relationship between the emotions that the students express in class and their subsequent performance in exams. So we went on to investigate which models or algorithms could help us first to identify the students' faces and then to identify the emotions expressed in them. It was decided to use models already trained by other people (a style of work called Transfer Learning) because these models require resources that normally a person does not have, such as several power cores in a computer or a GPU. In the case of the models that identify the emotions, we looked for those that returned the percentage of emotion of each one of the basic emotions. More about the models researched, the one chosen and the results returned will be discussed in future sections. Finally, a comparison of methods used for facial and emotional detection was carried out. Furthermore, once these models were applied to our data, which in our case will be videos recorded by the tutor of this project, Professor Yong Zheng, and the results returned by the algorithm implemented in a file (a set of seven descriptive statistics), we went on to perform a correlation analysis between these statistics and a series of nominal variables that in future sections will detail what they are about. As a result of the correlation analysis, we obtained that there is a relationship between the descriptive statistics and the error rate of the students per session, while the rest of the correlation analysis gave independence between the variables. We would have liked to have had more data, but due to the pandemic that was sweeping the world at the time of this project, no more data could be collected.

More information

Item ID: 65547
DC Identifier: https://oa.upm.es/65547/
OAI Identifier: oai:oa.upm.es:65547
Deposited by: Biblioteca Facultad de Informatica
Deposited on: 25 Nov 2020 12:00
Last Modified: 25 Nov 2020 12:00
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM