
El Algoritmo
La plataforma "Su Cara No Engaña" adopta una inteligencia artificial avanzada para analizar videos, fotograma por fotograma, y ofrecer una comprensión profunda del estado emocional de las personas que aparecen en ellos.
El sistema procesa e interpreta simultáneamente señales visuales del rostro, incluyendo expresiones completas y microexpresiones, así como señales auditivas del habla, como el tono de voz y el lenguaje utilizado. Esta aproximación multimodal nos permite obtener una lectura más completa y útil para nuestros clientes.
La tecnología se sustenta en hallazgos de la neurofisiología y la neuropsicología que indican que la expresión de emociones no es solo un tema de control muscular voluntario, sino que también involucra estructuras cerebrales subcorticales que reaccionan en fracciones de segundo ante estímulos o información externa, presentando movimientos espontáneos a nivel rostro.
Estas expresiones se analizan con base en técnicas probadas como el Facial Action Coding System (FACS), que descompone cualquier movimiento facial en pequeños cambios llamados unidades de acción (AUs). Estas AUs son los "legos" que permiten a nuestra IA identificar desde una sonrisa genuina (la sonrisa de Duchenne) hasta una microexpresión combinada que dura entre 40 y 200 milisegundos.
La inteligencia artificial adoptada por ADN México para Su Cara No Engaña, fue entrenada utilizando bases de datos masivas y diversas a nivel global. Estos datasets contienen innumerables videos e imágenes de rostros y voces, meticulosamente anotados con información detallada sobre las AUs activadas (basadas en FACS) y los patrones vocales y lingüísticos asociados a diversas emociones y estados afectivos.
Basándonos en la teoría de las emociones básicas de Paul Ekman, nuestra IA aprende a reconocer las configuraciones específicas de AUs que típicamente se asocian a cada emoción. La detección de microexpresiones implica identificar estas combinaciones de AUs cuando ocurren de forma extremadamente rápida y sutil.
Aquí se muestra una composición prototípica de AUs asociadas a las seis emociones básicas más estudiadas:
Emoción Básica | Unidades de Acción (AUs) Clave y Combinaciones Comunes |
---|---|
Enojo | AU 4 (Descensor de la Ceja) AU 5 (Elevador del Párpado Superior) AU 7 (Tensor del Párpado) AU 23 (Tensor Labial) o AU 24 (Presor Labial) |
Disgusto | AU 9 (Arrugador de la Nariz) AU 15 (Descensor de la Comisura Labial) AU 16 (Descensor del Labio Inferior) o AU 10 (Elevador del Labio Superior) AU 17 (Elevador del Mentón) |
Miedo | AU 1 (Elevador Interno de la Ceja) AU 2 (Elevador Externo de la Ceja) AU 4 (Descensor de la Ceja) AU 5 (Elevador del Párpado Superior) AU 7 (Tensor del Párpado) AU 20 (Estirador Labial) AU 26 (Caída de Mandíbula) |
Felicidad | AU 6 (Elevador de la Mejilla) AU 12 (Elevador de la Comisura Labial) |
Tristeza | AU 1 (Elevador Interno de la Ceja) AU 4 (Descensor de la Ceja) AU 15 (Descensor de la Comisura Labial) |
Sorpresa | AU 1 (Elevador Interno de la Ceja) AU 2 (Elevador Externo de la Ceja) AU 5 (Elevador del Párpado Superior) AU 26 (Caída de Mandíbula) |
Además de identificar posibles emociones básicas, nuestra plataforma determina métricas dimensionales clave como la valencia (qué tan positiva o negativa es la emoción), el arousal (qué tan activa o pasiva es) y su intensidad general a lo largo del tiempo del video.
Reconocer y decodificar las emociones humanas es un desafío complejo debido a la sutileza de las señales, la variabilidad individual y cultural, y la influencia crucial del contexto. Nuestros algoritmos se enfrentan a la dificultad de las mezclas emocionales en el mundo real, es decir, una misma expresión puede revelar más de una emoción, lo que nos lleva a hablar de emociones porcentualmente dominantes, momento a momento.
Esto revela que nuestras metodologías, el entrenamiento con bases de datos masivas y los algoritmos avanzados, están en constante refinamiento y adaptación. Con la investigación continua y la integración de nuevos datos, la precisión en la detección y la interpretación multimodal de emociones continúan mejorando.
Esto nos permite ofrecer análisis detallados, objetivos y cada vez más sólidos para determinar el estado emocional de los sujetos en sus videos y estímulos visuales, proporcionando insights valiosos para diversas aplicaciones.
Fuentes
Ekman, P., & Friesen, W. V. (1978). Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press.
Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., Ambadar, Z., & Matthews, I. (2010). The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression. 2010 Third IEEE International Workshop on Computer Vision for Human-Computer Interaction
Picard, R. W. (1997). Affective Computing. MIT Press.
Pourramezan Fard, A., Hosseini, M. M., Sweeny, T. D., & Mahoor, M. H. (2024). AffectNet+: A Database for Enhancing Facial Expression Recognition with Soft-Labels. arXiv.
Shen, L., Song, S., Luo, C., Gunes, H., & Xie, W. (2022). Learning Multi-dimensional Edge Feature-based AU Relation Graph for Facial Action Unit Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence.
Vincze, M., & Vincze, T. (s.f.). The Facial Action Coding System for Characterization of Human Affective Response to Consumer Product-Based Stimuli. VTechWorks.
Zhang, L., & Arandjelović, O. (2021). Review of Automatic Microexpression Recognition in the Past Decade. Machine Learning and Knowledge Extraction, 3(2), 414-434
Zhang, X., Yin, L., Cohn, J. F., Canavan, S., Reale, M., Horowitz, A., Liu, P., & Girard, J. M. (2014). BP4D-Spontaneous: a high-resolution spontaneous 3D dynamic facial expression database. Image and Vision Computing.