Estudio del seguimiento visual humano: análisis de rendimiento, optimización y aplicación

Concha Gómez, David

Estudio del seguimiento visual humanoanálisis de rendimiento, optimización y aplicación

Concha Gómez, David

Dirigida por:

Antonio Sanz Montemayor Director/a
Raul Cabido Valladolid Codirector/a

Universidad de defensa: Universidad Rey Juan Carlos

Fecha de defensa: 06 de mayo de 2022

Tribunal:

Antonio Susin Sánchez Presidente/a
Jose Francisco Velez Serrano Secretario/a
Mario Martínez Zarzuela Vocal

Tipo: Tesis

Teseo: 712844 DIALNET

Resumen

Dentro del área de la visión artificial, el seguimiento visual es una aplicación muy demandada. En particular el seguimiento visual humano es un problema de gran interés que puede abordarse muchas maneras. Al ser seguimiento visual, su principal fuente de información será en forma de imágenes y analizar estas imágenes, especialmente si hay requisitos de tiempo, lo convierten en una tarea computacionalmente muy costosa. En esta tesis doctoral se ha estudiado el problema del seguimiento visual humano desde distintas perspectivas. Primero como un problema de seguimiento que intenta obtener la posición 3D de una persona en una escena capturada por varias cámaras. Este problema se usa como base para un estudio de rendimiento que compara la CPU con el hardware masivamente paralelo de un procesador gráfico o GPU. Viendo el seguimiento humano como seguimiento articulado, también se ha estudiado la posibilidad de abordarlo como un problema de optimización, usando para su resolución técnicas propias de las metaheurísticas como es la aplicación de la búsqueda de vecindad variable (VNS - Variable Neighborhood Search). VNS se centra en el uso de dos movimientos, una búsqueda local y una perturbación. La búsqueda local encuentra la mejor solución dentro de una vecindad. La perturbación altera la solución encontrada para escapar de óptimos locales. La aplicación iterativa de estos movimientos tiende a producir una solución global satisfactoria. Con el auge de las redes neuronales y el Deep Learning propiciado por una cada vez más abundante cantidad de datos y por el cómputo ofrecido por las GPUs, han aparecido soluciones de alta calidad a la estimación de la pose humana. En esta tesis doctoral también se ha estudiado la viabilidad de calibrar un sistema de múltiples cámaras haciendo uso de la información de la figura humana. Esto permitiría calibrar un sistema sin necesidad de acceder a la escena ni conocer datos de las cámaras. El único requisito es disponer de una secuencia de imágenes en la que aparezca una figura humana por la escena.