Arquitecturas neuronales para la segmentación perceptual y el reconocimiento de imágenes de textura y color sobre unidades de procesamiento gráfico de altas prestaciones (gpus)

  1. MARTÍNEZ ZARZUELA, MARIO
Dirigida por:
  1. Francisco Javier Díaz Pernas Director
  2. José Fernando Díez Higuera Codirector

Universidad de defensa: Universidad de Valladolid

Fecha de defensa: 22 de septiembre de 2009

Tribunal:
  1. Juan López Coronado Presidente
  2. Roberto Hornero Sánchez Secretario
  3. José Luis Muñoz Lozano Vocal
  4. Rafael Mompó Gómez Vocal
  5. Luis Ignacio Pastor Pérez Vocal
Departamento:
  1. Teoría de la Señal y Comunicaciones e Ingeniería Telemática

Tipo: Tesis

Teseo: 279965 DIALNET

Resumen

El objetivo de esta Tesis Doctoral es desarrollar arquitecturas neuronales que permitan la segmentación perceptual y el reconocimiento de imágenes de textura y color sobre Unidades de Procesamiento Gráfico (GPUs). En los ámbitos del procesamiento de imagen y la visión artificial, el tratamiento de imágenes de escenas naturales es particularmente complejo y la utilización de técnicas heurísticas de segmentación no proporciona los resultados esperados. Las imágenes de escenas naturales contienen mucha información textural y efectos como la iluminación variable sobre las superficies, hacen que los contornos que delimitan los objetos sean difusos. Sin embargo, en el sistema visual humano tienen lugar procesos neuronales jerárquicos que permiten la segmentación robusta de estas escenas. En el sistema visual la segmentación de una imagen se realiza rápidamente mediante un mecanismo preatentivo paralelo, en el que se extrae la información característica de las texturas y objetos para su utilización en etapas superiores de reconocimiento. Los procesos cognitivos son rápidamente ejecutados en el cerebro, gracias a la interacción de millones de neuronas masivamente interconectadas. Estudios fisiológicos del funcionamiento del sistema visual permiten desarrollar sistemas de visión artificial que realizan procesamientos neuronales bio-inspirados. Sin embargo, la utilización de hardware secuencial para el cómputo de la respuesta de un elevado número de neuronas no es adecuado. Tradicionalmente, la mayoría de las redes neuronales artificiales se han implementado para su ejecución sobre una Unidad Central de Procesamiento (CPU). En estos procesadores se ejecutan secuencialmente una serie de instrucciones de cálculo sobre datos aislados. Sin embargo, en el interior de los ordenadores personales existe otro procesador que recibe el nombre de Unidad de Procesamiento Gráfico (GPU), cuyo objetivo es el de acelerar las operaciones de renderizado de imágenes sobre un dispositivo de visualización. Debido a su arquitectura interna, estos procesadores pueden realizar una misma operación de cálculo sobre muchos datos simultáneamente, bajo un modelo de procesamiento de flujos (stream processing)}. El interés de la comunidad científica en estos procesadores ha hecho emerger un campo de investigación que promueve la utilización de las GPUs para el procesamiento genérico (General Purpose computation on the GPU) y la aceleración de algoritmos que son susceptibles de modelarse siguiendo una filosofía de procesamiento en paralelo. Al comienzo de esta Tesis Doctoral el procesamiento GPGPU era todavía un campo de investigación incipiente, pero durante estos cuatro años se ha revelado como uno de las fórmulas más atractivas para el procesamiento de altas prestaciones y bajo coste. Todas las arquitecturas neuronales desarrolladas en esta Tesis Doctoral utilizan la GPU como plataforma hardware, proporcionando una velocidad de procesamiento decenas de veces superior a la obtenida con implementaciones análogas sobre CPU. La utilización de este hardware para la segmentación y el reconocimiento, etapas fundamentales en visión artificial, hace adecuadas las arquitecturas diseñadas en esta Tesis Doctoral para aplicaciones con elevados requerimientos de tiempo. Estas aplicaciones de visión artificial incluyen la monitorización de procesos de producción industrial, la clasificación y búsqueda de contenidos sobre bases de datos multimedia, el análisis y segmentación de imágenes aéreas de alta resolución o sistemas de vídeo-vigilancia e interfaces hombre-máquina.