Algoritmos para la visualización de datos textuales

MARTÍN-MERINO ACERA, MANUEL

Algoritmos para la visualización de datos textuales

MARTÍN-MERINO ACERA, MANUEL

Dirigida por:

Alberto Muñoz García Director/a
Ioannis Dimitriadis Damoulis Codirector

Universidad de defensa: Universidad de Salamanca

Fecha de defensa: 11 de julio de 2003

Tribunal:

Ramón Ardanuy Albajar Presidente/a
Pablo Lucio de la Fuente Redondo Secretario
Luis Ignacio Pastor Pérez Vocal
Javier Martínez Moguerza Vocal
G.I. Sáinz Vocal

Tipo: Tesis

Teseo: 95887 DIALNET

Resumen

Los mapas de palabras son herramientas útiles que permiten visualizar de forma intuitiva las relaciones entre términos. Sin embargo, los algoritmos propuestos en la literatura presentan dos problemas. En primer lugar, se basan en similaridades que con frecuencia no reflejan las proximidades semánticas entre términos. Por lo tanto, las relaciones semánticas sugeridas por los mapas carecen de sentido en muchas ocasiones. Como muestra empíricamente esta investigación, ello es debido al carácter asimétrico de las relaciones entre términos y al carácter disperso de la representación vectorial. En segundo lugar, los mapas propuestos en la literatura no son capaces de visualizar relaciones jerárquicas. En esta tesis desarrollamos nuevos algoritmos que evitan estos problemas. En primer lugar, proponemos nuevas variantes de los Mapas Autoorganizativos (SOM) y de algunos algoritmos de escalado multidimensional (MDS) que incorporan medidas asimétricas para mejorar la posición de los términos específicos en el mapa. También extendemos los mapas SOM al caso de distancias no euclídeas (capaces de modelar mejor las relaciones entre términos) utilizando técnicas kernel para mejorar la calidad de los mapas. Finalmente, modificamos el escalado de Kruskai incorporando distancias locales que permiten modelar mejor las proximidades para datos dispersos. Por último, proponemos un nuevo SOM asimétrico capaz de visualizar jerarquías de términos utilizando exclusivamente una matriz de similaridades asimétrica. Los nuevos algoritmos han sido probados exhaustivamente sobre dos colecciones textuales reales. La primera, dispone de tesauro, lo que permite evaluar fácilmente las relaciones inducidas por el mapa. La segunda es un problema real correspondiente a los abstracts de la librería digital de la ACM. Los resultados experimentales muestran que nuestros algoritmos mejoran significativamente los resultados para las alternativas