Knowledge-graph-based semantic labeling of tabular data

  1. Alobaid, Ahmad
Dirigida por:
  1. Oscar Corcho García Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 10 de julio de 2020

Tribunal:
  1. Víctor Rodríguez Doncel Presidente/a
  2. Álvaro Sicilia Gómez Secretario/a
  3. Axel Polleres Vocal
  4. Guillermo Vega Gorgojo Vocal
  5. M. M. Roldán García Vocal

Tipo: Tesis

Resumen

Se publican muchos datos en la Web utilizando formatos de datos tabulares (por ejemplo, hojas de cálculo). Este es especialmente el caso de los datos puestos a disposición en portales de datos abiertos por instituciones públicas y privadas. Sin embargo, uno de los principales desafíos para su (re) uso efectivo es su falta generalizada de semántica: los nombres de columna generalmente no están estandarizados y su significado y contenido no siempre son claros. Paralelamente, algunos proveedores de datos han comenzado a adoptar ampliamente los gráficos de conocimiento como un medio para publicar grandes cantidades de datos estructurados. Comúnmente usan formatos basados en gráficos (por ejemplo, RDF) y hacen referencias a ontologías livianas. Está bien entendido que la reutilización de dichos datos tabulares puede mejorarse al anotarlos con las clases y propiedades utilizadas por los datos disponibles en los gráficos de conocimiento. Existen varios desafíos en la realización de anotaciones semánticas, como la duplicación de nombres de entidades, la diferencia en las mediciones y los errores de redondeo de valores numéricos, y el ruido en los datos tabulares publicados y los gráficos de conocimiento. En este trabajo, presentamos algoritmos novedosos para anotar automáticamente columnas en datos tabulares con clases y propiedades de ontologías a las que se refieren los gráficos de conocimiento existentes. Evaluamos el rendimiento de nuestros algoritmos en columnas de entidad y columnas numéricas por separado. Para las columnas de entidad, aplicamos nuestros algoritmos a tablas anotadas del estándar de referencia T2D. Para las columnas numéricas, anotamos manualmente las columnas numéricas en el estándar de referencia T2D y luego aplicamos nuestra técnica a estos datos. Reportamos el rendimiento de nuestros algoritmos utilizando precisión, recuperación y puntajes F1, que es la forma convencional de reportar el rendimiento de la anotación semántica en la literatura. Los experimentos mostraron que nuestros algoritmos propuestos anotaron con éxito la mayoría de las columnas de entidades y numéricas en el conjunto de datos utilizado. A diferencia de otras propuestas existentes en la literatura, nuestros algoritmos no requieren el uso de recursos lingüísticos externos, otras fuentes de información o humanos en el bucle o manualmente vía de humanos.