Estudio y aplicación de nuevos métodos de compresión de texto orientada a palabras
- Pablo Lucio de la Fuente Redondo Director
- Joaquín Adiego Rodríguez Director
Universidad de defensa: Universidad de Valladolid
Fecha de defensa: 11 de junio de 2010
- Ricardo Baeza Yates Presidente/a
- Manuel Barrio Solórzano Secretario
- Rafael C. Carrasco Jiménez Vocal
- Antonio Fariña Vocal
- Nieves R. Brisaboa Vocal
Tipo: Tesis
Resumen
La demanda de información se ha multiplicado en los últimos años gracias, principalmente, a la globalización en el acceso a la WWW, Esto ha propiciado un aumento sustancial en el tamaño de las colecciones de texto disponibles en formato electrónico, cuya compresión no sólo permite obtener un ahorro espacial sino que, a su vez, aumenta la eficiencia de sus procesos de entrada/salida y de transmisión en red. La compresión de texto trata con información expresada en lenguaje natural. Por lo tanto, la identificación de la redundancia subyacente a este tipo de textos requiere adoptar una perspectiva orientada a palabras, considerando ésta como la unidad mínima de información utilizada en los procesos de comunicación entre personas. Esta tesis aborda el estudio del contexto anterior desde tres perspectivas complementarias cuyos resultados se traducen en la obtención de un conjunto de compresores de texto específicos. El lenguaje natural posee unas propiedades particulares, tanto en lo relativo al tamaño del vocabulario de palabras identificado en el texto como a la distribución de frecuencia que muestra cada una de ellas. Sin embargo, las técnicas universales de compresión no son capaces de identificar, específicamente, estas propiedades al no restringir el tipo de mensajes que toman como entrada. La primera propuesta de esta tesis se centra en la construcción de un esquema de preprocesamiento (denominado Word-Codeword Improved Mapping: WCIM) que transforma el texto original en una representación más redundante del mismo que favorece su compresión con técnicas clásicas. A pesar de su sencillez y efectividad, esta propuesta no gestiona un aspecto relevante en lenguaje natural: la relación existente entre las palabras. La familia de técnicas Edge-Guided (E-G) utilizan la relación de adyacencia entre símbolos como base para la representación del texto. El compresor E-G1 construye un modelo de orden 1 orientado a palabras, cuya representación se materializa en las aristas de un grafo dirigido. Por su parte, E-Gk considera la extensión del vocabulario original con un conjunto de secuencias de palabras (frases) significativas que se representan a través de una gramática libre de contexto. El modelo de grafo original evoluciona de tal forma que pasa a representar un modelo de orden 1 orientado a frases en el que la relación de jerarquía, existente entre las palabras que las constituyen, puede ser aprovechada a través de la información almacenada en la gramática. Tanto E-G1 como E-Gk utilizan la información almacenada en las aristas del grafo para la construcción de sus esquema de codificación basado en un código de Huffman. Los corpus paralelos bilingües (bitextos) están formados por dos textos, en lenguaje natural, que expresan la misma información en dos idiomas diferentes. Esta propiedad suma un tipo de redundancia no tratada en los casos anteriores: la redundancia semántica. Nuestras propuestas, en este contexto, se centran en la representación de bitextos alineados, cuya utilización es un aspecto esencial en numerosas aplicaciones relacionadas con la traducción. Para ello introducimos el concepto de bipalabra como unidad simbólica de representación y se plantean sendas técnicas basadas en sus propiedades estructurales (Translation Relationship-based Compressor : TRC) y semánticas (Two-Level Compressor for Aligned Bitexts: 2LCAB). Ambas propuestas analizan el efecto, en la compresión, asociado al hecho de utilizar diferentes estrategias de alineamiento del bitexto. Complementariamente, 2LCAB plantea un mecanismo de búsqueda, basado en pattern-matching, que permite llevar a cabo diferentes tipos de operaciones sobre el texto comprimido. Los procesos de experimentación, llevados a cabo sobre corpus de referencia en cada uno de los contextos, demuestran la competitividad de cada una de los compresores propuestos. Los resultados obtenidos con la técnica 2LCAB son especialmente significativos ya que soportan la primera propuesta conocida que facilita la consulta monolingüe y translingüe sobre un bitexto comprimido. Esta propiedad aísla el idioma en el que se recuperan los resultados del utilizado en la consulta, planteando 2LCAB como una alternativa competitiva para su uso como motor de búsqueda en diferentes herramientas de traducción.