Integración de herramientas para el análisis automático de los lenguajes naturales

David cabrero Souto

Tesis de Licenciatura.
Facultade de Informática, Universidade da Coruña, 1998.


Resumen

El carácter multidisciplinar del trabajo presentado viene dado por la necesidad de sintetizar y coordinar el conocimiento proveniente de las áreas de la lingüística, las matemáticas y la informática.

La primera será la encargada de describir los fenómenos y principios que rigen el lenguaje natural y las teorías en las que se engloban. Sobre la segunda recae la responsabilidad de establecer los modelos formales a partir de los cuales la tercera desarrollará mecanismos capaces de extraer automáticamente la información lingüística contenida en los textos que deseemos analizar.

Por suerte o por desgracia, en ninguno de los campos mencionados existe una única teoría que abarque todas las posibles soluciones, no obstante resulta bastante común partir de una clasificación de la información lingüística en niveles morfológico, sintáctico, semántico y pragmático. Esta distribución debe entenderse como una distribución de carácter difuso. Como botón de muestra, baste significar que muchos autores consideran que parte de la información semántica se debe determinar en un nivel morfológico, al considerar que las palabras se distribuyen en una jerarquía semántica, o simplemente resaltar la polémica existente acerca de que información es relevante o no en cada nivel.

No obstante, en el trabajo que ha continuación se presenta, se ha optado por separar, en diferentes herramientas, el análisis morfológico del análisis sintáctico, integrando posteriormente ambas, de modo que los resultados obtenidos por una primera fase de análisis, puedan ser usados en la siguiente.

El trabajo expuesto en la presente memoria ha sido realizado dentro de los proyectos de procesamiento del lenguaje natural, GALENA y XIADA. Ambos presentan una misma estructura, diferenciándose principalmente en que el primero trata el castellano y el segundo el gallego. En estos proyectos trabajan los siguientes grupos:

En lo concerniente al análisis sintáctico, se establece una estrecha colaboración con el proyecto ATOLL (INRIA, Francia), Ecole Nationale Supérieure des Télécommunications (París, Francia) y Ecole Polytechnique Federale (Lausanne, Suiza).

El objetivo de la presente memoria es describir el trabajo realizado dentro de los proyectos GALENA y XIADA, poniendo un mayor énfasis en aquellas partes donde la aportación del autor ha sido más relevante. El resto de capítulos se organizan de la siguiente manera:

El capítulo 2 está dedicado al analizador morfológico. El creciente interés demostrado en el uso de modelos de autómatas finitos para este tipo de analizadores parece indicar un camino correcto. Aunque la eficacia de estos modelos, tanto en lo referente a la velocidad como a la compactación de los resultados, constituye un aspecto francamente positivo, su debilidad es su falta de flexibilidad descriptiva, principal ventaja de los enfoques orientados a gramáticas. Para solventar este problema, se ha desarrollado un formalismo descriptivo, al estilo de los analizadores de dos niveles, basado en la factorización de los fenómenos morfológicos descritos, y que puede ser transformado de forma automática en un modelo de autómatas finitos.

El capítulo 3 es una introducción al análisis sintáctico. En él se describen las gramáticas de cláusulas definidas, ampliamente utilizadas en el procesamiento del lenguaje natural. También en este capítulo, se describe la integración del analizador morfológico con el sintáctico, centrándose en cómo se realiza dicha integración.

Por su parte el capítulo 4 se centra en el formalismo operacional desarrollado para el analizador sintáctico. Las técnicas clásicas basadas en estrategias descendentes con retroceso como las utilizadas en Prolog muestran problemas de eficiencia, completud, y terminación. Para sobreponerse a estos problemas se decidió basar el modelo operacional en los Autómatas Lógicos a Pila, LPDA, poniendo especial énfasis en la reducción y compactación del espacio de búsqueda para asegurar tanto la eficacia computacional, como la completud y terminación de los esquemas de evaluación.

El capítulo 5 presenta una amplia gama de resultados, así como su interpretación y comparación con otros sistemas.

En el capítulo 6 se exponen las conclusiones sobre el trabajo realizado y las mejoras y ampliaciones que restan por realizar.

Por último en los apéndices A y B se detallan algunos aspectos introducidos al hablar del formalismo operacional, como los autómatas LR, programación dinámica o el algoritmo de Earley. Por su parte, el apéndice C está dedicado a la distribución de los recursos desarrollados para facilitar su uso y acceso.


David Cabrero Souto / cabrero@dc.fi.udc.es