Buscador avanzado

As novas ferramentas tecnolóxicas para a análise do galego centran unha tese baseada en proxectos do centro Ramón Piñeiro

O traballo recolle unha investigación sobre o Corpus de Referencia do Galego Actual, un recurso que permite obter datos de diversa índole relacionados co emprego da lingua e desenvolver ferramentas de análise do galego

O autor da tese de doutoramento, Mario Barcala, vén de presentar o seu traballo na Universidade da Coruña

A Secretaría Xeral de Política Lingüística presentou o pasado mes de xullo unha nova versión deste corpus de textos, dispoñible en internet, dentro da súa aposta por potenciar o galego a través dos últimos recursos tecnolóxicos
 

Santiago, 14 de febreiro de 2010.- O Corpus de Referencia do Galego Actual (CORGA), unha ferramenta baseada nas últimas tecnoloxías, está a permitir levar a cabo análises máis avanzadas da lingua galega. O investigador Mario Barcala vén de presentar na Universidade da Coruña unha tese de doutoramento que afonda neste proxecto do Centro Ramón Piñeiro para a Investigación en Humanidades, un corpus de documentos en formato electrónico no que están representados os diferentes tipos de textos (xornalísticos, divulgativos, literarios etc.) da lingua galega actual, desde 1975 ata a actualidade e que acada os 25 millóns de formas.

Os sistemas e recursos relacionados con este proxecto do Centro Ramón Piñeiro –dispoñible no enderezo electrónico http://corpus.cirp.es/corga– están dirixidos principalmente aos investigadores da lingua galega actual nos diferentes ámbitos, fornecéndoos con ferramentas que lles permitan, por unha banda, obter datos de diversa índole relacionados co emprego da lingua e, pola outra, desenvolver ferramentas de análise do galego cada vez máis avanzadas.

Novos recursos tecnolóxicos para avanzar na investigación lingüística
Na primeira parte da tese de doutoramento –codirixida polos profesores Manuel Vilares e Jorge Graña, das universidades de Vigo e da Coruña, respectivamente–, Mario Barcala define unha metodoloxía xenérica para construír corpus lingüísticos estruturados que pode ser aplicada a diversos proxectos, ao tempo que explica como se puxo en práctica no CORGA. Esta metodoloxía apóiase nas tecnoloxías e estándares máis actuais, utiliza ferramentas sinxelas e promove a documentación, o que garante que os recursos desenvolvidos con ela sexan de calidade e evolucionen axeitadamente.

Na segunda parte, trátase a problemática de construír sistemas de recuperación de información que consulten corpus estruturados de grandes dimensións. Concretamente, defínense os requirimentos destes sistemas, analízanse as diferentes tecnoloxías que poden ser empregadas para a súa construción, poñendo de relevo as vantaxes e limitacións de cada unha, e, finalmente, descríbese a arquitectura do sistema de buscas utilizado no CORGA.

Potenciar o galego a través das novas tecnoloxías
O pasado mes de xullo, a Secretaría Xeral de Política Lingüística presentou unha nova versión do CORGA que inclúe novas ferramentas para desenvolver unha análise da lingua galega moito máis sofisticada. Esta aposta polas novas tecnoloxías conforma unha liña de actuación prioritaria do departamento que dirixe Anxo Lorenzo que ten como obxectivo fornecer produtos e servizos electrónicos para avanzar na investigación da lingua galega.