- A actualización desta colección de documentos facilita un sistema de recuperación da información máis flexible e efectivo dos case 20 millóns de formas ortográficas existentes
- O CORGA almacena diferentes tipos de textos da lingua galega actual publicados desde 1975 ata a actualidade
- Libros, xornais, revistas e fontes orais integran o corpus, que pode ser consultado na rede por calquera persoa interesada
Santiago, 28 de marzo de 2007.-
A secretaria xeral de Política Lingüística, Marisol López, presentou
hoxe en Santiago a nova versión do Corpus de Referencia do Galego
Actual (CORGA), que incorpora seis novos millóns de formas aos xa
existentes. Deste xeito, na actualidade xa se pode acceder a unha
colección de 19,8 millóns de formas.
O CORGA, desenvolvido no Centro Ramón Piñeiro para a Investigación en
Humanidades baixo a dirección do profesor Guillermo Rojo, é un corpus
documental integrado por distintos tipos de textos, -xornais,
semanarios, revistas, ensaios, e textos de ficción (novela, relato
curto e teatro)-, que abrangue temporalmente dende o ano 1975 ata a
actualidade e que están codificados no estándar XML (eXtensible Markup
Language).
A nova versión está dispoñible na rede desde o 12 de marzo, no enderezo
http://corpus.cirp.es/corgaxml/. O rexistro no sistema é gratuíto e
todo aquel que desexe utilizalo só ten que solicitar unha clave de
entrada coa que acceder ao mesmo.
Nesta nova versión, o corpus que se pode consultar incrementouse en
seis millóns de formas. Sobre este conxunto de formas ortográficas é
posible facer buscas de palabras ou expresións en xeral, por tipos de
texto, épocas, áreas temáticas ou calquera combinación dos parámetros
anteriores. Ademais, a nova versión engade un novo sistema de consulta
da nómina de autores e obras que permite buscar que obras ou autores
están no corpus, saber que número de palabras totais e documentos
corresponden á busca realizada ou que cantidade de palabras contén o
CORGA nunha certa área temática, período de tempo, etc.
Novas posibilidades de busca
Este corpus está destinado aos investigadores da lingua galega actual
nos diferentes eidos e continuará incorporando novos textos e
funcionalidades de consulta. De feito, xa se está traballando no Centro
Ramón Piñeiro para a Investigación en Humanidades na etiquetación
morfosintáctica dos documentos do CORGA, o que posibilitará nun futuro
dar un salto cualitativo nas posibilidades de busca (poderanse realizar
consultas non só empregando formas ortográficas senón tamén por lemas,
etiquetas morfosintácticas, etc.).
O proxecto está dirixido por Guillermo Rojo, director técnico da área
lingüística do Centro Ramón Piñeiro. Eva Domínguez e Mario Barcala
coordinan a parte lingüística e a parte informática, respectivamente.
A secretaria xeral de Política Lingüística destacou as posibilidades
que achegan os traballos dos investigadores do Centro Ramón Piñeiro
para poder coñecer mellor a lingua galega actual e o seu uso. “Desde
este centro estanse a poñer a disposición da sociedade unha serie de
valiosos recursos e ferramentas que, apoiándose nas novas tecnoloxías,
permiten un avance exponencial no coñecemento lingüístico”, explicou.
Marisol López aproveitou ademais a ocasión para trasladarlles aos
responsables do centro e a todo o seu persoal a felicitación polo
recoñecemento recibido hai uns días nos Premios Irmandade do Libro,
outorgados pola Federación de Libreiros de Galicia polo labor de
divulgación desta institución a prol do libro galego.