Secretaría Xeral de Política Lingüística

Está vostede en Inicio » Noticias

Xa está dispoñible na rede unha nova versión do Corpus do Galego Actual, que engade 6 millóns de formas ortográficas

  • A actualización desta colección de documentos facilita un sistema de recuperación da información máis flexible e efectivo dos case 20 millóns de formas ortográficas existentes
  • O CORGA almacena diferentes tipos de textos da lingua galega actual publicados desde 1975 ata a actualidade
  • Libros, xornais, revistas e fontes orais integran o corpus, que pode ser consultado na rede por calquera persoa interesada

Santiago, 28 de marzo de 2007.- A secretaria xeral de Política Lingüística, Marisol López, presentou hoxe en Santiago a nova versión do Corpus de Referencia do Galego Actual (CORGA), que incorpora seis novos millóns de formas aos xa existentes. Deste xeito, na actualidade xa se pode acceder a unha colección de 19,8 millóns de formas.
O CORGA, desenvolvido no Centro Ramón Piñeiro para a Investigación en Humanidades baixo a dirección do profesor Guillermo Rojo, é un corpus documental integrado por distintos tipos de textos, -xornais, semanarios, revistas, ensaios, e textos de ficción (novela, relato curto e teatro)-, que abrangue temporalmente dende o ano 1975 ata a actualidade e que están codificados no estándar XML (eXtensible Markup Language).
A nova versión está dispoñible na rede desde o 12 de marzo, no enderezo http://corpus.cirp.es/corgaxml/. O rexistro no sistema é gratuíto e todo aquel que desexe utilizalo só ten que solicitar unha clave de entrada coa que acceder ao mesmo.
Nesta nova versión, o corpus que se pode consultar incrementouse en seis millóns de formas. Sobre este conxunto de formas ortográficas é posible facer buscas de palabras ou expresións en xeral, por tipos de texto, épocas, áreas temáticas ou calquera combinación dos parámetros anteriores. Ademais, a nova versión engade un novo sistema de consulta da nómina de autores e obras que permite buscar que obras ou autores están no corpus, saber que número de palabras totais e documentos corresponden á busca realizada ou que cantidade de palabras contén o CORGA nunha certa área temática, período de tempo, etc.
Novas posibilidades de busca
Este corpus está destinado aos investigadores da lingua galega actual nos diferentes eidos e continuará incorporando novos textos e funcionalidades de consulta. De feito, xa se está traballando no Centro Ramón Piñeiro para a Investigación en Humanidades na etiquetación morfosintáctica dos documentos do CORGA, o que posibilitará nun futuro dar un salto cualitativo nas posibilidades de busca (poderanse realizar consultas non só empregando formas ortográficas senón tamén por lemas, etiquetas morfosintácticas, etc.).
O proxecto está dirixido por Guillermo Rojo, director técnico da área lingüística do Centro Ramón Piñeiro. Eva Domínguez e Mario Barcala coordinan a parte lingüística e a parte informática, respectivamente.
A secretaria xeral de Política Lingüística destacou as posibilidades que achegan os traballos dos investigadores do Centro Ramón Piñeiro para poder coñecer mellor a lingua galega actual e o seu uso. “Desde este centro estanse a poñer a disposición da sociedade unha serie de valiosos recursos e ferramentas que, apoiándose nas novas tecnoloxías, permiten un avance exponencial no coñecemento lingüístico”, explicou. Marisol López aproveitou ademais a ocasión para trasladarlles aos responsables do centro e a todo o seu persoal a felicitación polo recoñecemento recibido hai uns días nos Premios Irmandade do Libro, outorgados pola Federación de Libreiros de Galicia polo labor de divulgación desta institución a prol do libro galego.

logotipo da Xunta de Galicia\
© Xunta de Galicia. Información mantida e publicada na internet pola Xunta de Galicia.
Información administrativa e atención ao cidadán  | Suxestións e queixas  | Aviso legal  | Atendémolo/a