Colocan en la red millones de palabras

AutorSergio Raúl López

REFORMA/Enviado

MADRID.- La página oficial de la Real Academia Española (RAE) pondrá en junio a disposición del público la primera versión de un "corpus anotado" que dotará a los casi 270 millones de palabras registrados en sus bancos de datos de recursos de ingeniería lingüística capaces de distinguir y clasificar sus formas gramaticales en cualquier texto.

El Corpus de Referencia del Español Actual (CREA), que reúne más de 130 millones de palabras provenientes de 5 mil obras de los últimos 25 años, y el Corpus Diacrónico del Español (CORDE), con 136 millones de palabras procedentes de más de 2 mil obras aparecidas entre la Edad Media y la época contemporánea, se han convertido en el cuerpo nuclear de consulta de los académicos de la lengua españoles, indica Benito Rojo, miembro de número de la RAE.

Ocupante desde octubre de 2001 del sillón N de la institución editora del Diccionario de la Lengua Española, a la que han pertenecido escritores como Torcuato Luca de Tena, Benito Pérez Galdós y Camilo José Cela, Rojo, especialista en lingüística computacional, es el coordinador desde su fundación en 1995 del Banco de Datos de la RAE, herramienta que ha cambiado los métodos de trabajo en el organismo.

El objetivo general de la ingeniería lingüística, explica, es buscar que la computadora pueda "entender" un texto escrito o lo que dice una voz, si bien puede también fácilmente identificar las palabras que no están en el diccionario.

Las distintas comisiones de la RAE y su propio pleno recurren al banco de datos cuando se suscita una discusión. "Preguntan de todo y todos los días", asegura Rojo.

"Tenemos herramientas para procesar textos lingüísticos dados; para identificar, por ejemplo, qué verbo está en presente perfecto y qué sustantivo está en masculino singular. Esta línea del trabajo que se realiza dentro de la RAE añade a cada uno de los términos que aparecen en los textos la información gramatical que les corresponde", explica el académico de 54 años, quien es también director del Departamento de Lengua Española de la Universidad de Santiago de Compostela.

Las bases de datos se alimentan con textos de periódicos, revistas, libros y otras fuentes "tal como están"...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR