La RAE incluye nuevas formas ortográficas en el Corpus del Español
El CORPES, referencia para el diccionario o la gramática, actualiza su base de datos
La Real Academia Española, en colaboración con la Asociación de Academias de la Lengua Española (ASALE), presentó ayer la nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), la base de datos que permite estudiar las características de la lengua española tal y como se está usando desde inicios del siglo. Esta actualización incorpora 21 millones de nuevas formas ortográficas respecto a la versión anterior, de mayo de 2020, tomadas de textos escritos como periódicos o libros y de transcripciones de radio, televisión o Youtube, y ya son más de 316.000 los documentos que se pueden consultar en el CORPES a través de internet.
«Los corpus son los materiales que utilizan las academias para el diccionario, las gramáticas o los diccionarios de dudas: son el primer material con el que trabajan», apuntó a ABC Guillermo Rojo, director del proyecto. «El material sirve para que los investigadores y también personas con curiosidad puedan encontrar información sobre las palabras. Aporta conocimiento científico». El CORPES se puso en marcha en 2007, cuando las academias de la lengua española acordaron aglutinar en él 25 millones de formas ortográficas al año a partir de textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial. Por su tamaño y la complejidad del sistema, la base de datos solo está disponible en formato electrónico.
En el CORPES no persiguen la «última palabra», las que están de moda, sino que más bien están sometidos a la casualidad, explicó Rojo. «Volcamos textos procedentes de periódicos o libros y los procesamos», de modo que quedan alojados en un servidor que aporta la información léxica y gramatical sobre cada forma ortográfica indicada. Si buscamos una palabra de uso reciente, como ‘coronavirus’, el CORPES devuelve 1.380 registros, el último de ellos tomado de un artículo en un medio digital y se indica que es un «sustantivo común masculino singular». La palabra ‘libro’, en cambio, está incluida en 119.097 registros. Diariamente, en colaboración con diez
Conocimiento «Los corpus son el primer material con el que trabajan las academias para el diccionario»
equipos de otros lugares de España y academias, procesan y codifican textos escritos y también textos orales tomados de programas de radio y televisión o Youtube.
Libros y prensa
Más del cuarenta por ciento de los textos procesados provienen de la prensa, por varios motivos: el periódico de un día aporta textos variados, de distintos temas, con un lenguaje culto pero sin perder el contacto con la calle, lo que permite la inclusión de neologismos y palabras cuyo uso se empieza a extender. Las publicaciones periódicas están representadas con unas 158 millones de formas ortográficas. Seis millones y medio provienen de blogs, entrevistas digitales o redes sociales. Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales.
Al ser un corpus que abarca todas las distintas formas del español, se mantiene un equilibrio entre España y América Latina del 30-70 por ciento. El número de textos producidos entre 2016 y 2020 supera en esta versión las 42 millones de formas. Por lustros, el mayor peso recae en el periodo 2006-2010, con más de 107 millones de formas. Más de 100 millones corresponden a 2001-2005. «Debemos meter en torno a 25 millones de formas en cada año –explicó Rojo–. Todavía no está completa, pero hemos empezado por aquí».