3. CONTENIDOS

Gran parte de las investigaciones de la lingüística que aprovechan las nuevas tecnologías están basadas en corpus. Estos bancos de datos han supuesto el nacimiento de nuevas metodologías en áreas de estudio tan diversas como la adquisición de conocimiento léxico, la construcción de gramáticas, los estudios socioculturales, la estilística, la traducción automática, el reconocimiento del habla, la recuperación de información, la lexicografía monolingüe y bilingüe, la construcción de diccionarios electrónicos o la compilación de lexicones computacionales y repositorios de información terminológica. Se debe tener en cuenta también que un corpus se puede usar de formas muy diferentes: para validar, para ejemplificar o para construir una teoría de la lengua y los diferentes aspectos que ésta implica. Además, están en la base del progreso en inteligencia artificial.

Además, están los programas de etiquetado de los corpus, lo que implica investigar en el desarrollo del análisis gramatical automático, tanto morfológico como gramatical, pero como estos análisis no pueden llevarse a cabo sin contar con el contexto, estas necesidades están tirando también del desarrollo de los estudios relacionados con este campo.

Se trata, obviamente, de campos demasiado técnicos para estos niveles de aprendizajes, así que aquí nos contentaremos con enseñar a los alumnos a sacar provecho de los resultados por ahora obtenidos. Solo al final nos acercaremos al más técnico campo de los corpus lingüísticos y mostraremos como suelen trabajar con ellos los lingüistas.

CONOCIMIENTOS PREVIOS

Vamos a trabajar con el ordenador conectado a Internet, así que suponemos que se saben hacer búsquedas a través de Google y otros buscadores, además de acceder a los enlaces facilitados en las actividades y manejarse con el navegador de Internet.

La primera actividad es básica. Provee de un equipamiento terminológico primario para desenvolverse con soltura entre las cuestiones lexicográficas que aborda la unidad didáctica.

Para el resto de las actividades, se dan por supuestos conocimientos gramaticales sólidos. Obviamente, no se puede pedir a alguien que explique un caso de homonimia si no es capaz de reconocer en su contexto el verbo o el sustantivo que lo son (ayuda). Por lo tanto, conviene llevar a cabo esta actividad con un cierto bagaje en gramática: conocimiento de las categorías, de las clases cerradas de palabras, de los tipos de sintagmas y sus funciones sintácticas%u2026 y al menos una idea de la práctica del análisis sintáctico.

DICCIONARIOS

Diccionarios informatizados hay muchos hoy en día. La oferta es tan variada que, en la actualidad, lo difícil será acertar al elegir, tanto si se efectúa una compra como si se toma la decisión de acceder de modo gratuito a los que así se ofrecen a través de Internet.

CORRECTORES

Todos los programas que procesan información textual incorporan herramientas lingüísticas. En principio, quizás asociemos los correctores ortográficos y gramaticales a los procesadores de textos, pero también los programas de edición e incluso los de otro tipo que manejen información textual (hojas de cálculo, bases de datos, presentadores del tipo Power Point…) facilitan este tipo de herramientas. Hoy en día, la corrección ortográfica y, también muchas veces, la gramatical son implementaciones básicas de cualquier programa informático. Obviamente, detrás de ellos están las tecnologías lingüísticas.

En las actividades nos centramos en el que sigue siendo más popular editor de textos, Word de Microsoft, pero obviamente podrían realizarse con cualquier otro programa que incluya herramientas de corrección ortográfica y gramatical.

DICCIONARIO DE SINÓNIMOS

También están disponibles en Internet, como cabía esperar, los diccionarios de sinónimos. He aquí una muy breve lista de opciones:

-diclib.com (http://www.diclib.com/cgi-bin/d.cgi?l=es&st=3)

-sinonimia.net (http://www.sinonimia.net/)

-sinónimos.org (http://www.sinonimos.org/)

-elmundo.es diccionarios (http://www.elmundo.es/diccionarios/)

Todos ellos son gratuitos y el acceso a su funcionamiento es muy sencillo. Pero no queremos dejar de mencionar la herramienta que incorpora el procesador de textos Word de Microsoft. Este sencillo (de manejo) diccionario es incluso más rico que el habitual de sinónimos y antónimos, más cercano a un auténtico diccionario ideológico, una buena herramienta para la construcción de textos, más que para la obtención de significados.

Para emplearlo basta con situarse sobre una palabra y pulsar la tecla de F7 mientras se mantiene pulsada la de mayúsculas. Se abrirá una caja con dos ventanas(ver el e-studio en la edición de word).

En el cuadro blanco de la izquierda hay unas sugerencias para la palabra buscada, pero si se pincha sobre alguna de ellas, en la caja grande de la derecha aparecen otras posibilidades. Puede elegirse cualquier sinónimo de la derecha, pero se también puede continuar la búsqueda pinchando en las palabras que irán apareciendo sucesivamente dentro del cuadro de la izquierda.

TRADUCTORES

Ya resulta imperdonable tener miedo al inglés o casi a cualquier otra lengua. El buscador Google permite obtener traducidas inmediatamente las páginas que queremos visitar. Y también existen herramientas de traducción bastante perfeccionadas.

Aquí proponemos trabajar con el traductor de Google y con Apertium (además de facilitar otras direcciones). Este último, desarrollado inicialmente para pares de lenguas similares (español-catalán, gallego-español, etcétera) está implementando ahora otras lenguas de origen y llegada, como el inglés, el francés o el esperanto.

Aquí hay una pequeña lista de recursos:

-Apertium (http://www.apertium.org/?id=downloading&lang=es)

-Opentrad (http://www.opentrad.com/)

-Opentrad Apertium mejorado por la Universidade de Vigo (http://sli.uvigo.es/tradutor/)

-Xunta de Galicia (http://www.xunta.es/tradutor/text.do)

OTRAS HERRAMIENTAS

No nos detendremos demasiado en otras herramientas que tienen usos más específicos. Los programas para obtener resúmenes automáticos de textos se emplean en empresas e instituciones que reciben y clasifican una gran cantidad de documentos o de información escrita. Su funcionamiento se basa en las repeticiones léxicas y en las sinonimias para obtener un abstract que permite, con una rápida consulta, valorar el interés del texto resumido sin necesidad siquiera de leerlo.

También existen analizadores automáticos. Estos programas operan ocultos tras los traductores y tras las aplicaciones que veremos a continuación, los corpus. Aunque tropiezan todavía con muchas dificultades, son capaces de hacer descomposiciones morfológicas y clasificaciones de palabras. Y, si bien las homonimias suponen una gran dificultad, las actuales investigaciones basadas en el contorno textual permiten ir afinando los resultados. A partir del análisis morfológico, también se obtiene un análisis sintáctico, lo que permite traducciones más cuidadas. Hoy en día, las bases de datos de los programas analizadores tienden a mejorarse con la inclusión de frases (expresiones complejas, más o menos fijas) que permiten desambiguaciones más acertadas.

CORPUS

Finalizará nuestro repaso de las tecnologías del lenguaje con el acercamiento a los corpus lingüísticos. Los corpus de la lengua son grandes depósitos o bancos de datos que permiten la extracción ordenada de información. Actualmente, se recopilan (se digitalizan) automáticamente, aunque al principio el proceso era una tortuosa labor que llevaba a cabo una persona con ayuda de un escáner y un OCR (un programa de reconocimiento óptico de caracteres como los que hoy, muy perfeccionados, incorporan entre sus utilidades la mayoría de los escáneres domésticos, incluidos los que forman parte de un equipo multifunción).

Hay corpus que se pueden consultar libremente en línea, como el CREA (http://corpus.rae.es/creanet.html), el banco de datos del español actual de la Real Academia Española; al acceder al enlace aquí indicado, hay un vínculo a la Ayuda que conviene consultar para comprender su manejo, que aquí no vamos a explicar. Esta institución también mantiene un CORDE, que incorpora datos para la elaboración del proyectado diccionario histórico.

También está disponible Corpus del español de Mark Davies (http://www.corpusdelespanol.org/). A este hay que suscribirse, gratuitamente, para poder seguir usándolo después de algunas consultas. Y se puede ver qué ofrece Sketchengine (http://www.sketchengine.co.uk/auth/) aunque esta potente herramienta requiere registrarse, lo cual es gratis durante un mes.

Los corpus tienen muchas posibilidades y ofrecen sus informaciones agrupadas en conjuntos, o subcorpus, más pequeños. Algunos corpus de lengua incluyen subprogramas que realizan un análisis gramatical simultáneo a la extracción de datos, de modo que permiten extraer todas las apariciones de, por ejemplo, un lema verbal, con independencia de que este se haya recogido en cualquiera de sus variantes flexivas. Al realizar una consulta, además de los datos estadísticos de los registros que almacena, se pueden, por una parte, acotar las consultas y, por otra, obtener las concordancias o los párrafos (también llamados índices KWIC). Las primeras son el contexto que rodea la forma buscada, tanto delante como detrás, pero no constituye ningún tipo de unidad gramatical. Suele bastar para hacer una investigación. Los párrafos sí son una unidad gramatical completa y mucho más amplia que las concordancias, pero por eso mismo bastante más difíciles de manejar, así que aquí sugerimos que se extraigan las concordancias.

Las consultas pueden acotarse, aunque las posibilidades y la forma de hacerlo dependen de cada corpus. Por ejemplo, en el CREA se puede optar por elegir la parte del corpus correspondiente a la lengua coloquial o a la periodística, al lenguaje científico o al literario, etcétera. Además, se puede restringir la búsqueda a distintos ámbitos geográficos: español de España o de otras zonas de América. El Corpus de Mark Davies, por su parte, permite hacer búsquedas por lemas o por formas, también admite la búsqueda de contextos en varios niveles (es decir, a diferentes distancias de las formas buscadas) y cierta restricción cronológica y diafásica (tipos de textos). En fin, no es este lugar para detallar las posibilidades, por lo que conviene experimentar para descubrirlas.

Compartir en Compartir en Facebook Compartir en Twitter Compartir en WhatsApp

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies