Es complicado que las máquinas nos entiendan con lenguaje natural, pero si es en español, aún más

Es difícil que las máquinas nos comprendan con idioma natural, sin embargo si es en español, todavía mas

“Entre lo que pienso, lo que quiero decir, lo que creo decir, lo que digo, lo que deseas oír, lo que oyes, lo que crees comprender y lo que entiendes, existen 9 oportunidades de no entenderse”, dice una famosa frase. Si además uno de los interlocutores es una máquina, la complejidad y los problemas aumentan considerablemente.

A dia de hoy, uno de los primordiales desafíos de la inteligencia artificial aplicada al proceso del idioma natural es hacer que los sistemas informáticos comprendan qué quiere mencionar su interlocutor y le respondan de forma coherente. Y, pese a que la totalidad de los lenguajes comparten dificultades como la ambigüedad o los localismos, no todos son equivalente de complicados de funcionar por las máquinas.

Entendiendo los sistemas de proceso de idioma natural

Carlos Gomez

Carlos Gómez, profesor de la Universidad de La Coruña e participante del Grupo de Investigación de Lengua y Sociedad de la Información expone los distintos niveles dentro del proceso del idioma natural.

“Lo 1° que se hace es un análisis morfológico para descubrir la categoría de la palabra. Es decir, resolver si es un sustantivo, un verbo, etc… Esto acepta un análisis sintáctico o de la estructura de la oración y qué papel desempeña cada frase en ella.” ¿Qué frases ejercen de sujeto? ¿Cuáles de predicado?

Gómez expone que, una vez identificadas correctamente las frases morfológicamente y en su entorno sintáctico, “se pueden inventar cosas mas cercanas al cliente real, como la minería de opiniones y analisis del sentimiento o el análisis semántico“. El analisis semántico por ejemplo, sabría interpretar si al usar la frase estrella nos referimos a un cuerpo celeste o a una actriz famosa.

La minería de opiniones y analisis de sentimientos, por otro lado, sirve para saber si un texto genera opiniones positivas o negativas en sus receptores. “El analisis de sentimientos no sirve con precisión absoluta, sin embargo en algunos dominios sirve bien. Las industrias están interesadas en saber como la masa recibe sus productos o sus servicios”.

La suma de documentos de los que se disponga hará que los sistemas de proceso de idioma natural, independientemente del idioma, sean capaces de extraer información y estudiar de una forma mas rápida y eficaz. Aunque sólo sea por una cuestión de volúmenes, cuantas mas individuos hablen un idioma, de mas documentos se dispondrá. En la actualidad, el español es la segunda lengua mas hablada del mundo.

Ambigüedad, regionalismos e ironía

¿Qué ocurriría si le preguntamos a un asistente de voz dónde esta el banco mas cercano? ¿Cómo sabe si nos referimos a un banco para descansar o para obtener dinero? Según Carlos Gómez, “normalmente un ser humano no tiene dilema para comprender esto por el contexto. Pero ese tipo de argumento inspirado en el entorno y el sentido común para un computador es mucho mas difícil.”

Hombre Muffin

Un popular chiste sobre desarrolladores ilustra muy bien esta situación. Una mujer le dice a su esposo que vaya al supermercado y le traiga un cartón de leche y, si hay huevos, una docena. El esposo regresa y muestra con una docena de cartones de leche.

“Un ser humano sabe que los huevos se compran por docenas y la leche no. Y que nadie compra 12 cartones de leche. Podemos inventar que las máquinas aprendan esto, sin embargo es todo un desafío.”

Huevos

Otros problemas, que además llegan en la comunicacion interpersonal, son interpretar correctamente la ironía y gestionar todas las distintos variedades que hay del español. “El español cambia muchísimo dependiendo de la gama regional y es algo mas problemático que el inglés. Hay que preguntarse para qué español se esta laborando y hay que obtener versiones distintos para cada variedad. En inglés además se hace, sin embargo se pueden reutilizar mas recursos”, asegura Gómez.

El stemming, NER y sintaxis en español

Un quebradero de cabeza significativo es el stemming, es decir, la busqueda de la raíz de las palabras.Los algoritmos de stemming obtienen que, si alguien consulta información sobre flores, pueda hallar información sobre floristas o floristerías puesto que la raíz es la misma.

Felisa Verdejo, Catedrática de Lenguajes y Sistemas Informáticos en la UNED e investigadora del Grupo de Investigación de Procesamiento del Lenguaje Natural, comenta que en español esto es mucho mas difícil que en inglés.

Felisa Verdejo

“En inglés funcionan bien los algoritmos de stemming, mientras que para el español, que tiene multiples procesos de flexión, derivación y composición, así como excepciones, no funcionan equivalente de bien. Si deseas calidad de proceso de datos, teneis que inventar un analisis sintáctico.”

La flexión es un proceso que acepta componer frases con una misma raíz sin embargo distintos atributos. Por ejemplo, en la frase rojo, tenemos la raíz roj y un morfema flexivo de género másculino (la o).

Si en lugar de inventar rojo habláramos de rojito, mantendríamos la misma raíz (roj) sin embargo le daríamos un nuevo significado añadiéndole el “ito” (rojo, sin embargo un poco menos rojo), por lo que no hablaríamos de un cambio de género o número, sino de una modificación que perjudica además a lo nos da a comprender la palabra.

A la hora de componer palabras, el proceso consistiría en unir la raíz de 2 frases distintos para inventar una nueva. Un ejemplo sería rojiblanco.

La dificultad en el reconocimiento de entidades nombradas o NER, por sus siglas en inglés, es otro escollo en el proceso del español. El NER es el proceso de reconocer una frase cuando se refiere a una entidad. “Madrid, por ejemplo, es un nombre. Pero puede ser el nombre de una ciudad española, de una ciudad en América, de una persona, o referirse al gobierno español.”

Además, tal y como asegura la investigadora, los problemas continúan a la hora de elaborar un analisis sintáctico.

“En español no hay una estructura fija de las frases dentro de una oración como ocurre en otras lenguas, lo que genera que haya distintos oportunidades de analisis y se requiera un mayor tratamiento semántico.”

Esto hace que no baste con saber como se componen las frases o las frases, sino que haya que ir un paso mas allá y introducirse en el significado. Y, en español, es suficiente complicado, ya no sólo por los dobleces y dobles significados de nuestra lengua, sino por los distintos localismos y regionalismos que hace que una misma frase pueda tener cientos de connotaciones distintos dependiendo del país, región o contexto.

Un ejemplo entretenido sin embargo realista es la canción “Qué difícil es hablar el español” de los artistas colombianos Inténtalo Carito, que, en sucanal de YouTube parodian la dificultad del aprendizaje de nuestra lengua y revelan los primordiales escollos a la hora de comprender vuestro idioma.

Otros problemas en el proceso del idioma natural

El proceso del idioma natural no es algo nuevo. Los maestros en inteligencia artificial llevan varios años interesados en este tema con bienes dedicados a que las máquinas sean capaces de comprender el idioma humano. Con la aparición de las redes neuronales los mejoras han sido evidentes.

Sin embargo, todavía permanecen varios problemas por resolver. Y no todos son lingüisticos o computacionales. La inversión en investigación es claramente deficiente en el caso de lenguas minoritarias, como el finés o el alemán. El entrenamiento de los sistemas para que se perfeccionen y lleguen a contestar como un humano continua siendo un trabajo rigido y, lograr que la masa a la que no le agrada hablar con una maquina utilice estas tecnologias todo un reto.

Pero dentro de esto, los hispanohablantes estamos de suerte. Idiomas como el chino, el turco o el árabe son, a dia de hoy, mas difíciles todavía de funcionar que el español. Y lenguas que tienen una morfología mas compleja que el español, como por ejemplo el euskera, el alemán o el finés con sus mecanismos de frases compuestas, suponen un auténtico quebradero de cabeza por la forma en la que se hacen las palabras.

También te recomendamos

¿CÓMO SERÁ EL VEHÍCULO ELÉCTRICO DEL MAÑANA?

Este cuadro lo ha pintado una máquina, y alguien lo ha comprado por 432.500 dolares en Christie's

Contra el inglés científico: cada vez hay mas voces que alertan de los efectos de la hegemonía anglófona en la ciencia global


La novedad Es difícil que las máquinas nos comprendan con idioma natural, sin embargo si es en español, todavía mas fue publicada originalmente en Xataka por Susana Carbajales .


Xataka



Agradecemos a la fuente original por la información que nos ayudo a crear este articulo.

También puedes revisar estas noticias relacionadas.

Tags: #aún #complicado #entiendan #español #lenguaje #máquinas #más #natural #pero

Deja un comentario

Author: 
    author