Ir al contenido principal

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

PLN centrado en tus datos con Rubrix


El lunes 15 de noviembre a las 18.00h Daniel Vila Suero nos presentará Rubrix, una herramienta libre y gratuita para crear, gestionar y cuidar tus datos de entrenamiento de una manera eficaz involucrando distintos perfiles en el desarrollo de modelos PLN: científicos de datos, lingüistas, expertos de dominio e ingenieros.

Rubrix, herramienta Python desarrollada por Recognai, es el resultado de casi 5 años desarrollando soluciones de PLN para empresas, contribuyendo a librerías de código abierto como spaCy o AllenNLP y publicando modelos pre-entrenados en Hugging Face como el reciente Selectra.

Pero ¿qué es Rubrix? ¿qué lo hace diferente? y, sobre todo, ¿para qué lo necesitas? Todas estas preguntas (y cualquier otra que se os ocurra), las intentaremos resolver a través de ejemplos prácticos, con modelos y datos en español. En cualquier caso, si antes de apuntarte quieres saber un poco más, sigue leyendo.

Con modelos del lenguaje cada vez más potentes y accesibles es más fácil que nunca construir tus propias soluciones de PLN. Plataformas y herramientas, como el Hub de Hugging Face o Weights & Biases, permiten entrenar y experimentar con los últimos modelos del estado del arte. Sin embargo, hay una cuestión fundamental que sigue abierta: ¿cómo construir, evaluar y mantener los datos para entrenar y mejorar estos modelos para tu propio dominio? La realidad es que para evolucionar una solución PLN más tarde o más temprano necesitas ajustar tus modelos al problema concreto que quieres resolver (y no dejar de hacerlo a lo largo del tiempo). Además, esta cuestión se hace todavía más relevante cuando no haces PLN en inglés, debido a la escasez de conjuntos de datos y modelos pre-entrenados. Por todo esto y porque lo dice Andrew Ng, apúntate a la charla y aprende cómo construir modelos PLN en español de una manera eficaz, sostenible y puede que hasta divertida.

Daniel Vila Suero

Es cofundador de Recognai, empresa española especializada en procesamiento del lenguaje natural para empresas con clientes en España y Europa. En 2017, Daniel dejó la Universidad Politécnica de Madrid, donde trabajaba como investigador en tecnologías del lenguaje e Inteligencia Artificial, para lanzar Recognai. En la UPM, su trabajo en proyectos como la publicación del grafo de conocimiento de la Biblioteca Nacional de España fue clave para entender la importancia de involucrar distintos perfiles en la creación y mantenimiento de datos, idea fundamental detrás de Rubrix, la herramienta abierta desarrollada por Recognai. Además, Daniel y su equipo han contribuido y contribuyen a distintos proyectos de código abierto, como por ejemplo los primeros modelos en español para spaCy (allá por 2017) o el más reciente modelo del lenguaje Selectra (Spanish Electra) en Hugging Face.

Comentarios

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Avanzando en la detección del lenguaje ofensivo en español

SHARE y OffendES_spans: dos nuevos recursos para combatir el lenguaje ofensivo textual. Durante la charla se presentarán dos recursos lingüísticos recientemente generados que serán clave para avanzar en la investigación del lenguaje ofensivo en español: SHARE y OffendES_spans.  SHARE es un recurso léxico con más de 10.000 términos y expresiones ofensivas por parte de la comunidad de hispanohablantes. Para el desarrollo de este recurso se ha utilizado Fiero, un popular chatbot desarrollado para entablar una conversación con los usuarios y recoger insultos y expresiones a través de la plataforma de mensajería de Telegram. Este vocabulario fue etiquetado manualmente por cinco anotadoras obteniendo un coeficiente kappa del 78,8%.  La generación de SHARE ha permitido liberar el primer corpus en español para el reconocimiento de entidades ofensivas, llamado OffendES_spans, cuya evaluación se ha llevado a cabo a través del desarrollo de uno de los primeros sistemas computacionales en...

NLP en español es PLN: Recopilación de artículos introductorios y cursos de PLN en español

El Procesamiento del Lenguaje Natural, o PLN para simplificar, es una rama de la inteligencia artificial y la lingüística aplicada. A nuestro parecer un área muy interesante que conjuga humanidades con la tecnología más puntera. Para que luego digan que hay que elegir entre ciencias o humanidades. Un O exclusivo que nos han inculcado y que no puede estar tan equivocado. En este artículo recopilatorio queríamos poner nuestro granito de arena para ayudar a todos aquellos interesados en el PLN (o NLP si se prefiere aunque La Fundéu no estaría muy contenta ) pero que no están tan familiarizados con las herramientas técnicas que permiten procesar el lenguaje o cómo darle utilidad a los conocimientos tan valiosos sobre lingüística de una manera práctica. La principal diferencia de este artículo con otros es que vamos a intentar que los recursos presentados sirvan o pongan de ejemplo el procesamiento del español, segunda lengua materna más hablada en el mundo después del chino pero que tiene ...