Ir al contenido principal

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

Cómo ajustar tu propio modelo de lenguaje generativo




¿Has oído hablar de GPT2, GPT3 u OPT? Estos son algunos de los modelos generativos de lenguaje más conocidos y utilizados a día de hoy, con aplicaciones en múltiples ámbitos como chatbots, question answering o autocompleción, entre otros.

La generación del lenguaje natural es uno de los subcampos del PLN que más ha evolucionado en los últimos años gracias a los grandes volúmenes de datos disponibles y al aumento en la capacidad de cómputo. Son múltiples las empresas que compiten por construir modelos que sean capaces de simular con mayor precisión la escritura humana, contribuyendo a su vez a la democratización del PLN haciendo públicos estos modelos.

No obstante, en la mayoría de los casos prácticos, no será suficiente utilizar estos modelos pre-entrenados de forma directa, sino que será necesario adaptarlos al ámbito lingüístico o a la tarea que queramos abordar.

En esta charla, te explicaremos los conceptos básicos subyacentes a estos modelos, además de cómo utilizar estos modelos preentrenados como base para adaptarlos a tu caso de uso. Como ejemplo, te mostraremos nuestro generador automático de recetas presentado dentro del hackathon organizado por SomosNLP.

Fecha y hora: 23 de junio a las 19.00h CET

Julián Cendrero Almodóvar 

Data Scientist en mrHouston Tech Solutions con 4 años de experiencia en proyectos de I+D de inteligencia artificial. Es graduado en Física por la Universidad Complutense de Madrid y máster en Matemáticas Aplicadas por la Universidad de Cambridge. Actualmente, compagina su trabajo con la realización de un doctorado en Sistemas Inteligentes por la Universidad Nacional de Educación a Distancia. Ha trabajado en proyectos de medición del riesgo reputacional, análisis de redes sociales, sistemas de high-frequency trading basados en texto y modelado de tópicos con contexto temporal.

Silvia Duque Moro 

Graduada en Ingeniería Informática y Estadística por la Universidad de Valladolid, y máster en Consultoría de Negocio por la Universidad Pontificia de Comillas. Actualmente trabaja como Research Scientist en el departamento de Innovación de NielsenIQ, investigando, desarrollando y aplicando algoritmos de Machine Learning y Deep Learning para facilitar los estudios de mercado realizados por la compañía haciendo uso de grandes cantidades de datos. Anteriormente ha trabajado como Data Scientist durante varios años, especializándose en el procesamiento del lenguaje natural.

Comentarios

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Recomendación del mes de octubre: Mastering Spacy

  La recomendación de este mes de octubre ha estado reñida pero finalmente hemos elegido una guía práctica para implementar NLP usando la librería de "fortaleza industrial" (tal y como la definen sus creadores) de nombre spaCy . Mastering spaCy Es un libro reciente. Fue publicado en julio del 2021 y cuenta con 356 páginas. Se divide en tres grandes secciones: Getting Started with spaCy : En esta sección se explica cómo instalar la librería, los modelos estadísticos y la herramienta de visualización llamada displaCy . spaCy Features : Donde se centra en las características lingüísticas desde la sintaxis a la semántica, incluye recetas prácticas usando coincidencia de patrones basados en reglas y ahonda en los vectores de palabras y los métodos estadísticos de extracción de información. La sección acaba poniendo en práctica todos estos conceptos en una pipeline NLP. Machine Learning with spaCy : La última sección explica cómo usar el aprendizaje automático con spaCy . C...

Avanzando en la detección del lenguaje ofensivo en español

SHARE y OffendES_spans: dos nuevos recursos para combatir el lenguaje ofensivo textual. Durante la charla se presentarán dos recursos lingüísticos recientemente generados que serán clave para avanzar en la investigación del lenguaje ofensivo en español: SHARE y OffendES_spans.  SHARE es un recurso léxico con más de 10.000 términos y expresiones ofensivas por parte de la comunidad de hispanohablantes. Para el desarrollo de este recurso se ha utilizado Fiero, un popular chatbot desarrollado para entablar una conversación con los usuarios y recoger insultos y expresiones a través de la plataforma de mensajería de Telegram. Este vocabulario fue etiquetado manualmente por cinco anotadoras obteniendo un coeficiente kappa del 78,8%.  La generación de SHARE ha permitido liberar el primer corpus en español para el reconocimiento de entidades ofensivas, llamado OffendES_spans, cuya evaluación se ha llevado a cabo a través del desarrollo de uno de los primeros sistemas computacionales en...