Ir al contenido principal

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

Del corpus al modelo NLP: cómo conseguir una conversión eficaz



¿Alguna vez te has preguntado cómo se construye un modelo de Procesamiento de Lenguaje Natural?

El 22 de septiembre a las 18.00h hora española daremos una charla, a medias entre una lingüista computacional y una data scientist, donde te contaremos todo el proceso desde el diseño del corpus inicial hasta la construcción del modelo.

En la parte lingüística hablaremos de la metodología de anotación por pares y del criterio lingüístico necesario cuando trabajamos con Machine Learning.

En la parte de ingeniería, veremos qué son los word embeddings y sus distintas formas de creación, desde las técnicas más conocidas y sencillas (Bag-of-words, TF-IDF) hasta técnicas más novedosas y que ahora están en el top del NLP: los modelos Transformers y su particular manera de crear los word embeddings.

Además, te recomendaremos distintas fuentes para obtener corpus y datasets anotados, y algunas librerías python de fácil uso para poner en práctica lo aprendido, implementar tu propio modelo y poder llegar a ser un@ expert@ en creación de modelos de NLP.

¿Estás preparad@?

¡Apúntate al evento para que no se te pase! 
. . .

La charla será impartida gracias al Instituto de Ingeniería del Conocimiento por dos especialistas en el área: 

Carmen Torrijos

Lingüista computacional en el área de Banking Analytics del Instituto de Ingeniería del Conocimiento (IIC). Es licenciada en Traducción e Interpretación por la Universidad Autónoma de Madrid (2010), Máster en Comunicación Intercultural por la Universidad de Alcalá de Henares (2011), Graduada en Filología Hispánica por la Universidad Autónoma de Madrid (2018) y Curso Superior en Gestión de Proyectos por la Escuela de Organización Industrial (2020). Participa desde 2013 en proyectos de Procesamiento de Lenguaje Natural, llevando a cabo la anotación morfológica, sintáctica y semántica de corpus para entrenamiento de modelos de Machine Learning, el ajuste y evaluación de herramientas de parsing y la creación de gramáticas computacionales y taxonomías. Está especializada en el desarrollo de recursos lingüísticos para aplicaciones de análisis del sentimiento en texto libre, detección de entidades y extracción de relaciones.

Ainhoa Goñi

Ingeniera de datos en el área de Banking Analytics del Instituto de Ingeniería del Conocimiento (IIC). Es licenciada en Ingeniería Matemática por la Universidad Complutense de Madrid (2017) y cursó el Máster en Big Data y Data Science en Finanzas en Afi Escuela de Finanzas (2018). Actualmente, ejerce además como profesora del Máster de Big Data y Data Science en la Universidad Autónoma de Madrid, impartiendo clases de Procesamiento de Lenguaje Natural. En su actual puesto en el IIC, participa en proyectos de Data Science en diferentes áreas, llevando a cabo distintas tareas: análisis exploratorio, pre-procesado de datos, creación de modelos predictivos mediante algoritmos de optimización, machine learning y deep-learning. Está especializada en la creación de modelos de lenguaje para aplicaciones de detección de entidades y extracción de relaciones, entre otras especialidades.

Comentarios

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

Cómo ajustar tu propio modelo de lenguaje generativo

¿Has oído hablar de GPT2, GPT3 u OPT? Estos son algunos de los modelos generativos de lenguaje más conocidos y utilizados a día de hoy, con aplicaciones en múltiples ámbitos como chatbots, question answering o autocompleción, entre otros. La generación del lenguaje natural es uno de los subcampos del PLN que más ha evolucionado en los últimos años gracias a los grandes volúmenes de datos disponibles y al aumento en la capacidad de cómputo. Son múltiples las empresas que compiten por construir modelos que sean capaces de simular con mayor precisión la escritura humana, contribuyendo a su vez a la democratización del PLN haciendo públicos estos modelos. No obstante, en la mayoría de los casos prácticos, no será suficiente utilizar estos modelos pre-entrenados de forma directa, sino que será necesario adaptarlos al ámbito lingüístico o a la tarea que queramos abordar. En esta charla, te explicaremos los conceptos básicos subyacentes a estos modelos, además de cómo utilizar estos modelos ...