Ir al contenido principal

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

NLP en español es PLN: Recopilación de artículos introductorios y cursos de PLN en español

El Procesamiento del Lenguaje Natural, o PLN para simplificar, es una rama de la inteligencia artificial y la lingüística aplicada. A nuestro parecer un área muy interesante que conjuga humanidades con la tecnología más puntera. Para que luego digan que hay que elegir entre ciencias o humanidades. Un O exclusivo que nos han inculcado y que no puede estar tan equivocado.

En este artículo recopilatorio queríamos poner nuestro granito de arena para ayudar a todos aquellos interesados en el PLN (o NLP si se prefiere aunque La Fundéu no estaría muy contenta) pero que no están tan familiarizados con las herramientas técnicas que permiten procesar el lenguaje o cómo darle utilidad a los conocimientos tan valiosos sobre lingüística de una manera práctica. La principal diferencia de este artículo con otros es que vamos a intentar que los recursos presentados sirvan o pongan de ejemplo el procesamiento del español, segunda lengua materna más hablada en el mundo después del chino pero que tiene un escaso alcance en lo que al procesamiento del lenguaje natural se refiere. Aunque debo decir, que afortunadamente, esto está cambiando y se están haciendo esfuerzos por poner el español en el lugar que le toca dentro de este ámbito.

Lecturas o videos online para entender mejor qué es y cómo se aplica el PLN

Los siguientes artículos en español hablan a alto nivel sobre qué es y el papel que tiene el procesamiento del lenguaje natural para hacer que las máquinas comprendan textos no estructurados. Algunos incluso se adentran en las técnicas y herramientas que se usan:
En Youtube también hay unos cuantos vídeos en español muy interesantes para entender mejor esto del PLN:
En inglés se pueden encontrar muchos más recursos. Con una simple búsqueda en internet "Introduction to NLP" el listado de artículos y vídeos es casi infinito, y si se quiere profundizar en el estado del arte o las últimas investigaciones es mejor buscar en este idioma.

Cursos en línea gratuitos y en español de PLN

Hasta hace poco no había mucho en español en cuanto a cursos de PLN se refiere pero en los últimos tiempos la comunidad se ha revuelto y ahora podemos encontrar varios cursos muy interesantes. Aquí os dejamos un listado:
Vamos a hacer una excepción en este apartado y es que algunos de los cursos más completos están en inglés y sería un error no mencionarlos. Las técnicas y herramientas explicadas bien se pueden aplicar al idioma español. Nos ha parecido muy relevante compartir aquí los siguientes:

Tutoriales de herramientas para aplicar PLN

En este apartado es mas complicado encontrar material en español, pero algo hay. Aquí os dejamos lo que hemos encontrado, algunos en español y otros en inglés (hemos tenido que hacer otra excepción, damn it!):
Esta lista no es de ningún modo exhaustiva y si conocéis algún curso, artículo o tutorial que merezca la pena mencionar os agradeceríamos que nos los dejarais en los comentarios. ¡Y si es en español mejor que mejor!

¡Esperemos que os sean de utilidad!

Comentarios

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Recomendación del mes de octubre: Mastering Spacy

  La recomendación de este mes de octubre ha estado reñida pero finalmente hemos elegido una guía práctica para implementar NLP usando la librería de "fortaleza industrial" (tal y como la definen sus creadores) de nombre spaCy . Mastering spaCy Es un libro reciente. Fue publicado en julio del 2021 y cuenta con 356 páginas. Se divide en tres grandes secciones: Getting Started with spaCy : En esta sección se explica cómo instalar la librería, los modelos estadísticos y la herramienta de visualización llamada displaCy . spaCy Features : Donde se centra en las características lingüísticas desde la sintaxis a la semántica, incluye recetas prácticas usando coincidencia de patrones basados en reglas y ahonda en los vectores de palabras y los métodos estadísticos de extracción de información. La sección acaba poniendo en práctica todos estos conceptos en una pipeline NLP. Machine Learning with spaCy : La última sección explica cómo usar el aprendizaje automático con spaCy . C...