Ir al contenido principal

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

Creación de un mini corpus del español con libros de dominio público

Los libros de dominio público son un gran recurso para generar un pequeño corpus del español gracias a la variedad de los textos. En este artículo os explicamos cómo generarlo de una manera muy sencilla a partir de los documentos indexados en la web de textos.info.

En textos.info hay más de 4000 libros disponibles para leer y/o descargar. Desde clásicos como "La Ilíada", "La Biblia" o "El Quijote" a libros más "modernos" (comienzos del s.XX) como son "Poeta en Nueva York", "Niebla" o "La Metamorfosis".



Requisitos

  • Python 3.8 - Todos los ejemplos que usan python se han ejecutado con esta versión.
  • PyEnv o Conda - Recomendamos el uso de alguna de estas herramientas para la gestión de versiones de Python y los entornos virtuales.
  • Pandoc 2.14 - Herramienta que permite convertir entre varios formatos como puede ser de ePub a texto plano.

Requisitos para los scripts de Python

Para que los scripts de Python se ejecuten correctamente es necesario instalar los siguientes paquetes con pip:

beautifulsoup4==4.9.3
httpx==0.18.2
lxml==4.6.3
pypandoc==1.6.3
tqdm==4.61.2
gensim==4.0.1

Puedes copiar el listado anterior y meterlo en un fichero requirements.txt para instalarlos de golpe. Por ejemplo, supongamos que el directorio de trabajo es "corpuslibros" y el mencionado archivo ya tiene el listado de paquetes:

~$ cd corpuslibros 
~/corpuslibros$ pip install -r requirements.txt

Con esto quedarían todas las dependencias instaladas. Ahora viene la parte más interesante.

Descarga de libros

Lo primero de todo es descargarnos los libros que tenemos a disposición en textos.info para lo que nos ayudaremos del catálogo OPDS que tienen implementado y este pequeño crawler que se descargará de manera automática todos los libros disponibles:

Puedes descargar el archivo, después de comprobar lo que hace, y ejecutarlo de la siguiente manera:

~/corpuslibros$ python textos_info_donwload.py

Tras un rato tendrás todos los libros descargados en el directorio "textos.info" en formato de texto plano.

Limpieza

El siguiente paso consiste en limpiar estos archivos. Si los abrimos, veremos que tiene una cabecera y un pie que se repite en todos los archivos. Lo que haremos será eliminarlos para dejar el texto que nos interesa que es el propio del libro. Para esto dejamos el siguiente script listo para ser ejecutado:

En definitiva, lo que hace es buscar la línea de final de cabecera y la de principio de pie para quedarse con lo que hay en el medio. Además de esto, elimina todos los saltos de línea haciendo que todo el texto ocupe una línea. Ejecuta el script de la siguiente manera para ver el progreso:

~/corpuslibros$ ./clean_docs.sh | tqdm --total $(ls -l textos.info | wc -l) --unit files

Este script crea un directorio nuevo llamada "textos.info_cleaned" con todos los archivos ya sin cabecera ni pie. El siguiente paso es juntar todos los archivos en uno:

~/corpuslibros$ cat textos.info_cleaned/* > textosinfo.txt

Y con esto ya tenemos nuestro corpus de los libros de dominio público en textosinfo.txt. Algunos datos interesantes sobre este corpus:
  • Ocupa ~400MB
  • Mas de 4000 libros en español de diferentes temáticas y estilos.
  • Contiene 73,9 Millones de palabras
  • De los cuales 525.492 son palabras únicas.

Comentarios

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...

Cómo ajustar tu propio modelo de lenguaje generativo

¿Has oído hablar de GPT2, GPT3 u OPT? Estos son algunos de los modelos generativos de lenguaje más conocidos y utilizados a día de hoy, con aplicaciones en múltiples ámbitos como chatbots, question answering o autocompleción, entre otros. La generación del lenguaje natural es uno de los subcampos del PLN que más ha evolucionado en los últimos años gracias a los grandes volúmenes de datos disponibles y al aumento en la capacidad de cómputo. Son múltiples las empresas que compiten por construir modelos que sean capaces de simular con mayor precisión la escritura humana, contribuyendo a su vez a la democratización del PLN haciendo públicos estos modelos. No obstante, en la mayoría de los casos prácticos, no será suficiente utilizar estos modelos pre-entrenados de forma directa, sino que será necesario adaptarlos al ámbito lingüístico o a la tarea que queramos abordar. En esta charla, te explicaremos los conceptos básicos subyacentes a estos modelos, además de cómo utilizar estos modelos ...