Introducción El procesamiento del lenguaje natural es una rama de la informática que se centra en la comprensión y el procesamiento del lenguaje humano por parte de las máquinas. A través del uso de técnicas y algoritmos especializados, el procesamiento del lenguaje natural nos permite interactuar con las máquinas a través del lenguaje natural, como lo hacemos con otras personas. El procesamiento del lenguaje natural tiene una amplia gama de aplicaciones, desde el análisis de sentimiento en redes sociales hasta la traducción automática y el procesamiento de consultas de búsqueda. Esta tecnología ha revolucionado la forma en que nos comunicamos y accedemos a la información, y su importancia solo ha ido en aumento con el tiempo. A lo largo de los años, el procesamiento del lenguaje natural ha evolucionado gracias a avances en técnicas y algoritmos. En este artículo, exploraremos las técnicas y algoritmos clave que se utilizan en el procesamiento del lenguaje natural y cómo juegan un pape...
Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos:
- Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España.
- Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas.
- Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB).
- Número de tokens: 135.733.450.668 (dato muy NLP).
- Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU.
- Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000.
- El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español.
- Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria.
- Es un modelo generalista y supone un impulso a las tecnologías del lenguaje en español en todos los sectores, ya que está disponible en abierto y sin coste.
- Existiendo MarIA, deja de tener sentido invertir en crear otros modelos generalistas del español por muchas razones, principalmente económicas y ecológicas.
- Sí tiene sentido en cambio dedicar recursos a la creación de modelos de lenguaje especializado (legal, sanitario, científico...), partiendo de los modelos generalistas.
Comentarios
Publicar un comentario