NLP Spain

Entradas

Mostrando entradas de agosto, 2021

Creación de conjuntos de datos de PLN desde cero

Este artículo es una traducción libre de otro en inglés sobre la creación de conjuntos de datos de PLN desde cero. Nos ha parecido muy interesante porque en español existen muy pocos conjuntos de datos y este artículo da ideas de cómo abordar el problema desde la experiencia del autor. Os animamos a que lo leáis y si os entran ganas de crear un dataset... ¡No olvidéis de decírnoslo para anunciarlo a bombo y platillo! 😀 . . . Existe la idea errónea de que la mejor manera de crear un conjunto de datos de PLN es definir primero un esquema de anotación riguroso y luego hacer las anotaciones en forma colectiva. El problema es que en realidad es muy difícil adivinar el esquema de anotación correcto desde el principio y, a menudo, esta es la parte más difícil en el lado del modelado (a diferencia del lado comercial). Esto se explica maravillosamente por Matthew Honnibal de spaCy en PyData 2018 . Entonces ¿cuál es la mejor manera de crear un conjunto de datos de PLN etiquetado para resolver u...

MarIA: El primer modelo de IA masivo de la lengua española

Estos días atrás se ha hablado mucho sobre MarIA, el nuevo modelo de lenguaje en español del Barcelona Supercomputing Center : Nos gustaría recoger en este artículo, extraído de un post escrito por Carmen Torrijos en LinkedIn, algunos datos rápidos: Corpus inicial: 59TB de texto web de los archivos de la Biblioteca Nacional de España. Tiempo de procesamiento para limpiar el corpus: 6.910.000 horas. Corpus limpio sin duplicidades: 201.080.084 documentos limpios (570 GB). Número de tokens: 135.733.450.668 (dato muy NLP). Tiempo de procesamiento para entrenar el modelo: 184.000 horas de procesador y 18.000 horas de CPU. Número de parámetros de los modelos liberados: 125.000.000 y 355.000.000. Y 5 conclusiones: El corpus de texto supera en órdenes de magnitud el tamaño de los existentes hasta el momento en español. Un proyecto así es inaccesible a nivel de empresa o grupo de investigación, debido no ya al acceso al corpus sino a la capacidad de computación necesaria. Es un modelo generali...

Recomendación del mes de agosto: Natural Language Processing with Python and spaCy

Este mes de agosto no podía faltar nuestra recomendación literaria. Hemos elegido el siguiente libro sobre Procesamiento del Lenguaje Natural: "Natural Language Processing with Python and Spacy" Es un libro muy ameno sobre Spacy y fácil de leer junto a un ordenador para entender las explicaciones mientras se ejecuta el código que proveen. Aunque el libro se escribió para la versión 2 de Spacy es perfectamente aplicable a la 3 a excepción de la parte de entrenado de modelos. Así que si lo que quieres es usar la herramienta y entender cómo funciona Spacy este libro es perfecto para ti. Aprenderás los entresijos de la librería y cómo usar las características lingüísticas para extraer palabras clave, reconocer intenciones e incluso construir un pequeño chatbot con todo lo aprendido en el libro. Os dejamos la tabla de contenidos para que os hagáis un idea mejor: INTRODUCTION Using Python for Natural Language Processing The spaCy Library Who Should Read This Book? What’s i...

NLP Spain

Buscar este blog

Entradas

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Creación de conjuntos de datos de PLN desde cero

MarIA: El primer modelo de IA masivo de la lengua española

Recomendación del mes de agosto: Natural Language Processing with Python and spaCy