Avanzando en la detección del lenguaje ofensivo en español

SHARE y OffendES_spans: dos nuevos recursos para combatir el lenguaje ofensivo textual.

Durante la charla se presentarán dos recursos lingüísticos recientemente generados que serán clave para avanzar en la investigación del lenguaje ofensivo en español: SHARE y OffendES_spans.

SHARE es un recurso léxico con más de 10.000 términos y expresiones ofensivas por parte de la comunidad de hispanohablantes. Para el desarrollo de este recurso se ha utilizado Fiero, un popular chatbot desarrollado para entablar una conversación con los usuarios y recoger insultos y expresiones a través de la plataforma de mensajería de Telegram. Este vocabulario fue etiquetado manualmente por cinco anotadoras obteniendo un coeficiente kappa del 78,8%.

La generación de SHARE ha permitido liberar el primer corpus en español para el reconocimiento de entidades ofensivas, llamado OffendES_spans, cuya evaluación se ha llevado a cabo a través del desarrollo de uno de los primeros sistemas computacionales en español para la detección de posibles entidades ofensivas incluidas en textos de redes sociales, llegando a obtener un 91% de precisión.

Por último, se mostrará la utilidad del recurso SHARE como herramienta de apoyo a la interpretabilidad del lenguaje ofensivo en los sistemas computacionales.

Paper: http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.139.pdf.

Lugar: https://www.youtube.com/watch?v=Exi8QsRSs8s

Fecha y hora: 28 de julio a las 18.00h CET

Flor Miriam Plaza del Arco

Flor Miriam Plaza del Arco es titulada en Ingeniera Informática por la Universidad de Jaén. Actualmente, es FPI en el grupo SINAI de la Universidad de Jaén. Es miembro de la Sociedad Española para el Procesamiento del Lenguaje Natural, la red PLN.net y la comunidad DiverTLes.

Sus intereses científicos versan en una de las principales áreas de la Inteligencia Artificial, el Procesamiento del Lenguaje Natural, siendo su especialidad la detección del discurso de odio y el análisis de emociones en las redes sociales.

Ha sido citada en más de 300 de investigaciones y ha participado en diferentes proyectos de I+D relacionados con el PLN, destacando principalmente un proyecto para la ayudar a la detección temprana de lenguaje ofensivo en redes sociales entre los más jóvenes, financiado por la Dirección General de Violencia de Género, Igualdad de Trato y Diversidad de la Junta de Andalucía.

Ha realizado varias estancias de investigación, en 2019 en el centro de investigación Bruno Kessler Institute (Italia) y en el año 2021, en el Institute for Natural Language Processing de la Universidad de Stuttgart (Alemania).

Por último, ha sido galardonada con numerosos premios de investigación, destacando el primer premio del hackathon “Neologismos y tecnicismos en el ámbito energético y medioambiental” de la RAE y Fundación Endesa y el primer premio provincial en la II Edición del Concurso "Tu Tesis Doctoral en un Hilo de Twitter: #HiloTesis” de la Fundación Española para la ciencia y la tecnología.

NLP Spain

Buscar este blog

Comprendiendo el lenguaje humano a través del procesamiento del lenguaje natural: técnicas y algoritmos clave

Avanzando en la detección del lenguaje ofensivo en español

Flor Miriam Plaza del Arco

Comentarios

Publicar un comentario

Entradas populares de este blog

MarIA: El primer modelo de IA masivo de la lengua española

NLP en español es PLN: Recopilación de artículos introductorios y cursos de PLN en español