La evaluación de los modelos de lenguaje de gran tamaño (LLMs) plantea importantes retos, especialmente para los idiomas distintos al inglés, donde a menudo escasean los datos de evaluación de alta calidad. Los benchmarks y rankings existentes se centran predominantemente en el inglés, y aquellos que sí abordan otros idiomas suelen pasar por alto la diversidad de variedades lingüísticas, priorizan las capacidades fundamentales del Procesamiento del Lenguaje Natural (PLN) por encima de tareas con relevancia industrial, y tienen un carácter estático.
Para abordar estas limitaciones, un grupo de investigadores profesionales, entre los que me incluyo, hemos publicado el artículo IberBench, un benchmark integral y extensible diseñado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en tareas de PLN relevantes para la industria, en lenguas habladas en la Península Ibérica y en Iberoamérica.
IberBench es un benchmark amplio, multilingüe y multivariedad que abarca español, portugués, catalán, euskera, gallego e inglés, así como variedades del español de México, Uruguay, Perú, Costa Rica y Cuba. Incluye 101 conjuntos de datos recopilados de campañas de evaluación y nuevos benchmarks, cubriendo 22 tipos de tareas diversas, como análisis de sentimiento y emoción, detección de toxicidad, detección de texto generado por máquinas y razonamiento de sentido común. Los conjuntos de datos se basan en tareas compartidas en workshops como IberLEF, IberEval, TASS y PAN, así como en benchmarks más recientes de propósito general para LLMs. Cabe destacar que IberBench estandariza muchos conjuntos de datos procedentes de workshops, lo que facilita su acceso.
El benchmark diferencia entre tareas fundamentales —que evalúan la competencia lingüística y el conocimiento básicos— y tareas relevantes para la industria, que tienen un impacto económico, como la moderación de contenido o el análisis de opiniones de clientes. Las tareas industriales provienen principalmente de workshops, mientras que las fundamentales suelen proceder de benchmarks ya consolidados, lo que pone de manifiesto una brecha en las prácticas actuales de evaluación.
La arquitectura del benchmark consta de cuatro componentes clave: la interfaz de ranking (Leaderboard UI), una organización de especialistas en PLN, los conjuntos de datos y el marco de evaluación de los LLMs. La interfaz, alojada en HuggingFace Spaces, actúa como la plataforma principal donde los usuarios pueden consultar clasificaciones, gráficos e informes, además de solicitar la evaluación de nuevos modelos o proponer nuevos conjuntos de datos. La organización revisa estas solicitudes según criterios específicos, como el enfoque en lenguas ibéricas para los datasets y la composición de los datos de entrenamiento en el caso de los modelos.

Una evaluación de 23 modelos de lenguaje (LLMs), con tamaños que van desde los 100 millones hasta los 14 mil millones de parámetros, reveló varias conclusiones clave:
- Los LLMs generalmente obtienen peores resultados en tareas relevantes para la industria que en tareas fundamentales.
- El gallego y el euskera presentan mayores desafíos para los modelos evaluados en comparación con otras lenguas ibéricas.
- Algunas tareas, como la detección de préstamos léxicos, la clasificación de intenciones y la detección de textos generados por máquinas, siguen en gran medida sin resolverse, y los LLM con mejores resultados apenas superan a un adivinador aleatorio.
- En otras tareas, como el análisis de sentimiento, la detección de humor y la detección de noticias falsas, los LLMs superan la línea base aleatoria, pero aún están por debajo del rendimiento de sistemas dedicados desarrollados específicamente para tareas compartidas.
- Los modelos con entre 3.100 y 10.000 millones de parámetros tienden a dominar los rankings, y la escala del modelo resulta especialmente importante en los modelos ajustados por instrucciones (instruction-tuned), sobre todo los que superan los 2.000 millones de parámetros.
- Los modelos europeos centrados en lenguas ibéricas son competitivos principalmente cuando están ajustados por instrucciones.
- Las variedades del español muestran rendimientos variables: algunas (como el español peruano, costarricense o uruguayo) presentan resultados más bajos y mayor número de valores atípicos en comparación con otras (como el español cubano, mexicano o el de España). A veces, los modelos multilingües —incluidos los ajustados para el euskera— superan a los modelos específicos para el español en distintas variedades del idioma.
Esto representa un desafío para las empresas que buscan ajustar LLMs para estos idiomas y resalta la necesidad de explorar soluciones de PLN especializadas y adaptadas a tareas concretas, lo que garantiza una mayor eficiencia y escalabilidad.
Para profundizar en la composición específica de los conjuntos de datos, los detalles de las tareas, las arquitecturas de los modelos evaluados, los resultados de rendimiento por tarea e idioma, así como en las complejidades de la metodología de evaluación y sus limitaciones, te animamos a leer el artículo completo de IberBench.




0 comentarios