{"id":48328,"date":"2025-05-21T14:09:22","date_gmt":"2025-05-21T13:09:22","guid":{"rendered":"https:\/\/keepler.io\/?p=48328"},"modified":"2025-05-21T14:15:07","modified_gmt":"2025-05-21T13:15:07","slug":"un-extenso-benchmark-de-llms-y-modelos-de-pln-para-lenguas-ibericas-e-iberoamericanas","status":"publish","type":"post","link":"https:\/\/keepler.io\/es\/2025\/05\/21\/un-extenso-benchmark-de-llms-y-modelos-de-pln-para-lenguas-ibericas-e-iberoamericanas\/","title":{"rendered":"Benchmark de LLMs y modelos de PLN para lenguas ib\u00e9ricas e iberoamericanas"},"content":{"rendered":"<p><strong>La evaluaci\u00f3n de los modelos de lenguaje de gran tama\u00f1o (LLMs) plantea importantes retos<\/strong>, especialmente para los idiomas distintos al ingl\u00e9s, donde a menudo escasean los datos de evaluaci\u00f3n de alta calidad. Los <strong>benchmarks y rankings existentes se centran predominantemente en el ingl\u00e9s,<\/strong> y aquellos que s\u00ed abordan otros idiomas s<strong>uelen pasar por alto la diversidad de variedades ling\u00fc\u00edsticas, priorizan las capacidades fundamentales del Procesamiento del Lenguaje Natural (PLN) por encima de tareas con relevancia industrial, y tienen un car\u00e1cter est\u00e1tico.<\/strong><\/p>\n<p>Para abordar estas limitaciones, un grupo de investigadores profesionales, entre los que me incluyo, hemos publicado el art\u00edculo<strong> IberBench, un benchmark integral y extensible dise\u00f1ado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en tareas de PLN relevantes para la industria, en lenguas habladas en la Pen\u00ednsula Ib\u00e9rica y en Iberoam\u00e9rica.<\/strong><\/p>\n<p><strong><a href=\"https:\/\/arxiv.org\/abs\/2504.16921\">IberBench<\/a> es un benchmark amplio, multiling\u00fce y multivariedad que abarca espa\u00f1ol, portugu\u00e9s, catal\u00e1n, euskera, gallego e ingl\u00e9s, as\u00ed como variedades del espa\u00f1ol de M\u00e9xico, Uruguay, Per\u00fa, Costa Rica y Cuba<\/strong>. Incluye 101 conjuntos de datos recopilados de campa\u00f1as de evaluaci\u00f3n y nuevos benchmarks, cubriendo 22 tipos de tareas diversas, como an\u00e1lisis de sentimiento y emoci\u00f3n, detecci\u00f3n de toxicidad, detecci\u00f3n de texto generado por m\u00e1quinas y razonamiento de sentido com\u00fan. Los conjuntos de datos se basan en tareas compartidas en workshops como IberLEF, IberEval, TASS y PAN, as\u00ed como en benchmarks m\u00e1s recientes de prop\u00f3sito general para LLMs. Cabe destacar que IberBench estandariza muchos conjuntos de datos procedentes de workshops, lo que facilita su acceso.<\/p>\n<p><strong>El benchmark diferencia entre tareas fundamentales<\/strong> \u2014que eval\u00faan la competencia ling\u00fc\u00edstica y el conocimiento b\u00e1sicos\u2014<strong> y tareas relevantes para la industria,<\/strong> que tienen un impacto econ\u00f3mico, como la moderaci\u00f3n de contenido o el an\u00e1lisis de opiniones de clientes. Las tareas industriales provienen principalmente de workshops, mientras que las fundamentales suelen proceder de benchmarks ya consolidados, lo que pone de manifiesto una brecha en las pr\u00e1cticas actuales de evaluaci\u00f3n.<\/p>\n<p>La arquitectura del benchmark consta de cuatro componentes clave:<a href=\"https:\/\/huggingface.co\/spaces\/iberbench\/leaderboard\"> la interfaz de ranking (Leaderboard UI)<\/a>, <a href=\"https:\/\/huggingface.co\/iberbench\">una organizaci\u00f3n de especialistas en PLN<\/a>, l<a href=\"https:\/\/huggingface.co\/datasets\/iberbench\/iberbench_all\">os conjuntos de datos<\/a> y e<a href=\"https:\/\/github.com\/EleutherAI\/lm-evaluation-harness\">l marco de evaluaci\u00f3n de los LLMs<\/a>. La interfaz, alojada en HuggingFace Spaces, act\u00faa como la plataforma principal donde los usuarios pueden consultar clasificaciones, gr\u00e1ficos e informes, adem\u00e1s de solicitar la evaluaci\u00f3n de nuevos modelos o proponer nuevos conjuntos de datos. La organizaci\u00f3n revisa estas solicitudes seg\u00fan criterios espec\u00edficos, como el enfoque en lenguas ib\u00e9ricas para los datasets y la composici\u00f3n de los datos de entrenamiento en el caso de los modelos.<\/p>\n<p><img data-recalc-dims=\"1\" loading=\"lazy\" decoding=\"async\" class=\"wp-image-48308 size-full aligncenter\" src=\"https:\/\/i0.wp.com\/keepler.io\/wp-content\/uploads\/2025\/05\/LLMs-and-NLP-Models.png?resize=512%2C352&#038;ssl=1\" alt=\"\" width=\"512\" height=\"352\" srcset=\"https:\/\/keepler.io\/wp-content\/uploads\/2025\/05\/LLMs-and-NLP-Models.png 512w, https:\/\/keepler.io\/wp-content\/uploads\/2025\/05\/LLMs-and-NLP-Models-480x330.png 480w\" sizes=\"(min-width: 0px) and (max-width: 480px) 480px, (min-width: 481px) 512px, 100vw\" \/><\/p>\n<p>Una evaluaci\u00f3n de 23 modelos de lenguaje (LLMs), con tama\u00f1os que van desde los 100 millones hasta los 14 mil millones de par\u00e1metros, revel\u00f3 varias conclusiones clave:<\/p>\n<ul>\n<li>\u00a0<strong>Los LLMs generalmente obtienen peores resultados en tareas relevantes<\/strong> para la industria que en tareas fundamentales.<\/li>\n<li><strong>El gallego y el euskera presentan mayores desaf\u00edos<\/strong> para los modelos evaluados en comparaci\u00f3n con otras lenguas ib\u00e9ricas.<\/li>\n<li><strong>Algunas tareas<\/strong>, como la detecci\u00f3n de pr\u00e9stamos l\u00e9xicos, la clasificaci\u00f3n de intenciones y la detecci\u00f3n de textos generados por m\u00e1quinas, <strong>siguen en gran medida sin resolverse, y los LLM con mejores resultados apenas superan a un adivinador aleatorio.<\/strong><\/li>\n<li><strong>En otras tareas,<\/strong> como el an\u00e1lisis de sentimiento, la detecci\u00f3n de humor y la detecci\u00f3n de noticias falsas, <strong>los LLMs superan la l\u00ednea base aleatoria, pero a\u00fan est\u00e1n por debajo del rendimiento de sistemas dedicados desarrollados espec\u00edficamente para tareas compartidas.<\/strong><\/li>\n<li>Los modelos con entre 3.100 y 10.000 millones de par\u00e1metros tienden a dominar los rankings, y la escala del modelo resulta especialmente importante en los modelos ajustados por instrucciones (instruction-tuned), sobre todo los que superan los 2.000 millones de par\u00e1metros.<\/li>\n<li>Los modelos europeos centrados en lenguas ib\u00e9ricas son competitivos principalmente cuando est\u00e1n ajustados por instrucciones.<\/li>\n<li>Las variedades del espa\u00f1ol muestran rendimientos variables: algunas (como el espa\u00f1ol peruano, costarricense o uruguayo) presentan resultados m\u00e1s bajos y mayor n\u00famero de valores at\u00edpicos en comparaci\u00f3n con otras (como el espa\u00f1ol cubano, mexicano o el de Espa\u00f1a). A veces, los modelos multiling\u00fces \u2014incluidos los ajustados para el euskera\u2014 superan a los modelos espec\u00edficos para el espa\u00f1ol en distintas variedades del idioma.<\/li>\n<\/ul>\n<p><strong>Esto representa un desaf\u00edo para las empresas que buscan ajustar LLMs para estos idiomas y resalta la necesidad de explorar soluciones de PLN<\/strong> especializadas y adaptadas a tareas concretas, lo que garantiza una mayor eficiencia y escalabilidad.<\/p>\n<p>Para profundizar en la composici\u00f3n espec\u00edfica de los conjuntos de datos, los detalles de las tareas, las arquitecturas de los modelos evaluados, los resultados de rendimiento por tarea e idioma, as\u00ed como en las complejidades de la metodolog\u00eda de evaluaci\u00f3n y sus limitaciones, te animamos a leer el <a href=\"https:\/\/arxiv.org\/abs\/2504.16921\">art\u00edculo completo de IberBench.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La evaluaci\u00f3n de los modelos de lenguaje de gran tama\u00f1o (LLMs) plantea importantes retos, especialmente para los idiomas distintos al ingl\u00e9s, donde a menudo escasean los datos de evaluaci\u00f3n de alta calidad. Los benchmarks y rankings existentes se centran predominantemente en el ingl\u00e9s, y aquellos que s\u00ed abordan otros idiomas suelen pasar por alto la [&hellip;]<\/p>\n","protected":false},"author":134360170,"featured_media":48325,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none","_seopress_titles_title":"Benchmark de LLMs y modelos de PLN para lenguas ib\u00e9ricas e iberoamericanas","_seopress_titles_desc":"Un benchmark integral y extensible dise\u00f1ado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en tareas de PLN relevantes para la industria.","_seopress_robots_index":"","_et_pb_use_builder":"","_et_pb_old_content":"","_et_gb_content_width":"","_crdt_document":"","content-type":"","_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"_wpas_customize_per_network":false,"jetpack_post_was_ever_published":false},"categories":[222],"tags":[497,498,499],"class_list":["post-48328","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia","tag-iberbench-es","tag-llm-benchmark-es","tag-multilingual-nlp-es"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/i0.wp.com\/keepler.io\/wp-content\/uploads\/2025\/05\/keepler-extensive-benchmark-of-llms-and-nlp-models.iberia-ibero-american-languages-1.jpg?fit=1280%2C450&ssl=1","jetpack_shortlink":"https:\/\/wp.me\/p9CeZw-czu","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/48328","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/users\/134360170"}],"replies":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/comments?post=48328"}],"version-history":[{"count":3,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/48328\/revisions"}],"predecessor-version":[{"id":48333,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/posts\/48328\/revisions\/48333"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/media\/48325"}],"wp:attachment":[{"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/media?parent=48328"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/categories?post=48328"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/keepler.io\/es\/wp-json\/wp\/v2\/tags?post=48328"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}