Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs

Martínez Ruiz, Gonzalo ORCID: https://orcid.org/0000-0002-9125-6225, Mayor Rocher, Marina ORCID: https://orcid.org/0000-0002-4177-7559, Pozo Huertas, Cris, Melero Carrasco, María Inmaculada, Grandury González, María and Reviriego Vasallo, Pedro ORCID: https://orcid.org/0000-0003-2540-5234 (2025). Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs. "Data in Brief", v. 63 ; https://doi.org/10.1016/j.dib.2025.112088.

Descripción

Título: Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs
Autor/es:
Tipo de Documento: Artículo
Título de Revista/Publicación: Data in Brief
Fecha: Diciembre 2025
Volumen: 63
Materias:
ODS:
Palabras Clave Informales: español; dialectos; variedades; NLP; LLMs; evaluación; sesgo; sociolingüística; léxico; morfosintaxis; benchmark;
Escuela: E.T.S.I. de Sistemas Informáticos (UPM)
Departamento: Sistemas Informáticos
Grupo Investigación UPM: Internet de Nueva Generación
Licencias Creative Commons: Ninguna

Texto completo

[thumbnail of S2352340925008108.pdf] PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (294kB)

Resumen

Presentamos un conjunto de datos para evaluar si los LLMs distinguen y usan correctamente las variedades del español. El recurso contiene 30 preguntas de opción múltiple cuidadosamente curadas por tres expertas/os en lingüística, que cubren variación léxica y morfosintáctica en siete macro-variedades: andina, antillana, chilena, caribeña continental, mexicana y centroamericana, peninsular europea y rioplatense. Todas las variedades responden a las mismas preguntas, variando únicamente las instrucciones de rol y el conjunto de opciones correctas, lo que permite comparaciones justas y la detección del sesgo dialectal por defecto de un modelo. El material fue revisado por pares, refinado iterativamente y probado en diversos LLMs para verificar comprensión y capacidad de discriminar rasgos dialectales. El dataset es útil para evaluación automática (LLMs) y humana (docencia, conciencia dialectal, sociolingüística). Está disponible en Zenodo (DOI: 10.5281/zenodo.15101403) y se relaciona con el estudio “It’s the same but not the same: Do LLMs distinguish Spanish varieties?”. Este recurso contribuye a evaluaciones más inclusivas y equitativas del español en PLN.

Proyectos asociados

Tipo
Código
Acrónimo
Responsable
Título
Gobierno de España
PID2022-136684OB-C21/C22
FUN4DATE
Sin especificar
Sin especificar
Gobierno de España
PCI2024-153434
SMARTY
Sin especificar
Sin especificar
Horizonte Europa
101140087
SMARTY
Sin especificar
Sin especificar

Más información

ID de Registro: 91162
Identificador DC: https://oa.upm.es/91162/
Identificador OAI: oai:oa.upm.es:91162
URL Portal Científico: https://portalcientifico.upm.es/es/ipublic/item/10392263
Identificador DOI: 10.1016/j.dib.2025.112088
URL Oficial: https://www.sciencedirect.com/science/article/pii/...
Depositado por: Gonzalo Martínez Ruiz de Arcaute
Depositado el: 28 Sep 2025 15:41
Ultima Modificación: 12 Nov 2025 00:00