Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs

Martínez Ruiz, Gonzalo

, Mayor Rocher, Marina

, Pozo Huertas, Cris, Melero Carrasco, María Inmaculada, Grandury González, María and Reviriego Vasallo, Pedro

(2025). Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs. "Data in Brief", v. 63 ; https://doi.org/10.1016/j.dib.2025.112088.

Descripción

Título:	Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs
Autor/es:	Martínez Ruiz, Gonzalo https://orcid.org/0000-0002-9125-6225 Mayor Rocher, Marina https://orcid.org/0000-0002-4177-7559 Pozo Huertas, Cris Melero Carrasco, María Inmaculada Grandury González, María Reviriego Vasallo, Pedro https://orcid.org/0000-0003-2540-5234
Tipo de Documento:	Artículo
Título de Revista/Publicación:	Data in Brief
Fecha:	Diciembre 2025
Volumen:	63
Materias:	Informática Ciencias Sociales
ODS:	09. Industria, innovación e infraestructura
Palabras Clave Informales:	español; dialectos; variedades; NLP; LLMs; evaluación; sesgo; sociolingüística; léxico; morfosintaxis; benchmark;
Escuela:	E.T.S.I. de Sistemas Informáticos (UPM)
Departamento:	Sistemas Informáticos
Grupo Investigación UPM:	Internet de Nueva Generación
Licencias Creative Commons:	Ninguna

Texto completo

PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (294kB)

Resumen

Presentamos un conjunto de datos para evaluar si los LLMs distinguen y usan correctamente las variedades del español. El recurso contiene 30 preguntas de opción múltiple cuidadosamente curadas por tres expertas/os en lingüística, que cubren variación léxica y morfosintáctica en siete macro-variedades: andina, antillana, chilena, caribeña continental, mexicana y centroamericana, peninsular europea y rioplatense. Todas las variedades responden a las mismas preguntas, variando únicamente las instrucciones de rol y el conjunto de opciones correctas, lo que permite comparaciones justas y la detección del sesgo dialectal por defecto de un modelo. El material fue revisado por pares, refinado iterativamente y probado en diversos LLMs para verificar comprensión y capacidad de discriminar rasgos dialectales. El dataset es útil para evaluación automática (LLMs) y humana (docencia, conciencia dialectal, sociolingüística). Está disponible en Zenodo (DOI: 10.5281/zenodo.15101403) y se relaciona con el estudio “It’s the same but not the same: Do LLMs distinguish Spanish varieties?”. Este recurso contribuye a evaluaciones más inclusivas y equitativas del español en PLN.

Proyectos asociados

Tipo

Código

Acrónimo

Responsable

Título

Gobierno de España

PID2022-136684OB-C21/C22

FUN4DATE

Sin especificar

Gobierno de España

PCI2024-153434

SMARTY

Sin especificar

Horizonte Europa

101140087

SMARTY

Sin especificar

Más información

ID de Registro:	91162
Identificador DC:	https://oa.upm.es/91162/
Identificador OAI:	oai:oa.upm.es:91162
URL Portal Científico:	https://portalcientifico.upm.es/es/ipublic/item/10392263
Identificador DOI:	10.1016/j.dib.2025.112088
URL Oficial:	https://www.sciencedirect.com/science/article/pii/...
Depositado por:	Gonzalo Martínez Ruiz de Arcaute
Depositado el:	28 Sep 2025 15:41
Ultima Modificación:	12 Nov 2025 00:00

Estadísticas

Exportar cita

Editar (sólo personal del Archivo)

En esta página

Menú principal

Buscar

Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs

Cita

Descripción

Texto completo

Resumen

Proyectos asociados

Más información

Acciones

Metrics

Altmetrics probando

Dimensions

Documentos

El repositorio

Agrupados por ...

Datos Investigación

Financiadores

Especiales

En otros formatos

Redes sociales

Información adicional