Texto completo
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (294kB) |
ORCID: https://orcid.org/0000-0002-9125-6225, Mayor Rocher, Marina
ORCID: https://orcid.org/0000-0002-4177-7559, Pozo Huertas, Cris, Melero Carrasco, María Inmaculada, Grandury González, María and Reviriego Vasallo, Pedro
ORCID: https://orcid.org/0000-0003-2540-5234
(2025).
Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs.
"Data in Brief", v. 63
;
https://doi.org/10.1016/j.dib.2025.112088.
| Título: | Spanish Is Not Just One: A Dataset of Spanish Dialect Recognition for LLMs |
|---|---|
| Autor/es: |
|
| Tipo de Documento: | Artículo |
| Título de Revista/Publicación: | Data in Brief |
| Fecha: | Diciembre 2025 |
| Volumen: | 63 |
| Materias: | |
| ODS: | |
| Palabras Clave Informales: | español; dialectos; variedades; NLP; LLMs; evaluación; sesgo; sociolingüística; léxico; morfosintaxis; benchmark; |
| Escuela: | E.T.S.I. de Sistemas Informáticos (UPM) |
| Departamento: | Sistemas Informáticos |
| Grupo Investigación UPM: | Internet de Nueva Generación |
| Licencias Creative Commons: | Ninguna |
|
PDF (Portable Document Format)
- Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (294kB) |
Presentamos un conjunto de datos para evaluar si los LLMs distinguen y usan correctamente las variedades del español. El recurso contiene 30 preguntas de opción múltiple cuidadosamente curadas por tres expertas/os en lingüística, que cubren variación léxica y morfosintáctica en siete macro-variedades: andina, antillana, chilena, caribeña continental, mexicana y centroamericana, peninsular europea y rioplatense. Todas las variedades responden a las mismas preguntas, variando únicamente las instrucciones de rol y el conjunto de opciones correctas, lo que permite comparaciones justas y la detección del sesgo dialectal por defecto de un modelo. El material fue revisado por pares, refinado iterativamente y probado en diversos LLMs para verificar comprensión y capacidad de discriminar rasgos dialectales. El dataset es útil para evaluación automática (LLMs) y humana (docencia, conciencia dialectal, sociolingüística). Está disponible en Zenodo (DOI: 10.5281/zenodo.15101403) y se relaciona con el estudio “It’s the same but not the same: Do LLMs distinguish Spanish varieties?”. Este recurso contribuye a evaluaciones más inclusivas y equitativas del español en PLN.
| ID de Registro: | 91162 |
|---|---|
| Identificador DC: | https://oa.upm.es/91162/ |
| Identificador OAI: | oai:oa.upm.es:91162 |
| URL Portal Científico: | https://portalcientifico.upm.es/es/ipublic/item/10392263 |
| Identificador DOI: | 10.1016/j.dib.2025.112088 |
| URL Oficial: | https://www.sciencedirect.com/science/article/pii/... |
| Depositado por: | Gonzalo Martínez Ruiz de Arcaute |
| Depositado el: | 28 Sep 2025 15:41 |
| Ultima Modificación: | 12 Nov 2025 00:00 |
Publicar en el Archivo Digital desde el Portal Científico