Full text
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (897kB) |
Matias Rayme, Nataly Melissa (2023). Método de clasificación de género a partir de etiquetas no estandarizadas de nombres y apellidos: caso práctico en el estudio de brecha de género en la investigación. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Método de clasificación de género a partir de etiquetas no estandarizadas de nombres y apellidos: caso práctico en el estudio de brecha de género en la investigación |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Ciencia de Datos |
Date: | July 2023 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (897kB) |
La clasificación de género basada en etiquetas de nombres ha permitido realizar estudios científicos, tanto en el ámbito académico como en los sectores público y privado, donde se requiere determinar el género de las personas. Sin embargo, muchas fuentes de datos no tienen una estructura fija en los nombres y apellidos, lo que dificulta la aplicación de métodos existentes.
Este trabajo tiene como objetivo principal crear mecanismos refinados para identificar el género a partir de etiquetas sin estructura de nombres y apellidos.
Se realiza una comparativa de cuatro métodos, incluyendo una técnica de machine learning SVM, un API de pago, los paquetes gender-guesser y NBG de Python, para determinar cuál tiene la mejor efectividad. Se desarrolla un método propio que incorpora un preproceso para mejorar la capacidad de identificación del género. La implementación se aplica al estudio de la brecha de género en la investigación, obteniendo resultados significativos.
Los resultados demuestran que el método NBG alcanza un accuracy del 99% y se destaca la importancia del preproceso en etiquetas sin estructura.
Se concluye que la contribución de este trabajo es la creación de un método de clasificación de género a partir de etiquetas no estandarizadas de nombres y apellidos.
Como una línea de investigación futura se propone el desarrollo de una plataforma web o API que permita a los usuarios ingresar conjuntos de datos almacenado en diversos tipos de archivos. El objetivo principal es aplicar el método propuesto en este estudio para generar el género correspondiente a cada una de las personas representadas en los archivos proporcionados. Esta iniciativa proporcionaría a los usuarios una herramienta eficiente y accesible para el análisis de datos y la generación de información demográfica en diversos campos.
ABSTRACT
Gender classification based on name tags has enabled scientific studies, both in academia and in the public and private sectors, where the gender of individuals needs to be determined. However, many data sources do not have a fixed structure in names and surnames, which makes the application of existing methods difficult.
The main objective of this work is to create refined mechanisms to identify gender from labels without a first and last name structure.
A comparison of four methods, including an SVM machine learning technique, a paid API, Python's gender-guesser and NBG packages, is performed to determine which has the best effectiveness. A proprietary method is developed that incorporates a preprocess to improve gender identification capability. The implementation is applied to the gender gap study in research, obtaining significant results.
The results show that the NBG method achieves an accuracy of 99% and the importance of the preprocess in unstructured labels is highlighted.
It is concluded that the contribution of this work is the creation of a gender classification method from non-standardized labels of names and surnames.
As a line of future research, we propose the development of a web platform or API that allows users to enter data sets stored in various types of files. The main objective is to apply the method proposed in this study to generate the gender corresponding to each of the persons represented in the files provided. This initiative would provide users with an efficient and accessible tool for data analysis and generation of demographic information in various fields.
Item ID: | 75852 |
---|---|
DC Identifier: | https://oa.upm.es/75852/ |
OAI Identifier: | oai:oa.upm.es:75852 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 14 Sep 2023 08:37 |
Last Modified: | 14 Sep 2023 08:37 |