Criterios para determinar la calidad de los estudios primarios en el contexto de una SLR: El proceso de extracción en un estudio terciario

Guardiola Churiaque, Alberto (2022). Criterios para determinar la calidad de los estudios primarios en el contexto de una SLR: El proceso de extracción en un estudio terciario. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. de Sistemas Informáticos (UPM), Madrid.

Description

Title: Criterios para determinar la calidad de los estudios primarios en el contexto de una SLR: El proceso de extracción en un estudio terciario
Author/s:
  • Guardiola Churiaque, Alberto
Contributor/s:
  • Gallardo Pérez, Carolina
  • Pérez Martínez, Jorge Enrique
Item Type: Final Project
Degree: Grado en Ingeniería del Software
Date: July 2022
Subjects:
Freetext Keywords: Sistematic Literature Review; SLR; Ingeniería del Software; Evaluación de calidad; Procesamiento del Lenguaje Natural
Faculty: E.T.S.I. de Sistemas Informáticos (UPM)
Department: Sistemas Informáticos
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img] PDF - Users in campus UPM only - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (1MB)
[img] Archive (ZIP) - Users in campus UPM only
Download (713kB)

Abstract

El presente trabajo está enmarcado teóricamente dentro del ámbito de las revisiones sistemáticas de literatura, concretamente en los instrumentos de calidad basados en listas de comprobación usados para evaluar la calidad de estudios primarios. Prácticamente, se encuentra enmarcado dentro del procesamiento del lenguaje natural, destacando la similitud semántica como principal herramienta. Con la realización de este proyecto se pretende obtener un modelo cuya entrada sea un cuerpo de oraciones y como salida se obtenga un conjunto de agrupaciones de las oraciones de entrada donde cada agrupación comparte una única característica relacionada con la evaluación de la calidad. Para obtener la solución deseada se ha dividido el proceso en dos partes, una parte inicial donde se trabaja sobre una muestra de estudios reducida y una segunda parte donde se tienen en cuenta todos los estudios. Para la obtención de los criterios de calidad que forman las checklist de estudios secundarios se ha realizado un proceso de extracción de información manualmente. Para evitar ruido en la información se realiza un filtrado de los criterios donde se eliminan los específicos. Para la creación del modelo se ha tomado un enfoque incremental. Considerando como objetivo la agrupación se han utilizado técnicas de procesamiento de lenguaje natural. Se han preprocesado los criterios para facilitar el análisis y luego se han vectorizado, siguiendo el esquema bolsa de palabras. Una vez ya están listos para analizar, se han empleado distintos enfoques y se ha analizado su efectividad. Para medir la diferencia entre criterios se ha utilizado la similitud del coseno. Además, se ha incluido el uso de TF-IDF para valorar la importancia de los términos en el cuerpo general. Para el agrupamiento de criterios se utiliza la sinonimia de las palabras mediante WordNet, aumentando el reconocimiento de similares excluidos anteriormente por utilizar términos distintos. El siguiente enfoque es la eliminación de los términos más frecuentes para eliminar los problemas que causan. La idea de utilizar TF-IDF es la de restar importancia a las palabras comunes a la hora de calcular distancias, por lo que se combina esta técnica con la de sinonimia. Los enfoques que resultan más efectivos son aquellos en los que las palabras más usadas se eliminan o tienen un valor bajo. Una vez obtenidos los modelos, se procesan todos los criterios disponibles, se evalúan los modelos, mostrando alta precisión, y se estudian los resultados. Los criterios más utilizados son: objetivos del estudio definidos, diseño del estudio adecuado, descripción del contexto de la investigación y resultados escritos entre otros. Tras la realización de este proyecto se espera que los resultados obtenidos sean de utilidad para definir una lista de criterios objetiva y así poder reducir el sesgo de los investigadores y el tiempo que se utiliza para realizar las evaluaciones de calidad. Abstract: This project is theoretically framed within the field of Systematic Literature Reviews (SLR), concretely in the field of quality instruments based on checklists used to evaluate the quality of primary studies. Practically, it is framed in the field of natural language processing (NLP), standing out the semantic similarity as the main tool to be used. The development of this project is focused in obtaining a model, with a corpus of sentences as the data input and clusters of sentences as the output, where each cluster share a unique characteristic related to quality assessment. In order to obtain the desired solution, the process has been split in two parts, an initial part where work is carried out on a small sample of studies and a second part where all the studies are considered. To get the quality criteria that constitute the primary studies’ checklists a data extraction process has been carried out manually. To avoid noise in the data, a filtering process has been done, removing the specific criteria. For the purpose of creating the model, an incremental approach has been taken. Considering the clustering as the objective, NLP techniques have been used. The criteria have been pre-processed to simplify the analysis. After it, they have been vectorized following the Bag of Words (BoW) scheme. Once they are ready to analyse, different approaches have been used and their effectiveness has been analysed. To measure the contrast between criteria, the cosine similarity measure has been used. In addition, the ideas of TF-IDF have been included to assess the significance of the words in the general corpus. For criteria groups to be formed, the synonymy of the words has been employed through WordNet, increasing the recognition of similar criteria that had been previously excluded due to the use of different terms to express the same meaning. The next approach is the removal of the most frequent words to avoid the problems that they caused. The idea of using TF-IDF is to moderate the impact common words have in the similarity value when calculating distances. This technique has also been combined with synonymy approach previously done. The most effective approaches are those in which the frequent words are removed or are lowly valued. Once the models had been obtained, all the available quality assessment questions were processed, the models were evaluated, showing high precision, and the results have studied and explained. The most used criteria are: aims of the study defined, adequate study design, description of the research context and findings clearly stated, among others. After completing this project, the results obtained are expected to be useful when defining a list of objective criteria and thus be able to reduce the bias of the researchers and the time used to carry out quality assessments.

More information

Item ID: 71343
DC Identifier: https://oa.upm.es/71343/
OAI Identifier: oai:oa.upm.es:71343
Deposited by: Biblioteca Universitaria Campus Sur
Deposited on: 21 Jul 2022 20:24
Last Modified: 21 Jul 2022 20:24
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM