@unpublished{upm71343, year = {2022}, author = {Alberto Guardiola Churiaque}, title = {Criterios para determinar la calidad de los estudios primarios en el contexto de una SLR: El proceso de extracci{\'o}n en un estudio terciario}, month = {July}, address = {Madrid}, abstract = {El presente trabajo est{\'a} enmarcado te{\'o}ricamente dentro del {\'a}mbito de las revisiones sistem{\'a}ticas de literatura, concretamente en los instrumentos de calidad basados en listas de comprobaci{\'o}n usados para evaluar la calidad de estudios primarios. Pr{\'a}cticamente, se encuentra enmarcado dentro del procesamiento del lenguaje natural, destacando la similitud sem{\'a}ntica como principal herramienta. Con la realizaci{\'o}n de este proyecto se pretende obtener un modelo cuya entrada sea un cuerpo de oraciones y como salida se obtenga un conjunto de agrupaciones de las oraciones de entrada donde cada agrupaci{\'o}n comparte una {\'u}nica caracter{\'i}stica relacionada con la evaluaci{\'o}n de la calidad. Para obtener la soluci{\'o}n deseada se ha dividido el proceso en dos partes, una parte inicial donde se trabaja sobre una muestra de estudios reducida y una segunda parte donde se tienen en cuenta todos los estudios. Para la obtenci{\'o}n de los criterios de calidad que forman las checklist de estudios secundarios se ha realizado un proceso de extracci{\'o}n de informaci{\'o}n manualmente. Para evitar ruido en la informaci{\'o}n se realiza un filtrado de los criterios donde se eliminan los espec{\'i}ficos. Para la creaci{\'o}n del modelo se ha tomado un enfoque incremental. Considerando como objetivo la agrupaci{\'o}n se han utilizado t{\'e}cnicas de procesamiento de lenguaje natural. Se han preprocesado los criterios para facilitar el an{\'a}lisis y luego se han vectorizado, siguiendo el esquema bolsa de palabras. Una vez ya est{\'a}n listos para analizar, se han empleado distintos enfoques y se ha analizado su efectividad. Para medir la diferencia entre criterios se ha utilizado la similitud del coseno. Adem{\'a}s, se ha incluido el uso de TF-IDF para valorar la importancia de los t{\'e}rminos en el cuerpo general. Para el agrupamiento de criterios se utiliza la sinonimia de las palabras mediante WordNet, aumentando el reconocimiento de similares excluidos anteriormente por utilizar t{\'e}rminos distintos. El siguiente enfoque es la eliminaci{\'o}n de los t{\'e}rminos m{\'a}s frecuentes para eliminar los problemas que causan. La idea de utilizar TF-IDF es la de restar importancia a las palabras comunes a la hora de calcular distancias, por lo que se combina esta t{\'e}cnica con la de sinonimia. Los enfoques que resultan m{\'a}s efectivos son aquellos en los que las palabras m{\'a}s usadas se eliminan o tienen un valor bajo. Una vez obtenidos los modelos, se procesan todos los criterios disponibles, se eval{\'u}an los modelos, mostrando alta precisi{\'o}n, y se estudian los resultados. Los criterios m{\'a}s utilizados son: objetivos del estudio definidos, dise{\~n}o del estudio adecuado, descripci{\'o}n del contexto de la investigaci{\'o}n y resultados escritos entre otros. Tras la realizaci{\'o}n de este proyecto se espera que los resultados obtenidos sean de utilidad para definir una lista de criterios objetiva y as{\'i} poder reducir el sesgo de los investigadores y el tiempo que se utiliza para realizar las evaluaciones de calidad. Abstract: This project is theoretically framed within the field of Systematic Literature Reviews (SLR), concretely in the field of quality instruments based on checklists used to evaluate the quality of primary studies. Practically, it is framed in the field of natural language processing (NLP), standing out the semantic similarity as the main tool to be used. The development of this project is focused in obtaining a model, with a corpus of sentences as the data input and clusters of sentences as the output, where each cluster share a unique characteristic related to quality assessment. In order to obtain the desired solution, the process has been split in two parts, an initial part where work is carried out on a small sample of studies and a second part where all the studies are considered. To get the quality criteria that constitute the primary studies? checklists a data extraction process has been carried out manually. To avoid noise in the data, a filtering process has been done, removing the specific criteria. For the purpose of creating the model, an incremental approach has been taken. Considering the clustering as the objective, NLP techniques have been used. The criteria have been pre-processed to simplify the analysis. After it, they have been vectorized following the Bag of Words (BoW) scheme. Once they are ready to analyse, different approaches have been used and their effectiveness has been analysed. To measure the contrast between criteria, the cosine similarity measure has been used. In addition, the ideas of TF-IDF have been included to assess the significance of the words in the general corpus. For criteria groups to be formed, the synonymy of the words has been employed through WordNet, increasing the recognition of similar criteria that had been previously excluded due to the use of different terms to express the same meaning. The next approach is the removal of the most frequent words to avoid the problems that they caused. The idea of using TF-IDF is to moderate the impact common words have in the similarity value when calculating distances. This technique has also been combined with synonymy approach previously done. The most effective approaches are those in which the frequent words are removed or are lowly valued. Once the models had been obtained, all the available quality assessment questions were processed, the models were evaluated, showing high precision, and the results have studied and explained. The most used criteria are: aims of the study defined, adequate study design, description of the research context and findings clearly stated, among others. After completing this project, the results obtained are expected to be useful when defining a list of objective criteria and thus be able to reduce the bias of the researchers and the time used to carry out quality assessments.}, url = {https://oa.upm.es/71343/}, keywords = {Sistematic Literature Review; SLR; Ingenier{\'i}a del Software; Evaluaci{\'o}n de calidad; Procesamiento del Lenguaje Natural} }