@unpublished{upm64891, author = {Borja Zarco Garc{\'i}a}, title = {Algoritmos de clasificaci{\'o}n supervisados y semi-supervisados: an{\'a}lisis y comparativa}, address = {Madrid}, year = {2020}, abstract = {En la pr{\'a}ctica, cuando se busca un algoritmo de Data Mining que ayude a extraer conocimiento de un conjunto de datos espec{\'i}fico, se realizan muchas pruebas preliminares para identificar el que mejor captura la ?esencia? de los datos. Normalmente, estas pruebas incluyen lanzar varios experimentos con diferentes algoritmos y diferentes configuraciones para cada uno de ellos. Esta actividad supone un coste elevado de recursos tanto computacionales como de tiempo. En particular, este coste se podr{\'i}a minimizar si se tiene en cuenta una serie de comportamientos t{\'i}picos de los algoritmos sobre un conjunto de datos que puede caracterizarse de alguna manera. Para conocer c{\'o}mo se comportar{\'i}a un determinado algoritmo dado un conjunto de datos, resulta conveniente adaptar {\'e}ste. Adicionalmente, es necesario modificar o pre-tratar el conjunto de datos para que {\'e}ste tambi{\'e}n se adapte al formato de entrada que requiere el algoritmo. Si la situaci{\'o}n requiere probar varios algoritmos entonces es posible que se generen varias versiones del conjunto de datos con modificaciones que incluyen la adaptaci{\'o}n de los valores de entrada de tal manera que ellos representen las situaciones m{\'a}s t{\'i}picas para extraer conocimiento sobre los datos. Por ejemplo, estas modificaciones o ?adaptaciones? incluyen la normalizaci{\'o}n de los datos, la introducci{\'o}n de campos o valores vac{\'i}os o ruido, la adaptaci{\'o}n de diferentes formatos de entrada y la eliminaci{\'o}n de atributos. Por otro lado, si se quiere entender por qu{\'e} un determinado algoritmo se comporta de la manera que lo hace frente a una situaci{\'o}n, es necesario explicar el funcionamiento de {\'e}ste y su naturaleza. Esto, junto con otros conceptos como el ciclo de la miner{\'i}a de Datos, la tipolog{\'i}a de los algoritmos, la distribuci{\'o}n del conjunto de datos inicial, las m{\'e}tricas de evaluaci{\'o}n y comparaci{\'o}n, son el marco de este documento y por tanto, de este Trabajo de Fin de Grado. En particular, una vez conseguidas las diferentes situaciones t{\'i}picas, es el momento de realizar m{\'u}ltiples pruebas con cada uno de los algoritmos, para obtener resultados que puedan ser evaluados y as{\'i} conocer qu{\'e} algoritmo o algoritmos son los que mejor comportamiento y resultados exhiben en cada situaci{\'o}n. La idea subyacente es que el an{\'a}lisis del comportamiento de diferentes algoritmos aplicados sobre el mismo conjunto de datos sea una experiencia de aprendizaje que permita extraer conocimiento de c{\'o}mo utilizar {\'e}stos en otros contextos y escenarios de uso. Este es el objetivo principal de este Trabajo de Fin de Grado. Particularmente, esta experiencia se pretende alimentar con el conocimiento que se puede adquirir por medio de diferentes gr{\'a}ficas que muestran con facilidad c{\'o}mo los algoritmos se comportan para las situaciones propuestas, enfrent{\'a}ndolos entre s{\'i}, y determinando cu{\'a}les se deber{\'i}an utilizar primero para ocasiones y cu{\'a}les no. Abstract: In practice, when looking for a Data Mining algorithm to help extract knowledge from a specific data set, many preliminary tests are performed in order to identify the one that best captures the "essence" of the data. Typically, these tests include launching several experiments with different algorithms and different configurations for each of them. This activity involves a high cost of both computational resources and time. In particular, these costs could be reduced by taking into account a previous study about the typical behaviors of the algorithms on a data set in order to select the most appropriate and describe them. To know how a given algorithm would behave on a data set, it is convenient to adapt it to a specific use case scenario. Additionally, it is necessary to modify or pre-treat the data set so that it also adapts to the input format required by the algorithm. If the situation requires to test several algorithms, then it is possible that several versions of the data set can be generated with modifications that include the required adaptations. For example, these modifications or "adaptations" include the normalization of the data, the introduction of empty fields or noise, the adaptation of different input formats and the removal of attributes. On the other hand, if it is wanted to understand why a certain algorithm behaves the way it does in a situation, it is necessary to explain how it works and its specific nature. It includes, among other concepts, the cycle of Data Mining, the typology of the algorithms, the distribution of the initial data set, the evaluation and comparison metrics. All of them topics are the core of this document, and therefore the theoretical frameworks of this Final Degree project. Once the different concepts had been analyzed, it is time to perform multiple tests for each algorithm, in order to obtain results that can be evaluated to know which algorithm or algorithms exhibiting the best behaviors and results in each situation. The underlying idea for it is that the analysis of the behavior of different algorithms applied on the same set of data is a learning experience that allows us to extract knowledge of how to use them in other contexts and use scenarios. In particular, this is the main objective of this Final Project Degree. Additionally, this experience is intended to feed with the knowledge that can be acquired through different graphs that show easily how the algorithms behave for the proposed situations, facing them with each other, and determining which should be used in specific scenarios and which not.}, url = {https://oa.upm.es/64891/}, keywords = {Data Mining; Algoritmos Supervisados; Algoritmos Semi-supervisados} }