Full text
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
Garrido Agenjo, Óscar Arturo (2017). Aplicación de técnicas de Cluster al análisis de responsabilidad de los conductores en accidentes de tráfico. Proyecto Fin de Carrera / Trabajo Fin de Grado, E.T.S.I. Industriales (UPM).
Title: | Aplicación de técnicas de Cluster al análisis de responsabilidad de los conductores en accidentes de tráfico |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Final Project |
Degree: | Grado en Ingeniería en Tecnologías Industriales |
Date: | 20 July 2017 |
Subjects: | |
Freetext Keywords: | Accidente, conductor, exposición, responsabilidad, K-means, SOM, cluster, nodo, variable, infracción |
Faculty: | E.T.S.I. Industriales (UPM) |
Department: | Ingeniería de Organización, Administración de Empresas y Estadística |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
Preview |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (2MB) | Preview |
El objetivo del TFG es la aplicación de técnicas de análisis clúster, kmeans y SOM, al análisis de datos micro sobre accidentes de tráfico en España en el periodo entre 2004 y 2013.
El TFG se enmarca dentro de las investigaciones de la tesis doctoral de una codirectora, Almudena Sanjurjo de No, sobre estimación de la movilidad de transporte por carretera en España, a través del llamado método de exposición cuasi inducida, que permite obtener proporciones relativas de km recorridos por distintos colectivos de conductores, ej. varones entre 18 y 25 años. La determinación de la exposición es clave como denominador del riesgo de accidentes y es uno de los desafíos más importantes en investigación actual de accidentes de tráfico, para poder estudiar la evolución de la siniestralidad.
Los accidentes de tráfico representan hoy en día un problema de alto impacto social y económico y son una de las mayores preocupaciones en las sociedades modernas. Ha habido una fuerte reducción de la siniestralidad durante la última década pero esta reducción se ha interrumpido en los dos últimos años. El pequeño repunte de la siniestralidad este último año no tiene por qué deberse a peores campañas de prevención o a una mayor imprudencia de los conductores si no a una mayor exposición; de aquí la importancia de estimar correctamente la exposición a la hora de evaluar el éxito de la administraciones en la lucha contra los accidentes.
Las técnicas de análisis no supervisado tipo clúster permiten identificar patrones de accidentalidad de los conductores que pueden ayudar a asignar responsabilidades (culpabilidad o no) de aquellos involucrados en el accidente.
La idea de la exposición cuasi inducida es que los conductores no culpables en los accidentes constituyen una muestra aleatoria razonablemente representativa de los diferentes colectivos; por ejemplo, si existen 1000 conductores varones no culpables del segmento 18-25 años y 500 conductores mujeres, esto indicaría que los varones de esa edad recorren el doble de km que las mujeres.
La DGT dispone de una base de datos de accidentes de tráfico en España de forma que cada registro corresponde un conductor de los involucrados en el accidente (podría ser también el único) del que se dan los valores de 111 variables; para este estudio se ha filtrado la base escogiendo sólo los registros de accidentes con 2 turismos involucrados y solo 6 de estas 111 variables. Estas variables ha habido que modificarlas de forma que puedan ser utilizadas por los algoritmos para el análisis clúster. Las 6 variables seleccionadas son infracción del conductor, infracción de velocidad, defecto físico del conductor, condición psicofísica del conductor, infracción administrativa y estado del vehículo.
Al no disponer de la variable respuesta (culpabilidad o no) se trata de un análisis no supervisado como es el clúster. Se estudia como las variables de entrada que condicionan la culpabilidad se agrupan “por si solas” en clusters o conglomerados, que se piensa pueden corresponder a patrones de culpabilidad nítida o difusa.
La primera técnica de análisis que se ha utilizado es k-means. El objetivo de este algoritmo es encontrar grupos en los datos, con el número de grupos representado por la variable k. Este algoritmo trabaja de forma iterativa asignando cada dato a uno de los k grupos o clusters, basándose en la distancia de cada dato al centro del grupo. K-means es uno de los algoritmos más simples y más utilizados que resuelven el problema de clustering.
La siguiente técnica que se usará es el mapa auto organizado o SOM, es otra herramienta de análisis clúster cuyo objetivo es representar conjuntos de datos multidimensionales en un espacio de dimensiones mucho más reducidas, normalmente en un plano de 2 dimensiones. Esta reducción de dimensiones se realiza conservando la topología inicial del espacio de los datos, por lo que accidentes con características similares (vectores de variables próximos) aparecerán en el mismo nodo (clúster) del SOM o en nodos vecinos, mientras que los accidentes que sean muy distintos (vectores de variables alejados) suelen aparecer en nodos muy alejados.
Para la realización de los análisis k-means y SOM se han utilizado las librerías del Software R, un entorno y lenguaje de programación de código abierto con enfoque al análisis estadístico.
Antes de aplicar k-means hay que determinar el número K de clusters en que se quiere que el algoritmo agrupe los datos de entrada, para esto se ha comparado la suma de la distancia de los datos a cada centro de clúster para casos de 2 a 15 clusters, teniendo en cuenta esto y la finalidad para la que se está usando este algoritmo (identificar grupos de potencialmente culpables o no culpables) se aplica el algoritmo de kmeans utilizando de 2 a 8 clusters y se estudian sus resultados.
Entre los resultados que proporciona k-means se encuentran las coordenadas de los 8 clusters que ha agrupado. Estas coordenadas nos ayudan a identificar el tipo de conductores que ha sido asignado a cada clúster.
Analizando estos resultados se observa que la variable más importante a la hora de agrupar los datos es la de infracción de conductor, los conductores se asignan a unos grupos u otros según hayan cometido o no esta infracción. Esta será la variable más determinante a la hora de asignar culpabilidad en el accidente, hasta el punto de que solo el hecho de haber cometido dicha infracción puede ser indicativo de culpabilidad. No obstante se ha observado que tienen bastante importancia también las variables de infracción de velocidad y condición psicofísica en el agrupamiento. Hay otras variables como la de estado del vehículo que no influye nada en el agrupamiento y por tanto no servirá para determinar la responsabilidad del accidente.
Para aplicar SOM no es necesario determinar un número de clusters a priori pero sí que hace falta determinar el número de nodos (las dimensiones del mapa) que son el equivalente a los clusters de k-means. Teniendo en cuenta la distribución de los datos por el mapa (que no haya muchos nodos vacíos y los datos se distribuyan lo más equitativamente posible) se ha concluido que la mejor opción es la de utilizar un mapa de 5x5 nodos.
En el mapa SOM se representan cada uno de los nodos cada uno con un vector de pesos asignado, cada conductor se colocará en el nodo del mapa que tenga el vector de pesos más similar a su vector de variables. En el mapa obtenido se observa como la variable infracción del conductor divide claramente el mapa en dos zonas, zona con conductores que han cometido dicha infracción (potencialmente culpables) y zona en la que no (potencialmente inocentes o inocencia difusa).
También se observan zonas de tamaño relevante para las variables infracción de velocidad, condición psicofísica e infracción administrativa que servirán para determinar si se trata de casos de culpabilidad/inocencia clara o difusa.
El resto de variables apenas aparecen en el mapa o están muy dispersas, como la variable estado que solo aparece en un nodo de los veinticinco, por tanto no contribuye en la clasificación de los conductores.
Ambas técnicas han proporcionado resultados muy similares, lo cual no es de extrañar debido al similar funcionamiento de los algoritmos. En general se ha concluido que la variable con más importancia y la que más contribuye a clasificar los datos es la de infracción de conductor. No obstante con este trabajo también se demuestra la importancia de otras variables a la hora de determinar la responsabilidad como son las de infracción de velocidad o la condición psicofísica. Esta información podría ser útil para ayudar a clasificar casos dudosos y aporta información adicional acerca de la asignación de responsabilidad. También se han identificado variables que presentan muy poca o nula relevancia como las de estado del vehículo y defecto físico del conductor, que se podrán desestimar en futuros análisis.
Por tanto, se ha demostrado la importancia de la evaluación exhaustiva de las variables que intervienen sobre la responsabilidad de un conductor ya que afecta en la estimación de la exposición relativa y por ello en el cálculo del nivel de riesgo de diferentes colectivos de conductores.
Item ID: | 48075 |
---|---|
DC Identifier: | https://oa.upm.es/48075/ |
OAI Identifier: | oai:oa.upm.es:48075 |
Deposited by: | Biblioteca ETSI Industriales |
Deposited on: | 11 Oct 2017 06:28 |
Last Modified: | 20 Jun 2018 08:41 |