Full text
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) |
Cabornero Pascual, David (2022). Modelos de regresión de Poisson aplicados a la propagación del COVID-19 a través del tráfico aéreo. Thesis (Master thesis), E.T.S. de Ingenieros Informáticos (UPM).
Title: | Modelos de regresión de Poisson aplicados a la propagación del COVID-19 a través del tráfico aéreo |
---|---|
Author/s: |
|
Contributor/s: |
|
Item Type: | Thesis (Master thesis) |
Masters title: | Ciencia de Datos |
Date: | July 2022 |
Subjects: | |
Faculty: | E.T.S. de Ingenieros Informáticos (UPM) |
Department: | Inteligencia Artificial |
Creative Commons Licenses: | Recognition - No derivative works - Non commercial |
![]() |
PDF
- Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (3MB) |
La COVID-19 es una infección vírica detectada en diciembre de 2019 que se convirtió rápidamente en una pandemia mundial. Desde entonces, la necesidad de crear modelos de predicción para predecir epidemias ha ido creciendo, no solo por la necesidad en si sino por la cantidad de datos generados debido a la pandemia. Dentro de todas las posibilidades que existen para predecir contagios, los modelos de regresión de Poisson son una buena opción, ya que los contagios, al igual que la distribución de Poisson, se pueden definir como un conteo de casos. De esta forma, se evita también que los algoritmos predigan un número negativo de contagios. Por ello, en este trabajo se han elegido estos algoritmos para predecir el número de contagiados en distintos países. Utilizamos una base de datos con todos los vuelos en 2020, donde se incluyen datos relevantes como países de origen y destino, pasajeros por vuelo o contagios por región. Con todos estos datos, se puede estimar el número de casos entrantes a cada país, que se ha denominado casos importados, que se considera uno de los factores más importantes en fases tempranas de la pandemia, donde los contagios venían principalmente de países externos. De la misma manera, el riesgo importado es una variable similar, pero en este caso se utilizan modelos SIR para calcular con más precisión cómo influye la duración de los vuelos en el número de infectados entrantes. La predicción del número de infectados por país mediante modelos de Poisson utilizando estas variables ha sido el objetivo principal de este trabajo. Para utilizar datos que sean lo más fiables posibles, nuestro estudio se restringe únicamente a Europa. Además, solo se ha trabajado con las fechas comprendidas entre el 15 de febrero y el 15 de marzo de 2020, ya que antes de estas fechas no hay casi contagios detectados en Europa y después los estados empezaron a aplicar severas restricciones al tráfico aéreo, por lo que los contagios dentro del país pasaron a tener mucha más relevancia que los exteriores a partir de esta fecha. Dado que la COVID-19 tenía un tiempo de incubación promedio de una semana, se van a predecir los positivos de los países tras una semana, sabiendo el riesgo importado y los casos confirmados actuales. De esta forma, para cada día se entrenará un nuevo modelo. El modelo principal es el modelo de Poisson, pero dado el fenómeno de sobredispersión que se experimenta en él también se han utilizado dos variantes: el modelo quasi-Poisson y el de la binomial negativa. Tras entrenar los modelos, se ha analizado el cumplimiento de las hipótesis básicas, la relevancia de las variables independientes, la sobredispersión, los coeficientes de los estimadores, los residuos y la bondad de ajuste. Tras todo esto, se ha concluido que teóricamente este modelo es adecuado para el problema que nos atañe (se cumplen las hipótesis), todas las variables son relevantes, la sobredispersión aumenta con el tiempo (por lo que las variantes del modelo de Poisson toman fuerza frente al original), la variable independiente más importante comienza siendo los contagios importados (contagios de fuera) y acaba siendo los contagios confirmados (contagios del país) y que la varianza de los residuos no aumenta con el tiempo. Una vez que se trata de predecir con el modelo del día anterior el día siguiente, se ve que todos los modelos tienen errores parecidos mostrando resultados muy buenos que mejoran porcentualmente según avanza el tiempo. Con todo esto, se concluye que los modelos de regresión de Poisson con los contagios importados dan lugar a buenos modelos de regresión para predecir los contagios de un país.---ABSTRACT---COVID-19 is a viral infection detected in December 2019 that quickly escalated to a global pandemic. Since then, the necessity to create predictive models to predict epidemics has increased dramatically, due not only to the need itself but to the amount of data generated during the pandemic. Among the possibilities that exist to predict contagions, Poisson regression models are a good option, since the contagions and the Poisson distribution can be defined as a count of cases. In this way, predictions of a negative number of cases are avoided. Therefore, these algorithms have been chosen in this work in order to predict the number of COVID-19 cases in different countries. We use a database with all flights in 2020, including relevant data such as country of origin and destination, passengers per flight, and contagions per region. With all these data, we can estimate the number of incoming cases to each country due to air traffic. This number has been referred to as the number of imported cases, which is considered one of the most relevant factors in the early stages of the pandemic, where infections came mainly from external countries. In the same way, the imported risk is a similar variable, but in this case, SIR models are used to calculate more accurately how the duration of flights affects the number of incoming infectees. The prediction of the number of cases per country through Poisson models using these variables has been the main objective of this project. In order to warrant that the data are as reliable as possible, our study is restricted to Europe. In addition, we have only considered dates between 15th February 2020 and 15th March 2020, since before these dates there were almost no detectable cases in Europe, and after that, the states started to apply severe restrictions on air traffic, so that contagions within the country became much more relevant than those imported from this date onwards. Since COVID-19 had an average incubation time of one week, country positives will be predicted after one week, knowing the imported risk and the current confirmed cases. Thus, a new model will be trained for each day. The main model is the Poisson model, but given the overdispersion phenomenon experimented in it, two variants have also been proposed: the quasi-Poisson model and the negative binomial model. After training the models, the compliance with the basic hypotheses was analyzed, as well as the relevance of the independent variables, the overdispersion, the estimator coefficients, residuals and goodness of fit. After all this, it has been concluded that, theoretically speaking, this model is adequate for our problem (the hypothesis are fulfilled), all the variables are relevant, the overdispersion increases over time (so the variants of the Poisson model works better compared to the original over time), the most relevant independent variable is initially the imported risk (contagions from abroad), but finally confirmed cases are more relevant (contagions within the country) and the variance of the residuals does not increase over time. Once we try to predict the next day with the model trained with the previous day, we can observe that every model has similar errors and shows good results that improve in percentage over time. With all these results, it is concluded that Poisson regression models and imported cases form good models for predicting the contagions of a country.
Item ID: | 71454 |
---|---|
DC Identifier: | https://oa.upm.es/71454/ |
OAI Identifier: | oai:oa.upm.es:71454 |
Deposited by: | Biblioteca Facultad de Informatica |
Deposited on: | 29 Jul 2022 10:23 |
Last Modified: | 29 Jul 2022 10:23 |