En este apartado vamos a realizar un filtrado de datos. En mi caso, he visto conveniente tratar los “Missings” y los “Outliers”, una selección por ciudad, así como una serie de conversiones de datos que vamos a ver a continuación.


1. Tratamiento de Missings

En mi caso, he tratado los Missings eliminando en caso de tratarse de valores de tipo String y sustituyendo por el siguiente valor al missing en caso de tratarse de un valor numérico.

Esta decisión me ha parecido la más interesante puesto que las temperaturas no suelen variar mucho por lo general de un día a otro.

Un missing no es más que un dato que no tenemos en nuestro dataset, ya sea por fallos en sensores (en este caso de temperaturas), o de cualquier otro fallo, ya sea humano o tecnológico. Dichos fallos, hay que tratarlos o eliminarlos (depende de la estrategia que quieras usar) para que beneficie a nuestro modelo.

2. Tratamiento de Outliers

Para la eliminación de Outliers he optado por eliminar aquellos outliers para la variable “Casos Totales”, puesto que al realizar pruebas de outliers para todas las variables se perdía demasiada información valiosa para generar el modelo predictivo.

Un Outlier (fuera de serie, por cierto, os recomiendo este libro de Malcom Gladwell), es un dato en nuestro dataset que está muy lejos de la media representativa en ese conjunto de datos. Aunque es un término estadístico, lo podríamos explicar de forma sencilla con el siguiente ejemplo: Imagina que las temperaturas que tenemos para los 7 días de la semana son 20 23 25 22 57 25 23. En este caso 57 sería un outlier. Ojo! aunque los outliers pueden ser errores humanos o errores en determinados medidores de los datos, también puedes ser representativos en nuestro modelo, por eso conviene estudiarlos muy detenidamente dependiendo de los datos con los que estemos trabajando.

3. Conversiones

Otro paso necesario ha sido el de las conversiones. Puesto que los datos de temperaturas estaban en grados Kelvin y en grados Celsius, he convertido todas las variables con valores en Kelvin a Celsius con el objetivo de poder compararlos mejor.

4. Selección (por ciudad)

Quizás el paso más sencillo del modelo. Simplemente dividimos por ciudad para generar de forma independiente diferentes submodelos. Esto lo realizo porque considero que es interesante puesto que las condiciones geográficas y climáticas de ambas ciudades (San Juan y Iquitos) son muy diferentes.