¿Acaso nunca os ha pasado que, paseando por el campo y la montaña, nos topamos con un camino que se separa en dos, y no sabemos hacia dónde ir? En una situación así, lo único que sabemos es que estamos en un camino que se divide en dos, y por tanto:

  • Tenemos que volver por donde hemos venido.
  • Continuamos por uno de los dos caminos que no sabemos a dónde nos llevará.

Lo natural es que tomemos decisiones racionales, y que si, por ejemplo, estamos cansados, volvamos por donde hemos venido. O si nos vemos con fuerzas, y hace buen tiempo, sigamos por alguno de los dos caminos. 

Y es que en nuestro día a día nos topamos con este tipo de decisiones donde, “sabiendo lo que sabemos”, tenemos que elegir en un escenario de incertidumbre. 

El paradigma Bayes

A fin de cuentas, la incertidumbre no es más que un estado en el que el conocimiento se ve limitado por la falta información para describir futuras acciones o eventos. 

La ciencia de datos y la modelización estadística han ido desarrollando a lo largo de los años numerosas formas de poder cuantificar la incertidumbre con el fin de mejorar las predicciones de futuros eventos. Existen numerosas disciplinas que hacen uso de la cuantificación de la incertidumbre, como la ingeniería, la física, la meteorología, y la economía. Uno de los beneficios de utilizar un enfoque bayesiano (todo empezó con este maestro de la estadística) es que precisamente estamos incorporando la incertidumbre a nuestra toma de decisiones.

Hoy, venimos a hablar del método más extendido para cuantificar esa incertidumbre. En la siguiente parte de esta serie de posts, realizaremos algún ejemplo aplicado a Machine Learning. De momento, vamos a empezar describiendo un poco los diferentes paradigmas que existen para cuantificar la probabilidad y la incertidumbre de un conjunto de datos con un enfoque Bayesiano. ¿Para qué es necesario esto? Bueno, no siempre tenemos una única solución a un problema, si no que por lo general, y más en ciencia de datos, disponemos de muchas. Por tanto, entender las diferencias entre uno y otro nos puede servir de base para empezar con buen pie. 

Los tipos de enfoque

Los enfoques para modelar un conjunto de datos más extendido suelen venir de los “físicos” y los “evidenciales”. Estos enfoques hacen uso de la probabilidad para realizar estudios sobre un conjunto de datos, observaciones, registros, eventos, etc. Cualquier sistema de inteligencia artificial basado en Machine Learning hace (casi siempre) uso de alguno de estos enfoques para realizar predicciones o inferencias, y es que:

  • La inferencia frecuentista extrae conclusiones provenientes de los datos mediante el estudio de las frecuencias o proporciones de los mismos. Cuando estudiamos un fenómeno con un enfoque frecuentista, estamos asumiendo que nuestros datos con los que hacemos el estudio o experimento, son independientes del siguiente experimento (con los mismos pasos e hipótesis) que potencialmente podríamos repetir. Así, el logro frecuentista reside en que, si repitiéramos este experimento todas las veces que quisiéramos, obtendríamos las mismas conclusiones, verificando así que el fenómeno que estamos estudiando no es aleatorio. En otras palabras, que nuestra hipótesis se cumple cada vez que realizamos el experimento.
  • La inferencia bayesiana o probabilística, por el contrario, consiste en ir actualizando una creencia como consecuencia de la observación de nuevas evidencias. Se llega al descubrimiento mediante un razonamiento aproximado, donde no existen verdades absolutas, y la incertidumbre nos hace dudar del grado de consistencia de nuestras hipótesis. Así, se pretende encontrar las probabilidades de nuestras hipótesis condicionadas a los datos y a las evidencias que tenemos.

Históricamente, siempre ha habido disputas dentro de la comunidad científica por determinar cuál es el mejor método para estudiar el mundo que nos rodea. Al principio, el probabilismo (relacionado con lo que venimos denominando como lo bayesiano), no era más que un paradigma epistemológico. Con el pasar de los años, se convirtió en otro arma más para la ciencia de cara a realizar experimentos y contrastar hipótesis.

En la práctica

La inferencia bayesiana trata de actualizar una probabilidad a posteriori como consecuencia de dos antecedentes: una probabilidad a priori y una función de verosimilitud. Expresado matemáticamente, tenemos:

  • A es el evento o hipótesis que estamos estudiando y cuya probabilidad de suceso podría verse afectada por los datos o evidencia que tenemos. 
  • P (A) es la probabilidad estimada de que el evento A suceda antes de que se observan nuevos registros de B.
  • B son los datos o evidencia de las que disponemos.
  • P (A / B) es la probabilidad posterior, es decir, aquella de que el evento suceda después de haber visto B.
  • P (B / A) es la probabilidad de observar B dado A, o lo que es lo mismo, es la verosimilitud. Indica la compatibilidad de nuestros datos con el evento que estamos estudiando.
  • P (B) es la verosimilitud marginal. 

Este teorema tuvo mucho impacto en la ciencia, y lo sigue teniendo a día de hoy. Por ejemplo, podemos resolver algoritmos de inferencia estadística aplicando esta lógica para incorporar a nuestras predicciones el concepto de incertidumbre. Por ejemplo, la regresión lineal. Es un sencillo algoritmo que intenta explicar o predecir una variable usando una combinación lineal de otras. El enfoque frecuentista para realizar inferencias es sencillo, y es que en una regresión lineal, simplemente tenemos que pasar los datos (matriz X) que queramos inferir a la siguiente ecuación para obtener nuestras predicciones Y:

De entre todas las formas que existen para encontrar los mejores parámetros , la siguiente forma es la más extendida:

Sin embargo, existe también la regresión lineal con enfoque bayesiano. Aquí, asumimos que nuestra variable a predecir sigue una distribución de probabilidad. La idea de una regresión lineal bayesiana, no es conseguir calcular los mejores coeficientes o parámetros que minimicen el error de entrenamiento y test, si no determinar cuál es la distribución posterior de los parámetros o coeficientes:

Nuestra variable de respuesta tendrá la siguiente forma:

En la práctica, tendremos que definir primero cuáles son las distribuciones a priori de nuestros parámetros, nuestras creencias, lo que conocemos, para ir actualizando nuestro distribución a posteriori vía un algoritmo de sampleo como MCMC (que, a lo mejor, podríamos explicar en otro post). Así, una de las principales ventajas de usar un enfoque bayesiano es que:

  • Podremos incorporar esa información a priori en el cómputo y solución. Si no tenemos esa información valiosa, podemos siempre recurrir a la distribución normal de probabilidad.
  • Si no disponemos de muchos datos, estaremos cuantificando la incertidumbre de la aparición de nuevos datos a todo el proceso, de manera que cuando nuestro set de datos tienda a ser infinito, los parámetros convergen con los calculados por el enfoque frecuentista. 

Al final, nuestro resultado será que, en vez de obtener un número que nos defina al 100%, nuestras predicciones, obtendremos un rango, o mejor dicho, una distribución de probabilidad de nuestros coeficientes.

Un caso de uso real en un escenario de incertidumbre

En el día en el que se escribió este artículo, se dieron numerosos casos positivos de COVID-19 en el mundo. En este magnífico post, el autor nos ilustraba cómo en el inicio de la pandemia, la curva de infecciones en la primera etapa de la epidemia era de tipo exponencial. Usando una regresión bayesiana, en este caso no lineal sino exponencial, podíamos hacer una tentativa de predicción de cómo serían los primeros 30 días en las comunidades autónomas de nuestro país, con la forma:

Y es el número de infectados, M es la constante, B es la tasa de crecimiento del número de infectados, y es un parámetro para añadir aleatoriedad, sigma, a todo el proceso. En Keepler realizamos el mismo ejercicio propuesto por el autor, y obtuvimos este resultado:

 

La línea roja marca los casos reales que ha habido desde el caso número 100. El eje de las X representa los días que habían pasado desde el caso número 100. En el eje de las Y, el número de casos confirmados posibles en un escenario de incertidumbre, simulado 500 veces. A pesar de ser un modelo que asumía una falta de políticas de control de la pandemia, como la cuarentena o el distanciamiento social, ni tampoco se tenía en cuenta la exposición al virus, y/o la densidad de población, nuestro modelo fue capaz de, con muy pocos datos, darnos una visión general de lo que podría ser el peor de los escenarios… Estábamos, por tanto, cuantificando la incertidumbre en un escenario muy muy pesimista, ¡justo lo que buscábamos!

Agradecemos a Thomas Wiecki su contribución a la comunidad con este magnífico ejemplo de modelado bayesiano. 

Author