"¿Puedo predecir la prevalencia de obesidad basándome sólamente en la venta de alimentos?". Esta es la pregunta que se hizo Jocelyn Dunstan, investigadora de la Universidad de Chile, antes de comenzar su último estudio. "La respuesta es sí", sentencia. Y no sólo es posible: además, el método desarrollado por Dunstan también es adaptable a una larga lista de países.
Según el World Economic Forum, estas profecías ayudan a establecer una relación directa entre los alimentos que causan más estragos al caer en la cesta de la compra. Por otro, hacen posible determinar la prevalencia de la obesidad en los lapsos de tiempo que separan una encuesta de salud de la siguiente y permiten hacer proyecciones sin esperar a que estas mismas encuestas se completen. Y todo esto en un planeta que ha pasado de tener 857 millones de habitantes con sobrepeso en 1980 a alcanzar los 2,100 millones solo tres décadas más tarde.
¿Cómo se pone a funcionar esta bola de cristal? Con los datos de compra de 48 categorías de comidas y bebidas para 79 países y un poquito de machine learning. "Lo que hicimos fue probar varios algoritmos en este ejercicio de tratar de predecir la proporción de la población obesa. Y lo que encontramos fue que en 47 de esos países era posible hacerlo con menos del 10% de error".
En las compras de comida que estudió Dunstan, extraídas de Euromonitor, cabe de todo: chocolate, yogures, huevos, carne, zumo, café, cereales... Pero no estamos hablando del mar de datos al que nos tienen acostumbrados los tiempos que corren. "No es una base de datos tan grande. No es big data para nada. Es chiquitita. Pero aún así, uno puede estrujarla", señala la investigadora.
Algoritmos minimalistas
De hecho, uno de los algoritmos entrenados para esta predicción ofrecía también, la lista de las variables más decisivas para la prevalencia de la obesidad. Según este pequeño ránking, bollería, harinas, queso y bebidas carbonatadas son las cartas más importantes del tarot del sobrepeso. Cuando se aplica el algoritmo sobre los datos de compra de estas tres, se consigue incluso reducir ligeramente el margen de error.
Resulta que en machine learning menos también es más. "Esto se llama reducción de dimensionalidad o reducción de variables. La idea es 'dado todo esto, cuáles son las variables que mejor explican la variabiliad de mis datos'. Se trata de reducir", explica Dunstan. La utilidad de este ejercicio de síntesis va más allá de ahorrarnos acabar matando moscas a cañonazos: si sabemos qué cuestiones de una encuesta son las más determinantes, podemos acortar los cuestionarios y paliar el contundente efecto repelente de cien preguntas juntas.
Además, en ese listado de variables principales queda retratadas las dietas de los países. "Ahí uno ve que Alemania y Holanda comparten un montón. Todos los países de Europa del este son como una gran nube, España es muy próxima a Portugal... Uno nota la influencia histórica y geográfica delos países", precisa Dunstan.
Buenas prácticas
En toda la metodología investigación de Dunstan y sus compañeros son una constante los esfuerzos para asegurar la obtención de resultados replicables y fácilmente reutilizables. Por un lado, los tres algoritmos empleados aseguran que los resultados obtenidos no son un espejismo. Por otro, todo el código desarrollado para hacer el entrenamiento y las predicciones está publicado.
"Había ganas de traer más machine learning a la salud pública, donde no está tan extendido, y también de entregar estas herramientas a todos los investigadores que quisieran empezar a hacer uso de él", explica Dunstan.
El caso de esta investigación ejemplifica los cambios que está viviendo la producción científica en pleno boom publicaciones relacionadas con aprendizaje automático e inteligencia artificial y de las consecuentes preocupaciones sobre la dificultad para verificar los resultados de estas investigaciones. "Cada vez está más regulado. Cuando yo partí de Estados Unidos, recuerdo que el grupo había publicado un artículo donde usaba un método, un algoritmo. El trabajo era menos riguroso".
Ahora la tarea de publicar en cabeceras establecidas exige demostrar que se está haciendo el mejor estudio posible. "Cuando nosotros enviamos este paper a la revista, ellos mismos nos empezaron a pedir más cosas", explica Dunstan. "Ya es cada vez más difícil publicar si no cumples ciertas reglas de buenas prácticas en el machine learning".
En la experiencia de su actividad como investigadora, que ahora mismo reparte entre las facultad de Ingeniería y Medicina de la Universidad de Chile, Dunstan detecta cierta desigualdad en la materia. "En áreas como la ingeniería, las matemáticas, la física, hace tiempo que ya trabajan así. Pero en otras, como ciencias sociales o medicina, esto es un poco más nuevo. Creo que estamos en ese camino. Cada vez hay que hacerlo mejor".
Lea también: El menú del futuro: veganos carnívoros, cereales invencibles y chocolate de algas o Cómo evitar tirar comida gracias a la tecnología.