Data Science o la sociedad de los algoritmos

Data, de Star Trek. El color del uniforme fue modificado por photoshop, ya que el azul, en Star Trek, significa puesto en ciencia

Durante las últimas décadas y con el crecimiento de las redes y tecnologías de la información (TICs), accedimos a la era digital como nunca antes, transformando profundamente a nuestras sociedades. Cada vez más, paquetes de información, en bits, bytes, kilobytes o megabytes fluyeron a través de los cables de internet, desde los hogares hasta los servidores de las empresas proveedoras y de ahí a través de los backbones a los centros de datos del mundo, mayormente ubicados en EEUU. Y es que los datos que se generan diariamente alcanzan los 2500 millones de gigabytes, el equivalente a 2.5 millones de discos rígidos de 1 Terabyte. Si tu pc tiene uno de estos discos es muy posible que aún no lo hayas llenado desde que te la compraste, y quizás también te parezca que no lo llenarás a menos que seas un descargador compulsivo de películas (¡cuidado eso es piratear!) o juegos de PC. Pues bien, este es un buen ejemplo de que la acción combinada de las personas, en conjunto, siempre ha tenido mayor impacto que el de un individuo aislado. Y es que el flujo agregado de los datos de todas las personas que utilizan celulares inteligentes, tablets, pcs o notebooks conectadas a internet genera esta cantidad ingente de información, a la cual se le ha dado un nombre que se centra en solo una de sus cualidades: que es grande, muy grande. El nombre es “Big Data”.

“Me gusta” en Facebook, “Like” en Instagram, “RT” en Twitter, “Compartir”, enviar un audio de whastapp, leer un diario, o buscar un video en YouTube, entre pilas de cosas que podemos hacer en internet; todo esto genera un tráfico de información que circula por la red y que constituye el big data. Tiene todo tipo de información: posicional (GPS), de acceso y de envío de texto, imágenes, audio, y conforman grandes bases de datos alojadas en centros de datos donde supercomputadoras realizan la gestión de esta información. Parte de esta información es privada, ya sea porque las leyes lo regulan así o porque las empresas que brindan estos servicios informaticos (i.e. Facebook) guardan celosamente esta información. Pero en muchas ocasiones, las suficientes, es posible acceder a data (legal o ilegalmente) para aplicarle “la ciencia”, y ahí resuena nuestro título que decidimos ponerle a este artículo. Con el Big Data aparece la Ciencia de Datos, o de modo más snob, Data Science, una ciencia que hace varios años viene en ascenso y cuyo salario, de acuerdo al portal Glassdoor, ronda en promedio los U$S 110.000 anuales. Bastante.

Una ecuación

El término Ciencia de Datos designa una interdisciplina que tiene su surgimiento en los 50, desde Alan Turing y la búsqueda de la máquina inteligente. La inteligencia en este caso está dada por las matemáticas y el álgebra, de donde viene la palabra algoritmo. Así, un algoritmo tiene como base la lógica (que es de donde proviene la programación), y en ese sentido está profundamente relacionado con las ecuaciones matemáticas. A grandes rasgos, estas toman un dato de entrada (input) dando como resultado un posible valor de salida (output) para ese dato de entrada, es decir, brinda una predicción. La ecuación más simple que se nos ocurre es la ecuación lineal y= a·x + b, donde dados ciertos valores que puede tomar la variable x (el dato de entrada), modificarán el valor final de la función y. Así, se predice que si y= 2x+3, siendo x=2 en un momento dado, y tendrá en ese momento el valor de 7. Tendrá, es una predicción, ¡resultado de un algoritmo! Pero, ojo, no es nuestra intención crear una falsa noción de simplicidad de los algoritmos, ya que hay muchos muy complejos, pero sí buscamos aquí dejar en claro que se trata de terrenales y seculares operaciones matemáticas. Y en ello radica la inteligencia artificial.

¿Dijimos inteligencia artificial? Así es, la ciencia de datos viene de la mano de la inteligencia artificial, pero no nos apuremos tanto. Falta algo que relacione lo que hemos dicho en el párrafo anterior y el hecho de que internet genera ingentes cantidades de datos día a día. Uno de los campos derivados de la matemática es la estadística, ciencia que, según sus definiciones, “utiliza conjuntos de datos numéricos para obtener, a partir de ellos, inferencias basadas en el cálculo de probabilidades”, y -también- que “reúne, clasifica y recuenta todos los hechos que tienen una determinada característica en común, para poder llegar a conclusiones a partir de los datos numéricos extraídos”. Voilá! Con estas aproximaciones que hemos hecho tenemos una idea de a qué se refiere la ciencia de datos: es una combinación entre estadística e inteligencia artificial, aprovechando el poder computacional generado en las últimas décadas. Cerramos el círculo. Aunque, un momento, la distinción no es siempre clara, ya que muchos algoritmos vienen de la estadística, como el algoritmo Naïve Bayes, por ejemplo.

Una aplicación

No me gustaría dejar esto en una simple mención de los conceptos. Por lo que complicaremos esto más con la realidad. Mostraremos a continuación algunos problemas con los cuales se puede enfrentar la ciencia de datos, y cualquier ciencia en general (recordemos que se trata de una interdisciplina). Primero, imaginemos que estamos en 2015 y tenemos que hacer un análisis basado en un conjunto de datos obtenido de muestras semanales de los precios en alrededor de 50 comercios, y que van desde 2011 a 2015 del precio de, supongamos, cepillos de dientes. Sabemos por historia reciente que si bien hubo inflación, la subida de precios de los productos ha sido constante durante ese período. Correlacionamos las dos variables, sacamos métricas que son constantes a ese grupo de datos como el promedio o media aritmética, el coeficiente de correlación y la desviación estándar. Con esas métricas obtenemos la pendiente y el punto de intercepción que serán los términos a y b de la ecuación y encontramos a través de cierta inferencia estadística (por ejemplo remuestreo y bootstrapping, cosas rutinarias que se hacen en la estadística) que podemos rechazar la hipótesis nula y que el precio del dólar es al cual se asocia el precio de los cepillos de dientes. Posteriormente, seguimos el proceso de entrenar el algoritmo de regresión lineal con estos datos: dicho proceso estadístico-matemático se llama machine learning o aprendizaje automático. Hemos obtenido el modelo de regresión.

Ahora bien, el algoritmo aprendió de ese set de datos, este modelo nos predecirá que dado un precio x del dólar se obtendrá un precio y para los cepillos de dientes. Hasta ahí todo perfecto, sabemos que después de 2015 tendrán un valor y. Pero, he aquí un segundo problema. Sabemos también por historia reciente que a finales de 2015 se quitó el cepo al dólar, llevándolo de $9 a $14. Nuestro modelo no podría haber predicho esto, pero seguimos usándolo obteniendo un valor alejado de la realidad, por lo que el dataset tiene un sesgo. Si queremos reducirlo deberemos seguir minando los datos e incorporarlos al set original para entrenar nuevamente al algoritmo. Lo mismo sucedería con todos los saltos grandes que hubo desde 2018 a 2019: deberíamos generar nuevos modelos. *A los economistas no les gusta esto*.

Una conclusión

Como vemos, la ciencia de datos, al lidiar con la realidad, debe abordarla de modo integral y por esto también es interdisciplinaria (más allá de que sus practicantes vengan mayormente de las ciencias naturales o formales). Esto es importante dado que aunque el proceso de minado de los datos o los algoritmos sean neutrales se deben considerar factores de la realidad, que también son datos y que intervienen como variables en los datasets con los que se trabaja. Otros problemas similares se presentan con otros tipos de algoritmos, como los de clasificación (imágenes, textos) o los mucho más complejos algoritmos de redes neuronales. En estos casos, los set de datos podrán evitar los sesgos al cumplir con ciertos parámetros de representación del universo completo de datos. De otro modo puede ocurrir lo del bot de twitter que aprendió a ser fascista, porque las charlas en las que había sido entrenado tenían ese sesgo. Como otro ejemplo de entrenamiento y aprendizaje de una computadora, podemos ofrecer este donde un argentino entrenó una red neuronal para que escriba canciones de Spinetta.

Decíamos al principio que generamos cantidades ingentes de datos en Internet, y que esta tecnología transformó y transforma nuestras sociedades. En este sentido, cotidianamente hacemos uso constante de algoritmos a través de los dispositivos electrónicos y programas que poseemos, sin excepción. Es por eso mismo que también se debe tener en cuenta lo sociológico al momento de hacer ciencia de datos, una ciencia que se ubica en el core de estas tecnologías que nos moldean. Como en principio aparece como puramente numérica, pero que al lidiar con la realidad social -cuando ahí apuntan sus resultados-, debe considerar los factores sociales que entran en juego, por lo que no puede obviar los objetos científicos de las ciencias sociales. De igual modo, las ciencias sociales pueden utilizar las herramientas de la ciencia de datos, en pos de, no solo hacer uso de la cantidad de datos que generamos día a día, sino también, comprender la realidad del proceso tecnosocial en el cual nuestras sociedades se encuentran.

Por Mauricio Savarino

¡Pero aún hay más!

Dejamos para otra ocasión los lenguajes de programación con los cuales es posible hacer data science.