LAS PALABRAS A NÚMEROS EN LA CRISIS DEL DÓLAR

En el artículo 2, el anterior que escribí para el blog, me referí a la Ciencia de Datos, como un movimiento global de disciplinas basadas en el análisis de grandes volúmenes de datos a través de técnicas estadísticas, matemáticas y de programación. Dado que en la práctica te podés encontrar con uno u otro lenguaje de programación, aquí solo mencionaremos el que maneja quien escribe. Rápidamente, podemos decir que existen en el “mercado” de lenguajes de programación de código libre para ciencia de datos, los lenguajes R y Python.

R es un lenguaje de programación que surgió de la mano de la comunidad estadística, por lo que tiene mucha circulación en la academia, en las universidades. Tienen probada validez sus funciones “built-in”, i.e. con las que el lenguaje viene incorporado y por esa razón es ampliamente utilizado para la investigación científica (por lo que cuenta con hermosas visualizaciones) y también, aunque en menor medida, en la producción. Por el lado de Python, se trata de un lenguaje surgido de la comunidad de desarrolladores de software (su creador: Guido Van Rossum), y que ha ido ganando en funciones built-in estadísticas, de machine learning, entre muchas otras cosas, dado que no ha sido desarrollado para eso originalmente. Por su parte, es el ya futuro lenguaje del Deep Learning o la “inteligencia artificial”, por lo que tiene mucha utilización en la producción por la escalabilidad de sus aplicaciones, es utilizado por Google o Spotify por ejemplo, entre otras empresas TICs, como la argentina de construcción de nanosatélites Satellogic. Tiene la ventaja que es fácil de aprender (lo cual es explicitado por su filosofía), porque “es como escribir en inglés”, a diferencia de R que no es tan intuitivo.

Como ejemplo abordaremos en este texto los resultados de un código de Python para hacer “web scraping” de diarios. Para eso se combinó programación y ciencia de datos aplicada al análisis de textos, y este tipo de análisis basado en el procesamiento de lenguaje natural. El código completo lo dejaremos abajo de todo.

¿Cómo fue?

A principios de 2019 se me ocurrió escribir un código para tomar los artículos de diarios y descargarlos en una tabla especificando nombre del diario, sección, título, el texto del artículo en sí mismo, la fecha, entre otras cosas. Recopilé durante ese año un set de datos de alrededor 30000 artículos de las secciones economía y política de los diarios Clarín, La Nación, Página 12, Infobae, Iprofesional y el periódico local Pausa: los cuatro primeros de mayor tirada a nivel nacional, los dos últimos diarios con presencia online y en papel.

(Al código lo titulé APAlala. Sí, en aquel entonces creía que era gracioso, pero quería apuntar a “¡apa! Mirá lo que dicen acá”, de todas formas, no fue tan en vano el nombre.)

Comentándole esto a uno de los compañeros de la radio, Ariel, me propuso averiguar cómo aparecía la palabra crisis en todas estas notas y artículos periodísticos, eran tiempos convulsionados para la economía en aquel inicio de 2019. Entonces procedí a comparar la frecuencia de la palabra según cómo aparecía en todos los artículos, con la variación del tipo de cambio. Posteriormente, me interesó ver cómo aparecían esas frecuencias en las secciones de economía y política para cada uno de estos diarios. Por último, como, cuantitativamente, se acercan los usos de la palabra crisis y gobierno en cada diario.

Antes que nada, debemos aclarar que este análisis se hizo con las publicaciones a partir del 25 de febrero, tiempo después de que el dólar haya pegado su salto al “máximo histórico”, como tituló una nota de Infobae de por aquel entonces. Después de unos meses de relativa estabilidad rondando entre los 37 y 38 pesos, el dólar se disparó a 40 pesos, para luego fluctuar entre $42 y $45. El análisis se realizó sobre las publicaciones de diarios hasta mayo.

Crisis v Dólar

Para comenzar, conté las veces que la palabra crisis aparecía cada día en las publicaciones de estos periódicos y las comparé con la variación del precio del dólar. Básicamente, la función pythoniana para llevar a cabo la tarea se muestra en la siguiente imagen.

Contada la frecuencia, la comparé con la evolución del dólar diariamente, como se representa en el gráfico 1. Estrictamente hablando, no hay gran correlación entre ambas variables, dado que una es cualitativa y la otra cuantitativa, por lo que no existen posibilidades de predecir entre estas dos variables (heterocedasticidad). No obstante, la utilización de la palabra crisis depende, de acuerdo a lo que observamos, de la percepción de los autores de las notas periodísticas. En este sentido, parece que hay mayor o menor frecuencia de utilización, donde, cuando el dólar se dispara, se dispara el uso de la palabra, aunque decae posteriormente incluso cuando el tipo de cambio forma una “meseta” o también decaiga: ¿se trata acostumbramiento del discurso a las condiciones económicas?

Dónde la dicen

Si lo anterior no es concluyente para nada, aunque de por sí interesante, lo siguiente sí supuso un hallazgo un poco más llamativo. Durante las primeras dos décadas de este siglo, y sobre todo a mediados de la década del 2010 cuando el kirchnerismo se enfrentó por primera vez al sector agropecuario argentino, se comenzó a poner públicamente en cuestión a los medios de comunicación. Si bien este cuestionamiento de base es ampliamente conocido dentro de la academia porque sobre todas las cosas en las ciencias sociales es central determinar antes que nada desde cuál prisma teórico observa la realidad quien investiga, llevar al plano público la metodología supuso romper el supuesto velo de verdad –¿absoluta?– que ostentaba el periodismo. Así, la relativización del discurso y el pensamiento, medular para realizar cualquier abordaje científico social, cobró status público moviendo el extremo retórico de la verdad absoluta hacia el extremo retórico opuesto: “mienten”.

Pero de lo dicho anteriormente, algunos de estos fenómenos pueden medirse. Y este fue uno de esos casos. Las relaciones entre la mención de la palabra crisis en los medios gráficos cambia según la empresa y la sección. Encontré que según el medio habrá más mención de esta palabra en la sección de política o economía: ¡Voilà! En el siguiente gráfico de barras se muestran estas relaciones, donde los diarios Página|12, Pausa e Iprofesional mencionaron con mayor frecuencia la palabra crisis en las secciones de economía, mientras que Clarín, La Nación e Infobae la mencionaron más en las secciones de política.

Hay pruebas estadísticas para mostrar si la distribución de las frecuencias es aleatoria o no. Eso es lo que puede llevarnos a rechazar la hipótesis nula, aquella que afirmaría que en realidad lo que observamos acá es “por casualidad”. En realidad, si aplicamos, por ejemplo, la prueba X^2 (ji o chi cuadrado), nos da como resultado que esta distribución no está dada por casualidad, por lo que cobraría fuerza la hipótesis alternativa: hay algo más de fondo que hace que estos valores no sean por simple casualidad.

Así, cuantitativamente, mostramos qué diarios hablan más de crisis en la sección de política y cuáles lo hacen más en la sección de economía. Posteriormente, un análisis cualitativo del discurso podría profundizar en esta estructura. Pregunta al lector o lectora: ¿por qué te parece que puede ocurrir?

¿Será el gobierno?

Los análisis cuantitativos de textos por lo general son mostrados como el conteo de palabras, visualizado como la nube de palabras donde la palabra más grande es la más mencionada. Esa es la forma básica de aproximación, después se pueden realizar análisis de redes de palabras, o también “análisis de sentimiento” donde un algoritmo de clasificación supervisada, como naïve bayes por ejemplo, puede discriminar si una frase, un comentario, una oración o un texto es “positivo” o “negativo”.

Para hacer todo aquello se requiere que el algoritmo sea entrenado con base a textos previamente clasificados como positivos o negativos. Posteriormente al pasarle nuevos textos, el algoritmo, debido a la estructura de relaciones de frecuencias entre las palabras, puede discernir si es pos o neg. Pero claro que hay que contar con dicha clasificación previa, una base de varias decenas de miles de textos ya clasificados. En nuestro caso, si quisiéramos clasificar textos para decir si son políticos o económicos, podríamos usar el dataset de artículos de política o economía como entrenamiento y al pasarle nuevos artículos el algoritmo podría discernir si se trata de un artículo de política o de economía. No muy útil para nuestros fines actuales.

Por eso, en este caso, hice otra cosa relacionada al uso de la frecuencia de las palabras en el texto. Mi interés era apuntar a otro lado, no hacer una clasificación sino medir la distancia entre palabras específicas. La pregunta era entonces ¿en qué medida los medios asocian la crisis al gobierno? Y surgía otra pregunta ¿cómo responder a esto? La solución fue vectorizar los textos, y esto lo hice con tf-idf (del inglés term frequency-inverse document frequency), que consiste básicamente en medir la frecuencia del término no sólo dentro del documento analizado, sino también con referencia a todos los documentos del set de datos. Belleza de una tabla de palabras y números -nadie se lo espera-. Posteriormente a esta tabla se la debe hacer bidimensional con t-SNE (t-distributed Stochastic Neighbor Embedding: algoritmo empleado para reducir dimensiones), y así se pueden representar los valores obtenidos en un gráfico de ejes cartesianos (x, y), donde las palabras ocupan un espacio en el plano y tienen distancia entre ellas.

Y lo que fui a buscar a continuación fue la distancia entre las palabras crisis y gobierno de acuerdo al medio gráfico. El resultado:

Página\|12	Iprofesional	La Nación	Pausa	Clarín	Infobae
0.74	1.28	1.38	1.43	2.57	2.62

Otro ¡Voilà! Vemos cómo Clarín e Infobae se diferencian de los demás periódicos al poner una distancia más amplia en la frecuencia con la que aparecen la palabra crisis y la palabra gobierno en el corpus. Esto no significa que esa distancia sea buena o mala, solo que no aparecen juntas, por lo general, en un mismo texto, lo que también significa que no las asocian. Por el lado de Página|12 por ejemplo, se observa lo contrario, las palabras aparecen muy asociadas, por eso la distancia es muchísimo más corta: 0.74 (desviaciones estándar). Como se verá en el gráfico de abajo, las palabras más cerca del centro (0, 0), más probabilidades de aparecer tienen. Otra vez, pregunta al lector o lectora: ¿por qué te parece que puede ocurrir?

	Clarín
	Página\|12

A continuación te dejo el link para que puedas ver el código completo, acá.

Por Mauricio Savarino