LAS PALABRAS A NÚMEROS EN LA CRISIS DEL DÓLAR
En el artículo 2, el anterior que
escribí para el blog, me referí a la Ciencia de Datos, como un movimiento
global de disciplinas basadas en el análisis de grandes volúmenes de datos a
través de técnicas estadísticas, matemáticas y de programación. Dado que en la
práctica te podés encontrar con uno u otro lenguaje de programación, aquí solo
mencionaremos el que maneja quien escribe. Rápidamente, podemos decir que
existen en el “mercado” de lenguajes de programación de código libre para
ciencia de datos, los lenguajes R y Python.
R es un lenguaje de programación
que surgió de la mano de la comunidad estadística, por lo que tiene mucha
circulación en la academia, en las universidades. Tienen probada validez sus
funciones “built-in”, i.e. con las que el lenguaje viene incorporado y por esa
razón es ampliamente utilizado para la investigación científica (por lo que
cuenta con hermosas visualizaciones) y también, aunque en menor medida, en la
producción. Por el lado de Python, se trata de un lenguaje surgido de la
comunidad de desarrolladores de software (su creador: Guido Van Rossum), y que
ha ido ganando en funciones built-in estadísticas, de machine learning, entre muchas otras cosas, dado que no ha sido
desarrollado para eso originalmente. Por su parte, es el ya futuro lenguaje del Deep Learning o la “inteligencia
artificial”, por lo que tiene mucha utilización en la producción por la
escalabilidad de sus aplicaciones, es utilizado por Google o Spotify por
ejemplo, entre otras empresas TICs, como la argentina de construcción de
nanosatélites Satellogic. Tiene la ventaja que es fácil de aprender (lo cual es
explicitado por su filosofía), porque “es como escribir en inglés”, a
diferencia de R que no es tan intuitivo.
Como ejemplo abordaremos en este
texto los resultados de un código de Python para hacer “web scraping” de
diarios. Para eso se combinó programación y ciencia de datos aplicada al
análisis de textos, y este tipo de análisis basado en el procesamiento de lenguaje natural. El código completo lo dejaremos
abajo de todo.
¿Cómo fue?
A principios de 2019 se me
ocurrió escribir un código para tomar los artículos de diarios y descargarlos
en una tabla especificando nombre del diario, sección, título, el texto del
artículo en sí mismo, la fecha, entre otras cosas. Recopilé durante ese año un
set de datos de alrededor 30000 artículos de las secciones economía y política
de los diarios Clarín, La Nación, Página 12, Infobae, Iprofesional y el
periódico local Pausa: los cuatro primeros de mayor tirada a nivel nacional,
los dos últimos diarios con presencia online y en papel.
(Al código lo titulé APAlala. Sí, en aquel entonces creía que era
gracioso, pero quería apuntar a “¡apa! Mirá lo que dicen acá”, de todas formas,
no fue tan en vano el nombre.)
Comentándole esto a uno de los
compañeros de la radio, Ariel, me propuso averiguar cómo aparecía la palabra crisis en todas estas notas y artículos
periodísticos, eran tiempos convulsionados para la economía en aquel inicio de
2019. Entonces procedí a comparar la frecuencia de la palabra según cómo
aparecía en todos los artículos, con la variación del tipo de cambio.
Posteriormente, me interesó ver cómo aparecían esas frecuencias en las
secciones de economía y política para cada uno de estos diarios. Por último,
como, cuantitativamente, se acercan los usos de la palabra crisis y gobierno en
cada diario.
Antes que nada, debemos aclarar
que este análisis se hizo con las publicaciones a partir del 25 de febrero,
tiempo después de que el dólar haya pegado su salto al “máximo histórico”, como
tituló una nota de Infobae de por aquel entonces. Después de unos meses de
relativa estabilidad rondando entre los 37 y 38 pesos, el dólar se disparó a 40
pesos, para luego fluctuar entre $42 y $45. El análisis se realizó sobre las
publicaciones de diarios hasta mayo.
Crisis v Dólar
Para comenzar, conté las veces
que la palabra crisis aparecía cada
día en las publicaciones de estos periódicos y las comparé con la variación del
precio del dólar. Básicamente, la función pythoniana para llevar a cabo la
tarea se muestra en la siguiente imagen.
Contada la frecuencia, la comparé
con la evolución del dólar diariamente, como se representa en el gráfico 1. Estrictamente
hablando, no hay gran correlación entre ambas variables, dado que una es
cualitativa y la otra cuantitativa, por lo que no existen posibilidades de predecir entre estas dos variables (heterocedasticidad). No obstante, la
utilización de la palabra crisis depende, de acuerdo a lo que observamos, de la
percepción de los autores de las notas periodísticas. En este sentido, parece
que hay mayor o menor frecuencia de utilización, donde, cuando el dólar se
dispara, se dispara el uso de la palabra, aunque decae posteriormente incluso
cuando el tipo de cambio forma una “meseta” o también decaiga: ¿se trata
acostumbramiento del discurso a las condiciones económicas?
Dónde la dicen
Si lo anterior no es concluyente
para nada, aunque de por sí interesante, lo siguiente sí supuso un hallazgo un
poco más llamativo. Durante las primeras dos décadas de este siglo, y sobre
todo a mediados de la década del 2010 cuando el kirchnerismo se enfrentó por
primera vez al sector agropecuario argentino, se comenzó a poner públicamente
en cuestión a los medios de comunicación. Si bien este cuestionamiento de base
es ampliamente conocido dentro de la academia porque sobre todas las cosas en
las ciencias sociales es central determinar antes que nada desde cuál prisma
teórico observa la realidad quien investiga, llevar al plano público la
metodología supuso romper el supuesto velo de verdad –¿absoluta?– que ostentaba
el periodismo. Así, la relativización del discurso y el pensamiento, medular
para realizar cualquier abordaje científico social, cobró status público
moviendo el extremo retórico de la verdad absoluta hacia el extremo retórico
opuesto: “mienten”.
Pero de lo dicho anteriormente,
algunos de estos fenómenos pueden medirse. Y este fue uno de esos casos. Las relaciones
entre la mención de la palabra crisis en los medios gráficos cambia según la
empresa y la sección. Encontré que según el medio habrá más mención de esta
palabra en la sección de política o economía: ¡Voilà! En el siguiente gráfico de barras
se muestran estas relaciones, donde los diarios Página|12, Pausa e Iprofesional
mencionaron con mayor frecuencia la palabra crisis en las secciones de
economía, mientras que Clarín, La Nación e Infobae la mencionaron más en las
secciones de política.
Hay pruebas estadísticas para
mostrar si la distribución de las frecuencias es aleatoria o no. Eso es lo que
puede llevarnos a rechazar la hipótesis nula, aquella que afirmaría que en
realidad lo que observamos acá es “por casualidad”. En realidad, si
aplicamos, por ejemplo, la prueba X^2 (ji o chi cuadrado), nos da como
resultado que esta distribución no está dada por casualidad, por lo que
cobraría fuerza la hipótesis alternativa:
hay algo más de fondo que hace que estos valores no sean por simple casualidad.
Así, cuantitativamente, mostramos
qué diarios hablan más de crisis en la sección de política y cuáles lo hacen
más en la sección de economía. Posteriormente, un análisis cualitativo del
discurso podría profundizar en esta estructura. Pregunta al lector o lectora: ¿por qué te parece que puede ocurrir?
¿Será el gobierno?
Los análisis cuantitativos de
textos por lo general son mostrados como el conteo de palabras, visualizado
como la nube de palabras donde la palabra más grande es la más mencionada. Esa
es la forma básica de aproximación, después se pueden realizar análisis de
redes de palabras, o también “análisis de sentimiento” donde un algoritmo de
clasificación supervisada, como naïve bayes por ejemplo, puede discriminar si
una frase, un comentario, una oración o un texto es “positivo” o “negativo”.
Para hacer todo aquello se
requiere que el algoritmo sea entrenado con base a textos previamente
clasificados como positivos o negativos. Posteriormente al pasarle nuevos
textos, el algoritmo, debido a la estructura de relaciones de frecuencias entre
las palabras, puede discernir si es pos
o neg. Pero claro que hay que contar
con dicha clasificación previa, una base de varias decenas de miles de textos
ya clasificados. En nuestro caso, si quisiéramos clasificar textos para decir
si son políticos o económicos, podríamos usar el dataset de artículos de
política o economía como entrenamiento y al pasarle nuevos artículos el
algoritmo podría discernir si se trata de un artículo de política o de
economía. No muy útil para nuestros fines actuales.
Por eso, en este caso, hice otra
cosa relacionada al uso de la frecuencia de las palabras en el texto. Mi
interés era apuntar a otro lado, no hacer una clasificación sino medir la
distancia entre palabras específicas. La pregunta era entonces ¿en qué medida
los medios asocian la crisis al gobierno? Y surgía otra pregunta ¿cómo
responder a esto? La solución fue vectorizar los textos, y esto lo hice con tf-idf (del inglés term frequency-inverse document frequency), que consiste
básicamente en medir la frecuencia del término no sólo dentro del documento
analizado, sino también con referencia a todos los documentos del set de datos.
Belleza de una tabla de palabras y números -nadie se lo espera-. Posteriormente
a esta tabla se la debe hacer bidimensional con t-SNE (t-distributed Stochastic Neighbor Embedding: algoritmo empleado
para reducir dimensiones), y así se pueden representar los valores obtenidos en
un gráfico de ejes cartesianos (x, y), donde las palabras ocupan un espacio en
el plano y tienen distancia entre ellas.
Y lo que fui a buscar a
continuación fue la distancia entre las palabras crisis y gobierno de acuerdo
al medio gráfico. El resultado:
Página|12
|
Iprofesional
|
La Nación
|
Pausa
|
Clarín
|
Infobae
|
0.74
|
1.28
|
1.38
|
1.43
|
2.57
|
2.62
|
Otro ¡Voilà! Vemos cómo Clarín e Infobae se diferencian de los demás
periódicos al poner una distancia más amplia en la frecuencia con la que
aparecen la palabra crisis y la palabra gobierno en el corpus. Esto no
significa que esa distancia sea buena o mala, solo que no aparecen juntas,
por lo general, en un mismo texto, lo que también significa que no las
asocian. Por el lado de Página|12 por ejemplo, se observa lo contrario, las palabras
aparecen muy asociadas, por eso la distancia es muchísimo más corta: 0.74 (desviaciones
estándar). Como se verá en el gráfico de abajo, las palabras más cerca del
centro (0, 0), más probabilidades de aparecer tienen. Otra vez, pregunta al
lector o lectora: ¿por qué te parece que
puede ocurrir?
Clarín
|
|
Página|12
|