Aplicación de Minería de Textos para analizar discursos


La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos.1​ Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Fuente: wikipedia.

La minería de textos analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.

Una de las aplicaciones actuales de la minería de textos es el analizar discursos de personalidades para comprobar similitudes y diferencias entre unos y otros.

Existen varios paquetes desarrollados para realizar minería de texto en R en esta caso usaremos quanteda, el cual fue desarrollado para ser utilizado por personas con datos textuales, tal vez de libros, tweets o transcripciones, tanto para administrar esos datos (clasificar, etiquetar, condensar, etc.) como para analizar su contenido. Dos formas comunes de análisis con quanteda son el análisis de sentimientos y el análisis de contenido y esto es lo que aplicaremos.

Hay tres componentes principales de un texto tal como lo entiende quanteda:

Para este análisis comparativo se descargaron desde la web los discursos presidenciales inaugurales de varios presidentes latinoamericanos.

Métricas de legibilidad del texto

Extensión del discurso

Muestra de forma comparativa la extensión del discurso a través de la sumatoria de frases encontradas en el cuerpo textual.

Frecuencia de uso de las palabras

Se trata de un análisis de texto en su forma más simple, en el que los temas se cuentan y se llevan a la parte superior en función de la frecuencia con la que se mencionan. Esto es ideal para identificar rápidamente los temas comunes.

comparación de uso de palabras por los presidentes

Dispersión léxica y lenguaje controlado

Se puede observar la frecuencia de uso y el momento del discurso en el que se utilizó la palabra clave buscada, en este caso son dos palabras que están en el contexto de un discurso político: pueblo y presidente

Para el caso de las palabras clave: educación y democracia:

Finalmente, las palabras clave: economía y empleo

Palabras clave y frecuencia identificadas por discurso comparados

Comparación del discurso de Luís Arce con el de Evo Morales

Comparación del discurso de López Obrador con el de Hugo Chávez

Análisis de similitudes y correlaciones entre los discursos

Estas funciones calculan matrices de distancias y similitudes entre documentos o características de un dfm() y devuelven una matriz de similitudes o distancias en un formato disperso.

En este caso usaremos el análisis de “coseno”, el cual es ampliamente utilizado en el análisis de grafos. Este se encarga de conocer el ángulo entre dos vectores n-dimensionales en un espacio n-dimensional.

Distancia entre discursos

Existen varias geometrías para explicar la distancia entre dos puntos, dos de las más conocidas son la euclidiana y la Manhattan. En este caso usaremos la geometría Manhattan para calcular la distancia entre los discursos de los presidentes.

Red de agrupamiento de palabras (combinaciones de palabras)

Muchas veces un grupo de palabras puede proporcionarle más perspectiva que una sola palabra. Veamos la red de palabras identificadas en el discurso de Luís Arce

Ahora veamos la red de palabras del discurso de Alberto Fernández

Extracción de sentimientos de los discursos

Sentimientos por tokens del discurso:

## Tokens consisting of 6 documents and 2 docvars.
## 1999-Hugo_Chavez :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "negative" "positive" "positive" "positive" "positive" "positive"
## [ ... and 189 more ]
## 
## 2006-Evo_Morales :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "positive" "positive" "negative" "positive" "negative" "negative"
## [ ... and 141 more ]
## 
## 2007-Rafael_Correa :
##  [1] "positive" "negative" "negative" "positive" "negative" "negative"
##  [7] "positive" "positive" "positive" "negative" "positive" "positive"
## [ ... and 128 more ]
## 
## 2011-Ollanta_Humala :
##  [1] "positive" "positive" "positive" "positive" "positive" "negative"
##  [7] "negative" "negative" "negative" "negative" "negative" "negative"
## [ ... and 84 more ]
## 
## 2018-Ivan_Duque :
##  [1] "positive" "positive" "negative" "positive" "positive" "positive"
##  [7] "negative" "negative" "negative" "negative" "positive" "negative"
## [ ... and 116 more ]
## 
## 2018-Lopez_Obrador :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "negative" "positive" "negative" "negative" "negative" "negative"
## [ ... and 116 more ]

Tabla resumen de sumaroria de sentimientos

Resumen de Sentimientos extraidos
doc_id negative positive
1999-Hugo_Chavez 101 100
2006-Evo_Morales 59 94
2007-Rafael_Correa 71 69
2011-Ollanta_Humala 44 52
2018-Ivan_Duque 69 59
2018-Lopez_Obrador 59 69
2019-Alberto_Fernandez 67 84
2020-Luis_Arce 47 34