Aplicación de Minería de Textos para analizar discursos

La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos.1 Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Fuente: wikipedia.

La minería de textos analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.

Una de las aplicaciones actuales de la minería de textos es el analizar discursos de personalidades para comprobar similitudes y diferencias entre unos y otros.

Existen varios paquetes desarrollados para realizar minería de texto en R en esta caso usaremos quanteda, el cual fue desarrollado para ser utilizado por personas con datos textuales, tal vez de libros, tweets o transcripciones, tanto para administrar esos datos (clasificar, etiquetar, condensar, etc.) como para analizar su contenido. Dos formas comunes de análisis con quanteda son el análisis de sentimientos y el análisis de contenido y esto es lo que aplicaremos.

Hay tres componentes principales de un texto tal como lo entiende quanteda:

El corpus es un objeto dentro de R que creamos cargando nuestros datos de texto
La matriz de características del documento (el “dfm”) es la unidad analítica sobre la que realizaremos el análisis.
Tokens son típicamente cada palabra individual en un texto.

Para este análisis comparativo se descargaron desde la web los discursos presidenciales inaugurales de varios presidentes latinoamericanos.

Métricas de legibilidad del texto

FORCAST (Caylor and Sticht 1973). La fórmula FORCAST es muy inusual ya que no usa una longitud de oraciónmedición. Sin embargo, esto lo convierte en un favorito para usar con declaraciones y el texto en sitios web, aplicaciones y formularios. El Departamento de la Fuerza Aérea de EEUU (1977) autorizó el uso de esta fórmula en una instrucción para escribir publicaciones comprensibles.Los autores Usando la fórmula FORCAST, probaron los materiales de lectura de trabajo críticos para mayor legibilidad. Los resultados muestran el porcentaje de materiales en cada ocupación escrito en el nivel de grado 9.9: especialista médico, 24.4%; Ligero Infantería de armas, 18,3%; Policía Militar, 15,1%; Vehículo general Reparador, 13,4%; Amorer / Especialista en suministro de unidades, 10,8%; Control de tierra Reparador de radar, 4,2% y especialista en personal, 2,2%.
Índice de niebla de Gunning (Gunning 1952) FOG. El índice de niebla de Gunning es una medida de la legibilidad de un escrito que se utiliza en lingüística. El índice se basa en dos indicadores: la longitud de las frases y de las palabras.
Prueba de nivel de grado de Flesch-Kincaid (Flesch and Kincaid 1975). En la prueba de facilidad de lectura de Flesch, las puntuaciones más altas indican material que es más fácil de leer; los números más bajos marcan los pasajes que son más difíciles de leer, la escal abarca de 0 a 100.
“ELF” Easy Listening Formula (Fang 1966). ELF = número de sílabas por encima de una por palabra en una oración. Una oración promedio debe tener una puntuación ELF por debajo de 12 para que sea fácil de escuchar.

Extensión del discurso

Muestra de forma comparativa la extensión del discurso a través de la sumatoria de frases encontradas en el cuerpo textual.

Frecuencia de uso de las palabras

Se trata de un análisis de texto en su forma más simple, en el que los temas se cuentan y se llevan a la parte superior en función de la frecuencia con la que se mencionan. Esto es ideal para identificar rápidamente los temas comunes.

comparación de uso de palabras por los presidentes

Dispersión léxica y lenguaje controlado

Se puede observar la frecuencia de uso y el momento del discurso en el que se utilizó la palabra clave buscada, en este caso son dos palabras que están en el contexto de un discurso político: pueblo y presidente

Para el caso de las palabras clave: educación y democracia:

Finalmente, las palabras clave: economía y empleo

Palabras clave y frecuencia identificadas por discurso comparados

Comparación del discurso de Luís Arce con el de Evo Morales

Comparación del discurso de López Obrador con el de Hugo Chávez

Análisis de similitudes y correlaciones entre los discursos

Estas funciones calculan matrices de distancias y similitudes entre documentos o características de un dfm() y devuelven una matriz de similitudes o distancias en un formato disperso.

En este caso usaremos el análisis de “coseno”, el cual es ampliamente utilizado en el análisis de grafos. Este se encarga de conocer el ángulo entre dos vectores n-dimensionales en un espacio n-dimensional.

Distancia entre discursos

Existen varias geometrías para explicar la distancia entre dos puntos, dos de las más conocidas son la euclidiana y la Manhattan. En este caso usaremos la geometría Manhattan para calcular la distancia entre los discursos de los presidentes.

Red de agrupamiento de palabras (combinaciones de palabras)

Muchas veces un grupo de palabras puede proporcionarle más perspectiva que una sola palabra. Veamos la red de palabras identificadas en el discurso de Luís Arce

Ahora veamos la red de palabras del discurso de Alberto Fernández

Extracción de sentimientos de los discursos

Sentimientos por tokens del discurso:

## Tokens consisting of 6 documents and 2 docvars.
## 1999-Hugo_Chavez :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "negative" "positive" "positive" "positive" "positive" "positive"
## [ ... and 189 more ]
## 
## 2006-Evo_Morales :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "positive" "positive" "negative" "positive" "negative" "negative"
## [ ... and 141 more ]
## 
## 2007-Rafael_Correa :
##  [1] "positive" "negative" "negative" "positive" "negative" "negative"
##  [7] "positive" "positive" "positive" "negative" "positive" "positive"
## [ ... and 128 more ]
## 
## 2011-Ollanta_Humala :
##  [1] "positive" "positive" "positive" "positive" "positive" "negative"
##  [7] "negative" "negative" "negative" "negative" "negative" "negative"
## [ ... and 84 more ]
## 
## 2018-Ivan_Duque :
##  [1] "positive" "positive" "negative" "positive" "positive" "positive"
##  [7] "negative" "negative" "negative" "negative" "positive" "negative"
## [ ... and 116 more ]
## 
## 2018-Lopez_Obrador :
##  [1] "positive" "positive" "positive" "positive" "positive" "positive"
##  [7] "negative" "positive" "negative" "negative" "negative" "negative"
## [ ... and 116 more ]

Tabla resumen de sumaroria de sentimientos

Resumen de Sentimientos extraidos
doc_id	negative	positive
1999-Hugo_Chavez	101	100
2006-Evo_Morales	59	94
2007-Rafael_Correa	71	69
2011-Ollanta_Humala	44	52
2018-Ivan_Duque	69	59
2018-Lopez_Obrador	59	69
2019-Alberto_Fernandez	67	84
2020-Luis_Arce	47	34

Análisis del Discurso