La minería de textos es una rama específica de la minería de datos que se refiere al proceso de analizar y derivar información nueva de textos.1 Por medio de la identificación de patrones o correlaciones entre los términos se logra encontrar información que no está explícita dentro del texto. Fuente: wikipedia.
La minería de textos
analiza la información de tipo textual. Es una disciplina transversal y de creciente interés, cuyas aplicaciones son múltiples. Entre otras: indexación de documentos, traducción automática, resumen automático de textos, reconocimiento de voz o identificación de la autoría de textos.
Una de las aplicaciones actuales de la minería de textos
es el analizar discursos de personalidades para comprobar similitudes y diferencias entre unos y otros.
Existen varios paquetes desarrollados para realizar minería de texto en R en esta caso usaremos quanteda
, el cual fue desarrollado para ser utilizado por personas con datos textuales, tal vez de libros, tweets o transcripciones, tanto para administrar esos datos (clasificar, etiquetar, condensar, etc.) como para analizar su contenido. Dos formas comunes de análisis con quanteda
son el análisis de sentimientos y el análisis de contenido y esto es lo que aplicaremos.
Hay tres componentes principales de un texto tal como lo entiende quanteda:
Para este análisis comparativo se descargaron desde la web los discursos presidenciales inaugurales de varios presidentes latinoamericanos.
FORCAST (Caylor and Sticht 1973). La fórmula FORCAST es muy inusual ya que no usa una longitud de oraciónmedición. Sin embargo, esto lo convierte en un favorito para usar con declaraciones y el texto en sitios web, aplicaciones y formularios. El Departamento de la Fuerza Aérea de EEUU (1977) autorizó el uso de esta fórmula en una instrucción para escribir publicaciones comprensibles.Los autores Usando la fórmula FORCAST, probaron los materiales de lectura de trabajo críticos para mayor legibilidad. Los resultados muestran el porcentaje de materiales en cada ocupación escrito en el nivel de grado 9.9: especialista médico, 24.4%; Ligero Infantería de armas, 18,3%; Policía Militar, 15,1%; Vehículo general Reparador, 13,4%; Amorer / Especialista en suministro de unidades, 10,8%; Control de tierra Reparador de radar, 4,2% y especialista en personal, 2,2%.
Índice de niebla de Gunning (Gunning 1952) FOG. El índice de niebla de Gunning es una medida de la legibilidad de un escrito que se utiliza en lingüística. El índice se basa en dos indicadores: la longitud de las frases y de las palabras.
Prueba de nivel de grado de Flesch-Kincaid (Flesch and Kincaid 1975). En la prueba de facilidad de lectura de Flesch, las puntuaciones más altas indican material que es más fácil de leer; los números más bajos marcan los pasajes que son más difíciles de leer, la escal abarca de 0 a 100.
“ELF” Easy Listening Formula (Fang 1966). ELF = número de sílabas por encima de una por palabra en una oración. Una oración promedio debe tener una puntuación ELF por debajo de 12 para que sea fácil de escuchar.
Muestra de forma comparativa la extensión del discurso a través de la sumatoria de frases encontradas en el cuerpo textual.
Se trata de un análisis de texto en su forma más simple, en el que los temas se cuentan y se llevan a la parte superior en función de la frecuencia con la que se mencionan. Esto es ideal para identificar rápidamente los temas comunes.
Se puede observar la frecuencia de uso y el momento del discurso en el que se utilizó la palabra clave buscada, en este caso son dos palabras que están en el contexto de un discurso político: pueblo y presidente
Para el caso de las palabras clave: educación y democracia:
Finalmente, las palabras clave: economía y empleo
Comparación del discurso de Luís Arce con el de Evo Morales
Comparación del discurso de López Obrador con el de Hugo Chávez
Estas funciones calculan matrices de distancias y similitudes entre documentos o características de un dfm()
y devuelven una matriz de similitudes o distancias en un formato disperso.
En este caso usaremos el análisis de “coseno”, el cual es ampliamente utilizado en el análisis de grafos. Este se encarga de conocer el ángulo entre dos vectores n-dimensionales en un espacio n-dimensional.
Existen varias geometrías para explicar la distancia entre dos puntos, dos de las más conocidas son la euclidiana y la Manhattan. En este caso usaremos la geometría Manhattan para calcular la distancia entre los discursos de los presidentes.
Muchas veces un grupo de palabras puede proporcionarle más perspectiva que una sola palabra. Veamos la red de palabras identificadas en el discurso de Luís Arce
Ahora veamos la red de palabras del discurso de Alberto Fernández
Sentimientos por tokens del discurso:
## Tokens consisting of 6 documents and 2 docvars.
## 1999-Hugo_Chavez :
## [1] "positive" "positive" "positive" "positive" "positive" "positive"
## [7] "negative" "positive" "positive" "positive" "positive" "positive"
## [ ... and 189 more ]
##
## 2006-Evo_Morales :
## [1] "positive" "positive" "positive" "positive" "positive" "positive"
## [7] "positive" "positive" "negative" "positive" "negative" "negative"
## [ ... and 141 more ]
##
## 2007-Rafael_Correa :
## [1] "positive" "negative" "negative" "positive" "negative" "negative"
## [7] "positive" "positive" "positive" "negative" "positive" "positive"
## [ ... and 128 more ]
##
## 2011-Ollanta_Humala :
## [1] "positive" "positive" "positive" "positive" "positive" "negative"
## [7] "negative" "negative" "negative" "negative" "negative" "negative"
## [ ... and 84 more ]
##
## 2018-Ivan_Duque :
## [1] "positive" "positive" "negative" "positive" "positive" "positive"
## [7] "negative" "negative" "negative" "negative" "positive" "negative"
## [ ... and 116 more ]
##
## 2018-Lopez_Obrador :
## [1] "positive" "positive" "positive" "positive" "positive" "positive"
## [7] "negative" "positive" "negative" "negative" "negative" "negative"
## [ ... and 116 more ]
doc_id | negative | positive |
---|---|---|
1999-Hugo_Chavez | 101 | 100 |
2006-Evo_Morales | 59 | 94 |
2007-Rafael_Correa | 71 | 69 |
2011-Ollanta_Humala | 44 | 52 |
2018-Ivan_Duque | 69 | 59 |
2018-Lopez_Obrador | 59 | 69 |
2019-Alberto_Fernandez | 67 | 84 |
2020-Luis_Arce | 47 | 34 |