Caso de estudio: Twitter
Usuario de Twitter analizados:
-
ahorapodemos
-
Albert_Rivera
-
CiudadanosCs
-
marianorajoy
-
Pablo_Iglesias_
-
PPopular
-
PSOE
-
sanchezcastejon
N=36.193 tweets (total), recolectados a través de
Python.
Procedimiento de reestructuración y análisis de datos, realizados con: R.
Pasos aplicados para el tratamiento y análisis de datos recabados:
-
La totalidad de variables anidadas en la base de datos recolectada a través de Python separadas de
acuerdo con los diferentes temas que serán tratados en el marco de este trabajo. Para ello se hizo uso de REGEX (expresiones regulares).
- Se eliminaron tweets(T y RT) totalmente en otros idiomas. En total se eliminaron: 403 palabras).
-
Los replies fueron etiquetados como tweets(T).
-
Se trabajaron en conjunto T y RT.
-
Tokenización de palabras:
-
-
Se realizó prelimpieza de la totalidad de tweets (cambiar palabras que tenían @). Se sustituyeron un
total de: 66 palabras.
-
Se corrigieron palabras unidas (e.g. "infantitapreparados"), separándolas entre sí. Se corrigieron un
total de 42 palabras.
-
Se eliminaron los hashtags, las URLs y la palabra RT que aparecían en los tweets analizados.
- Se eliminaron las stopwords seleccionadas
- Se generó el corpus y luego los tokens (eliminando signos de puntuación, símbolos y separadores)
-
Tokenización de hashtags:
-
-
Se llevó a cabo prelimpieza de hashtags y se unieron aquellas que tenían errores ortográficos o
diferían en tamaño de las letras y pertenecían a los mismos usuarios analizados.
-
Elaboración de de algoritmos de machine learning:
-
-
Los algoritmos elaborados se hicieron para el análisis de cada una de las variables ad-hoc creadas en
el marco de este trabajo (e.g. cultura política) por la cantidad de observaciones etiquetadas para cada uno de estos casos.
-
Se incluyeron los hashtags que podían dar información importante para entender el tipo de
tweet
-
Se usó como medida para contabilizar términos TF-IDF
-
El modelo algorítmico empleado fue el de máquinas de soporte vectorial y Random Forest (de acuerdo
con el tema abordado), cuyos parámetros internos fueron buscados mediante grid search.
-
Se empleó la Crossvalidación, como método para validar cuan bien se ajustaban los modelos a data no
vista proporcionando buenos resultados
Fecha de levantamiento de la información: Del 26
de mayo de 2016 (un mes antes de las elecciones generales realizadas el 26 de junio de 2016) al 2 de septiembre de 2016 (semana en que se llevó a cabo el primer debate de investidura al cargo de
Presidente de Gobierno).