Las elecciones generales del 26J en España desde las redes sociales

Elaborado por: Elias Said-Hung & Julio Arévalo

Caso de estudio: Twitter

 

Usuario de Twitter analizados:

  • ahorapodemos
  • Albert_Rivera
  • CiudadanosCs
  • marianorajoy
  • Pablo_Iglesias_
  • PPopular
  • PSOE
  • sanchezcastejon

N=36.193 tweets (total), recolectados a través de Python.

 

Procedimiento de reestructuración y análisis de datos, realizados con: R.

 

Pasos aplicados para el tratamiento y análisis de datos recabados:

  • La totalidad de variables anidadas en la base de datos recolectada a través de Python separadas de acuerdo con los diferentes temas que serán tratados en el marco de este trabajo. Para ello se hizo uso de REGEX (expresiones regulares).
  • Se eliminaron tweets(T y RT) totalmente en otros idiomas. En total se eliminaron: 403 palabras).
  • Los replies fueron etiquetados como tweets(T).
  • Se trabajaron en conjunto T y RT.
  • Tokenización de palabras:          
    • Se realizó prelimpieza de la totalidad de tweets (cambiar palabras que tenían @). Se sustituyeron un total de: 66 palabras.
    • Se corrigieron palabras unidas (e.g. "infantitapreparados"), separándolas entre sí. Se corrigieron un total de 42 palabras.
    • Se eliminaron los hashtags, las URLs y la palabra RT que aparecían en los tweets analizados.
    • Se eliminaron las stopwords seleccionadas
    • Se generó el corpus y luego los tokens (eliminando signos de puntuación, símbolos y separadores)
  • Tokenización de hashtags:
    • Se llevó a cabo prelimpieza de hashtags y se unieron aquellas que tenían errores ortográficos o diferían en tamaño de las letras y pertenecían a los mismos usuarios analizados.
  • Elaboración de de algoritmos de machine learning:
    • Los algoritmos elaborados se hicieron para el análisis de cada una de las variables ad-hoc creadas en el marco de este trabajo (e.g. cultura política) por la cantidad de observaciones etiquetadas para cada uno de estos casos.
    • Se incluyeron los hashtags que podían dar información importante para entender el tipo de tweet
    • Se usó como medida para contabilizar términos TF-IDF
    • El modelo algorítmico empleado fue el de máquinas de soporte vectorial y Random Forest (de acuerdo con el tema abordado), cuyos parámetros internos fueron buscados mediante grid search.
    • Se empleó la Crossvalidación, como método para validar cuan bien se ajustaban los modelos a data no vista proporcionando buenos resultados

Fecha de levantamiento de la información: Del 26 de mayo de 2016 (un mes antes de las elecciones generales realizadas el 26 de junio de 2016) al 2 de septiembre de 2016 (semana en que se llevó a cabo el primer debate de investidura al cargo de Presidente de Gobierno).


Análisis sentimental de tweets publicados por usuarios políticos del 26J en España

N=36.193 tweets (total)

 

Gráficos elaborados con R.

 

 

 

 

 



Emociones identificadas en tweets publicados por usuarios políticos del 26J en España

N=36.193 tweets (total)

 

Gráficos elaborados con R.

 

 

 

 

 



Likes y retweets generados en tweets publicados por usuarios políticos analizados

N=36.193 tweets (total)

n-tweets=21.386 tweets

 

Gráficos elaborados con R.



Tweets versus Retweets publicados por usuarios políticos analizados

N=36.193 tweets (total)

n-tweets=21.386 tweets

n-retweets=14.807 tweets

 

Gráficos elaborados con R.



Tipo de tweets publicado (basado en hechos u opiniones)

N=36.193 tweets (total)

 

Gráficos elaborados con R.

 

 



Línea de tiempo de noticias de las elecciones del 26J en España (2016), generadas por candidatos analizados en estudio, durante período de toma de datos