Análisis de redes sociales y minería de textos aplicadas a caracterizar comunidades de usuarios en Twitter
Author
Blázquez Pardo, RobertoAdvisor
Haya, Pablo A.Entity
UAM. Departamento de Ingeniería InformáticaDate
2019-09Subjects
Big Data; Twitter; tweet; InformáticaNote
Máster en Ingeniería InformáticaEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
El contenido publicado en las redes sociales se ha convertido en uno de los grandes objetos de estudio en la actualidad, debido a que la información obtenida resulta de gran utilidad para multitud de propósitos, como pueden ser temas comerciales o detección de radicalización en las personas.
Este Trabajo de Fin de Máster (TFM) se basa en la elaboración de un sistema informático distribuido, que analiza los tweets publicados durante un periodo de tiempo en concreto, extrae la información de ellos y agrupa a los usuarios en comunidades, con el objetivo de obtener los temas que se comentan en cada comunidad.
En primer lugar, se agruparán y filtrarán todos los tweets de las distintas fuentes. Una vez tengamos el conjunto de datos, se generarán las comunidades de usuarios con respecto a los retweets y menciones, y se procesará cada uno de los tweets para obtener la información sobre la que el usuario escribe.
Una vez se hayan generado las comunidades y procesado los tweets, se insertan los resultados en una base de datos NoSQL y se visualizan mediante distintas gráficas, para poder saber que está comentando cada una de las comunidades.
Para que el sistema sea posible, se han elegido una serie de herramientas para apoyar al desarrollo. Apache Kafka como sistema de transmisión distribuida, Apache Spark para el procesamiento en paralelo, Spacy para el procesamiento de lenguaje natural, Elasticsearch como base de datos donde alojar los resultados, y Kibana como herramienta de visualización de los datos resultantes del sistema.
El TFM está englobado en dos de los temas más actuales dentro del mundo de la informática, Big Data, debido a la cantidad de tweets que se generan y debemos de analizar, y el procesamiento del lenguaje natural (NLP).
Files in this item
Google Scholar:Blázquez Pardo, Roberto
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Análisis de responsabilidad social corporativa orientada a comunidades de usuarios en twitter
Santander Adrado, Iván
2015-01