dc.description.abstract | El contenido publicado en las redes sociales se ha convertido en uno de los grandes objetos de estudio en la actualidad, debido a que la información obtenida resulta de gran utilidad para multitud de propósitos, como pueden ser temas comerciales o detección de radicalización en las personas.
Este Trabajo de Fin de Máster (TFM) se basa en la elaboración de un sistema informático distribuido, que analiza los tweets publicados durante un periodo de tiempo en concreto, extrae la información de ellos y agrupa a los usuarios en comunidades, con el objetivo de obtener los temas que se comentan en cada comunidad.
En primer lugar, se agruparán y filtrarán todos los tweets de las distintas fuentes. Una vez tengamos el conjunto de datos, se generarán las comunidades de usuarios con respecto a los retweets y menciones, y se procesará cada uno de los tweets para obtener la información sobre la que el usuario escribe.
Una vez se hayan generado las comunidades y procesado los tweets, se insertan los resultados en una base de datos NoSQL y se visualizan mediante distintas gráficas, para poder saber que está comentando cada una de las comunidades.
Para que el sistema sea posible, se han elegido una serie de herramientas para apoyar al desarrollo. Apache Kafka como sistema de transmisión distribuida, Apache Spark para el procesamiento en paralelo, Spacy para el procesamiento de lenguaje natural, Elasticsearch como base de datos donde alojar los resultados, y Kibana como herramienta de visualización de los datos resultantes del sistema.
El TFM está englobado en dos de los temas más actuales dentro del mundo de la informática, Big Data, debido a la cantidad de tweets que se generan y debemos de analizar, y el procesamiento del lenguaje natural (NLP). | es_ES |