TDC (Twitter Data Collection): Creación de una gran base de datos de Tweets

La motivación de este proyecto es crear una base de datos flexible para adquirir, almacenar, analizar y consultar tweets. Se debe llevar a cabo un trabajo de investigación sobre cuáles son las tecnologías usadas para este propósito y diseñar una arquitectura software acorde a ellas. Las investigaciones llevarán hacia el auge del Big Data, sistemas que manipulan grandes conjutos de datos. Una vez diseñada una arquitectura adecuada se procederá a comparar y elegir componentes entre el abanico software que forma todo este ecosistema. Unir todos ellos para un funcionamiento correcto y su uso adecuado es el gran reto de Twitter Data Collection, así como proporcionar ejemplos de uso relevantes. En este documento se expondrán:  Los motivos que llevaron al Big Data.  La gran variedad de tecnologías usadas para lidiar con grandes volúmenes de datos.  Conocer las distintas APIs de Twitter.  Averiguar cuáles son los componentes que sirven para cada capa de la arquitectura software diseñada y su funcionamiento.  Pasos necesarios para instalar un cluster con un único nodo asi como la forma de adquirir, analizar y consultar tweets con cada componente correspondiente.  La manera de instalar un cluster con múltiples nodos aprovechando los pasos realizados para el de uno y las modificaciones necesarias para adaptar los scripts anteriormente desarrollados. Este proyecto no solo expone cómo instalar un entorno Hadoop de una manera sencilla, también muestra un ejemplo de cómo tratar con la cantidad ingente de información que logra desbordar a las bases de datos relacionales. Repositorio disponible en www.github.com/borjagilperez/twitter-data-collection

The motivation of this project is to create a flexible database to ingest, store, analyze and query tweets. Should carry out a research on what are the technologies used for this purpose and design a software architecture according to them. Researches will carry to the rise of Big Data, systems that manipulate large data sets. Once an architecture has been designed shall compare and choose between the software components that form the whole range ecosystem. Merge all for proper operation and proper use is the great challenge of Twitter Data Collection, as well as provide examples of relevant use. This document will present:  The reasons that led to the Big Data.  The variety of technologies used to deal with large volumes of data.  Know the different Twitter APIs.  Find out what are the components used for each layer of software architecture designed and functioning.  Steps for installing a single-node cluster so how to acquire, analyze and view tweets with each corresponding component.  The way to install a multi-node cluster leveraging the steps taken for single-node one, and the changes needed to adapt the scripts previously developed. This project not only shows how to install a Hadoop environment in a simple way, also shows an example of how to deal with the huge amount of information that does overwhelm the relational database. Repository available in www.github.com/borjagilperez/twitter-data-collection

Show full item record