Técnicas Big Data para el análisis de datos de tráfico de red sobre Hadoop

García-Valcárcel Sen, Rubén

UAM_Biblioteca

dc.contributor.advisor	González, Iván
dc.contributor.author	García-Valcárcel Sen, Rubén
dc.contributor.other	UAM. Departamento de Ingeniería Informática	es_ES
dc.date.accessioned	2015-11-27T08:56:19Z
dc.date.available	2015-11-27T08:56:19Z
dc.date.issued	2015-06
dc.identifier.uri	http://hdl.handle.net/10486/668990
dc.description.abstract	La monitorización y el análisis del tráfico de red cobran gran importancia cuando se trata de optimizar los recursos de red y mejorar la experiencia de los usuarios. Las técnicas habituales utilizan un único servidor que, a pesar de ser de alto rendimiento, consta de unos recursos limitados y no es escalable para el análisis exhaustivo de grandes volúmenes de datos. Por ello, una paralelización del trabajo puede resultar útil a la hora de realizar este tipo de tareas. El proyecto Apache Hadoop, junto a todas las herramientas que surgen a su alrededor, proporciona una plataforma para la computación distribuida de Big Data de forma escalable y fiable. El objetivo de este trabajo es la evaluación tanto del rendimiento de dicho proyecto como de las posibilidades que ofrece en el contexto de la monitorización y el análisis de redes. Con este propósito, se ha creado una herramienta basada en Hadoop para la captura, el almacenamiento, el procesamiento y el análisis de grandes cantidades de tráfico de red. Para probar el funcionamiento del sistema propuesto, se ha utilizado tráfico real obtenido de la red de los laboratorios docentes de la Escuela Politécnica Superior de la Universidad Autónoma de Madrid. Se ofrece también la posibilidad de utilizar una interfaz web para definir y ejecutar consultas de forma interactiva, con las que realizar la parte del análisis. Se propone la herramienta Apache Hive para el desarrollo de esta parte, ya que su lenguaje de programación, basado en SQL, permite consultar de forma distribuida grandes cantidades de datos. Esto facilita la labor de los administradores de red, pues disponen de una forma sencilla de definir consultas en función de sus necesidades. Para evaluar la capacidad del sistema creado se han realizado varios análisis sobre las diferentes fuentes de información disponibles. Estos han permitido generar estadísticas del uso de la red, detectar errores en sus componentes y realizar predicciones sobre el patrón de uso de la misma. Por último, se ha comparado el rendimiento de la herramienta propuesta con el de las soluciones actuales. Los resultados experimentales muestran que, con un pequeño clúster, se puede conseguir un tasa de procesamiento superior a 7 Gbps (7 109 bits por segundo), mejorando el rendimiento de las herramientas más potentes disponibles en la actualidad.	es_ES
dc.description.abstract	Network traffic monitoring and analysis loom large when it comes to optimizing network resources and improving the user experience. The standard techniques use a single high performance server which has limited resources and is not scalable for the thorough analysis of large data sets. Thus, a parallelization of the work can be useful when performing such tasks. The Apache Hadoop project, along with all the tools that appear over it, provides a framework for the distributed computing of Big Data in a scalable and reliable way. The aim of this work is to evaluate both the performance of the project and the possibilities that it offers in the context of network traffic monitoring. To this end, we have created a tool based on Hadoop in order to capture, store, process and analyze huge amounts of network traffic. For the purpose of testing the performance of this tool, we have used real network traffic which has been obtained from the laboratories’ network of the Escuela Politécnica Superior in the Universidad Autónoma de Madrid. We also offer the possibility to use a web interface to define and execute queries interactively, in order to perform the analysis. We propose the Apache Hive tool for the development of this part, as its programming language, based on SQL, provides a way to query large amounts of data in a distributed manner. This facilitates the work of network administrators, since they have an easy way to define queries based on their needs by using the proposed system. To assess the possibilities of the created system, we have conducted several analysis that use the available sources of information. These analysis have generated several statistics about the network usage and they have detected some errors on its components. Besides, we have been able to make some predictions about the use pattern of the network. Finally, we have compared the performance of the proposed tool with the current solutions. Experimental results show that, with a small cluster, it is possible to obtain a performance higher than 7 Gbps (7 109 bits per second), improving the performance of the most powerful tools that are available nowadays.	en_US
dc.format.extent	70 pág.	es_ES
dc.format.mimetype	application/pdf	en_US
dc.language.iso	spa	en_US
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.other	Big Data	es_ES
dc.subject.other	Sistemas distribuidos	es_ES
dc.title	Técnicas Big Data para el análisis de datos de tráfico de red sobre Hadoop	es_ES
dc.type	bachelorThesis	en_US
dc.subject.eciencia	Informática	es_ES
dc.rights.cc	Reconocimiento – NoComercial – SinObraDerivada	es_ES
dc.rights.accessRights	openAccess	en_US
dc.facultadUAM	Escuela Politécnica Superior

Files in this item

Name:: Garcia-Valcarcel_Sen_Ruben_tfg.pdf
Size:: 1.301Mb
Format:: PDF

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20060]

Show simple item record

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca

Técnicas Big Data para el análisis de datos de tráfico de red sobre Hadoop

Files in this item

This item appears in the following Collection(s)

Related items

Aplicación de técnicas estadísticas a registros de red para el análisis de tráfico y explotación de datos ﻿

Children age group detection base don human-computer interaction and time series análisis ﻿

Nueva técnica de irradiación del melanoma de coroides, con iridio-192 de anclaje epiescleral ﻿

Aplicación de técnicas estadísticas a registros de red para el análisis de tráfico y explotación de datos

Children age group detection base don human-computer interaction and time series análisis

Nueva técnica de irradiación del melanoma de coroides, con iridio-192 de anclaje epiescleral