Técnicas Big Data para el análisis de datos de tráfico de red sobre Hadoop
Author
García-Valcárcel Sen, RubénAdvisor
González, IvánEntity
UAM. Departamento de Ingeniería InformáticaDate
2015-06Subjects
Big Data; Sistemas distribuidos; InformáticaEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
La monitorización y el análisis del tráfico de red cobran gran importancia cuando se
trata de optimizar los recursos de red y mejorar la experiencia de los usuarios. Las técnicas
habituales utilizan un único servidor que, a pesar de ser de alto rendimiento, consta de
unos recursos limitados y no es escalable para el análisis exhaustivo de grandes volúmenes
de datos. Por ello, una paralelización del trabajo puede resultar útil a la hora de realizar
este tipo de tareas.
El proyecto Apache Hadoop, junto a todas las herramientas que surgen a su alrededor,
proporciona una plataforma para la computación distribuida de Big Data de forma
escalable y fiable. El objetivo de este trabajo es la evaluación tanto del rendimiento de
dicho proyecto como de las posibilidades que ofrece en el contexto de la monitorización y
el análisis de redes. Con este propósito, se ha creado una herramienta basada en Hadoop
para la captura, el almacenamiento, el procesamiento y el análisis de grandes cantidades de
tráfico de red. Para probar el funcionamiento del sistema propuesto, se ha utilizado tráfico
real obtenido de la red de los laboratorios docentes de la Escuela Politécnica Superior de
la Universidad Autónoma de Madrid.
Se ofrece también la posibilidad de utilizar una interfaz web para definir y ejecutar
consultas de forma interactiva, con las que realizar la parte del análisis. Se propone
la herramienta Apache Hive para el desarrollo de esta parte, ya que su lenguaje de
programación, basado en SQL, permite consultar de forma distribuida grandes cantidades
de datos. Esto facilita la labor de los administradores de red, pues disponen de una forma
sencilla de definir consultas en función de sus necesidades.
Para evaluar la capacidad del sistema creado se han realizado varios análisis sobre las
diferentes fuentes de información disponibles. Estos han permitido generar estadísticas
del uso de la red, detectar errores en sus componentes y realizar predicciones sobre el
patrón de uso de la misma. Por último, se ha comparado el rendimiento de la herramienta
propuesta con el de las soluciones actuales. Los resultados experimentales muestran que,
con un pequeño clúster, se puede conseguir un tasa de procesamiento superior a 7 Gbps
(7 109 bits por segundo), mejorando el rendimiento de las herramientas más potentes
disponibles en la actualidad. Network traffic monitoring and analysis loom large when it comes to optimizing
network resources and improving the user experience. The standard techniques use a
single high performance server which has limited resources and is not scalable for the
thorough analysis of large data sets. Thus, a parallelization of the work can be useful
when performing such tasks.
The Apache Hadoop project, along with all the tools that appear over it, provides a
framework for the distributed computing of Big Data in a scalable and reliable way. The
aim of this work is to evaluate both the performance of the project and the possibilities
that it offers in the context of network traffic monitoring. To this end, we have created
a tool based on Hadoop in order to capture, store, process and analyze huge amounts of
network traffic. For the purpose of testing the performance of this tool, we have used real
network traffic which has been obtained from the laboratories’ network of the Escuela
Politécnica Superior in the Universidad Autónoma de Madrid.
We also offer the possibility to use a web interface to define and execute queries
interactively, in order to perform the analysis. We propose the Apache Hive tool for the
development of this part, as its programming language, based on SQL, provides a way to
query large amounts of data in a distributed manner. This facilitates the work of network
administrators, since they have an easy way to define queries based on their needs by
using the proposed system.
To assess the possibilities of the created system, we have conducted several analysis
that use the available sources of information. These analysis have generated several
statistics about the network usage and they have detected some errors on its components.
Besides, we have been able to make some predictions about the use pattern of the network.
Finally, we have compared the performance of the proposed tool with the current solutions.
Experimental results show that, with a small cluster, it is possible to obtain a performance
higher than 7 Gbps (7 109 bits per second), improving the performance of the most
powerful tools that are available nowadays.
Files in this item
Google Scholar:García-Valcárcel Sen, Rubén
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Nueva técnica de irradiación del melanoma de coroides, con iridio-192 de anclaje epiescleral
Valcárcel Sancho, Francisco José
1990