Técnicas Big Data para el análisis de datos de tráfico de red sobre Hadoop

La monitorización y el análisis del tráfico de red cobran gran importancia cuando se trata de optimizar los recursos de red y mejorar la experiencia de los usuarios. Las técnicas habituales utilizan un único servidor que, a pesar de ser de alto rendimiento, consta de unos recursos limitados y no es escalable para el análisis exhaustivo de grandes volúmenes de datos. Por ello, una paralelización del trabajo puede resultar útil a la hora de realizar este tipo de tareas. El proyecto Apache Hadoop, junto a todas las herramientas que surgen a su alrededor, proporciona una plataforma para la computación distribuida de Big Data de forma escalable y fiable. El objetivo de este trabajo es la evaluación tanto del rendimiento de dicho proyecto como de las posibilidades que ofrece en el contexto de la monitorización y el análisis de redes. Con este propósito, se ha creado una herramienta basada en Hadoop para la captura, el almacenamiento, el procesamiento y el análisis de grandes cantidades de tráfico de red. Para probar el funcionamiento del sistema propuesto, se ha utilizado tráfico real obtenido de la red de los laboratorios docentes de la Escuela Politécnica Superior de la Universidad Autónoma de Madrid. Se ofrece también la posibilidad de utilizar una interfaz web para definir y ejecutar consultas de forma interactiva, con las que realizar la parte del análisis. Se propone la herramienta Apache Hive para el desarrollo de esta parte, ya que su lenguaje de programación, basado en SQL, permite consultar de forma distribuida grandes cantidades de datos. Esto facilita la labor de los administradores de red, pues disponen de una forma sencilla de definir consultas en función de sus necesidades. Para evaluar la capacidad del sistema creado se han realizado varios análisis sobre las diferentes fuentes de información disponibles. Estos han permitido generar estadísticas del uso de la red, detectar errores en sus componentes y realizar predicciones sobre el patrón de uso de la misma. Por último, se ha comparado el rendimiento de la herramienta propuesta con el de las soluciones actuales. Los resultados experimentales muestran que, con un pequeño clúster, se puede conseguir un tasa de procesamiento superior a 7 Gbps (7 109 bits por segundo), mejorando el rendimiento de las herramientas más potentes disponibles en la actualidad.

Network traffic monitoring and analysis loom large when it comes to optimizing network resources and improving the user experience. The standard techniques use a single high performance server which has limited resources and is not scalable for the thorough analysis of large data sets. Thus, a parallelization of the work can be useful when performing such tasks. The Apache Hadoop project, along with all the tools that appear over it, provides a framework for the distributed computing of Big Data in a scalable and reliable way. The aim of this work is to evaluate both the performance of the project and the possibilities that it offers in the context of network traffic monitoring. To this end, we have created a tool based on Hadoop in order to capture, store, process and analyze huge amounts of network traffic. For the purpose of testing the performance of this tool, we have used real network traffic which has been obtained from the laboratories’ network of the Escuela Politécnica Superior in the Universidad Autónoma de Madrid. We also offer the possibility to use a web interface to define and execute queries interactively, in order to perform the analysis. We propose the Apache Hive tool for the development of this part, as its programming language, based on SQL, provides a way to query large amounts of data in a distributed manner. This facilitates the work of network administrators, since they have an easy way to define queries based on their needs by using the proposed system. To assess the possibilities of the created system, we have conducted several analysis that use the available sources of information. These analysis have generated several statistics about the network usage and they have detected some errors on its components. Besides, we have been able to make some predictions about the use pattern of the network. Finally, we have compared the performance of the proposed tool with the current solutions. Experimental results show that, with a small cluster, it is possible to obtain a performance higher than 7 Gbps (7 109 bits per second), improving the performance of the most powerful tools that are available nowadays.

Show full item record

Files in this item

Name

Garcia-Valcarcel_Sen_Ruben_tfg.pdf

Size

1.301Mb

Format

PDF

Google™ Scholar:García-Valcárcel Sen, Rubén

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [19970]

Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/

UAM_Biblioteca