Study on viability, strengths and weaknesses of bag of little bootstraps (BLB)
Author
Viña Carmona, Pablo deAdvisor
Martínez Muñoz, GonzaloEntity
UAM. Departamento de Ingeniería InformáticaDate
2018-02-13Subjects
Machine learning; Bag of little bootstraps; BLB; InformáticaNote
Trabajo fin de máster en Investigación e Innovación en Tecnologías de la Información y las ComunicacionesEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Randomization techniques represent a fundamental tool used to improve the performance of many machine learning techniques. These techniques aim to generate many simple solutions of the problem in question to later combine them obtaining a more precise solution. Some of them are Bagging, Random Forest and most recently developed Bag of Little Bootstraps (BLB).
We know that the total amount of data in the world was 4.4 zettabytes in 2013 and that is set to rise steeply to 44 zettabytes by 2020. It is clear that the world is changing and the methods we use to analyze it must do as well; what might be e cient for a dataset of a given size becomes unmanageable for another dataset of larger size.
For this reason, researchers at the University of California developed a method to work with much larger data sets than usual: the Bag of Little Boostraps. This method does not intend to analyze the data in a signi cantly di erent way to the traditional bagging, but is intended to be a modi cation of this much more e cient than the original.
In this paper we will study the BLB and its main characteristics: its e ectiveness as an automatic learning method, its strengths, its weaknesses, as well as the conditions for a dataset to be a good candidate to be analyzed with this method. Finally, we will discuss possible improvements of the method as well as possible ways of working to follow Las técnicas de aleatorización representan una herramienta fundamental utilizada para mejorar el rendimiento de muchas técnicas de aprendizaje automático. Estas técnicas pretenden generar múltiples soluciones simples del problema en cuestión para luego combinarlas obteniendo una solución más precisa. Algunas de las técnicas de este tipo son Bagging, Random Forest y más recientemente desarrollado Bag of Little Bootstraps (BLB).
Sabemos que la cantidad total de datos en el mundo fue de 4.4 zettabytes en 2013 y que está previsto que aumente abruptamente a 44 zettabytes en 2020. Está claro que el mundo está cambiando y los métodos que utilizamos para analizarlo deben hacerlo también; lo que podría ser e ciente para un conjunto de datos de un tamaño dado se vuelve inmanejable para otro conjunto de datos de mayor tamaño.
Por esta razón, los investigadores de la Universidad de California desarrollaron un método para trabajar con conjuntos de datos mucho más grandes de lo habitual: Bag of Little Bootstraps. Este método no pretende analizar los datos de una manera signi cativamente diferente al bagging tradicional, sino que pretende ser una modi cación de este mucho más e ciente.
En este trabajo se estudiará el BLB y sus principales características: su e cacia como método de aprendizaje automático, sus puntos fuertes, sus debilidades, así como las condiciones para que un conjunto de datos sea un buen candidato para ser analizado con este método. Finalmente, se plantearán posibles mejoras del método así como posibles vías de trabajo a seguir
Files in this item
Google Scholar:Viña Carmona, Pablo de
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.