"Estudios en Ensambles de Redes Neuronales"

Eduardo Filemón Vázquez Santacruz

            
Texto completo de la Tesis    



Resumen

Presupóngase un conjunto de datos L = {(xi , yi ) : i = 1, . . . , n; xi ∈ ℜp , yi ∈ ℜs }, generado a partir de una distribución de probabilidad P desconocida. Existen varios métodos disponibles en la literatura para estimar la relación entrada o salida que está presente en los datos del conjunto L. En la mayoría de los métodos una función de predicción φ se construye usando el conjunto L y optimizando cierto criterio. La propiedad más importante que la función φ debe tener es la capacidad de predecir las salidas de los datos (generados con la misma distribución P ) que no están presentes en el conjunto de entrenamiento L. Esta propiedad es llamada habilidad de generalización de la función de predicción. El desarrollo de sistemas que puedan predecir con buenas propiedades de generalización es un área de investigación activa y existen muchas propuestas para hacerlo. Una de las técnicas para realizar esta tarea consiste en construir múltiples clasificadores usando L y combinar las salidas de éstos para obtener la predicción final. Este tipo de métodos son denominados “métodos de ensamble”.
Una de la estrategias comunes para construir un clasificador a partir de un conjunto de datos dado L, consiste en entrenar una red neuronal de “proalimentación” (por ejemplo, un perceptrón multicapa (MLP)) usando L. Es posible entrenar varias redes neuronales a partir de L y posteriormente crear un ensamble con ellas. En esta tesis estudiamos algunos métodos para crear ensambles de redes neuronales.
Presentamos tres nuevos métodos para crear ensambles y también discutimos algunas variantes de estas metodologías. Primero discutimos una variante de la MLP llamada “red de cuello de botella”, ésta ha sido ampliamente usada para la reducción de dimensión de datos. Presentamos una variante de la MLP de cuello de botella original, y proponemos una nueva estrategia para crear ensambles de redes neuronales usando proyecciones a partir de “redes de cuello de botella”. También discutimos una metodología para crear clones a partir de una red individual entrenada. La generación de clones se realiza mediante la adición de ruido controlado a los parámetros de la red principal. Demostramos que un ensamble de clones puede dar mejor desempeño que la red principal. Finalmente mostramos un método para entrenar redes usando datos generados a partir de la estimación de densidad del conjunto de datos original L. Hemos validado todos nuestros métodos con experimentos usando conjuntos de datos de clasificación estándares y nuestros métodos dan resultados alentadores

Abstract

Let us assume a data set L = {(xi , yi ) : i = 1, . . . , n; xi ∈ ℜp , yi ∈ ℜs }, generated from an unknown but fixed probability distribution P . There are numerous methods available in the literature to estimate the input-output relationship present in the data points in L. In most methods, a predictor function φ is constructed using the set L and optimizing certain criteria. The most important property that the predictor φ should have is that the predictor should be able to predict the outputs for points which are from the same distribution P but are not present in the training set L. This property is called the generalization ability of the predictor. Constructing predictors with good generalization properties is an active area of research and there exist many proposals to do it. One of the techniques to do it is to construct multiple predictors using L and aggregating the outputs of these predictors for obtaining the final prediction. This class of methods are called ensemble methods.
One of the popular ways to construct a predictor from a given data L is to train a feed forward neural network (like a multilayered perceptron (MLP)) using L. It is possible to train multiple neural networks from L and thus create an ensemble of neural networks. In this thesis we study certain methods to create neural network ensembles. We present three new broad methods to create ensembles and we also discuss some variants of these broad methodologies. First, we discuss a MLP variant called the bottleneck network, which has been widely used for data dimensionality reduction.
We present a variant of the original bottleneck MLP, and propose a new way to create neural network ensembles using bottleneck projections. Next, we discuss a methodology to create clones from a single trained network by adding controlled noise to the parameters of the parent network. We show that an ensemble of the clones can give better performance than the parent network. Finally, we show a method to train networks from data points generated from a kernel density estimate of the original data set L. We validate all our methods with experiments using standard benchmark classification data sets, and we show that our methods provide encouraging results.