Show simple item record

dc.contributor.advisorRodríguez-Lujan, Irene
dc.contributor.advisorGonzález, Ana M.
dc.contributor.authorGiménez Llorente, Daniel
dc.contributor.otherUAM. Departamento de Ingeniería Informáticaes_ES
dc.date.accessioned2018-02-02T12:22:40Z
dc.date.available2018-02-02T12:22:40Z
dc.date.issued2017-09
dc.identifier.urihttp://hdl.handle.net/10486/681070
dc.descriptionMáster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicacioneses_ES
dc.description.abstractLa expresión génica diferencial es el proceso mediante el cual las células son capaces de decodificar la información contenida dentro del material genético (ácidos nucleicos) para la elaboración del producto génico necesario para el buen funcionamiento del organismo. El proceso más utilizado para revelar este producto génico es el RNA-Seq, a partir del cual se puede realizar el análisis de la expresión diferencial que nos permite detectar aquellos genes que son diferencialmente expresados con respecto a una condición de control. Este tipo de análisis se hace mucho más complejo cuando involucra múltiples condiciones experimentales, ya que no hay un método estándar con el que llevar a cabo su resolución. En concreto, el problema de encontrar genes diferencialmente expresados en una única condición experimental mientras que en el resto permanecen sin expresar es una línea de investigación que permanece abierta actualmente. El objetivo de este Trabajo de Fin de Máster es el análisis teórico e implementación de un método que sea capaz de solucionar este problema, poder seleccionar los genes que se expresan sólo en una condición experimental. Para ello, en este TFM se ofrece la descripción de un nuevo algoritmo, el QPFS-LASSO, que mediante la combinación del método de selección de variables QPFS y regularizadores LASSO permite detectar para cada condición experimental aquellos genes que, teniendo expresión diferencial con respecto a su condición de control, no se expresan en el resto de condiciones. QPFS-LASSO tiene como entrada la matriz con los datos de conteo de las secuencias provenientes de tecnologías NGS y los vectores de condiciones experimentales y control. Su salida es un vector de pesos con un valor para cada gen-condición. El método se ha implementado en R, pero las subrutinas más importantes se han implementado en C para obtener una mayor velocidad. Para llevar a cabo la verificación de este método se han llevado a cabo dos acciones diferentes. Gracias al software Polyester se han generado simulaciones controladas de RNA-Seq que permiten observar el correcto funcionamiento del algoritmo dado que se conoce la realidad subyacente. Por otra parte, se ha analizado el funcionamiento del algoritmo al aplicarlo sobre una base de datos real procedente con el fin de determinar su rendimiento en escenarios reales no controlados. En ambos casos los resultados obtenidos han sido prometedores, siendo los genes más relevantes para el algoritmo aquellos específicos para una sola condición experimental. Finalmente, el algoritmo ha sido también evaluado sobre una base de datos de clasificación de dígitos manuscritos, obteniendo buenos resultados y demostrando su aplicabilidad a dominios más generales.es_ES
dc.description.abstractGene expression is the process through which cells are able to decode information contained in genetic material (nucleic acids) in order to elaborate gene product necessary for the proper functioning of the organism. The most used technologies to release this gene product is RNASeq, from which differential gene expression analysis can be done to detect those genes that are differentially expressed with respect to a control condition. This type of analysis gets much more complex under multiple experimental conditions, as there is no standard method to resolve it. In particular, finding genes differentially expressed in a sole experimental condition while the rest stay unexpressed remains as an open line of research. This Masters Thesis’s objective is the theoretical analysis and implementation of a method capable of selecting genes expressed in just one experimental condition. In order to achieve this goal, this Master’s Thesis proposes a new algorithm names QPFS-LASSO that, by combining the QPFS feature selection algorithm and Exclusive Group Lasso regularization, is able to detect those genes that are differentially expressed in a sole experimental condition. QPFS-LASSO has three inputs, the table of read counts and experimental and control conditions vectors. The outcome of the algorithm is a weight vector in which each entry represents the importance given to each pair gen-condition. The algorithm has been implemented in R, but the most important routines are implemented in C to achieve better performance. Two different approaches have been used to verify the usefulness of the proposed method. On the one hand, multiple RNA-seq simulations have been generated by means of the Polyester software, and they allow us to confirm the proper functioning of the algorithm as the ground truth is known. On the other hand, a RNA-Seq database from the TCGA project has been tested in order to determine QPFS-LASSO’s performance when facing real-world and non-controlled situations. The results obtained by the proposed algorithm are very promising as the most relevant genes for the algorithm are condition-specific genes in both cases. Finally, the algorithm has been also successfully tested over a handwritten digits classification problem to show its applicability to a wide range of domains.en
dc.format.extent71 pág.es_ES
dc.format.mimetypeapplication/pdfen
dc.language.isospaen
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.otherExpresión Diferenciales_ES
dc.subject.otherNGSes_ES
dc.subject.otherMúltiples Condicioneses_ES
dc.titleAnálisis de expresión diferencial para datos de Next Generation Sequencing (NGS) con múltiples condiciones experimentaleses_ES
dc.typemasterThesisen
dc.subject.ecienciaInformáticaes_ES
dc.rights.ccReconocimiento – NoComercial – SinObraDerivadaes_ES
dc.rights.accessRightsopenAccessen
dc.facultadUAMEscuela Politécnica Superior


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

https://creativecommons.org/licenses/by-nc-nd/4.0/
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/