Mañana, JUEVES, 24 DE ABRIL, el sistema se apagará debido a tareas habituales de mantenimiento a partir de las 9 de la mañana. Lamentamos las molestias.
Análisis de expresión diferencial para datos de Next Generation Sequencing (NGS) con múltiples condiciones experimentales
Author
Giménez Llorente, DanielEntity
UAM. Departamento de Ingeniería InformáticaDate
2017-09Subjects
Expresión Diferencial; NGS; Múltiples Condiciones; InformáticaNote
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las ComunicacionesEsta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
La expresión génica diferencial es el proceso mediante el cual las células son capaces de
decodificar la información contenida dentro del material genético (ácidos nucleicos) para la elaboración
del producto génico necesario para el buen funcionamiento del organismo. El proceso
más utilizado para revelar este producto génico es el RNA-Seq, a partir del cual se puede realizar
el análisis de la expresión diferencial que nos permite detectar aquellos genes que son diferencialmente
expresados con respecto a una condición de control. Este tipo de análisis se hace
mucho más complejo cuando involucra múltiples condiciones experimentales, ya que no hay un
método estándar con el que llevar a cabo su resolución. En concreto, el problema de encontrar
genes diferencialmente expresados en una única condición experimental mientras que en el resto
permanecen sin expresar es una línea de investigación que permanece abierta actualmente.
El objetivo de este Trabajo de Fin de Máster es el análisis teórico e implementación de un
método que sea capaz de solucionar este problema, poder seleccionar los genes que se expresan
sólo en una condición experimental. Para ello, en este TFM se ofrece la descripción de un nuevo
algoritmo, el QPFS-LASSO, que mediante la combinación del método de selección de variables
QPFS y regularizadores LASSO permite detectar para cada condición experimental aquellos
genes que, teniendo expresión diferencial con respecto a su condición de control, no se expresan
en el resto de condiciones. QPFS-LASSO tiene como entrada la matriz con los datos de conteo
de las secuencias provenientes de tecnologías NGS y los vectores de condiciones experimentales
y control. Su salida es un vector de pesos con un valor para cada gen-condición. El método se
ha implementado en R, pero las subrutinas más importantes se han implementado en C para
obtener una mayor velocidad.
Para llevar a cabo la verificación de este método se han llevado a cabo dos acciones diferentes.
Gracias al software Polyester se han generado simulaciones controladas de RNA-Seq
que permiten observar el correcto funcionamiento del algoritmo dado que se conoce la realidad
subyacente. Por otra parte, se ha analizado el funcionamiento del algoritmo al aplicarlo sobre
una base de datos real procedente con el fin de determinar su rendimiento en escenarios reales
no controlados. En ambos casos los resultados obtenidos han sido prometedores, siendo los genes
más relevantes para el algoritmo aquellos específicos para una sola condición experimental.
Finalmente, el algoritmo ha sido también evaluado sobre una base de datos de clasificación de
dígitos manuscritos, obteniendo buenos resultados y demostrando su aplicabilidad a dominios
más generales. Gene expression is the process through which cells are able to decode information contained
in genetic material (nucleic acids) in order to elaborate gene product necessary for the proper
functioning of the organism. The most used technologies to release this gene product is RNASeq,
from which differential gene expression analysis can be done to detect those genes that are
differentially expressed with respect to a control condition. This type of analysis gets much more
complex under multiple experimental conditions, as there is no standard method to resolve it.
In particular, finding genes differentially expressed in a sole experimental condition while the
rest stay unexpressed remains as an open line of research.
This Masters Thesis’s objective is the theoretical analysis and implementation of a method
capable of selecting genes expressed in just one experimental condition. In order to achieve this
goal, this Master’s Thesis proposes a new algorithm names QPFS-LASSO that, by combining
the QPFS feature selection algorithm and Exclusive Group Lasso regularization, is able to detect
those genes that are differentially expressed in a sole experimental condition. QPFS-LASSO has
three inputs, the table of read counts and experimental and control conditions vectors. The
outcome of the algorithm is a weight vector in which each entry represents the importance given
to each pair gen-condition. The algorithm has been implemented in R, but the most important
routines are implemented in C to achieve better performance.
Two different approaches have been used to verify the usefulness of the proposed method.
On the one hand, multiple RNA-seq simulations have been generated by means of the Polyester
software, and they allow us to confirm the proper functioning of the algorithm as the ground
truth is known. On the other hand, a RNA-Seq database from the TCGA project has been tested
in order to determine QPFS-LASSO’s performance when facing real-world and non-controlled
situations. The results obtained by the proposed algorithm are very promising as the most
relevant genes for the algorithm are condition-specific genes in both cases. Finally, the algorithm
has been also successfully tested over a handwritten digits classification problem to show its
applicability to a wide range of domains.
Files in this item
Google Scholar:Giménez Llorente, Daniel
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
Implementación y análisis de algoritmos de alineación para datos de Next Generation Sequencing (NGS)
Giménez Llorente, Daniel
2016-06 -
Sistema de información de Gliomas y análisis de expresión diferencial de líneas celulares de Glioblastoma Multiforme
Moreno Boiza, Vanesa
2018-01