TFEA.ChIP: una herramienta para analizar el enriquecimiento de factores de transcripción aprovechando datos de ChIP-seq
Author
Puente Santamaría, LauraAdvisor
Peso Ovalle, Luis
Entity
UAM. Departamento de Bioquímica; UAM. Departamento de InformáticaDate
2019-02Subjects
Bioinformática; Transcripción; Genómica; Biología y Biomedicina / Biología; InformáticaNote
Trabajo de fin de máster en Bioinformática y Biología Computacional
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
La identificación de factores de transcripción (FT) responsables de la co-regulación de un
conjunto de genes es un problema común en transcriptómica. Con el desarrollo de TFEA.ChIP
se busca ofrecer una herramienta para estimar y visualizar el enriquecimiento de FT en un grupo
de genes diferencialmente expresados que tenga en cuenta las variaciones en el comportamiento
de FTs entre diferentes tipos celulares y estímulos. Con ese fin, se han reunido experimentos
de ChIP-seq del consorcio ENCODE y el repositiorio GEO Datasets, y, combinándolos con
información de sitios sensibles a DNasa y regiones enhancer, se ha generado una base de datos
relacionando FTs con los genes con los que regula en cada experimento de ChIP-seq.
En su estado actual, TFEA.ChIP incluye 1154 ChiP-Seqs en células humanas, abarcando 333
FTs diferentes. TFEA.ChIP acepta como entrata (input) tanto grupos de genes diferencialmente
expresados como listas que incluyan todo el transcriptoma ordenado por la magnitud de la
variación en la expresión entre las condiciones comparadas. A partir de esta entrada calcula
una puntuación de enriquecimiento para cada uno de los experimentos almacenados en la base
de datos interna. La validación de TFEA.ChIP usando una amplia variedad de conjuntos de
genes que representan firmas moleculares revisadas para distintos estados y procesos biológicos,
indica que el programa identifica los FTs relevantes entre los 10 primeros candidatos en 38 de 49
ocasiones, y entre los 5% mejores en 45 de 49, alcanzando como predictor un área bajo la curva
de 0,89. Además, mediante el análisis detallado de conjuntos de datos de RNA-seq, se ilustra
que el uso de métodos basados en datos de ChIP-seq en vez de matrices de peso posicionales
permite expandir el análisis de enriquecimiento de FT para incluír modificadores de cromatina
y co-factores que carecen de dominio de unión a ADN, además de proporcionar un contexto
biológico para inferir el comportamiento de FT dependiente de las condiciones de estímulo o del
tejido.
Para facilitar su integración en protocolos de análisis transcriptómicos, así como permitir la
expansión y personalización de la base de datos relacionando FTs con genes de forma sencilla, se
ha implementado TFEA.ChIP como paquete de R. Además, para hacer la herramienta accesible
a un mayor número de investigadores, también se ha desarrollado una aplicación web que ejecuta
el paquete desde el servidor, permitiendo así realizar análisis exploratorios de forma sencilla a
través de una interfaz gráfica.
TFEA.ChIP está disponible en Bioconductor, GitHub y como aplicación web. Está disponible
también una versión preliminar del artículo describiendo TFEA.ChIP en bioRxiv. The identification of transcription factors (TF) responsible for the co-regulation of an specific
set of genes is a common problem in transcriptomics. With the development of TFEA.ChIP we
aim to provide a tool to estimate and visualize TF enrichment in a set of differentially expressed
genes that takes into account the wide variation in TFâAZs behavior across different cell types
and stimuli. To that end, we gathered ChIP-Seq experiments from the ENCODE Consortium and
GEO Datasets, and used data from Dnase Hypersensitive Sites across cell lines and enhancer
location to generate a database linking TFs with the genes they regulate in each ChIP-Seq
experiment.
In its current state, TFEA.ChIP includes 1154 ChIP-seq experiments in human cells, covering
333 transcription factors. TFEA.ChIP takes as input differentially expressed gene sets as well
as lists including the whole transcriptome sorted by its expression change between conditions.
Using this input TFEA.ChIP computes an enrichment score for each of the datasets in its internal
database. TFEA.ChIP’s validation process, using a wide range of gene sets representing curated
molecular signatures of different biological states and processes, indicates that the software
identifies relevant TFs within the top 10 candidates in 38 out of 49 tested sets, and within the
top 5% candidates in 45 out of 49, reaching an area under the curve of 0.89 as a predictor. In
depth analysis of RNAseq datasets illustrates that the use of ChIP-Seq based methods instead
of position weight matrices allows to expand the analysis of TF enrichment to include chromatin
modifiers and co-factors that lack a DNA binding domain, in addition to provide a biological
context to infer tissue and stimuli-dependent TF behavior.
To facilitate its integration into transcriptome analysis pipelines and allow easy expansion
and customization of the TF-gene database, we implemented TFEA.ChIP as an R package.
In addition, to make it available to a wide range of researches, we have also developed a web
application that runs the package from the server side and enables easy exploratory analysis
through a graphic interface.
TFEA.ChIP is available at Bioconductor, GitHub, and as a web application. A preprint
version of the article describing TFEA.ChIP is also available at bioRxiv.
Files in this item
Google Scholar:Puente Santamaría, Laura
This item appears in the following Collection(s)
Except where otherwise noted, this item's license is described as https://creativecommons.org/licenses/by-nc-nd/4.0/
Related items
Showing items related by title, author, creator and subject.
-
TFEA.ChIP: A tool kit for transcription factor binding site enrichment analysis capitalizing on ChIP-seq datasets
Puente-Santamaria, Laura; Del Peso, Luis
2019-07-26 -
p73 is required for vessel integrity controlling endothelial junctional dynamics through Angiomotin
Maeso-Alonso, Laura; Alonso-Olivares, Hugo; Martínez-García, Nicole; López Ferreras, Lorena; Villoch-Fernández, Javier; Puente Santamaría, Laura; Colás Algora, Natalia; Fernández-Corona, Alfonso; Lorenzo-Marcos, María Elena; Jiménez Cuenca, Benilde; Holmgren, Lars; Wilhelm, Margareta; Millán, Jaime; del Peso, Luis; Claesson-Welsh, Lena; Marques, Margarita M.; Marin, Maria C.
2022-10-01 -
Hypoxia classifier for transcriptome datasets
Puente Santamaría, Laura; Sanchez-Gonzalez, Lucia; Ramos-Ruiz, Ricardo; del Peso Ovalle, Luis
2022-05-31