• Regulatory modules discovery and mesenchymal stem cells characterization from high-throughput cancer genomics data
  • Ciani, Yari

Subject

  • cancer
  • stem cells
  • bioinformatics
  • gene expression
  • FANTOM5
  • promoters
  • transcription factor
  • GTSE1
  • HMGA1
  • tumour microenvironment
  • SCUOLA DI DOTTORATO DI RICERCA IN BIOMEDICINA MOLECOLARE
  • BIO/13 BIOLOGIA APPLICATA

Description

  • 2013/2014
  • Il tumore è una malattia caratterizzata da un’estrema complessità molecolare. Gli approcci di tipo “omic”, collezionando dati sull’intero genoma, sui trascritti e proteine in dataset pubblici, permettono di superare questa complessità e di trovare moduli funzionali che eseguono le funzioni coinvolte nei processi tumorali. Ad esempio, i profili di espressione genica da tessuti vengono usati per definire firme di geni e testarne la rilevanza clinica. Ho usato questo tipo di informazione per caratterizzare specifici geni di interesse in modelli di tumore al seno. Uno dei più recenti progetti di tipo “omic” è il FANTOM5. Questo progetto ha generato una risorsa unica: il primo atlante di espressione in mammifero basato su sequenziamento a singola molecola. Il sistema CAGE (Cap Analysis of Gene Expression) è stato usato per misurare i siti di inizio trascrizione (TSS) e l’utilizzo dei promotori in una collezione di campioni umani: in questo modo sono stati misurati i livelli di espressione di gran parte dei trascritti codificanti e non-codificanti nel genoma umano. Ho usato questo tipo di informazione per caratterizzare una linea staminale mesenchimale/stromale (MSC) derivante da tumori sierosi ovarici di alto grado (HG-SOC-MSCs) o da tessuti normali (N-MSCs) inclusi nel dataset FANTOM5. Ho messo in luce programmi funzionali condivisi tra le due linee cellulari e osservato che le differenze principali tra le funzioni attivate nelle due linee sono di tipo quantitativo più che qualitativo. I risultati suggeriscono inoltre che le HG-SOC-MSCs sono simili alle cellule mesoteliali e alle cellule del tessuto muscolare liscio. Inoltre, ho analizzato l’intero dataset usando ScanAll, un nuovo software utile a predire ab initio la presenza di elementi arricchiti nelle regioni geniche che circondano i promotori trovati del progetto FANTOM5. Ho individuato moduli di regolazione, ossia gruppi di motif che si trovano a distanze predefinite sul genoma uno rispetto all’altro. Questi moduli sono arricchiti in regioni del genoma co-espresse rispetto a sequenze generate casualmente. Infine ho creato un compendio di fattori di trascrizione espressi e che partecipano ad interazione proteina-proteina.
  • Cancer is a disease characterized by an extreme molecular complexity. Omics approaches, collecting data in public databases for all the genome, transcripts and proteins, attempt to overcome this complexity and find the functional modules that perform the functions involved in tumour related processes. For instance, cancer tissues gene expression profiles are widely used to define genes signatures and test their clinical relevance. I used this kind information in order to characterise interesting genes in breast cancer models. On the other hand, cellular models datasets could provide data that permits to focus on specific molecular mechanisms and probe the effects of molecules in a specific cancer model. One of the most recent omics project is the FANTOM5 project, that has generated a unique resource, the first single molecule sequencing-based expression atlas in mammalian systems. Cap analysis of gene expression (CAGE) was used to measure transcription start sites (TSS) and promoter usage across a wide collection of human samples thereby identifying and measuring levels of the majority of coding and non-coding transcripts in the human genome. I used this information to characterize a mesenchymal/stromal stem cell line (MSC) derived from high-grade serous ovarian cancer (HG-SOC-MSCs) or derived from normal tissue (N-MSCs) included in the entire FANTOM5 human dataset. I highlighted shared functional programs between HG-SOC-MSCs and N-MSCs suggesting that the global differences between the two cell lines are based on quantitative levels of transcriptional output rather than on qualitative differences. The results suggested that HG-SOC-MSCs are close relatives of mesothelial cells and smooth muscle cells. Furthermore, we analysed the entire dataset using ScanAll, a newly developed software, to ab initio predict the presence of enriched elements in the genomic regions surrounding FANTOM5 promoters. I pinpointed regulatory modules, i.e. groups of enriched motifs co-occurring in co-expressed regions within a fixed distance. These modules are enriched in the co-expressed sequences in each sample respect to random generated sequences. Finally, I created a Compendium of putative expressed and directly interacting transcription factors.
  • XXVII Ciclo
  • 1986

Date

  • 2015-06-08T14:39:05Z
  • 2016-04-28T04:01:10Z
  • 2015-04-28

Type

  • Doctoral Thesis

Format

  • application/pdf

Identifier

urn:nbn:it:units-14039