Note publique d'information : Durant les trois années de mon projet de doctorat, j'ai développé plusieurs méthodes
complémentaires pour l'analyse de données de type -omique, dont: (i) un modèle pour
la génomique intégrative dans lequel toutes les sortes d'informations qui peuvent
être obtenues sur un génome sont modélisées d'une manière probabiliste unifiée, permettant
ainsi d'analyser les corrélations entre des données hétérogènes à l'échelle du génome,
(ii) un test statistique ayant pour critère l'amplification de l'expression pour l'identification
de gènes différentiellement et similairement exprimés entre deux conditions biologiques,
et permettant la détermination d'intervalles de confiance concernant l'amplification,
(iii) de nouvelles méthodes de réduction de dimensionnalité qui surpassent les autres
méthodes existantes et produisant des représentations géométriques plus facilement
interprétables dans le contexte de grands ensembles de données. Ces méthodes ont été
appliquées à plusieurs nalyses et études biologiques dans le cadre de collaborations
scientifiques: (i) afin d'identifier des domaines fonctionnels dans les régions promotrices
de gènes candidats impliqués dans le pseudohypoaldostéronisme. (ii) pour découvrir
les réponses transcriptionnelles qui sous-tendent les différences entre les virus
pulmonaires faiblement et fortement pathogènes basé sur un ensemble de réponses transcriptomiques.
(iii) afin d'étudier la progression du virus de l'hépatite C chez des patients infectés
ayant subi une transplantation hépatique (iv) afin d'analyser une banque de marqueur
de séquences exprimées obtenues à partir de cellules de sang périphérique de singes
verts africains infectés ou non par le SIV.
Note publique d'information : During the three years of my Ph.D. project, I developed several complementary methods
and frameworks for the analysis of -omics data, such as: (i) a framework for integrative
genomics in which every kind of information that can be obtained about the genomic
processes and features are modeled in a common probabilistic manner, allowing then
to analyze the correlations among the heterogeneous genome-wide information, (ii)
a fold-change based statistical test for the identification of differentially and
similarly expressed genes between two biological conditions, allowing also the determination
of confidence intervals of specific confidence levels for the fold-change. (iii) novel
dimensionality reduction methods that outperform other related existing methods and
provide more interpretable geometrical representations in the context of large dataset
of-omics data. These methods have been applied to several biological analyses and
studies as part of different scientific collaborations: (i) to identify functional
Glucocorticoid Response Elements in the promoter regions of specific candidate genes
involved in Type 1 Pseudohypoaldosteronism. (ii) to uncover the host transcriptional
responses underlying differences between low- and high- pathogenic pulmonary viruses
based on a compendium of host transcription responses of infected cells from mouse
lungs. (iii) to study the progression of the hepatitis C virus in infected patients
who underwent orthotopic liver transplantation, based on a cohort of transcriptome
profiles for liver biopsy specimens, (iv) to analyze an Expression Sequence Tag library
obtained from PBMC of African green monkeys infected or not by the SIV.