Note publique d'information : Une grande partie de mon travail de thèse porte sur le développement de méthodes efficaces
pour l'alignement par paires et multiples protéines structurelles. Ceci est basé sur
l'utilisation de la protéine Blocks qui est le plus largement utilisé alphabet structural
[1, 2]. Une structure de la protéine complète peut être représenté par une séquence
d'alphabets, où chaque alphabet correspond à un PB. l'alignement des séquences PB
donne une comparaison de la structure des protéines. Basé sur des stratégies classiques
d'alignement de séquences, un outil efficace pour l'alignement de séquences PB a été
développé. Matrices de substitution PB raffinés et une ancre approche de programmation
dynamique ont été utilisées pour améliorer l'efficacité de cette approche. Un gain
significatif de la qualité de l'alignement, d'environ 82% a été obtenue et l'efficacité
des mines a été amélioré de 6,8% [3, 4].La méthode a été encore renforcée par l'ajout
de poids de substitution qui correspondent à des régions structurellement similaires
identifiés comme des ancres dans alignements. Comme pour iPBA, l'alignement des séquences
de BPs est guidé par les équivalences entre couplée à un raffinement itératif par
le logiciel Profit. La structure la plus semblable à d'autres structures au sein du
groupe a été choisie comme référence lors de l'affinage 3D et de raffinements. Lorsque
comparé à MULTIPROT, MUSTANG et HOMSTRAD, notre méthode d'alignement multiple basée
sur les BPs (mulPBA) était meilleure dans plus de 85% des cas. La stratégie d'alignement
iPBA a également été utilisée pour évaluer la performance d'une méthode de reconnaissance
de la structure basée sur la séquence prédite des BPs. Les données sur les structures
secondaires prédites et l'accessibilité au solvant prédite ont été utilisés pour améliorer
l'exactitude de reconnaissance de la structure. L'influence des données sur les espèces
sur la relation séquence-structure a également été analysées en utilisant les BPs
[5]. Les relations observées dans les séquences caméléons [6] qui adoptent des conformations
différentes dans les structures de protéines, ont également été étudiés en détail.
Un protocole efficace et utile a également été développé pour l'attribution des hélices
PolyProline II qui peuvent être facilement incorporés dans DSSP, outil largement utilisé
pour l'affectation structure secondaire [7].
Note publique d'information : Protein Structure Comparison is an efficient means for function characterization and
evolutionary studies. We propose an improved approach for three dimensional (3D) protein
structure comparison based on similarities in local backbone conformations. A library
of 16 frequently occurring penta-peptide backbone conformations, namely Protein Blocks
(1,2), was used to transform 3D structural information as a sequence. This reduces
the problem of structural comparison to a more classical sequence alignment. The use
of an anchor based dynamic programming algorithm with specialized gap penalties resulted
in a significant improvement over earlier studies based on simple global alignments.
The alignment quality improved by about 82% and the efficiency in searching a structure
databank for related folds was also enhanced by 6.2% (3,4). This approach for pairwise
structure comparison (iPBA) is implemented as a web server http://www.dsimb.inserm.fr/dsimb
tools/ipba/. iPBA was further extended to the development of a multiple structural
alignment tool. A progressive alignment strategy was adopted and local weights were
added for structurally similar regions (mulPBA) (Joseph et al. in peparation). Comparison
with other structural alignment tools showed that both the PB based alignment approaches
(iPBA & mulPBA) often give the best performance and can be placed as one of the top
two methods currently available. Local conformational variations among structurally
similar proteins were also studied in detail (Joseph et al. submitted). Subtle changes
are found to occur mainly in the regions comprising turns. The preference for the
indel sites are also confined to a few backbone conformations involving p-turns and
helix C-caps. The alignment strategy behind iPBA was also used to assess the performance
of a fold recognition approach based on PB prediction. The influence of species specific
data on sequence-structure relationships was also analyzed using PBs (5). Relationships
observed in chameleon sequences (6) that adopt different conformations in protein
structures, was studied in detail. An efficient protocol for the assignment of PolyProline-II
helices, which can be easily incorporated into the DSSP secondary structure assignment
tool was also developed (7).