ExPASy Home page Site Map Search ExPASy Contact us Proteomics tools
Hosted by NCSC USMirror sites:Canada China Korea Switzerland Taiwan
Search for

Pour voir la documentation technique clicker ici.
 

Introduction

Ce projet est une extension d'une application bio-informatique  PeptIdent (voir ci-dessous) et permet la visualisation sous forme graphique des résultats de ce dernier obtenus avec des données specifiées par  l'utilisateur. Les notions de base en biochimie suivantes sont utilisées par BioGraph, le logiciel que nous avons developpé:
Une proteine peut avoir des ponts de sulfure, c'est à dire que deux acides aminés qui ne sont pas voisins directs forme un pont entre eux, ainsi que des modifications post-traductionnelles càd qu'il y a, entre autres, des sucres qui viennent s'ajouter a cette proteine.

Problèmes

PeptIdent est un outil qui permet l'identification de proteines à partir des masses expérimentalement obtenues (avec un spectromètre de masse), comparées avec des valeurs théoriques de peptides calculées pour toutes les protéines se trouvant dans la base de données SWISS-PROT. Ces masses expérimentales sont soit fournies par l'utilisateur telles quelles, soit par le résultat d'une digéstion par un spectrometre de masse dans un format PKM:
 

 
"Peak Table"
OP=0
Center X Peak Y Left X Right X Time X Mass Difference Name
STD.Misc Height Left Y Right Y %Height,Width,%Area,%Quan,H/A
930.67310 17719.000 930.56730 930.78710 49127.310 0 930.67
C 0.? 0 12403.000 12403.000
1027.8450 53725.000 1027.7270 1027.9600 51622.450 0 1027.85
C 0.? 0 37608.000 37608.000
1141.9430 8096.0000 1141.6660 1142.2410 54406.030 0 1141.94
C 0.? 0 5667.0000 5667.0000
1193.0070 8396.0000 1193.0070 1193.0070 55606.580 0 1193.01
C 0.? 0 8396.0000 8396.0000
1203.8100 9386.0000 1203.6650 1203.9510 55857.260 0 1203.81
C 0.? 0 6570.0000 6570.0000
1214.9160 11820.000 1214.7920 1215.0460 56113.810 0 1214.92
C 0.? 0 8274.0000 8274.0000
1233.9170 59641.000 1233.7840 1234.0470 56549.990 0 1233.92
C 0.? 0 41749.000 41749.000
1247.8670 3789.0000 1247.5570 1248.1200 56868.120 0 1247.87
C 0.? 0 2652.0000 2652.0000
1305.876 5366 1305.876 1305.876 58172.24 0 1305.88
C 0.? 0 5366 5366
1390.9880 9860.0000 1390.8450 1391.1320 60034.330 0 1390.99
C 0.? 0 6902.0000 6902.0000
1446.148 12203 1446.011 1446.281 61210.82 0 1446.15
C 0.? 0 8542 8542
1490.226 5531 1490.059 1490.393 62134.92 0 1490.23
C 0.? 0 3872 3872
1618.171 23431 1618.022 1618.319 64742.47 0 1618.17
C 0.? 0 16402 16402
1632.1910 44844.000 1632.0510 1632.3350 65021.830 0 1632.19
C 0.? 0 31391.000 31391.000
1751.19 10639 1750.904 1751.492 67346.28 0 1751.19
C 0.? 0 7447 7447
1796.399 10456 1796.224 1796.583 68208.57 0 1796.40
C 0.? 0 7319 7319
1804.3260 40386.000 1804.1660 1804.4860 68358.660 0 1804.33
C 0.? 0 28270.000 28270.000
1813.372 10006 1813.178 1813.559 68529.51 0 1813.37
C 0.? 0 7004 7004
1962.5200 51900.000 1962.3420 1962.6950 71287.410 0 1962.52
C 0.? 0 36330.000 36330.000
1965.417 53714 1965.417 1965.417 71339.91 0 1965.42
C 0.? 0 53714 53714
2117.6890 25456.000 2117.5150 2117.8640 74047.530 0 2117.69
C 0.? 0 17819.000 17819.000
Fig.1 : Fichier PKM (0609_15.pkm)

 

PeptIdent fournit une série de proteines et des peptides qui les constituent sous forme d'un simple tableau. Le nombre de résulats peut croître d'une manière exponentielle selon les critères choisis au lancement de ce dernier. On constate, bien que les résultats soient sous la forme de tableaux bien organisés et clairs, qu'il n'est pas forcement évident de retrouver la bonne proteine dans une serie de chiffres plus ou moins significatifs. Voici un résultat de PeptIdent sur un fichier PKM (on a affiché que la première proteine correspondante)


 

PeptIdent

Peptide mass fingerprinting
 
Name given to unknown protein: unknown
Species searched: all
 
pI: 0 - 
Mw: 0 - 
Peptide masses for unknown protein: 930.67310 1027.8450 1141.9430 1193.0070 1203.8100 1214.9160 1233.9170 1247.8670 1305.876 1390.9880 1446.148 1490.226 1618.171 1632.1910 1751.19 1796.399 1804.3260 1813.372 1962.5200 1965.417 2117.6890
Tolerance: ±0.5 Dalton
Minimum number of peptides required to match: 4
Maximum number of matching proteins to print: 50
Using monoisotopic masses of the occurring amino acid residues and interpreting your peptide masses as [M+H]+.
Enzyme: Trypsin, allowing for up to 0 missed cleavages (#MC).
Cysteine in reduced form.
Scan done on 14-Nov-1998, SWISS-PROT Release 36 and updates up to 07-Nov-1998: 76502 entries .

59 matches found.

Displaying the first 50 matches.


Score # peptide matches AC ID Description pI Mw
0.43 9 P21694 EFTU_SALTY ELONGATION FACTOR TU (EF-TU).  5.30 43152.36
0.43 9 P02990 EFTU_ECOLI ELONGATION FACTOR TU (EF-TU) (P-43).  5.30 43182.39
0.29 6 P97929 BRC2_MOUSE BREAST CANCER TYPE 2 SUSCEPTIBILITY PROTEIN.  6.23 370663.75
0.29 6 P27743 ACVS_NOCLA DELTA-(L-ALPHA-AMINOADIPYL)-L-CYSTEINYL-D-VALINE SYNTHETASE (EC 6.-.-.-) (ACV SYNTHETASE) (ACVS).  5.21 404087.83
0.29 6 P45444 DYHC_EMENI DYNEIN HEAVY CHAIN, CYTOSOLIC (DYHC).  5.72 492480.49
0.24 5 P23098 DYHC_TRIGR DYNEIN BETA CHAIN, CILIARY.  5.22 511782.00
0.24 5 P55037 GLTB_SYNY3 FERREDOXIN-DEPENDENT GLUTAMATE SYNTHASE 1 (EC 1.4.7.1) (FD-GOGAT).  5.60 169071.50
0.24 5 P49792 N358_HUMAN NUCLEAR PORE COMPLEX PROTEIN NUP358 (NUCLEOPORIN NUP358) (358 KD NUCLEOPORIN) (P270) (RAN-BINDING PROTEIN 2).  5.86 358218.28
0.24 5 P12263 FA8_PIG_1 CHAIN 1: COAGULATION FACTOR VIII. 6.53 237208.69
0.24 5 O13710 YDZ2_SCHPO HYPOTHETICAL 123.7 KD PROTEIN C14C4.02 IN CHROMOSOME I.  5.83 123722.68
0.24 5 Q02224 CENE_HUMAN CENTROMERIC PROTEIN E (CENP-E PROTEIN).  5.46 312090.24
0.24 5 Q05057 POLG_PYFV1 GENOME POLYPROTEIN [CONTAINS: 22.5 KD PROTEIN; 26 KD PROTEIN; 31 KD PROTEIN; PROBABLE RNA-DIRECTED RNA POLYMERASE (EC 2.7.7.48)].  6.57 336247.40
0.24 5 Q01886 HTS1_COCCA HC-TOXIN SYNTHETASE (EC 6.3.2.-) (HTS).  5.80 574651.99
0.24 5 P43926 EFTU_HAEIN ELONGATION FACTOR TU (EF-TU).  5.26 43223.17
0.24 5 Q05793 PGBM_MOUSE_1 CHAIN 1: BASEMENT MEMBRANE-SPECIFIC HEPARAN 5.85 396109.26
0.24 5 P33053 RPO1_VARV DNA-DIRECTED RNA POLYMERASE 147 KD POLYPEPTIDE (EC 2.7.7.6).  8.10 146783.34
0.19 4 P53125 YGN3_YEAST HYPOTHETICAL 145.6 KD PROTEIN IN SSM1B-CEG1 INTERGENIC REGION.  5.50 145642.91
0.19 4 P44781 HEPA_HAEIN RNA POLYMERASE ASSOCIATED PROTEIN HOMOLOG (ATP-DEPENDENT HELICASE HEPA).  5.32 104405.28
0.19 4 P20054 PYR1_DICDI PROTEIN PYR1-3 [CONTAINS: GLUTAMINE-DEPENDENT CARBAMOYL-PHOSPHATE SYNTHASE (EC 6.3.5.5); ASPARTATE CARBAMOYLTRANSFERASE (EC 2.1.3.2); DIHYDROOROTASE (EC 3.5.2.3)].  6.00 241742.43
0.19 4 P11978 SIR4_YEAST REGULATORY PROTEIN SIR4 (SILENT INFORMATION REGULATOR 4).  9.03 152061.67
0.19 4 P39057 DYHC_ANTCR DYNEIN BETA CHAIN, CILIARY.  5.23 511782.89
0.19 4 P20908 CA15_HUMAN_1 CHAIN 1: COLLAGEN ALPHA 1(V) CHAIN. 4.91 153544.81
0.19 4 P25391 LMA1_HUMAN_1 CHAIN 1: LAMININ ALPHA-1 CHAIN. 5.92 335416.55
0.19 4 P12003 VINC_CHICK VINCULIN.  6.00 116867.67
0.19 4 P98158 LRP2_RAT_1 CHAIN 1: LOW-DENSITY LIPOPROTEIN RECEPTOR-RELATED 5.03 516748.40
0.19 4 Q58445 RPA1_METJA DNA-DIRECTED RNA POLYMERASE SUBUNIT A' (EC 2.7.7.6).  8.14 152780.97
0.19 4 P10587 MYSG_CHICK MYOSIN HEAVY CHAIN, GIZZARD SMOOTH MUSCLE.  5.46 228664.53
0.19 4 P04146 COPI_DROME COPIA PROTEIN.  8.73 162771.49
0.19 4 Q66431 RRPL_DUGBV RNA-DIRECTED RNA POLYMERASE (EC 2.7.7.48) (L PROTEIN).  6.90 459391.75
0.19 4 P25823 TUD_DROME MATERNAL TUDOR PROTEIN.  6.01 285238.86
0.19 4 Q10411 YD86_SCHPO HYPOTHETICAL 222.8 KD PROTEIN C1F3.06C IN CHROMOSOME I.  5.15 222786.78
0.19 4 P36022 DYHC_YEAST DYNEIN HEAVY CHAIN, CYTOSOLIC (DYHC).  5.90 471347.64
0.19 4 P07751 SPCN_CHICK SPECTRIN ALPHA CHAIN, BRAIN (SPECTRIN, NON-ERYTHROID ALPHA CHAIN) (FODRIN ALPHA CHAIN) (SPTAN1).  5.21 285363.39
0.19 4 P12688 YPK1_YEAST SERINE/THREONINE-PROTEIN KINASE YPK1 (EC 2.7.1.-).  6.07 76479.81
0.19 4 P39812 GLTB_BACSU GLUTAMATE SYNTHASE [NADPH] LARGE CHAIN (EC 1.4.1.13) (NADPH-GOGAT).  5.58 168857.24
0.19 4 P13615 RRPL_VSVJH RNA POLYMERASE BETA SUBUNIT (EC 2.7.7.48) (LARGE STRUCTURAL PROTEIN) (L PROTEIN).  8.85 241583.49
0.19 4 Q57742 HELX_METJA PUTATIVE ATP-DEPENDENT HELICASE MJ0294.  9.07 97267.97
0.19 4 P48417 CP74_LINUS_1 CHAIN 1: ALLENE OXIDE SYNTHASE. 5.86 53580.51
0.19 4 P55824 FAF_DROME PROBABLE UBIQUITIN CARBOXYL-TERMINAL HYDROLASE FAF (EC 3.1.2.15) (UBIQUITIN THIOLESTERASE FAF) (UBIQUITIN-SPECIFIC PROCESSING PROTEASE FAF) (DEUBIQUITINATING ENZYME FAF) (FAT FACETS PROTEIN).  5.74 307957.40
0.19 4 Q09092 SRK6_BRAOL_1 CHAIN 1: PUTATIVE SERINE/THREONINE KINASE 7.75 93484.45
0.19 4 P27742 ACVS_EMENI DELTA-(L-ALPHA-AMINOADIPYL)-L-CYSTEINYL-D-VALINE SYNTHETASE (EC 6.-.-.-) (ACV SYNTHETASE) (ACVS).  6.01 422456.49
0.19 4 Q60429 SRE2_CRIGR STEROL REGULATORY ELEMENT BINDING PROTEIN-2 (SREBP-2) (STEROL REGULATORY ELEMENT-BINDING TRANSCRIPTION FACTOR 2).  8.58 123655.22
0.19 4 P30427 PLEC_RAT PLECTIN.  5.71 533540.00
0.19 4 P20028 RPA2_DROME DNA-DIRECTED RNA POLYMERASE I 135 KD POLYPEPTIDE (EC 2.7.7.6) (RNA POLYMERASE I SUBUNIT 2).  8.63 128414.35
0.19 4 P18296 CUT1_SCHPO CUT1 PROTEIN.  7.58 209493.23
0.19 4 P12954 SRS2_YEAST ATP-DEPENDENT DNA HELICASE SRS2 (EC 3.6.1.-).  8.88 134325.24
0.19 4 P08968 RPC1_TRYBB DNA-DIRECTED RNA POLYMERASE III LARGEST SUBUNIT (EC 2.7.7.6).  9.01 170272.03
0.19 4 P22168 RRPO_FXMV RNA REPLICATION PROTEIN (152 KD PROTEIN) (ORF 1) [CONTAINS: RNA- DIRECTED RNA POLYMERASE (EC 2.7.7.48); PROBABLE HELICASE].  6.77 152318.09
0.19 4 P19787 ACVS_PENCH DELTA-(L-ALPHA-AMINOADIPYL)-L-CYSTEINYL-D-VALINE SYNTHETASE (EC 6.-.-.-) (ACV SYNTHETASE) (ACVS).  5.57 421076.44
0.19 4 P26046 ACVT_PENCH DELTA-(L-ALPHA-AMINOADIPYL)-L-CYSTEINYL-D-VALINE SYNTHETASE (EC 6.-.-.-) (ACV SYNTHETASE) (ACVS).  5.69 425921.93


Score: 0.43, 9 matching peptides: P21694 (EFTU_SALTY) pI: 5.30, Mw: 43152.36
ELONGATION FACTOR TU (EF-TU). 
user mass matching mass mass (Dalton) #MC modification position peptide links
1027.845 1027.5894 -0.2555 0 270-279 AGENVGVLLR
1214.916 1214.6303 -0.2856 0 304-313 FESEVYILSK
1233.917 1233.6163 -0.3006 0 325-333 GYRPQFYFR
1390.988 1390.6485 -0.3394 0 METH: 56 45-56 AFDQIDNAPEEK
1490.226 1489.8777 -0.3482 0 124-136 QVGVPYIIVFLNK
1796.399 1795.9561 -0.4428 0 8-24 TKPHVNVGTIGHVDH GK
1804.326 1803.8871 -0.4388 0 59-74 GITINTSHVEYDTPT R
1962.52 1962.0218 -0.4981 0 188-204 IIELAGFLDSYIPEP ER
1965.417 1964.96 -0.4569 0 155-171 ELLSQYDFPGDDTPI VR
30.8% of sequence covered:
      1          11         21         31         41         51 
    1 skekferTKP HVNVGTIGHV DHGKttltaa ittvlaktyg gaarAFDQID NAPEEKarGI    60
   61 TINTSHVEYD TPTRhyahvd cpghadyvkn mitgaaqmdg ailvvaatdg pmpqtrehil   120
  121 lgrQVGVPYI IVFLNKcdmv ddeellelve mevrELLSQY DFPGDDTPIV Rgsalkaleg   180
  181 daeweakIIE LAGFLDSYIP EPERaidkpf llpiedvfsi sgrgtvvtgr vergiikvge   240
  241 eveivgiket qkstctgvem frklldegrA GENVGVLLRg ikreeiergq vlakpgtikp   300
  301 htkFESEVYI LSKdeggrht pffkGYRPQF YFRttdvtgt ielpegvemv mpgdnikmvv   360
  361 tlihpiamdd glrfairegg rtvgagvvak vlg
etc...
Fig.2 : Résultat de PeptIdent sur un fichier 0609_15.pkm

 

Un outils permettant une visualisation graphique des résultats, facile à utiliser et offrant une vaste gamme de fonctionalités complémentaires serait un gain de temps considérable et efficace. De plus, offrant une vision globale de chaque spectre de masses, il pourrait servir à des fins trés particulières de chaque chercheur ou département utilisant les mêmes banques de données.

Solutions

Dans le cadre de ce projet, nous proposons une solution évolutive tout en utilisant des techniques classiques. En fait, BioGraph n'est qu'une de nombreuses applications possibles d'un noyeau constituant les 90% du code. En effet, il s'agit simplement de visualiser graphiquement des résultats de PeptIdent melangés à des données fournies par l'utilisateur et de les comparer entre elles. Le fonctionnement de BioGraph se résume ainsi:
Fig. 3 : Principe de base du fonctionnement du BioGraph.
BioGraph génere deux spectres, le deuxième n'étant qu'un zoom entre deux valeurs specifiées de masses (PKM ou données utilisateur) du premier.

Dans un fichier PKM, la première valeur (Center X) est la masse du premier peptide, la valeur Peak Y est son intensité relative dans la proteine digerée, Left X, Right X est le décalage (ou marge) min/max de la masse. BioGraph utilise les valeurs du fichier PKM, les affiche (bleu), puis, les mélange avec des valeurs generées par PeptIdent (les masses de peptides corréspondantes à celles dans la base de donnes de SWISS-PROT ainsi que d'autres informations telles que des missed cleavages ou des modifications post-transcriptionnelles) et les affiche avec une autre couleur (rouge/jaune). Les piques en jaune sont ceux des masses correspondantes avec une tolerance m-tol entre les deux séries de valeurs (respectivement, les piques en rouge sont ceux qui ne correspondent pas avec cette tolerance donnée).

Puisque PeptIdent ne genère pas d'intensités relatives, les valeurs d'un fichier PKM sont utilisées pour les masses correspondantes.

Voici un resultat produit par BioGraph :

 
Fig. 4 : Résultat du BioGraph.
On remarque une nette amélioration de visibilité par rapport aux résulats du PeptIdent. De plus, on peut effecuter des changements de tolerance (m-tol - par defaut, la valeurs utilisée par PeptIdent)  On voit un premier avantage de BioGraph, il permet de réduire la tolerance de masses (m-tol) instantanement, ne montrant en jaune que les piques avec une masse dans cette tolerance donnée. Les piques rouges permettent ainsi de voir les resultats de PeptIdent avec une tolerance fixe et les piques jaunes avec une tolerance m-tol. De plus, puisqu'un spectromètre de masse peut faire des érreurs (d'envion 1 neutron) d'une manière uniforme (sur toutes les valeurs), x-ad permet de pondérer les masses avec une valeur unique.

Le zoom (graphique du bas) permet de visualiser les deux résultats dans un champ de masses specifié (à droite). Les piques entourés en rouge sont simplement ceux qui correspondent à des piques jaunes sur le spectre complet.

Une importante fonctionalité de BioGraph est l'annotation de chaque peptide avec un maximum de valeurs connues. Si l'on pointe la souris sur un des piques, ces informations complémentaires (dans la mesure du possible, sa masse, son intensité, sa sequence en acides aminés, le nombre de missed-cleavages et les modifications post-transcriptionnelles) apparaissent dans un ToolTip.

Des options supplémentaires permettent d'afficher une grille du spectre (Grid), d'équilibrer les intensités sur les deux series de valeurs (Eq), d'effectuer un logarithme naturel sur toutes les intensités (Log, le logarithme conserve la propriété x>y -> log(x)>log(y) et vice-versa, ainsi accentuant et en equilibrant l'éspace occuppé par chaque pique sur le graphique), d'afficher les facteurs d'echelle x et y (Scale) et soit de spécifier l'échelle des masses (x) et des intensites (y), soit d'afficher les masses et les annotations des peptides correspondants. Un pourcentage de peptides correspondantes est également present.

Pour consulter l'aide on-line du BioGraph, clickez ici.

Implémentation

BioGraph à été ecrit en Java afin de permettre une utilisation relativement portable, à savoir en utilisant des OS variables et des navigateurs differents. Nous avons traité des aspects aussi variés que l'affichage de graphiques, l'adaptation automatique de l'échelle, le déplacement et le rafraichissement d'éléments independants ou encore le passage de paramètres entre l'utilisateur et notre programme.

Conclusion

Ainsi que décrit dans l'introduction, nous avons passé les 90% du temps a dévélopper un outil générique, puis d'utiliser ce travail afin de créer BioGraph. Ainsi, nous mettons à votre disposition une série de classes en Java et une methode fonctionnelle afin de permettre une réutilisation éfficace de cet ensemble pour des futurs projets semblables. Nous voyons un grand potentiel dans l'évolution de nombreux outils existants sur Expasy vers des solutions de plus en plus visuelles.
Nous tenons à remercier Elisabeth Gasteiger et Dr. Pierre-Alain Binz ainsi que Steven Gay pour un apport conséquent et une patience mise à rude epreuve quant à l'explication de certaines notions en bio-chimie.
Nous aimerions egalement citer l'utilisation d'algorithmes de Prof. Knuth pour le calcul d'echelle, tres gentillement mises a notre disposition par Pierre Sabatzus (Dataweb), ainsi que celle de la librairie MV4 (Vestris Inc.) pour le traitement CGI en C++.

© Doubrovkine Daniel & Soudovtsev Anton
Centre Universitaire d'Informatique
University of Geneva, 1998
ExPASy Home page Site Map Search ExPASy Contact us Proteomics tools
Hosted by NCSC USMirror sites:Canada China Korea Switzerland Taiwan