Aunque existen programas que se centran
en alguna de las estrategias de predicción mencionadas más
arriba, y que sirven para analizar o identificar una propiedad o motivo
específico, existen muchos programas para identificar genes que
combinan varios sistemas.
Dos ejemplos son: búsqueda de fases abiertas de lectura, definidas por la existencia de codones de inicio y de terminación, combinada con el análisis de frecuencia de uso de codones, para identificar regiones codificantes en genomas procariotas, o la predicción de sitios de procesamiento de ARN, combinada con búsquedas en bases de datos de ESTs, para deducir la organización de intrones y exones en genes eucariotas.
De hecho, el objetivo de muchos proyectos de desarrollo de programas es, precisamente, implementar herramientas integradas que utilicen el mayor número posible de sistemas de predicción y toda la información disponible en bases de datos (lo que se llama, en inglés, INTEGRATED GENE PARSERS). Más aún, dada la explosión de proyectos en los que se secuencian genomas completos, el objetivo es que dichos sitemas integrados sean capaces de identificar y modelar genes de forma automática.
Estas herramientas integradas estan aun evolucionando y tienen que superar una serie de limitaciones, como son el optimizar su funcionamiento para múltiples organismos (más allá de humanos o Drosophila) y el resolver los casos de procesamiento alternativo de ARNm o de genes que solapan.
Una iniciativa orientada a facilitar la integracion
de diferentes herramientas y el intercambio de datos entre sistemas de
predicción fue la propuesta, por parte del Sanger Center, de un
formato estandar para recoger, en un documento de tipo texto, todo tipo
de información sobre características de secuencias biológicas.
Dicho formato se denomina gff
y es el formato de salida de varios de los programas de prediccion de genes
mencionados más abajo.
Localización y enmascaramiento de secuencias repetidas
- Censor (GIRI), identifica, por similaridad a secuencias depositadas en RepBase, y enmascara, secuencias repetidas en secuencias humanas, de roedores, plantas e invertebrados. (M)
- RepeatMasker (UWGC), enmascara regiones de baja complejidad y secuencias repetidas, por similaridad a la secuencias en RepBase, en primates, roedores, otros mamíferos y vertebrados, plantas y Drosophila. (M N)
Metodos de comparación
- BLAST (NCBI), varios programas para buscar secuencias relacionadas en bases de datos de proteinas y de secuencias de ADN, incluyendo ESTs. (M N)
- Procrustes (USC), modelización de genes en eucariotas mediante el "spliced alignment algorithm", que utiliza la secuencia aminoacídica de proteínas similares (homólogas) a las que codifica la secuencia genómica analizada, para reconstruir la estructura de genes en cuanto a intrones y exones. (M N G)
Análisis de la secuencia de ADN a nivel de nucleótido
- CodonW (Pasteur), programa para calcular varias estadísticas relacionadas con el uso de codones en una secuencia. (N)
- Codon Usage Database (KDRI), base de datos de tablas de uso de codones. (N)
- Sequence Manipulation Suite (Bioinformatics.org), colección de programas para el analisis de secuencias, entre ellos, Codon Plot y Codon Usage. (N)
Análisis de señales
- WWW Promoter Scan (BIMAS), predicción de regiones promotoras, identificadas por la existencia de una serie de posibles sitios de unión de factores de transcripción, normalmente asociados a promotores reconocidos por la ARN polimerasa II. (N)
- Promoter 2.0 Prediction Server (CBS), predicción de promotores reconocidos por la ARN polimerasa II en vertebrados. (N)
- Promoter prediction (BDGP), predicción de promotores mediante redes neuronales, en procariotes y eucariotes. (N)
- NetStart 1.0 (CBS), predicción de codones de inicio en vertebrados y Arabidopsis, mediante red neuronal. (N)
- AUG (ITBA), predicción de codones de inicio. (N G)
- MatInspector (GBF), predicción de sitios de unión de factores de transcripción, basado en la base de datos Transfac. (N)
- CpG Plot (EBI), identificacion de islas CpG, que son regiones no metiladas del genoma, asociadas con el extremo 5' de los genes en vertebrados. Normalmente solapan con el promotor y, aproximadamente, con las 1000 pb iniciales de la unidad de transcripción.(N G)
- Fuzznuc (Pasteur), identificación de motivos en secuencias, especificados como una secuencia consenso con posibles ambiguedades y fallos. (N)
- DPInteract (Harvard U), base de datos de sitios de unión de proteínas reguladoras de la transcripción en Escherichia coli.
Búsqueda en bases de datos de secuencias expresadas
- BLAST (NCBI), búsqueda de secuencias relacionadas en bases de datos de ESTs y cDNAs. (M N)
- The Mammalian Gene Collection: base de datos de cDNAs humanos y de ratón.
- HUNT (human novel transcripts): base de datos de cDNAs humanos y desarrollo.
- The German Human cDNA Project: base de datos de cDNAs humanos específicos de tejidos o de cromosomas.
Predicción de genes (herramientas integradas y enlaces generales)
Eucariotas y Procariotas
- GenomeWeb (UK HGMP), enlaces a multiples programas para la predicción de genes y motivos.
- GeneMark (GATECH), familia de programas de predicción de regiones codificantes basada en HMM. (M N G).
- GeneMark.hmm para eucariotas.
- GeneMark.hmm para procariotas.
- GeneMark 2.4 para procariotas y eucariotas.
- GeneMark (EBI), predicción de regiones codificantes, usando HMM en procariotes y eucariotes. (M N G)
Procariotas
- ORF Finder (NCBI), identificación de fases abiertas de lectura, en cualquier organismo, con conexión a BLAST. (N G)
- FramePlot (NIH-NET Japón), predicción de secuencias codificantes en genomas procariotas con alto contenido en G+C, con conexión a BLAST. (N G)
- Glimmer (TIGR), identificación de genes en procariotas, mediante IMM (Interpolated Markov Model) (No accesible por Internet; hay que instalarlo localmente).
Eucariotas
- GENSCAN (MIT), predicción de genes en eucariotas. (MN G)
- NetGENE (CBS), predicción de genes en humanos, C. elegans y A. thaliana, mediante Redes Neuronales. (M N G)
- HMMgene (CBS), predicción de genes en vertebrados and C. elegans, mediante HMM. (N)
- MZEF (CSHL), predicción de genes en humanos, ratón, Arabidopsis y Saccharomyces, mediante Quadratic Discriminant Analysis. (MN)
- Genie (BDGP), predicción de genes en Drosophila y humanos, basada en HMM. (M)
- GeneId (IMIM), predicción de genes en eucariotas. (N G)
- GlimmerM (TIGR), identificación de genes en eucariotas con una densidad de genes de alrededor del 20%, mediante IMM (Interpolated Markov Model) (No accesible por Internet; hay que instalarlo localmente).
- MetaGene Server (MCW), servidor que solicita predicciones a varios de los servidores mencionados anteriormente, y otros más, y combina los resultados produciendo una salida gráfica muy ilustrativa. (M N G)
- WebGene (ITBA), varias herramientas complementarias para predecir genes en eucariotas. (N G)
- GeneBuilder
- ORFGene
- ESTmap
- RepeatView
- CpG
- SpliceView
- HCpolyA
- HCtata
- GenView
- AUG
- Pier Bork Lab, enlaces a servidores de predicción de genes en eucariotas.
- Banbury Cross, enlaces a servidores de predicción de genes en eucariotas.
- Rockefeller University, enlaces a servidores de predicción de genes en eucariotas.
Utilidades
- gff2ps (IMIM / Pasteur), representación gráfica de modelos de genes a partir de ficheros en formato gff. (El servidor parece no funcionar de momento, pero es interesante tenerlo en cuenta; además, si se instala localmente, sí funciona)
- ReadSeq (EBI), herramienta para cambiar el formato de secuencias biológicas. (N)
Dado el interés existente en desarrollar programas de detección y modelado de genes automáticos, movido por la explosión de proyectos de secuenciación de genomas completos, resulta muy importante diseñar estrategias para evaluar la eficacia de predicción de los programas. Dichas estartegias deben de tener en cuenta tres puntos básicos:La página web Banbury Cross fué el resultado de una iniciativa para facilitar la evaluación de programas de predicción de genes. Grupos experimentales podían enviar secuencias genómicas cuya caracterización aún no está publicada, para que fueran usadas en pruebas de predicción de genes. Estaba previsto que los grupos experimentales o la institución que alberga Banbury Cross (IGS-CNRS) publicaran periódicamente los resultados de dichas pruebas, aunque normalmente pueden encontrarse en las páginas web de los distintos programas.Los diferentes programas de predicción deben ser ensayados con las mismas secuencias de prueba, para poder hacer comparaciones. Las predicciones deben de ser validadas experimentalmente, con posterioridad. La eficacia de las predicciones debe de ser expresada en forma de una serie de parametros que permitan la comparación, entre distintas evaluaciones. La tabla siguiente recoge los resultados de una comparación hecha entre varios programas de predicción de genes, que ha sido extraida de la página web de GenScan (GenScan Performance Data). Para hacer la comparación, se utilizó el juego de secuencias utilizado por M. Burset y R. Guigó en un test para comprobar la eficacia de una serie de programas de predicción de genes (Evaluation of gene structure prediction programs. 1996. Genomics, 34:353-357).
Accuracy per nucleotide | Accuracy per exon | |||||||
---|---|---|---|---|---|---|---|---|
Method | Sn | Sp | AC | Sn | Sp | (Sn+Sp)/2 | ME | WE |
GENSCAN | 0.93 | 0.93 | 0.91 | 0.78 | 0.81 | 0.80 | 0.09 | 0.05 |
FGENEH | 0.77 | 0.85 | 0.78 | 0.61 | 0.61 | 0.61 | 0.15 | 0.11 |
GeneID | 0.63 | 0.81 | 0.67 | 0.44 | 0.45 | 0.45 | 0.28 | 0.24 |
GeneParser2 | 0.66 | 0.79 | 0.66 | 0.35 | 0.39 | 0.37 | 0.29 | 0.17 |
GenLang | 0.72 | 0.75 | 0.69 | 0.50 | 0.49 | 0.50 | 0.21 | 0.21 |
GRAILII | 0.72 | 0.84 | 0.75 | 0.36 | 0.41 | 0.38 | 0.25 | 0.10 |
SORFIND | 0.71 | 0.85 | 0.73 | 0.42 | 0.47 | 0.45 | 0.24 | 0.14 |
Xpound | 0.61 | 0.82 | 0.68 | 0.15 | 0.17 | 0.16 | 0.32 | 0.13 |
Los parametros estadísticos usados para medir y comparar la eficiencia de los programas de predicción de genes, algunos de los cuales aparecen en la tabla anterior, se aplican tanto a nivel de nucleótido como a nivel de exones, y se definen como sigue:
A nivel de nucleótido: Donde:
- Sensitividad, Sn = TP / AP
- Especificidad, Sp = TP / PP
- AVSS = (Sn+Sp)/2
- Probabilidad Condicional Media, ACP = ((TP/(TP+FN)) + (TP/(TP+FP)) + (TN/(TN+FP)) + (TN/(TN+FN))) / 4
- Correlación aproximada, AC = ((TP/(TP+FN)) + (TP/(TP+FP)) + (TN/(TN+FP)) + (TN/(TN+FN))) / 2 - 1 = (ACP - 0.5) x 2
- Coeficiente de Correlación, CC = (TP x TN-FN x FP) / ((TP+FN) x (TN+FP) x (TP+FP) x (TN+FN)) 1/2
- TP = true positives
- TN = true negatives
- FN = false negatives
- FP = false positives
- AP = actual positives
- AN = actual negatives
- PP = predicted positive
- PN = predicted negative
A nivel de exones: Donde:
- Sensitividad, Sn = TE / AE
- Especificidad, Sp = TE / PE
- AVSS = (Sn+Sp)/2
- Missing exons, ME = número de exones verdaderos no predichos / número total de exones verdaderos
- Wrong exons, WE = numero de exones predichos que no coinciden con verdaderos / número total de exones predichos
- TE = exones predichos que son idénticos a un exón predicho
- AE = exones anotados (demostrados)
- PE = exones predichos
Basándose en los resultados de varios estudios de comparación, entre ellos el yá mencionado de Burset y Guigó y otro más reciente por S. Rogic et al (Evaluation of gene-finding programs on mammalian sequences. Genome Res 2001 11(5):817-32; resultados), A. D. Baxevanis ha concluido que MZEF es el mejor programa para predecir exones aislados y es más apropiado, por tanto, para analizar secuencias no completamente ensambladas. Por otra parte, GenScan y HMMgene son mejores para predecir la estructura de genes completos y de no confundir intrones con regiones intergénicas y son más apropiados, por tanto, para analizar secuencias ya completamente ensambladas. El mismo autor también recomienda buscar el apoyo de otros programas de predicción, así como el de otro tipo de métodos, como los comparativos (BLAST, Procrustes) y la identificación de ESTs (Predictive methods using DNA sequences. A. D. Baxevanis. En "Bioinformatics. A practical guide to the analysis of genes and proteins". Wiley-Interscience, New York 2001).