Javier Tamames, CAB/INTA-CSIC <tamames@cnb.uam.es>
La secuenciación total del genoma de organismos se convirtió en realidad en 1995, con la obtención de la primera secuencia completa de una bacteria, H. influenzae. Desde entonces, muchos otros genomas se han añadido a la lista, incluyendo los primeros eucariotas: S. cerevisiae en 1997 y C. elegans en 1999. Los hitos mas importantes han sido marcados en los últimos años por la obtención de los genomas de D. melanogaster (2000), A. thaliana, la primera planta (2000) y, por supuesto, el genoma humano (2001).
Los proyectos ya completados han obtenido resultados muy relevantes, que permiten extraer conclusiones no solo sobre la biología del organismo en cuestión, si no también sobre aspectos comparativos de gran importancia para comprender la organización de la vida (¿Cual es el conjunto de genes que son esenciales para crear un organismo viable? ¿Que familias de proteínas son universales y cuales son específicas? ¿Como actua la evolución sobre los genomas?). Es por esto que estos proyectos se han convertido en un referente imprescindible en la biología actual.
Repositorios de información genómica, donde podemos
inspeccionar los análisis realizados para los genomas completos:
TIGR: El instituto que llevó a cabo la secuenciación de los primeros genomas, posee un catálogo de los genomas secuenciados con enlaces a los análisis de cada uno de ellos.
PEDANT es un sistema para análisis de genomas. Aunque no es accesible desde el exterior (no podemos analizar nuestras secuencias), si podemos examinar los análisis ya realizados para gran cantidad de organismos, incluso algunos aun no completos.
NCBI-Entrez: Este es un gran conjunto de información biológica que comprende bases de datos de nucleótidos (GenBank), de proteinas, de informacion bibliografica (Medline), y tambien genomas. Este servidor contiene las secuencias de todos los genomas virales completados.Supongamos que hemos secuenciado un genoma y conocemos ya los genes que contiene. Como analizar nuestras secuencias?
La principal fuente de información para el análisis procede
de busquedas de homología frente a otras secuencias depositadas
en las bases de datos. Otro tipo de información también puede
ser de importancia: predicciones de estructura secundaria, de regiones
transmembrana, presencia de motivos comunes a otras proteinas, etc.
Cada herramienta tiene su propio servidor, utiliza un formato propio
de los datos de entrada y salida, y en muchos casos no funcionan a traves
de Internet, sino que se deben instalar localmente.
Los sistemas de análisis de genomas estan diseñados para
eliminar esos problemas: poseen copias locales de las herramientas y bases
de datos, y agrupan el acceso a todas ellas, de modo que el usuario simplemente
tiene que facilitarles la secuencia o secuencias que quiere analizar. El
sistema se encarga de correr todos los programas y dar el formato adecuado
a los datos para la presentación al usuario.
Como se puede suponer, los requerimentos de este tipo de sistemas son
grandes: gran capacidad de almacenamiento y gran poder de cálculo
(muchas secuencias pueden ser analizadas simultaneamente). Por ello, no
han sido muchos los sistemas de este tipo que han sido desarrollados para
el uso público.
Visitaremos dos de ellos:
DANTE: Análisis de genomas virales en el CNB
GeneQuiz: Entrada de secuencias
Los resultados que obtenemos en GeneQuiz al analizar una secuencia
pueden verse en los dos siguientes ejemplos:
También podemos examinar los resultados de los análisis de genomas realizados con GeneQuizEjemplo1 Ejemplo2
Un nuevo y muy importante aspecto del análisis de genomas se
encuentra en los estudios comparativos entre distintos organismos. Hasta
hace pocos años este tipo de análisis eran muy dificiles
de realizar, por la inexistencia de genomas completamente secuenciados,
que hacia que las comparaciones a menudo fuesen incompletas. Asi como las
herramientas que hemos visto hasta ahora iban principalmente encaminadas
a predecir la función de nuestras secuencias, las comparaciones
nos ofrecen informaciones adicionales: pertenencia a familias conocidas,
perfil filogenético (presencia en otros organismos), pertenencia
a operones o clusters de genes (genes que se presentan agrupados
en diferentes organismos, lo que a menudo tiene implicaciones funcionales),
etc.
La información comparativa puede incluso ayudarnos a predecir
la función para ORFs de funcion desconocida en el organismo que
analizamos: comparando diversos organismos podemos conocer aquellos genes/proteínas
que realicen funciones esenciales y que no hayan sido descubiertas en este.
Las bases de datos de metabolismo son de considerable ayuda en este punto.
La información posicional tambien es muy importante: la función
de algunos ORFs puede conocerse de acuerdo a su vecindad con ORFs de función
conocida, si esta disposición esta conservada en diferentes organismos.
En esta parte visitaremos alguno de los servidores que nos permiten
realizar comparaciones entre varios genomas. Entre los mas interesantes
se encuentran:
MGDB, Microbial genome database. Este servidor nos permite encontrar los genes/proteinas homológos al nuestro en otros genomas, y comparar facilmente su posicion y características.
Realizaremos el siguiente ejercicio: En la página
de entrada del servidor, en el recuadro donde se nos pide el nombre
del gen, introduciremos ftsA. Este gen esta ampliamente distribuido
en bacterias, formando parte de un cluster o agrupamiento de proteínas
implicadas en la division celular. Tras pulsar 'Exec', nos aparece
la lista de genes homologos a ftsA en los distintos organismos. Podemos
inspeccionar cada una de ellas pulsando en cada enlace, y entrar a la parte
comparativa mediante el botón 'Create form', y pulsar 'Cluster'
en la página nueva que aparece. Esto nos da un mapa comparativo
de los genes encontrados. Podemos pulsar en las letras'M' enmarcadas
en amarillo para ver un mapa comparativo de todos los organismos. Tras
seleccionar algun cluster (marcandolo en los botones a la izquierda de
su numero) La opción 'Whole genome comparision' nos muestra
la posición del gen en cada genoma, con respecto al origen de replicación.
Asi podemos evaluar si la posición de los genes se conserva en diferentes
organismos.
El siguiente servidor que visitaremos será KEGG. Este servidor
posee realmente mucha información, y ademas muy util (las dos cosas
no siempre van unidas).
KEGG, servidor de datos de metabolismo, genomas completos, genes homólogos entre genomas, genes relacionados con enfermedades, etc.Ejercicios:
Uso de la información de clusters, grupos de genes conservados entre genomas. Abrimos KEGG ('Open KEGG'), y en el menu de opciones que aparece, seleccionamos 'Identify gene clusters in two genomes' en el apartado 2-2. Seleccionamos 'Escherichia coli' como primer organismo, y 'Rickettsia prowazekii' como segundo. Esto nos hallará las regiones de genes conservados entre esos dos organismos. Cambiamos además el número de genes que permitimos que se intercalen en el cluster, poniendo '3' en ambos recuadros de 'Specify maximum gaps between genes'. Tras pulsar 'Exec', nos aparece una página en la que seguiremos el enlace que nos lleva a los primeros 10 clusters: 'Gene Cluseters: 1 - 10'. El tercer cluster muestra un grupo de tres genes conservados entre las dos bacterias. Entre ellos hay un par de genes (b0083-RP568) que no presentan homología entre si. La primera es la proteina ftsL, implicada tambien en división celular. Sobre la segunda no se conoce nada. De acuerdo a la información posicional y a la conservación del cluster en otros organismos (si se quiere comprobar, lanzar E. coli contra H. influenzae o contra B. subtilis), se puede proponer que RP568 cumple la función de ftsL.
Uso de la información metabólica: Volvemos atras, hasta el menu de opciones, y en el apartado 1-1, seleccionamos 'Metabolic pathways', y despues 'Glycolysis'. Nos aparece el mapa consenso de la glicólisis. Seleccionamos ahora 'Pyrococcus abysii' y pulsamos 'Exec'. Vemos que este organismo posee la parte baja de la glicólisis salvo la enzima 5.4.2.1 (Fosfoglicerato mutasa). Esta enzima no ha sido identificada en el conjunto de genes de este organismo, pero evidentemente debe existir para que funcione la glicólisis. Una de las proteínas no identificadas debe llevar a cabo esta actividad.
El último servidor a visitar sera el del NCBI, otro repositorio
de información muy completo:
NCBI: Todo tipo de informacion genómica, software, etc.
Ejercicio: Vamos a utilizar COGs (Cluster of Orthologous
Groups). El enlace se encuentra a la derecha de la pagina. Esta es
una base de datos de genes/proteínas homólogos (ortólogos)
entre diferentes genomas. Por ejemplo, podemos introducir ftsA en el recuadro
que nos pregunta 'gene name' y observar la distribución de este
gen en los diferentes genomas. Esta información se puede usar para
decubrir patrones anormales de distribución filogenética,
que puedan dar pistas sobre la presencia de determinado gen no identificado,
o sobre eventos evolutivos de interes.
Por ejemplo, pulsar en 'Phylogenetic patterns'. Esto nos da
la lista de distribución de los grupos en las especies (Cada especie
es una letra, de acuerdo a la clave de la primera página. los taxones
superiores son: A=Arqueas, B=Bacterias, E=Eucariotas). Algunas distribuciones
inusuales señalan casos interesantes. Por ejemplo, entre las proteínas
universalmente conservadas (AEB), aparece una distribución
'amtkyqvcebrhujgpolin-' (linea 11 en AEB). Esto quiere decir que alguno
de estos grupos, correspondientes a proteínas universales, no aparece
en Rickettsia prowazekii.
En este caso, vemos que estas ausencias
corresponden a proteínas de glicólisis. Rickettsia
es un parásito (provoca el tifus), y no necesita la glicólisis
ya que aprovecha las capacidades energéticas del organismo parasitado.
Otro ejemplo lo encontramos en las proteínas conservadas en
arqueas (A): en la cuarta linea aparece un patrón '-mtk-----------------',
indicando que esas proteínas estan presentes en todas las arqueas
salvo en Archaeoglobus fulgidus. Algunas de estas proteínas
(tales como una familia de helicasas específicas de arqueas), parece
probable que se encuentren en A. fulgidus, y que por tanto correspondan
a proteínas no identificadas.
Con este ejercicio acabamos la práctica. Si nos sobra tiempo,
podemos visitar de modo libre los sitios que hemos conocido hoy.