Análisis de secuencias:
más sobre búsquedas con perfiles. Teoría.
PSI-BLAST, PHI-BLAST y el
paquete HMMer.
1.-
PSI-BLAST y PHI-BLAST
A
los programas de BLAST, PSI-BLAST, PHI-BLAST.... se puede acceder desde
el sitio del NCBI.
PSI-BLAST
(o Position Specific Iterated BLAST) es un programa muy útil y rápido.
En su forma básica de funcionamiento lo que hace es realizar un
simple BLAST con una secuencia y, a partir de los resultados, construye
un perfil o PSSM. Entonces, la siguiente búsqueda la realiza con
ese perfil, lo que permitirá encontrar, idealmente, nuevos
homólogos, homólogos remotos. Con esos nuevos homólogos
genera un nuevo perfil, el cual, idealmente, contendrá mayor cantidad
de información y podrá realizar otra búsqueda. Es
un proceso iterativo.
Además
de este modo de funcionamiento básico a partir de una secuencia,
PSI-BLAST también puede iniciarse con un alineamiento múltiple.
Ejecutarlo
localmente, por línea de comandos, puede resultar un poco tedioso,
y resulta más sencillo utilizar el servidor del NCBI, que además
ofrece algunas ventajas: por ejemplo, permite seleccionar cuáles
de los homólogos deberán ser utilizados para construir el
perfil.
Ejemplo (el que se sigue en el tutorial
del NCBI)
>gi|2501594|sp|Q57997|Y577_METJA PROTEIN MJ0577
MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE
NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG
SVTENVIKKSNKPVLVVKRKNS
Resultados de la primera ronda. Resultados de la segunda.
PHI-BLAST
(Pattern-Hit
Initiated BLAST): permite realizar búsquedas que son mezcla de búsquedas
de patrones y alineamiento de secuencias. Se inicia con una secuencia y
un patrón (que presenta dicha secuencia y que es característico
de dicha familia). Lo que hace es buscar todas aquellas secuencias que
presenten ese patrón, pero para descartar aquellas ocurrencias del
patrón que se producen al azar (especialmente con patrones cortos),
además comprueba que las regiones vecinas al patrón sean
parecidas entre las secuencias.
Instalación
local
El
software
de
BLAST, PSI-BLAST, PHI-BLAST y otros programas se puede obtener desde aquí.
(windows,
linux,
etc.) (incluye documentación de cómo instalarlo y utilizarlo).
Otros
programas del paquete:
-
makemat y copymat: para generar una base de
datos de perfiles a partir de perfiles generados usando la opción
"-C" de PSI-BLAST.
-
impala y rps-blast: para buscar con una secuencia
en una base de datos de perfiles (funcionan igual, pero rps-blast es más
rápido, aunque menos sensible, que impala).
-
megablast: se utiliza para hacer búsquedas
muy rápidas con secuencias de nucleótidos. La alta velocidad
se alcanza porque está pensado para alinear secuencias muy parecidas
(identificación de ESTs, alineamiento de contigs solapantes, etc...)
-
blastclust: realiza una especie de búsqueda
con secuencias intermedias.
Este
paquete HMMer sirve para utilizar
HMMs en análisis de secuencias. Permite realizar múltiples
tareas: construir un HMM a partir de un alineamiento múltiple, buscar
con un HMM en una base de datos de secuencias, buscar con una secuencia
en una base de datos de HMMs, etcétera. Dado el alto coste computacional
de estas tareas, sólo se puede utilizar localmente, aunque existen
algunos subprogramas que se pueden usar en la web: por ejemplo, el programa
hmmpfam, que sirve para buscar con una secuencia contra una base de datos
de HMMs, se puede usar en Pfam.
Instalación
local
Se
puede instalar en muchos sistemas, aunque quizás sea más
fácil en Linux u otros sistemas Unix que en Windows.
Programas
del paquete (*: los básicos):
-
*hmmalign: para alinear una secuencia a un
perfil HMM.
-
*hmmbuild: para construir un HMM a partir
de un alineamiento.
-
*hmmcalibrate: para calibrar el HMM.
-
hmmconvert: para convertir un HMM a otro formato.
-
hmmemit: para generar secuencias a partir de un HMM.
También permite obtener una secuencia consenso.
-
hmmfetch: para extraer un HMM de una base de datos
de HMMs.
-
hmmindex: para construir un índice para una
base de datos de HMMs.
-
*hmmpfam: para buscar con una secuencia
contra una base de datos de HMMs.
-
*hmmsearch: para buscar con un HMM
en una base de datos de secuencias.
-
alistat: proporciona algunas estadísticas
de un alineamiento múltiple.
-
getseq: para extraer una secuencia de una base de
datos de secuencias.
-
seqstat: proporciona algunos datos de una secuencia
dada.
-
sreformat: para convertir entre los distintos formatos
de secuencia: FASTA, GenBank, EMBL, SWISS-PROT, PIR, etc...
Si
ya tenemos un alineamiento, y queremos construir un HMM y buscar homólogos
en una base de datos de secuencias los pasos a seguir son:
hmmbuild
=> hmmcalibrate => hmmsearch
3.- Resumen.