Análisis de secuencias: más sobre búsquedas con perfiles. Teoría.
PSI-BLAST, PHI-BLAST y el paquete HMMer.

PSI-BLAST y PHI-BLAST
El paquete HMMer
Formas de comparar secuencias (resumen)

1.- PSI-BLAST y PHI-BLAST

A los programas de BLAST, PSI-BLAST, PHI-BLAST.... se puede acceder desde el sitio del NCBI.

Podéis encontrar un interesante tutorial sobre PSI-BLAST en el NCBI, en: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/psi1.html.

PSI-BLAST (o Position Specific Iterated BLAST) es un programa muy útil y rápido. En su forma básica de funcionamiento lo que hace es realizar un simple BLAST con una secuencia y, a partir de los resultados, construye un perfil o PSSM. Entonces, la siguiente búsqueda la realiza con ese perfil, lo que permitirá encontrar, idealmente, nuevos homólogos, homólogos remotos. Con esos nuevos homólogos genera un nuevo perfil, el cual, idealmente, contendrá mayor cantidad de información y podrá realizar otra búsqueda. Es un proceso iterativo.

Además de este modo de funcionamiento básico a partir de una secuencia, PSI-BLAST también puede iniciarse con un alineamiento múltiple.

Ejecutarlo localmente, por línea de comandos, puede resultar un poco tedioso, y resulta más sencillo utilizar el servidor del NCBI, que además ofrece algunas ventajas: por ejemplo, permite seleccionar cuáles de los homólogos deberán ser utilizados para construir el perfil.

Ejemplo (el que se sigue en el tutorial del NCBI)
>gi|2501594|sp|Q57997|Y577_METJA PROTEIN MJ0577
MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE
NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG
SVTENVIKKSNKPVLVVKRKNS

Resultados de la primera ronda. Resultados de la segunda.

PHI-BLAST (Pattern-Hit Initiated BLAST): permite realizar búsquedas que son mezcla de búsquedas de patrones y alineamiento de secuencias. Se inicia con una secuencia y un patrón (que presenta dicha secuencia y que es característico de dicha familia). Lo que hace es buscar todas aquellas secuencias que presenten ese patrón, pero para descartar aquellas ocurrencias del patrón que se producen al azar (especialmente con patrones cortos), además comprueba que las regiones vecinas al patrón sean parecidas entre las secuencias.

Instalación local

El software de BLAST, PSI-BLAST, PHI-BLAST y otros programas se puede obtener desde aquí. (windows, linux, etc.) (incluye documentación de cómo instalarlo y utilizarlo).

Otros programas del paquete:

makemat y copymat: para generar una base de datos de perfiles a partir de perfiles generados usando la opción "-C" de PSI-BLAST.
impala y rps-blast: para buscar con una secuencia en una base de datos de perfiles (funcionan igual, pero rps-blast es más rápido, aunque menos sensible, que impala).
megablast: se utiliza para hacer búsquedas muy rápidas con secuencias de nucleótidos. La alta velocidad se alcanza porque está pensado para alinear secuencias muy parecidas (identificación de ESTs, alineamiento de contigs solapantes, etc...)
blastclust: realiza una especie de búsqueda con secuencias intermedias.

2.- El paquete HMMer.

Este paquete HMMer sirve para utilizar HMMs en análisis de secuencias. Permite realizar múltiples tareas: construir un HMM a partir de un alineamiento múltiple, buscar con un HMM en una base de datos de secuencias, buscar con una secuencia en una base de datos de HMMs, etcétera. Dado el alto coste computacional de estas tareas, sólo se puede utilizar localmente, aunque existen algunos subprogramas que se pueden usar en la web: por ejemplo, el programa hmmpfam, que sirve para buscar con una secuencia contra una base de datos de HMMs, se puede usar en Pfam.

Instalación local

Se puede instalar en muchos sistemas, aunque quizás sea más fácil en Linux u otros sistemas Unix que en Windows.

Programas del paquete (*: los básicos):

*hmmalign: para alinear una secuencia a un perfil HMM.
*hmmbuild: para construir un HMM a partir de un alineamiento.
*hmmcalibrate: para calibrar el HMM.
hmmconvert: para convertir un HMM a otro formato.
hmmemit: para generar secuencias a partir de un HMM. También permite obtener una secuencia consenso.
hmmfetch: para extraer un HMM de una base de datos de HMMs.
hmmindex: para construir un índice para una base de datos de HMMs.
*hmmpfam: para buscar con una secuencia contra una base de datos de HMMs.
*hmmsearch: para buscar con un HMM en una base de datos de secuencias.
alistat: proporciona algunas estadísticas de un alineamiento múltiple.
getseq: para extraer una secuencia de una base de datos de secuencias.
seqstat: proporciona algunos datos de una secuencia dada.
sreformat: para convertir entre los distintos formatos de secuencia: FASTA, GenBank, EMBL, SWISS-PROT, PIR, etc...

Si ya tenemos un alineamiento, y queremos construir un HMM y buscar homólogos en una base de datos de secuencias los pasos a seguir son:

hmmbuild => hmmcalibrate => hmmsearch

3.- Resumen.

volver al índice

ir a la práctica