Back
Práctica: NCBI y Entrez
Manuel J. Gómez, CNB
Objetivo: familiarizarse con el uso de Entrez y acceder a varias bases
de datos accesibles en el servidor del NCBI.
Acceso a secuencias de nucleótidos
y proteínas, y a información relacionada.
-
Abrir Netscape o similar y conectarse al servidor del NCBI, en la dirección:
http://www.ncbi.nlm.nih.gov/
-
Conectarse a Entrez, el interfaz gráfico del NCBI.
-
Entrar en la base de datos Nucleotide y buscar con la expresión
Bacillus
subtilis bofC.
-
Aparece una lista con las entradas que encajan con la búsqueda.
-
Seleccionar la entrada que tiene menos genes (X93081).
-
Aparece la entrada en formato GenBank (por defecto), de donde podemos
obtener información sobre la longitud de la secuencia, los códigos
de acceso, las propiedades de las secuencia (CDSs, secuencias de aminoácidos
de los productos) y la secuencia misma.
-
Seleccionar Send to text, para generar una versión de la
entrada en formato de texto plano (formato de secuencia tipo GenBank, además),
que es la que podría ser útil guardar.
-
Volver al documento en formato original en formato GenBank..
-
Seleccionar Display FASTA, para obtener la secuencia en formato
FASTA, que también se podría salvar.
-
Seleccionar Display Graphics, para obtener el mapa y la secuencia
correspondientes a la entrada X93081, que muestran las zonas codificantes
(CDDs) y su traducción a aminoácidos.
-
Seleccionando Protein coding genes se obtiene la Protein Translation
Table, con las coordenadas de las CDSs y de donde se puede acceder a información
sobre secuencias de proteínas de sequencia similar, recogidas en
la base de datos COGs.
-
Volver al documento original en formato GenBank.
-
Buscar la parte de la sección de Features que describe la
segunda CDS. Además de disponer de la secuencia de aminoácidos
en ese mismo fichero, podemos saltar a la base de datos de proteínas.
-
Para ello, seleccionar el código de acceso de la proteína
(CAA63620.1).
-
Accedemos así a otro fichero en formato GenBank, aunque esta vez
contiene una secuencia de proteína.
-
Seleccionado el enlace Blink se accede a la misma información
obtenida anteriormente sobre secuencias similares, según la base
de datos de COGs.
-
Seleccionando el enlace Domains, se accede a información
sobre dominios conservados. En este caso, la proteína incluye un
dominio conservado definido en la base de datos Pfam, que es característico
de transportadores de azucar.
-
Pulsando con el cursor sobre la representación gráfica
del dominio, se accede a los alineamientos múltiples de la familia.
-
Seleccionando el botón Show Domain Relatives, se obtiene
una vista gráfica de las familias de proteínas que tienen
un arquitectura de dominos parecida.
Acceso a la base de datos de Taxonomía.
-
Abrir Netscape o similar y conectarse al servidor del NCBI, en la dirección:
http://www.ncbi.nlm.nih.gov/
-
Conectarse a Entrez, el interfaz gráfico del NCBI.
-
Entrar en la base de datos Taxonomy y seleccionar Tax Browser,
o la palabra tree en el texto explicativo.
-
Seleccionar Viruses
-
Seleccionar Protein y Structure, y pulsar Display.
-
Obtenemos información sobre las proteínas y estructuras publicadas
en las bases de datos del NCBI, para cada uno de los virus. Tanto las entradas
con secuencia de proteína como las de estructura pueden ser accedidas
desde aquí también..
-
Volver a la página principal de Taxonomy.
-
Seleccionar Arabidopsis thaliana.
-
Entramos en un documento con información taxonómica sobre
Arabidopsis, con acceso a información genómica (cromosomas),
una tabla que resume los enlaces a entradas en otras bases de datos del
NCBI, relacionadas con Arabidopsis, y enlaces a otras fuentes de información.
-
Pulsando en cada uno de los cromosomas se accede a páginas con mapas
cromosómicos y enlaces a los ficheros correspondientes a todos los
genes y proteínas de Arabidopsis.
Acceso a la base de datos de enfermedades genéticas
(OMIM) y navegación por LocusLink.
-
Abrir Netscape o similar y conectarse al servidor del NCBI, en la dirección:
http://www.ncbi.nlm.nih.gov/
-
Conectarse a Entrez, el interfaz gráfico del NCBI.
-
Entrar en la base de datos OMIM.
-
Introducir el termino alopecia y pulsar GO.
-
Aparecen 140 entradas (en páginas de 20), correspondientes a enfermedades
genéticas en cuya descripción se uncluye el término
alopecia.
-
Volver a la página principal de OMIM.
-
Seleccionar Search Morbid Map. Aparece un catálogo de enfermedades
genéticas.
-
Buscar alopecia universalis.
-
En la columna Location aparece información sobre la localización
cromosómica de mutaciones asociadas a la enfermedad.
-
Desde la columna Disorder, seleccionando el identificador numérico,
se accede a un fichero con información sobre la enfermedad y con
referencias bibliográficas.
-
Desde la columna OMIM, pulsando en el indicador numérico,
se accede a un documento con informacion sobre el locus o gen identificado
por la mutación, y con enlaces a otras fuentes de información.
-
Pulsando LocusLink, se accede a la presentación de la entrada correspondiente
a este gen en LocusLink.
-
Pulsando sobre el indicador numérico del Locus, se accede a su record
en LocusLink, que contiene un resumen de información sobre múltiples
aspectos del gen: localización, función, asignación
en el Gene Ontology, entradas en las bases de datos de secuencias y de
proteínas, genes homólogos, etc., así como enlaces
a las entradas en otras bases de datos:
-
PubMed
-
OMIM
-
MAP, mapa cromosómico, desde donde, por ejemplo, se puede
conseguir la secuencia nucleotídica.
-
RefSeq
-
GenBank
-
Protein, entradas de la nbase de datos de proteínas
-
Homologene, genes homologos en otros organismos.
-
UniGene, genes similares en secuencia.
-
Variation Data, SNPs.
-
GDB
-
ENSEMBL
Back