GenBank

GenBank
URL	https://www.ncbi.nlm.nih.gov/genbank/
Tipus	Base de dades de seqüències de nucleòtids
Tema	medicina i gen
Llicència	Domini públic - Govern dels Estats Units
Part de	Centre Nacional per la Informació de Biotecnologia - NCBI
Creador	Laboratori Nacional Los Álamos
Llançament	1979; fa 45 anys
Seu	Bethesda, Maryland
Estat	Actiu

GenBank és una base de dades pública que conté seqüències de nucleòtids i anotacions bibliogràfiques i biològiques de suport. Va ser creada pel Laboratori Nacional Los Álamos i és distribuïda pel Centre Nacional per la Informació de Biotecnologia (NCBI), una divisió de la Biblioteca Nacional de Medicina dels Estats Units (NLM). GenBank forma part de la Col·laboració Internacional de Bases de Dades de Seqüències de Nucleòtids (International Nucleotide Sequence Database Collaboration, INSDC) i intercanvia dades amb l'Arxiu Europeu de Nucleòtids (ENA) i el DNA DataBank del Japó (DDBJ) diàriament.^[1]

L’objectiu de Genbank és garantir que hi hagi una col·lecció uniforme i completa d’informació de seqüències a tot el món. L’NCBI posa a disposició les dades de GenBank sense cap cost a través d’una àmplia gama de serveis de recuperació, entre ells Internet i FTP.^[2]

NCBI construeix GenBank principalment a partir d’enviaments de dades de seqüències de laboratoris individuals, a més de contribucions massives de centres de seqüenciació de gran escala. GenBank i els seus col·laboradors reben seqüències de més de 100,000 organismes diferents produïdes a laboratoris arreu del món.^[1]

La base de dades va ser creada el 1979 en el Laboratori Nacional de Los Alamos (LANL), a Nou Mèxic, EEUU, per Walter Goad. GenBank ha esdevingut una base de dades important per a la recerca en camps biològics i en els darrers anys ha crescut a un índex exponencial, doblant el número de dades cada 12 mesos.^[1]

La versió 240, publicada a l’octubre del 2020, conté més de 650 mil milions de parells de bases, en més de 200 milions de seqüències. GenBank és construït amb contribucions de laboratoris individuals, així com d’enviaments massius de centres de seqüenciació a gran escala.^[3]

Les seqüències obtingudes de GenBank es poden utilitzar per fer estudis d'alineament de seqüències mitjançant el programa informàtic BLAST (Basic Local Alignment Search Tool).^[4]

Història

GenBank es va crear el 1979 al Laboratori Nacional Los Alamos i es va anomenar Los Alamos Sequence Database. El projecte va ser impulsat per Walter Goad, físic nuclear del grup de Biologia i Biofísica Teòrica, i el seu equip amb l’objectiu de crear un projecte pilot per a recollir seqüències de nucleòtids que es podrien utilitzar per a l'anàlisi.^[5]^[6]

El 1982 Los Alamos Sequence Database va prendre el nom de GenBank i es va convertir en una base de dades pública. Aquest fet coincideix amb l’adjudicament d’un contracte de dos anys per 5 milions de dòlars, per establir i operar la base de dades al LANL.^[5] El finançament va ser proporcionat pels Instituts Nacionals de Salut (NIH), la Fundació Nacional de Ciències (NSF), el Departament d'Energia (DOE), i el Departament de Defensa (DOD).^[7]

A més, el projecte GenBank va iniciar grups de notícies BIOSCI/Bionet per promoure comunicacions d'accés obert entre biocientífics.^[7]A mitjans dels anys vuitanta, el projecte va ser gestionat juntament amb Intelligenetics, empresa de la Universitat de Stanford. Aquest va ser un dels primers projectes comunitaris de bioinformàtica a Internet, amb la finalitat d’aconseguir comunicacions lliures entre els científics.^[5]Entre el 1989 i el 1992, GenBank va passar a la recentment creada NCBI, una divisió de la Biblioteca Nacional de Medicina (NLM), situada al campus dels Instituts Nacionals de Salut dels Estats Units (Bethesda, Maryland).L’any 1993 l’NCBI comença a acceptar presentacions directes a GenBank.^[5]

Contribucions

Al GenBank només es poden entregar seqüències originals. Els investigadors envien les dades a GenBank o a les bases de dades col·laboradores (ENA i DDBJ). Les dades s’intercanvien diàriament entre aquestes tres bases de dades, de manera que les actualitzacions diàries dels servidors NCBI incorporen les dades de seqüència més recentment disponibles de totes les fonts.^[8]

Les contribucions poden ser enviades de manera electrònica. Moltes revistes científiques requereixen que els autors amb dades de seqüència les enviïn a una base de dades de seqüències pública com a condició de publicació. Les dades de seqüència es poden enviar a través de diferents portals:^[8]^[9]

BankIt. Mitjançant aquesta eina es poden enviar tant conjunts de seqüències com seqüències úniques. Aproximadament un terç de les presentacions dels autors es reben a través d'aquesta eina de presentació de dades. Amb BankIt, els autors ingressen la informació de la seva seqüència i les pertinents anotacions biològiques en un formulari que permet el remitent descriure la seqüència més detalladament sense haver d'aprendre regles de format.
Portal d’enviament de l’NCBI. És un sistema centralitzat on es poden enviar genomes procariotes i eucariotes. Aquest portal proporciona assistents per ajudar els casos d’enviament habituals.
t2blastn. Permet als remitents convertir una taula d’anotacions generades a partir d’una canalització d’anotacions en un registre adequat per enviar-lo a GenBank. Aquests fitxers per a enviaments arriben a GenBank a través del portal de presentació.
Genome Workbench. Ofereix un gran conjunt d'eines integrades per estudiar i analitzar dades genètiques, explorar-les i comparar-les amb dades de diverses fonts.

Organització de la base de dades

Divisions

GenBank assigna cada registre de seqüència a una divisió segons la taxonomia d’origen o l'estratègia de seqüenciació utilitzada per obtenir les dades. Hi ha dotze divisions taxonòmiques (BCT, ENV, INV, MAM, PHG, PLN, PRI, ROD, SYN, UNA, VRL, VRT) i cinc divisions d’alt rendiment (EST, GSS, HTC, HTG, STS).^[1]^[10]

A part, trobem altres tipus de divisions classificades individualment: ^[10]

La divisió PAT (Patent Sequences) conté registres subministrats per les oficines de patents.
La divisió TSA (Transcriptome Shotgun Assembly) conté seqüències obtingudes a partir de la seqüenciació “per perdigonada” (shotgun) de transcriptomes.
La divisió WGS (Whole Genome Shotgun data) conté seqüències obtingudes a partir de la seqüenciació “per perdigonada” (shotgun) del genoma complet.
La divisió TLS (Targeted Locus Studies) conté conjunts de seqüències de rRNA 16S o elements ultraconservats (UCEs).

La mida i el creixement d’aquestes divisions (en parells de bases) i de GenBank en general es mostren a la següent taula.

Creixement de les divisions GenBank (parells de bases de nucleòtids)^[1]
Divisions	Descripció	Versió 233 (agost 2019)	Increment anual (%)^a
SYN	Sintètiques	7 701 613 755	545.96%
VRT	Altres vertebrats	46 205 911 214	342.51%
PLN	Plantes	59 248 524 178	157.29%
UNA	Sense anotacions	548 041	84.71%
WGS	Dades de genomes complets	5 585 922 333 160	74.30%
TLS	Estudis de locus diana	10 531 800 829	73.28%
INV	Invertebrats	12 578 394 104	46.31%
PHG	Bacteriòfags	637 015 044	37.58%
BCT	Bacteris	72 495 994 966	35.40%
TSA	Dades de seqüenciació de transcriptomes	294 727 165 179	30.69%
VRL	Virus	4 782 719 535	17.40%
PAT	Seqüències de patents	24 715 727 030	12.24%
ENV	Mostres mediambientals	6 139 560 312	5.51%
PRI	Primats	8 491 950 612	2.78%
HTC	cDNA d'alt rendiment	728 868 423	1.03%
MAM	Altres mamífers	6 258 926 080	0.71%
EST	Marcadors de seqüència expressada	43 280 039 563	0.68%
ROD	Rosegadors	4 554 525 905	0.43%
HTG	Genòmica d'alt rendiment	27 774 725 922	0.01%
STS	Llocs marcats per una seqüència	640 918 572	0.01%
GSS	Seqüències d'estudi del genoma	26 339 260 641	0.00%
TOTAL	Totes les seqüències de GenBank	6 233 224 722 236	69.52%

^aMesura relativa a la versió 227 (agost 2018).

Respecte els notables augments de l’últim any, a la taula s’inclouen la presentació de les 57 construccions cromosòmiques sintètiques i la presentació d’unes 60 seqüències eucariotes a escala cromosòmica de la divisió VRT.^[1]

Taxonomia basada en seqüències

Les seqüències de la base de dades es classifiquen i es poden consultar mitjançant una taxonomia basada en seqüències desenvolupada pel NCBI. GenBank compta amb 420.000 espècies descrites. Es mostren el nombre de parells de bases de les principals espècies (sense incloure les de les divisions WGS i TSA) a la següent taula:^[10]

Principals organismes de GenBank^[10]
Organisme	Parells de bases^b
Homo sapiens	19 752 523 722
Mus musculus	10 246 475 076
Rattus norvegicus	6 530 046 440
Bos taurus	5 431 692 037
Zea mays	5 245 788 885
Sus scrofa	5 075 446 882
Hordeum vulgare	3 237 283 130
Escherichia coli	3 220 757 391
Danio rerio	3 191 415 637
Oryzias latipes	2 836 938 628
Arachis hypogaea	2 682 391 941
Triticum aestivum	2 636 490 116
Ovis canadensis	2 590 574 434
Solanum lycopersicum	2 572 291 998
Bos mutus	2 290 216 303
Cyprinus carpio	1 836 731 087
Oryza sativa	1 727 115 789
Apteryx australis	1 595 510 956
Bordetella pertussis	1 456 386 736
Strongylocentrotus purpuratus	1 436 247 256

^bVersió 227 (agost 2018). Exclou seqüències de cloroplasts, mitocondris, metagenomes, organismes no cultivats, WGS, TSA i la divisió CON.

Registres

La informació de cada seqüència està continguda en un registre de GenBank, accessible mitjançant el cercador de la pàgina web de GenBank. Cada registre per a cada seqüència conté, entre d’altres, la seqüència, el locus, el número d’accés, la versió, la descripció, els comentaris, els autors i l’organisme i taxonomia.^[11] Genbank ofereix un exemple de registre a la seva pàgina web.

Identificador de seqüència

Un cop enviada la seqüència, a cada registre GenBank se li assigna un identificador únic anomenat número d’accés. Aquest número és compartit amb les tres bases de dades col·laboradores (GenBank, DDBJ, ENA). El número d’accés es mantindrà igual encara que hi hagi un canvi en la seqüència o l’anotació. Quan hi ha canvis en les dades de la seqüència s’identifica com una nova versió d’aquesta, afegint el número de la versió darrere del número d’accés.^[10]Existeix un informe de l’historial de revisions que resumeix les diverses actualitzacions d’un registre determinat, incloent tots els canvis, també els que no són de seqüència.^[7]

Els identificadors de seqüències WGS, TSA i TLS funcionen diferent. Aquestes dades són enviades com a part de grans grups de projectes, i cada projecte compta amb un registre que agrupa enllaços a les seqüències individuals. Cada seqüència individual dins un projecte tindrà un número d’accés que comença amb l’identificador del projecte (número d’accés principal).^[7]

El número d’accés d’una seqüència amb la versió corresponent, a més de ser l’identificador principal d’un registre de seqüències GenBank, també és la forma més eficient i fiable de citar un registre de seqüències en publicacions. La cerca amb un número d’accés a GenBank (sense el sufix de versió) recuperarà la versió més recent d’un registre, que pot haver canviat des de la publicació del document.^[7]

Procés de verificació de genomes i publicació

De mitjana, el personal de GenBank triga dos dies a assignar un número d’accés a un enviament de seqüències. No obstant, aquest temps pot variar en funció de la complexitat de l'enviament, els genomes complets solen requerir més temps. El personal de GenBank assigna aproximadament 3.500 accessos al dia. Els enviaments directes reben una revisió de garantia de qualitat. En la revisió es fa èmfasi en comprovacions de la contaminació de vectors genètics, la traducció adequada de les regions de codificació, la taxonomia correcta i les citacions bibliogràfiques correctes. L’autor rep un esborrany del registre GenBank perquè el revisi abans que entri a la base de dades. Els autors poden sol·licitar que les seqüències es mantinguin confidencials fins al moment de la publicació. Les contribucions són llavors publicades a la base de dades pública, on les entrades estan disponibles via Entrez i es poden descarregar per FTP.^[1]

Seqüències no verificades

En el cas de que el personal de Genbank no pugui confirmar la precisió de les dades o anotacions de la seqüència presentada durant el procés de revisió estàndard, aquesta seqüència es podrà etiquetar com a no verificada.^[1] Fins que l'emissor no pugui resoldre aquests problemes, al registre apareixerà la seqüència com a no verificada i s’inclourà una breu descripció dels problemes. A més, les seqüències no verificades no s’inclouran a les bases de dades de BLAST.^[10]

Informació addicional

INSDC
BLAST
ENA
DDBJ
Whole Genome Sequencing
BankIt
Ensembl
UniProt
RefSeq — base de dades de seqüències de la referència

Referències

Enllaços externs

GenBank - Lloc web oficial

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]