GenBank

GenBank és una base de dades pública que conté seqüències de nucleòtids i anotacions bibliogràfiques i biològiques de suport. Va ser creada pel Laboratori Nacional Los Álamos i és distribuïda pel Centre Nacional per la Informació de Biotecnologia (NCBI), una divisió de la Biblioteca Nacional de Medicina dels Estats Units (NLM). GenBank forma part de la Col·laboració Internacional de Bases de Dades de Seqüències de Nucleòtids (International Nucleotide Sequence Database Collaboration, INSDC) i intercanvia dades amb l'Arxiu Europeu de Nucleòtids (ENA) i el DNA DataBank del Japó (DDBJ) diàriament.[1]

Infotaula de lloc webGenBank
URLhttps://www.ncbi.nlm.nih.gov/genbank/
TipusBase de dades de seqüències de nucleòtids
Temamedicina i gen Modifica el valor a Wikidata
LlicènciaDomini públic - Govern dels Estats Units
Part deCentre Nacional per la Informació de Biotecnologia - NCBI
CreadorLaboratori Nacional Los Álamos
Llançament1979; fa 45 anys (1979)
SeuBethesda, Maryland
EstatActiu

L’objectiu de Genbank és garantir que hi hagi una col·lecció uniforme i completa d’informació de seqüències a tot el món. L’NCBI posa a disposició les dades de GenBank sense cap cost a través d’una àmplia gama de serveis de recuperació, entre ells Internet i FTP.[2]

Gràfic que mostra el creixement de la base de dades GenBank de NCBI, a escala semilogarítmica per demostrar l’augment exponencial.
Creixement de Genbank en parells de bases, des del 1982 al 2020, en escala semilogarítmica.

NCBI construeix GenBank principalment a partir d’enviaments de dades de seqüències de laboratoris individuals, a més de contribucions massives de centres de seqüenciació de gran escala. GenBank i els seus col·laboradors reben seqüències de més de 100,000 organismes diferents produïdes a laboratoris arreu del món.[1]

La base de dades va ser creada el 1979 en el Laboratori Nacional de Los Alamos (LANL), a Nou Mèxic, EEUU, per Walter Goad. GenBank ha esdevingut una base de dades important per a la recerca en camps biològics i en els darrers anys ha crescut a un índex exponencial, doblant el número de dades cada 12 mesos.[1]

La versió 240, publicada a l’octubre del 2020, conté més de 650 mil milions de parells de bases, en més de 200 milions de seqüències. GenBank és construït amb contribucions de laboratoris individuals, així com d’enviaments massius de centres de seqüenciació a gran escala.[3]

Les seqüències obtingudes de GenBank es poden utilitzar per fer estudis d'alineament de seqüències mitjançant el programa informàtic BLAST (Basic Local Alignment Search Tool).[4]

Història

Genbank i EMBL: Seqüències de nucleòtids 1986/1987 Volums I a VII.

GenBank es va crear el 1979 al Laboratori Nacional Los Alamos i es va anomenar Los Alamos Sequence Database. El projecte va ser impulsat per Walter Goad, físic nuclear del grup de Biologia i Biofísica Teòrica, i el seu equip amb l’objectiu de crear un projecte pilot per a recollir seqüències de nucleòtids que es podrien utilitzar per a l'anàlisi.[5][6]

El 1982 Los Alamos Sequence Database va prendre el nom de GenBank i es va convertir en una base de dades pública. Aquest fet coincideix amb l’adjudicament d’un contracte de dos anys per 5 milions de dòlars, per establir i operar la base de dades al LANL.[5] El finançament va ser proporcionat pels Instituts Nacionals de Salut (NIH), la Fundació Nacional de Ciències (NSF), el Departament d'Energia (DOE), i el Departament de Defensa (DOD).[7]

A més, el projecte GenBank va iniciar grups de notícies BIOSCI/Bionet per promoure comunicacions d'accés obert entre biocientífics.[7]A mitjans dels anys vuitanta, el projecte va ser gestionat juntament amb Intelligenetics, empresa de la Universitat de Stanford. Aquest va ser un dels primers projectes comunitaris de bioinformàtica a Internet, amb la finalitat d’aconseguir comunicacions lliures entre els científics.[5]Entre el 1989 i el 1992, GenBank va passar a la recentment creada NCBI, una divisió de la Biblioteca Nacional de Medicina (NLM), situada al campus dels Instituts Nacionals de Salut dels Estats Units (Bethesda, Maryland).L’any 1993 l’NCBI comença a acceptar presentacions directes a GenBank.[5]

Contribucions

Al GenBank només es poden entregar seqüències originals. Els investigadors envien les dades a GenBank o a les bases de dades col·laboradores (ENA i DDBJ). Les dades s’intercanvien diàriament entre aquestes tres bases de dades, de manera que les actualitzacions diàries dels servidors NCBI incorporen les dades de seqüència més recentment disponibles de totes les fonts.[8]

Les contribucions poden ser enviades de manera electrònica. Moltes revistes científiques requereixen que els autors amb dades de seqüència les enviïn a una base de dades de seqüències pública com a condició de publicació. Les dades de seqüència es poden enviar a través de diferents portals:[8][9]

  • BankIt. Mitjançant aquesta eina es poden enviar tant conjunts de seqüències com seqüències úniques. Aproximadament un terç de les presentacions dels autors es reben a través d'aquesta eina de presentació de dades. Amb BankIt, els autors ingressen la informació de la seva seqüència i les pertinents anotacions biològiques en un formulari que permet el remitent descriure la seqüència més detalladament sense haver d'aprendre regles de format.
  • Portal d’enviament de l’NCBI. És un sistema centralitzat on es poden enviar genomes procariotes i eucariotes. Aquest portal proporciona assistents per ajudar els casos d’enviament habituals.
  • t2blastn. Permet als remitents convertir una taula d’anotacions generades a partir d’una canalització d’anotacions en un registre adequat per enviar-lo a GenBank. Aquests fitxers per a enviaments arriben a GenBank a través del portal de presentació.
  • Genome Workbench. Ofereix un gran conjunt d'eines integrades per estudiar i analitzar dades genètiques, explorar-les i comparar-les amb dades de diverses fonts.

Organització de la base de dades

Divisions

GenBank assigna cada registre de seqüència a una divisió segons la taxonomia d’origen o l'estratègia de seqüenciació utilitzada per obtenir les dades. Hi ha dotze divisions taxonòmiques (BCT, ENV, INV, MAM, PHG, PLN, PRI, ROD, SYN, UNA, VRL, VRT) i cinc divisions d’alt rendiment (EST, GSS, HTC, HTG, STS).[1][10]

A part, trobem altres tipus de divisions classificades individualment: [10]

  • La divisió PAT (Patent Sequences) conté registres subministrats per les oficines de patents.
  • La divisió TSA (Transcriptome Shotgun Assembly) conté seqüències obtingudes a partir de la seqüenciació “per perdigonada” (shotgun) de transcriptomes.
  • La divisió WGS (Whole Genome Shotgun data) conté seqüències obtingudes a partir de la seqüenciació “per perdigonada” (shotgun) del genoma complet.
  • La divisió TLS (Targeted Locus Studies) conté conjunts de seqüències de rRNA 16S o elements ultraconservats (UCEs).

La mida i el creixement d’aquestes divisions (en parells de bases) i de GenBank en general es mostren a la següent taula.

Creixement de les divisions GenBank (parells de bases de nucleòtids)[1]
DivisionsDescripcióVersió 233 (agost 2019)Increment anual (%)a
SYNSintètiques7 701 613 755545.96%
VRTAltres vertebrats46 205 911 214342.51%
PLNPlantes59 248 524 178157.29%
UNASense anotacions548 04184.71%
WGSDades de genomes complets5 585 922 333 16074.30%
TLSEstudis de locus diana10 531 800 82973.28%
INVInvertebrats12 578 394 10446.31%
PHGBacteriòfags637 015 04437.58%
BCTBacteris72 495 994 96635.40%
TSADades de seqüenciació de transcriptomes294 727 165 17930.69%
VRLVirus4 782 719 53517.40%
PATSeqüències de patents24 715 727 03012.24%
ENVMostres mediambientals6 139 560 3125.51%
PRIPrimats8 491 950 6122.78%
HTCcDNA d'alt rendiment728 868 4231.03%
MAMAltres mamífers6 258 926 0800.71%
ESTMarcadors de seqüència expressada43 280 039 5630.68%
RODRosegadors4 554 525 9050.43%
HTGGenòmica d'alt rendiment27 774 725 9220.01%
STSLlocs marcats per una seqüència640 918 5720.01%
GSSSeqüències d'estudi del genoma26 339 260 6410.00%
TOTALTotes les seqüències de GenBank6 233 224 722 23669.52%

aMesura relativa a la versió 227 (agost 2018).

Respecte els notables augments de l’últim any, a la taula s’inclouen la presentació de les 57 construccions cromosòmiques sintètiques i la presentació d’unes 60 seqüències eucariotes a escala cromosòmica de la divisió VRT.[1]

Taxonomia basada en seqüències

Les seqüències de la base de dades es classifiquen i es poden consultar mitjançant una taxonomia basada en seqüències desenvolupada pel NCBI. GenBank compta amb 420.000 espècies descrites. Es mostren el nombre de parells de bases de les principals espècies (sense incloure les de les divisions WGS i TSA) a la següent taula:[10]

Principals organismes de GenBank[10]
OrganismeParells de basesb
Homo sapiens19 752 523 722
Mus musculus10 246 475 076
Rattus norvegicus6 530 046 440
Bos taurus5 431 692 037
Zea mays5 245 788 885
Sus scrofa5 075 446 882
Hordeum vulgare3 237 283 130
Escherichia coli3 220 757 391
Danio rerio3 191 415 637
Oryzias latipes2 836 938 628
Arachis hypogaea2 682 391 941
Triticum aestivum2 636 490 116
Ovis canadensis2 590 574 434
Solanum lycopersicum2 572 291 998
Bos mutus2 290 216 303
Cyprinus carpio1 836 731 087
Oryza sativa1 727 115 789
Apteryx australis1 595 510 956
Bordetella pertussis1 456 386 736
Strongylocentrotus purpuratus1 436 247 256

bVersió 227 (agost 2018). Exclou seqüències de cloroplasts, mitocondris, metagenomes, organismes no cultivats, WGS, TSA i la divisió CON.

Registres

La informació de cada seqüència està continguda en un registre de GenBank, accessible mitjançant el cercador de la pàgina web de GenBank. Cada registre per a cada seqüència conté, entre d’altres, la seqüència, el locus, el número d’accés, la versió, la descripció, els comentaris, els autors i l’organisme i taxonomia.[11] Genbank ofereix un exemple de registre a la seva pàgina web.

Identificador de seqüència

Un cop enviada la seqüència, a cada registre GenBank se li assigna un identificador únic anomenat número d’accés. Aquest número és compartit amb les tres bases de dades col·laboradores (GenBank, DDBJ, ENA). El número d’accés es mantindrà igual encara que hi hagi un canvi en la seqüència o l’anotació. Quan hi ha canvis en les dades de la seqüència s’identifica com una nova versió d’aquesta, afegint el número de la versió darrere del número d’accés.[10]Existeix un informe de l’historial de revisions que resumeix les diverses actualitzacions d’un registre determinat, incloent tots els canvis, també els que no són de seqüència.[7]

Els identificadors de seqüències WGS, TSA i TLS funcionen diferent. Aquestes dades són enviades com a part de grans grups de projectes, i cada projecte compta amb un registre que agrupa enllaços a les seqüències individuals. Cada seqüència individual dins un projecte tindrà un número d’accés que comença amb l’identificador del projecte (número d’accés principal).[7]

El número d’accés d’una seqüència amb la versió corresponent, a més de ser l’identificador principal d’un registre de seqüències GenBank, també és la forma més eficient i fiable de citar un registre de seqüències en publicacions. La cerca amb un número d’accés a GenBank (sense el sufix de versió) recuperarà la versió més recent d’un registre, que pot haver canviat des de la publicació del document.[7]

Procés de verificació de genomes i publicació

De mitjana, el personal de GenBank triga dos dies a assignar un número d’accés a un enviament de seqüències. No obstant, aquest temps pot variar en funció de la complexitat de l'enviament, els genomes complets solen requerir més temps. El personal de GenBank assigna aproximadament 3.500 accessos al dia. Els enviaments directes reben una revisió de garantia de qualitat. En la revisió es fa èmfasi en comprovacions de la contaminació de vectors genètics, la traducció adequada de les regions de codificació, la taxonomia correcta i les citacions bibliogràfiques correctes. L’autor rep un esborrany del registre GenBank perquè el revisi abans que entri a la base de dades. Els autors poden sol·licitar que les seqüències es mantinguin confidencials fins al moment de la publicació. Les contribucions són llavors publicades a la base de dades pública, on les entrades estan disponibles via Entrez i es poden descarregar per FTP.[1]

Seqüències no verificades

En el cas de que el personal de Genbank no pugui confirmar la precisió de les dades o anotacions de la seqüència presentada durant el procés de revisió estàndard, aquesta seqüència es podrà etiquetar com a no verificada.[1] Fins que l'emissor no pugui resoldre aquests problemes, al registre apareixerà la seqüència com a no verificada i s’inclourà una breu descripció dels problemes. A més, les seqüències no verificades no s’inclouran a les bases de dades de BLAST.[10]

Informació addicional

Referències

Enllaços externs

🔥 Top keywords: PortadaEspecial:CercaCarles Porta i GasetTor (Alins)À Punt FMTor (sèrie de televisió)Llista de municipis de CatalunyaEmilio Delgado OrgazEspecial:Canvis recentsGuinguetaXavlegbmaofffassssitimiwoamndutroabcwapwaeiippohfffXFacultat universitàriaManuel de Pedrolo i MolinaViquipèdia:ContacteBea Segura i FolchAlbert Jané i RieraNit de Sant JoanMort, qui t'ha mort?David Madí i CendrósCarles Puigdemont i CasamajóVila-sanaEwa PajorNicolás SartoriusAlinsAntoni Comín i OliveresGoogle ChromeClara Ponsatí i ObiolsPara-xocsDotze homes sense pietatValtònycLluís Puig i GordiAamer AnwarÈdafonLaura Borràs i CastanyerKylian MbappéPablo HasélFesta del sacrificiJosep Costa i RossellóDionís Guiteras i Rubio