O trecere īn revistă a bazelor de date publice

66

Bazele de date principale

            Īn prezent există trei principale baze de date publice:

  1. EMBL: la European Molecular Biology Laboratory, Cambridge, UK. 
  2. GenBank: la NCBI (National Center for Biotechnology Information), o secţiune a NLM de la campusul NIH, USA. 
  3. DDBJ: Banca de date a Japoniei (DNA Databank of Japan).

            Aceste trei baze de date au colaborat īncă din 1982. Fiecare bază de date colectează şi procesează noi secvenţe şi informaţii biologice relevante pentru oamenii de ştiinţă din regiunea lor, adică EMBL colectează din Europa, GenBank din USA.

            Aceste baze de date comunică īntre ele şi īşi aduc la zi informaţiile (referitoare la secvenţele nou introduse) la fiecare 24 de ore. Aceasta face ca ele să aibă exact aceeaşi informaţie, ce exceptia oricărei secvenţe introduse īn ultimele 24 de ore. Aceasta este o observaţie importantă pentru alegerea bazei de date.

            Īn cele ce urmează ne focalizăm asupra bazelor de EMBL şi GenBank. 

            Īn 1998, existau mai mult de 1200 milioane de perechi de baze din peste 1.6 milioane de secvenţe īn baza de date EMBL database, şi perioada de dublare a fost estimată a fi de ordinul unui an.  Pentru a organiza o astfel de imensă cantitate de informaţie, baza de date a fost īmparţită īn numeroase secţiuni (17 īn 1998). Fiecare intrare (secvenţă şi alte relevante informaţii) este distribuită unei singure secţiuni. Secţiunea este indicată printr-un cod de trei litere, specificată atunci cānd este furnizată informaţia despre o secvenţă. Codurile sunt date aici.

Codificare intrărilor īn baza de date

            Fiecare intrare īn baza de date trebuie să aibă un unic identificator care este un şir de caractere alfanumerice pe care īl are o singură īnregistrare. Identificatorul poate fi citat īn literatura ştiinţifică şi nu se va schimba niciodată. Cum acest identificator nu se chimbă niciodată, un alt cod este folosit pentru a identifica diferitele versiuni ale aceleiaşi īnregistrări: noi informaţii pot fi adăugate, sau secvenţa poate fi corectată, spre exemplu. Trebuie de aceea īntodeauna avut grijă să fie citate atāt unicul identificator cāt şi numărul versiunii, atunci cānd se face referire la o īnregistrare īntr-a bază de date moleculară. Codurile de identificare ale īnregistrărilor pentru EMBL şi GenBank sunt date īn continuare.

EMBL

Identificator (ID)

            Acest nume este unicul identificator. El este alocat atunci cānd o secvenţă trimisă către baza de date EMBL este acceptată pentru publicare. El nu se va schimba niciodată. El este citat īntr-un raport al EMBL şi de asemenea īn linia de descriere a raportului FASTA.

Exemplu:

            Īntr-un raport EMBL   - HS498971

Numărul de acces (AC)- Accession Number

            Acesta este identificatorul unic alocat de către GenBank. Vezi descrierea lui īn continuare.

Exemplu:

            Īntr-un raport EMBL   - AC U49897

Identificator de acid nucleic (NI) -Nucleic Acid Identifier

            Acest cod este atribuit fiecarei versiuni ale unei īnregistrări. Īn timp ce identificatorul ID (EMBL) şi numărul de acces AC (GenBank) nu se schimbă niciodată, un nou număr NI va fi alocat de fiecare dată cānd secvenţă este modificată, oricāt deminoră ar fi schimbarea.

Examplu:

            Īntr-un raport EMBL  - NI g2462721

GenBank

Numărul de acces (AC) - Accession Number

            Acest număr este alocat atunci cānd īnregistrarea este introdusă prima dată īn baza de date, şi nu se va schimba niciodată. El constă dintr-o literă urmată de cinci cifre (X12345), sau (mai recent) două litere urmate de 6 cifre (XY123456). Acest număr este deasemenea raportat īn rapoartele EMBL.

Exemple:

            Īntr-un raport GenBank - ACCESSION: U49897

            Īntr-un raport FASTA   - gb|U49897

 

Numărul (GI, NID) - GI Number

            Acest număr este referit ca numărul NI la EMBL, ele sunt identice. Numărul GI identifică versiunile fiecărei īnregistrări şi, pānă de curānd, a fost numai citat īn linia NID al unui raport al GenBank. Eforturile de colaborare au condus la o modificare: numărul GI number este acum citat īntr-o nouă linie numită VERSION. Cu toată redundanţa apărută astfel, numărul NID va mai fi citat cātăva vreme.

Exemple:

            Īntr-un raport GenBank - NID: g2462721

                        [NID: Acum redundant.]

            Īntr-un raport GenBank - VERSION: U49897.1 GI: 2462721

            Īntr-un raport FASTA   - gi|2462721

Acces.Versiune - Accession.version

            Acesta este un nou cāmp căruia trebuie să-i acordăm atenţie. Primul cod este numărul de acces care nu se schimbă niciodată, urmat de un punct (.) şi de numărul versiunii. Codul versiunii īncepe īncepe cu 1 (unu), şi creşte cu 1 (unu) de fiecare dată cānd secvenţa este modificată. Codul al doilea este numărul GI (vezi exemplul anterior).

Exemplu:

            Īntr-un raport GenBank - VERSION: U49897.1 GI: 2462721

            Alte informaţii sunt stocate īmpreună cu informaţia referitoare la secvenţă. Fiecare “bucat㔠de informaţie este scrisă pe linia sa, cu un cod definind linia. De exemplu, DE, description; OS, organism species; AC, accession number etc. Semnificaţia celor mai multe rezultă din context. Informaţia biologic relevantă este descrisă īn tabelul FT - feature table.

Alte baze de date

            Scopurile cercetări şi alţi factori au influenţat conţinutul bazelor de date moleculare. Cāteva baze de date s-au specializat şi o listă a lor este dată īn anexe. Dacă sunteţi interesaţi īn imunogenetică, de exemplu, veţi găsi că IMGT (International Immunogenetics Database) este mult mai bine adnotată decāt bazele de date generale EMBL şi GenBank.

Redundanţa bazelor de date

            O bază de date redundantă este o bază de date īn care există mai multe copii pentru fiecare secvenţă. Īn cazul bazelor de date generale, nu s-a făcut nici un efort pentru reducerea redundantei inevitabile (dublarea secvenţelor). O astfel de bază de date este mult mai cuprinzătoare şi este mult mai probabil să conţină secvenţele nou descoperite. Preţul plătit este că rezultatele biologic relevante sunt mai dificil de găsit printre atātea alte informaţii (irelevante pentru ceea ce se urmăreşte la un moment dat).

            Bazele de date neredundante sunt mai puţin complete, dar reducerea redundanţei uşurează găsirea informaţiei.

© Cornel Mironel Niculae, 2003-2004

13-Nov-2009