Formatul unei înregistrări în fişierele PDB. Record Format

61

    Fiecare fişier PDB este alcătuit din linii terminate cu un terminator de linie (end-of-line indicator). Fiecare linie (înregistrare – record) în fişierele PDB este alcătuită din cel mult 80 coloane (corespunzătoare câte unui caracter, de regulă ASCII). Ultimul caracter al fiecărei linii trebuie să fie indicatorul end-of-line (EOL. Cel mai adesea codul ASCII corespunzător comenzii LF - LineFeed = 0AH în hexazecimal)

    Fiecare linie (înregistrare) în fişierul PDB este autoidentificabilă. Primele şase coloane ale fiecărei linii conţine numele înregistrării, aliniată stânga şi umplută cu spaţii până la terminarea câmpului. Numele înregistrării trebuie să fie unul dintre numele de înregistrare recunoscute (HEADER, END, ).

Fişierul PDB poate fi privit ca o colecţie de astfel de înregistrări. Fiecare înregistrare poate apărea o dată sau de mai multe ori în cadrul fişierului.

    Fiecare linie este mai departe împărţită în câmpuri.

Tipuri de înregistrări

    Înregistrările pot apărea pe o singură sau pe mai multe linii în fişierele PDB.

Înregistrările ce apar pe o singură linie

   Aceste înregistrări sunt descrise în continuare.

Tipul înregistrării

Descriere

HEADER

Prima linie a unui fişier PDB. Conţine: codul PDB ID, clasificarea şi data introducerii în baza de date.

END

Ultima linie din fişierul PDB.

ORIGXn

Transformare din coordonate ortogonale în coordonatele sub care au fost trimise pentru înregistrare (n = 1, 2, or 3).

SCALEn

Transformare din coordonate ortogonale în coordonate cristalografice fracţionale (n = 1, 2, or 3).

MASTER

Înregistrare de control pentru inventariere.

CRIST1

Parametrii celulei unitare, grupul spaţial şi Z.

     Orice apariţie de două sau mai multe ori a unei astfel de înregistrări este considerată eroare.

Înregistrări ce apar pe maxim două linii

   Există înregistrări care conceptual există o singură dată pentru un fişier PDB, dar conţinutul informaţional depăşeşte numărul de coloane disponibile. Aceste inregistrări sunt de aceea continuate pe linia imediat următoare. În ordine alfabetică acestea sunt:

Tipul înregistrării

Descriere

AUTHOR

Lista autorilor

CAVEAT

Indicator de erori deosebite. Linile de acest tip trebuie utilizate cu foarte mare grijă.

COMPND

Descrierea conţinutului macromolecular al acestui fişier.

EXPDTA

Tehnica experimentală utilizată pentru determinarea structurii.

KEYWDS

Listă de cuvinte cheie ce descriu macromolecula.

OBSLTE

Arată că această înregistrare (fişier) nu se mai distribuie şi listează codurile PDB ID care-l înlocuiesc.

SOURCE

 Sursa biologică a macromoleculei descrisă în acest fişier (intrare).

SPRSDE

Lista intrărilor (fişierelor ) şterse din distribuţie şi înlocuite de prezenta înregistrare.

TITLE

Descrierea experimentului sau analizei macromoleculei reprezentată de această înregistrare.

     Linia a doua şi următoarele conţin un câmp de continuare care este reprezentat de un întreg aliniat dreapta. Acest număr creşte cu o unitate pentru fiecare linie adiţională din fişier şi este urmat de un caracter spaţiu (blank character = 20H în hexazecimal).

Înregistrările multiple

   Cele mai multe dintre înregistrări apar de mai multe ori, adesea in grupuri unde informaţia nu este logic concatenată ci este prezentă sub forma unei liste. Multe dintre aceste înregistrări prezintă o formă de serializare specifică care poate fi utilizată nu numai pentru a ordona înregistrările ci şi la conectarea cu alte tipuri de înregistrări. Ele sunt în ordine alfabetică următoarele:

Tipul înregistrării

Descriere

ANISOU

Factorii de temperatură anizotropici.

ATOM

Înregistrări ale coordonatelor atomice pentru grupul standard.

CISPEP

Identificarea reziduurilor peptidice în conformaţie cis.

CONECT

Înregistrări privind interconectarea (legăturile chimice).

DBREF

Referinţă către intrarea (numele fişierului) referitoare la secvenţa (secvenţele) moleculară din baza de date.

HELIX

Identificarea substructurilor elicoidale.

HET

Identificarea grupurilor ne standard (heterogene).

HETSYN

Nume sinonime pentru compuşi heterogeni.

HYDBND

Identificarea legăturilor de hidrogen.

LINK

Identificarea legăturilor interreziduale.

MODRES

Identificarea modificărilor reziduurilor standard.

MTRIXn

Transformări ce exprimă simetriile necristalografice (n = 1, 2, or 3). Pot fi mai multe seturi de astfel de înregistrări.

REVDAT

Date de revizie şi informaţii de aceeaşi natură.

SEQADV

Identificarea conflictelor dintre PDB-uri şi baza de date de secvenţe referită.

SEQRES

Primary sequence of backbone residues.

SHEET

Identificarea substructurilor de foi.

SIGATM

Abaterile standard ale parametrilor atomici.

SIGUIJ

Abaterile standard ale factorilor anizotropici de temperatură.

SITE

Identificarea grupurilor ce conţin locaţii importante.

SLTBRG

Identificarea punţilor de sare (salt bridges).

SSBOND

Identificarea legăturilor bisulfide (disulfide bonds).

TURN

Identificarea ciclurilor spirale turns.

TVECT

Vectorul de translaţie pentru structurile infinite conectate covalent.

 

Înregistrările cu continuări multiple

    Există înregistrări pentru care conceptul există de mai multe ori într-un fişier PDB, dar conţinutul informaţional poate depăşi numărul de coloane disponibil. Aceste înregistrări sunt de aceea continuate pe liniile următoare. În ordine alfabetică ele sunt:

Tipul înregistrării

Descriere

FORMUL

Formula chimică a grupurilor ne standard.

HETATM

Coordonatele atomice pentru grupuri heterogene.

HETNAM

Numele compuşilor heterogeni.

    Linia a doua şi următoarele conţin un câmp de continuare care este un întreg aliniat dreapta. Acest număr creşte cu câte o unitate pentru fiecare linie adiţională a înregistrării şi este urmat de un caracter spaţiu.

Înregistrări referitoare la gruparea înregistrărilor

   Există trei tipuri de înregistrări folosite pentru a grupa alte înregistrări. În ordine alfabetică ele sunt:

 

Tipul înregistrării

Descriere

ENDMDL

Înregistrare de sfârşit de model pentru structuri multiple într-o intrare monocoordonată.

MODEL

Specificarea numărului de model pentru structuri multiple într-o intrare monocoordonată.

TER

Terminator de lanţ.

 

    Înregistrările MODEL/ENDMDL înconjoară grupuri de înregistrări de tip: ATOM, HETATM, SIGATM, ANISOU, SIGUIJ, şi TER. Înregistrarea de tip TER. indică sfârşitul unui lanţ.

Alte înregistrări

    Tipurile de înregistrări rămase au o structură interioară detaliată. În ordine alfabetică ele sunt:

 

Tipul înregistrării

Descriere

JRNL

Citări din literatură care definesc setul de coordonate.

REMARK

Note generale, unele sunt structurate, altele nu.


© Cornel Mironel Niculae, 2003-

12-Jan-2012