Chaque modèle est référencé dans la banque par un identifiant unique à 4 caractères, le premier étant toujours un caractère numérique, les trois suivants étant des caractères alphanumériques. Cet identifiant est appelé « code pdb ».
Plusieurs formats existent pour les fichiers de la PDB :
Le format pdb est le format original de la banque. La guide de ce format a été révisé à plusieurs reprises ; la version actuelle est la version 2.2, qui existe depuis 1996. Il est fortement conseillé de lire ce guide avant d’examiner les données brutes des fichiers pdb.
Les archives contiennent les coordonnées cartésiennes des atomes, la bibliographie, les informations structurales, les facteurs de la structure cristallographique et les données expérimentales de la RMN. A l’origine, le format pdb a été dicté par l’utilisation et la largeur de cartes perforées pour ordinateur. En conséquence, chaque ligne contient exactement 80 caractères.
Un fichier au format pdb est un fichier texte où chaque colonne possède sa signification : chaque paramètre est positionné de façon immuable. Ainsi, les 6 premières colonnes, c’est-à-dire les 6 premiers caractères pour une ligne donnée, déterminent le champ du fichier. On retrouve par exemple les champs « TITLE_ » (c'est-à-dire le titre de la macromolécule étudiée), « KEYWDS » (les mots-clé de l’entrée), « EXPDTA » qui donne des informations sur la méthode expérimentale employée, « SEQRES » (la séquence de la protéine étudiée), « ATOM__ » ou « HETATM », champs comprenant toutes les informations liées à un atome particulier. Dernier exemple, dans ces derniers champs, le nom de l’atome est décrit par les colonnes 13 à 16 (soit du treizième au seizième caractère de la ligne).
Les lignes « ATOM__ » concernent les acides aminés ou les acides nucléiques, et les lignes « HETATM » sont dédiées aux autres molécules (solvant, substrat, ion, détergent…). Il y a autant de lignes « ATOM__ » et « HETATM » que d’atomes observés par l’expérimentateur, pour une macromolécule ou un complexe donné.
La longue histoire du format pdb a abouti sur des données non uniformes. Ce format laisse également la place à de nombreuses erreurs, qui ne sont pas systématiquement éliminées lors des contrôles accompagnant le dépôt des structures. Il peut s’agir de désaccords entre la séquence et les résidus représentés, ou de problèmes liés à la nomenclature des atomes des acides aminés ou des ligands.
Limitations du format pdb. Le format en 80 colonnes des fichiers pdb est relativement restrictif. Le nombre maximum d’atomes d’un fichier pdb est de 99999, vu qu’il n’y a que 5 colonnes allouées pour les numéros des atomes. De même le nombre de résidus par chaîne est au maximum de 9999 : il n’y a que 4 colonnes autorisées pour ce chiffre. Le nombre de chaînes, lui, est limité à 62 : une seule colonne est disponible, et les valeurs possibles sont une des lettres des 26 lettres de l’alphabet, en minuscule ou en majuscule, ou un des chiffres de 0 à 9. Quant ce format a été défini, ces limitations ne semblaient pas restrictives, mais elles ont plusieurs fois été franchies lors du dépôt de structures extrêmement grandes, comme des virus, des ribosomes ou des complexes multienzymatiques.
L’intérêt croissant pour le développement de bases de données et de publications électroniques, à la fin des années 1980, a fait naître le besoin d’une représentation plus structurée, uniformisée, non limitée et de haute qualité pour les données de la PDB. En 1990, l’Union internationale de la cristallographie (International Union of Crystallography, IUCr) a étendu aux macromolécules la représentation des données utilisée pour décrire les structures cristallographiques des molécules de faible poids moléculaire. Cette représentation est appelée CIF, pour Crystallographic Information File. A partir de celle-ci, le dictionnaire mmCIF (macromolecular Crystallographic Information File) a donc été développé. La première version du dictionnaire mmCIF a été publiée en 1996.
Quand le RCSB a pris la direction de la PDB en 1998, il a adopté le format mmCIF pour le traitement et la gestion des données. En 2001, tous les fichiers pdb ont été corrigés et convertis au format mmCIF4.
Dans le format mmCIF, chaque champ de chaque section d’un fichier pdb est représenté par une description d’une caractéristique d’un objet, qui comprend d’une part le nom de la caractéristique (par exemple _struct.entry_id), et d’autre part le contenu de la description (ici le code pdb : 1cbn). On parle de paire « nom-valeur ». Il est aisé de convertir, sans perte d’informations, un fichier mmCIF au format pdb, puisque toute l’information est directement analysable. Il n’est pas possible, en revanche, de complètement automatiser la conversion d’un fichier pdb au format mmCIF, puisque plusieurs descripteurs mmCIF sont soit absents du fichier PDB, soit présent dans un champ « REMARK » qui ne peut pas toujours être analysé. Le contenu des champs « REMARK » est en effet séparé suivant différentes entrées du dictionnaire mmCIF, afin de préserver l’intégralité des informations, contenues par exemple dans la section Matériel et Méthodes (caractéristiques du cristal, méthode de raffinement…) ou dans les descriptions de la molécule biologiquement active ou des autres molécules présentes (substrat, inhibiteur…)
Le dictionnaire mmCIF comprend plus de 1700 entrées, qui ne sont bien sûres pas toutes utilisées dans un même fichier de la PDB. Tous les noms des champs sont précédés du caractère « underscore » ( _ ), afin de pouvoir les différencier des valeurs elles-mêmes. Chaque nom correspond à une entrée du dictionnaire mmCIF, où les caractéristiques de l’objet sont exactement définies.
Chaque champ d’un fichier pdb est représenté par un nom spécifique en mmCIF. Par exemple, le champ « HEADER » du fichier pdb 1cbn :
HEADER PLANT SEED PROTEIN 11-OCT-91 1CBN
devient :
_struct.entry_id '1CBN' _struct.title 'PLANT SEED PROTEIN' _struct_keywords.entry_id '1CBN' _struct_keywords.text 'plant seed protein' _database_2.database_id 'PDB' _database_2.database_code '1CBN' _database_PDB_rev.rev_num 1 _database_PDB_rev.date_original '1991-10-11'
L’appariement nom-valeur est la différence majeure par rapport au format pdb. Il présente l’avantage de fournir une référence explicite pour chaque élément des données du fichier, plutôt que de librement laisser l’interprétation au programme qui lit le fichier.
Le format pdbml est l’adaptation au format XML des données au format pdb et contient les entrées décrites dans le dictionnaire « PDB Exchange Dictionnary ». Ce dictionnaire contient les mêmes entrées que le dictionnaire mmCIF ainsi que d’autres, pour pouvoir prendre en compte toutes les données gérées et distribuées par la PDB. Ce format permet de stocker beaucoup plus d'informations sur les modèles que le format pdb.