La banque de données sur les protéines du Research Collaboratory for Structural Bioinformatics, plus communément appelée Protein Data Bank ou PDB est une collection mondiale de données sur la structure tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines, essentiellement, et acides nucléiques. Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou par spectroscopie RMN. Ces données expérimentales sont déposées dans la PDB par des biologistes et des biochimistes du monde entier et appartiennent au domaine public. Leur consultation est gratuite et peut se faire directement depuis le site web [1] de la banque. La PDB est la principale source de données de biologie structurale et permet en particulier d’accéder à des structures 3D de protéines d’intérêt pharmaceutique.
Fondée en 1971 par le Laboratoire national de Brookhaven, la Banque de données des protéines a été transférée en 1998 au Research Collaboratory for Structural Bioinformatics (RCSB), qui se compose de l'Université de Rutgers, de l'Université du Wisconsin à Madison, du National Institute of Standards and Technology (NIST) et du "San Diego Supercomputer Center".
Le financement est assuré par la National Science Foundation, le Department of Energy, la National Library of Medicine et le National Institute of General Medical Sciences. L’Institut européen de bio-informatique (European Bioinformatics Institute, EBI), au Royaume-Uni, et le Institute for Protein Research, au Japon, collectent et traitent également les fichiers de données structurales.
En 2003, la Worlwide Protein Data Bank (wwPDB) a été créée et comprend trois organisations membres qui sont des centres de dépôt, de traitement et de distribution des données de la PDB. Ces organisations sont RCSB (USA), PDBe (Protein Databank in Europe - EBI, Europe) et PDBj (Protein Data Bank Japan, Japon). La mission de la wwPDB est de maintenir à jour une archive PDB unique de données structurales macromoléculaires, accessible gratuitement et publiquement pour l’ensemble de la communauté.
Croissance de la PDB et diversification des utilisateurs
La PDB contenait à l’origine (en 1971) 7 structures. Le nombre de structures déposées a considérablement augmenté à partir des années 1980. En effet, à cette époque, les techniques cristallographiques se sont améliorées, les structures déterminées par RMN ont été ajoutées, et la communauté scientifique a changé de vue sur le partage des données.
Au début des années 1990, la majorité des journaux demandaient un code PDB et une agence de financement, le NIST, exigeait le dépôt de toutes les données structurales. La PDB est également devenu accessible par le réseau Internet, plutôt que sur supports physiques. De fait, les premiers utilisateurs de la PDB qui étaient limités à des experts impliqués dans la recherche structurale, sont devenus des déposants utilisant des techniques variées pour déterminer les structures : diffraction des rayons X, RMN, microscopie cryoélectronique et modélisation théorique. Les modèles théoriques (voir protein structure prediction) ne sont cependant plus acceptés et ont été supprimés en juillet 2002. Les usagers de la PDB sont aujourd’hui très divers, regroupant des chercheurs en biologie, chimie ou bio-informatique, des enseignants et des étudiants de tous niveaux.
De nombreuses sources de financement et de journaux scientifiques demandent à présent le dépôt des structures dans la PDB. Un influx incroyable de données a également été générée par la génomique structurale. La croissance du nombre d’entrées de la PDB est aujourd’hui exponentielle.