Base de données chimiques - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Représentation - Descripteurs - Recherche - Systèmes d'enregistrement - Similarité - Outils

Introduction

Une base de données chimiques est une base de données (éventuellement bibliographique) spécifiquement dédiée à l'information chimique. La plupart des bases de données chimiques stockent des informations sur des molécules stables. Les structures chimiques sont traditionnellement représentées dans une représentation de Lewis, qui utilise des lignes pour les liaisons chimiques (paires électroniques) entre atomes, et portées sur papier (formules structurales bidimensionnelles). Bien qu'elles constituent des représentations visuelles adaptées pour le chimiste, elles ne sont pas utilisables pour un usage informatique et plus particulièrement pour la recherche et le stockage.
Les grandes bases de données chimiques devraient être capables d'assurer le stockage et la recherche d'informations sur des millions de molécules (ou autres objets chimiques) sur des teraoctets de mémoire physique.

Représentation

Il existe deux techniques principales pour représenter les structures chimiques dans les bases numériques :

tables de connections / matrices d'adjacences / listes avec des informations supplémentaires sur la liaison chimique (arêtes) et données atomiques (nœuds) comme :

MDL Molfile, PDB, CML
notation linéaire basée sur un parcours en largeur ou un parcours en profondeur :

SMILES/SMARTS, SLN, WLN, InChI

Ces approches ont été raffinées afin de permettre la représentation de différences stéréochimiques, de charges ainsi que des types spéciaux de liaisons comme celles des composés organométalliques. L'avantage principale d'une représentation informatique est la possibilité d'un stockage croissant et d'une recherche rapide et flexible.

Descripteurs

Toutes les propriétés « moléculaires » au-delà de la structure peuvent être séparées soit en caractéristiques physico-chimiques, soit en caractéristiques pharmacologiques, aussi appelées descripteurs. Par dessus ce système, il existe de nombreux systèmes artificiels plus ou moins standardisés pour les molécules et objets chimiques qui produisent des dénominations plus ou moins ambigües et des synonymes. La nomenclature IUPAC est habituellement un bon choix pour la représentation des structures moléculaires dans à la fois lisible pour tout un chacun et constituant une chaîne de caractères bien que devenant peu pratique pour de grosses espèces. Les noms triviaux d'un autre côté abondent avec des homonymes et synonymes et sont par conséquent un mauvais choix de clé de définition de la base. Tandis que les descripteurs physico-chimiques comme la masse molaire, la charge (partielle), la solubilité, etc. peuvent être quasiment directement calculées en se basant sur la structure moléculaire, les descripteurs pharmacologiques ne peuvent être qu'indirectement déduits à partir de statistiques multivariationnelles ou de résultats expérimentaux (dépistage, essai biologique, etc.). Tous ces descripteurs peuvent être stockés avec la représentation de la molécule, pour des raisons de couts de calculs, et le sont de manière courante.

Recherche

Les chimistes peuvent faire une recherche dans les bases en utilisant des parties de structures, des parties des nomenclatures IUPAC ou des contraintes imposées sur les propriétés. Les bases de données chimiques sont particulièrement différentes des autres bases de données plus générales dans leur façon de procéder à la recherche sur des sous-structures. Ce type de recherche est menée en recherchant un isomorphisme de sous-graphe (parfois aussi appelé monomorphisme) et est une application largement étudiée de la théorie des graphes. Les algorithmes de recherche sont intensif numériquement, parfois de complexité temporelle O (n³) or O (n⁴) (où n est le nombre d'atomes impliqués). La composante intensive de recherche est appelée recherche atome par atome (en anglais atom-by-atom-searching - ABAS). La recherche ABAS utilise habituellement l'algorithme d'Ullman ou ses variations. Des gains en vitesse sont obtenus par amortissement temporel, qui consiste à économiser du temps par utilisation d'information pré-calculée. Ce pré-calcul implique typiquement la création de séquence de bits représentant la présence ou l'absence de fragments moléculaires. En surveillant les fragments présents, il est possible dans une recherche de structure d'éliminer le besoin d'une comparaison ABAS avec les molécules ou objets chimiques cibles ne possédant pas les fragments requis par la recherche structurale. Cette élimination est appelée écrantage (en anglais screening, à ne pas confondre avec les procédures d'écrantage utilisées dans la recherche phramaceutique ou avec l'écrantage en atomistique). Les séquences de bits utilisées pour ces applications sont aussi appelées clés structurales. Les performances de telles clés dépendent du choix des fragments utilisés pour construire les clés et de leur probabilité de présence dans les molécules de la base de données. Un autre type de clé utilise des codes de hachage basés sur des fragments déterminés numeŕiquement. Elles sont appelées « empreintes digitales » bien que le terme soit parfois utilisé comme synonyme de clés structurales. L'espace-mémoire nécessaire pour le stockage de ces clés structurales et empreintes digitales peut être réduit par « compactage », qui est produit en combinant des parties de clé en utilisant des opérations judicieuses sur les bits et réduisant ainsi leur longueur globale.