Les systèmes pour maintenir des entrées uniques pour les composés chimiques dans les bases de données sont appelés systèmes d'enregistrement. Ils sont parfois utilisés pour l'indexation chimique, les systèmes de brevets et les bases de données industrielles.
Les systèmes d'enregistrement renforcent l'unicité des composés présentés dans la base de données par l'utilisation de représentations uniques. En appliquant des lois de prééminence pour la génération des notations séquencées, on peut obtenir des représentations uniques (ou canoniques) comme par exemple les SMILES canoniques. Certains systèmes d'enregistrement comme le système CAS font usage d'algorithmes spécifiques afin de générer un code de hachage afin d'atteindre le même objectif.
Une différence clé entre un système d'enregistrement et une simple base de données chimiques est la possibilité de repr'esenter précisément ce qui est connu, inconnu et partiellement connu. Par exemple, une base de données peut stocker une molécule avec une stéréochimie non spécifiée, alors qu'un système d'enregistrement chimique requiert de spécifier si la configuration stérique est inconnue, un mélange (connu) spécifique, ou un racémique. Chacune de ces spécifications constitueraient une entrée différente dans un système d'enregistrement chimique.
Les systèmes d'enregistrement préconditionnent les objets chimiques afin d'éviter la considération de différences triviales comme par exemple entre les ions halogénures dans les composés chimiques.
On pourra citer comme exemple le système d'enregistrement Chemical Abstracts Service (CAS). Voir aussi numéro CAS.
Il n'existe pas de définition simple de la similarité entre deux objets chimiques, mais cependant, le concept peut être défini selon le contexte d'application et est parfois décrit comme l'inverse d'une mesure de distance dans l'espace des descripteurs. Deux objets pourraient par exemple ainsi être qualifiés de plus similaires entre eux que d'autres si la différence de leurs masses molaires respectives est plus faible que comparée à d'autres. Une variété d'autres mesures pourrait être combinée afin de produire une mesure de distance à variables multiples. Les mesures de distance sont parfois classées en mesures euclidiennes et les mesures non-euclidiennes selon le choix de l'inégalité triangulaire.
Les espèces des bases de données peuvent être ainsi regroupées par similarités. Des approches de regroupements hiérarchiques ou non-hiérarchiques peuvent être appliquées à des entités chimiques à attributs multiples. Ces attributs (ou propriétés moléculaires) peuvent être des descripteurs déterminés empiriquement ou déterminés numériquement. Une des approches de regroupement les plus courantes est l'algorithme des k plus proches voisins de Jarvis-Patrick.
Dans des bases orientées vers la pharmacologie, la similarité est définie habituellement en termes d'effets biologiques de composés (ADME/toxicité) qui peut être déduite de combinaisons similaires de descripteurs physico-chimiques en utilisant des méthodes QSAR.
Les représentations numériques sont habituellement transparentes pour les chimistes, les données étant traduites graphiquement. L'entrée de données est aussi simplifiée par l'utilisation d'éditeurs de structures chimiques. Ces éditeurs convertissent en interne les données graphiques en représentaiotns numériques.
Il existe aussi de nombreux algorithmes pour l'interconversion de formats variés de représentation. OpenBabel est, par exemple, un des utilitaires permettant d'effectuer cette tâche. Ces algorithmes de recherche et de conversion sont implémentés soit dans le système de base de données lui-même ou comme maintenant dans des composantes externes qui les adaptentent pour les systèmes de bases de données relationnels standard. Les systèmes basés sur Oracle ou PostgreSQL font usage de la cartridge technologie permettant des types de données définis par l'utilisateur. Ce permet à l'utilisateur de faire des requêtes SQL avec des conditions chimiques sur les recherches. Par exemple une requête sur les entrées présentant un cycle benzénique dans leur structure représenté comme une séquence SMILES dans une colonne SMILESCOL pourrait être :
Les algorithmes de conversion des noms IUPAC en représentation structurales en inversement sont aussi utilisés pour extraire de l'information des textes. Cependant, il existe des difficultés en raison de l'existence de plusieurs correspondances IUPAC. Un travail est en cours afin d'établir un standard IUPAC unique (voir InChI)