Relation quantitative structure à activité - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - RSA et paradoxe RSA - Domaine d'application - Applications

Introduction

Une relation quantitative structure à activité (en anglais : Quantitative structure-activity relationship ou QSAR, parfois désignée sous le nom de relation quantitative structure à propriété - en anglais : quantitative structure-property relationship ou QSPR) est le procédé par lequel une structure chimique est corrélée avec un effet bien déterminé comme l'activité biologique ou la réactivité chimique.

Ainsi par exemple l'activité biologique peut être exprimée de manière quantitative, comme pour la concentration de substance nécessaire pour obtenir une certaine réponse biologique. De plus lorsque les propriétés ou structures physiochimiques sont exprimées par des chiffres, on peut proposer une relation mahtématique, ou relation quantitative structure à activité, entre les deux. L'expression mathématique obtenue peut alors être utilisée comme moyen prédictif de la réponse biologique pour des structures similaires.

La QSAR la plus commune est de la forme : activité = f(propriétés physico-chimiques et/ou structurales).

RSA et paradoxe RSA

Le postulat de base pour les hypothèses sur des objets chimiques est que des objets similaires ont des activités similaires. Ce principe est appelé relation structure-activité (RSA, ou SAR pour structure-activity relationship en anglais). Le problème sous-jacent est donc la définition d'une petite différence sur un niveau moléculaire, chaque type d'activité, comme la réaction chimique, la biotransformation, la solubilité, l'activité de cible et d'autres encore, peuvent dépendre d'une autre différence. Un exemple concret est donné par l'article de revue sur le bioisostérisme.

En général, l'intérêt est plus de trouver de fortes tendances. Les hypothèses avancées reposent habituellement sur un nombre fini de données chimiques. Ainsi, le principe d'induction devrait être respecté afin d'éviter les hypothèses surapprises et les interprétations erronées et inutiles sur les données chimiques/structurales.

Le paradoxe SAR est le fait que toutes les molécules similaires ne montrent pas des activités similaires.

Domaine d'application

L'utilisation de modèles (Q)SAR pour la gestion du risque chimique s'accroissant régulièrement et étant aussi utilisé pour des visées réglementaires (en Union européenne : enregistrement, évaluation et autorisation des produits chimiques), il est crucial d'être capable d'affirmer la pertinence des prédictions. L'espace des descripteurs chimiques engendré par un ensemble spécifique de produits chimiques est appelé domaine d'applicabilité, qui permet d'indiquer lorsqu'un composé peut être pertinemment « prédit ».

Applications

En chimie

Une des premières applications de la QSAR concernait la prédiction des points d'ébullition.

Il est bien connu par exemple que pour une famille de composés chimiques, particulièrement en chimie organique, il existe une corrélation forte entre la structure et les propriétés observées. On peut citer comme exemple simple la relation entre le nombre de carbones dans les alcanes et leur point d'ébullition. Il existe une tendance nette à l'augmentation de la température d'ébullition avec le nombre d'atomes de carbone, ce qui sert de moyen prédictif pour les points d'ébullition des alcanes les plus lourds.

Les méthodes de Hammett, de Taft et prédiction de pKa sont des applications particulièrement intéressantes.

En biologie

L'activité biologique des molécules est mesurée habituellement au moyen d'essais afin d'établir le niveau d'inhibition d'une transduction de signal ou d'une voie métabolique particulière. Les produits chimiques peuvent être biologiquement actifs par leur toxicité. La recherche de médicament implique parfois l'utilisation de la QSAR afin d'identifier les structures chimiques pouvant présenter de bons effets inhibiteurs sur des cibles spécifiques et possèdent une faible toxicité (activité non-spécifique). Fait partie des intérêts spécifiques la prédiction du coefficient de partition log P, qui une mesure importante pour l'identification de la « similarité médicamenteuse » selon la règle des cinq de Lipinski.

Alors que de nombreuses analyses QSAR traitent des interactions d'une famille de molécules avec une enzyme ou un site récepteur, la QSAR peut aussi être utilisée pour étudier les interactions entre les domaines structuraux des protéines. Les interactions entre protéines peuvent être quantitativement analysés pour des variations structurales résultant d'une mutagenèse. La réduction du risque de paradoxe RAS fait partie de l'apprentissage automatique, et particulièrement la prise en compte du fait que seul un nombre fini de données est disponible (voir aussi estimateur de minimum de variance non biaisé). En général, tous les problèmes QSAR peuvent être partagés entre une partie codage et une partie apprentissage.

Analyse de données

Un nombre relativement important de caractéristiques ou de descripteurs moléculaires est calculé pour le codage, qui peut cependant manquer de pertinence sur l'interprétation structurale. Il existe donc un un problème de choix de variable, qui peut se résoudre par des méthodes d'apprentissage, appliquées comme étape de post-traitement ou de pré-traitement. Parmi ces méthodes, les machines à vecteurs de support, les arbres de décisions, ou les réseaux de neurones peuvent être utilisées pour induire un modèle d'apprentissage prédictif.

QSAR tridimensionnelle

L'expression de QSAR tridimensionnelle (3D-QSAR) réfère à l'application de calculs de champs de forces nécessitant des structures tridimensionnelles, comme par exemple la cristallographie protéique ou la supramolécularité. Elle utilise des potentiels calculés, comme par exemple des potentiels de Lennard-Jones, plutôt que des constantes expérimentales et englobe l'objet moléculaire dans son ensemble plutôt qu'un substituant unique. Elle traite des champs stériques (forme de l'objet) et électrostatiques en fonction énergie appliquée.

L'espace de données ainsi créé est ensuite habituellement réduit par une extraction de caractéristique (voir aussi réduction dimensionnelle). La méthode d'apprentissage suivant peut aussi être n'importe laquelle des méthodes d'apprentissage automatique déjà citées, comme les machines à vecteurs de support.

Dans la littérature, il semble ressortir que les chimistes préfèrent les méthodes de moindres carrés partielles (PLS), qui permet d'appliquer une extraction de caractéristique et une induction en un pas.

Analyse moléculaire

Les approches d'extractions moléculaires, cas particulier des approches d'explorations de données structurées, appliquent une prédiction par matrice de similarité ou un schéma de fragmentation automatique en sous-structures moléculaires. De plus, il existe aussi des approches utilisant des recherches du plus grand sous-graphe commun ou de noyaux de graphes.

Basée sur un fragment (contribution de groupe)

Il a été montré que le logP d'un composé peut être déterminé par la somme de ceux de ses fragments. Les valeurs logP fragmentaires ont été déterminées statistiquement. Cette méthode donne des résultats mixtes et est généralement considéré comme n'ayant pas de précision de +/- 0,1 unités.

- Introduction - RSA et paradoxe RSA - Domaine d'application - Applications