Au cours de l'évolution, les accumulations de mutations ont fait diverger les gènes au sein des espèces et entre espèces. De là provient la diversité des protéines qui leur sont associées. On peut toutefois définir des familles de protéines, elles-mêmes correspondant à des familles de gènes. Ainsi, dans une espèce peuvent coexister des gènes, et par conséquent des protéines, très similaires formant une famille. Deux espèces proches ont de fortes chances d'avoir des représentants de même famille de protèines.
On parle d'homologie entre protéines lorsque différentes protéines ont une origine commune, un gène ancestral commun.
La comparaison des séquences de protéines permet de mettre en évidence le degré de « parenté » entre différentes protèines, on parle ici de similarité de séquence. La fonction des protéines peut diverger au fur et à mesure que la similarité diminue, donnant ainsi naissance à des familles de protéines ayant une origine commune mais ayant des fonctions différentes.
L'analyse des séquences et des structures de protéine a permis de constater que beaucoup s'organisaient en domaines, c'est-à-dire en parties acquérant une structure et remplissant une fonction spécifique. L'existence de protéines à plusieurs domaines peut être le résultat de la recombinaison en un gène unique de plusieurs gènes originellement individuels, et réciproquement des protéines composés d'un unique domaine peuvent être le fruit de la séparation en plusieurs gènes d'un gène originellement codant pour une protéine à plusieurs domaines.