Le patrimoine génétique de la souche E. coli de laboratoire non pathogène a été entièrement séquencé en 1997. Son génome comprend 4,6 millions de paires de bases codant environ 4200 protéines.
En 2001, le génome d'une souche de E. coli entérohémorragique (provoquant la maladie du hamburger) a été séquencé. Il comprend 5,5 millions de paires de bases codant 5400 protéines. L'année suivante, le génome d'une souche de E. coli provoquant des infections urinaires (cystite, pyélonéphrite) et des méningites néonatales, a été séquencé. Il comprend 5,2 millions de paires de bases codant 5300 protéines.
La comparaison des génomes de ces trois souches de E. coli révèle que seulement 40% de leurs gènes sont communs - à titre de comparaison, 99% des gènes de l'Homme et des grands singes sont communs. Ceci témoigne du remarquable potentiel évolutif et de la versatilité de ce taxon bactérien. En effet, les souches de E. coli pathogènes ont acquis au cours de l’évolution un répertoire de gènes de virulence, qui leur permettent de coloniser de nouvelles niches écologiques en contournant les mécanismes de défense de l’hôte. L’expression d’un répertoire spécifique de facteurs de virulence est corrélée à une pathologie particulière et permet de définir différents pathovars (voir infra).
Le concept de la pathogénicité bactérienne résultant d’un processus multifactoriel, impliquant une myriade de gènes, dont l’expression est chorégraphiée par des processus de régulation est maintenant bien accepté. L’expression de ces gènes permet une adhésion plus efficace, ou l’invasion des tissus de l’hôte, et permet ainsi la colonisation de niches inaccessibles ou inhospitalières pour les E. coli commensaux. En ce sens, la pathogénicité peut être considérée comme un avantage sélectif, et le succès d’une souche de E. coli en tant que pathogène requiert probablement l’acquisition et la sélection de gènes de virulence, envers des recombinaisons et des transferts génétiques non spécifiques. La plasticité du génome de E. coli est à la base de ce processus. La séquence complète du génome de plusieurs souches de E. coli montre la présence de nombreuses séquences d’insertion (IS), de séquences bactériophagiques, ainsi que d'autres plages de séquences inusuelles qui témoignent de l’extraordinaire plasticité du génome de ce genre bactérien. Ce sont les isolats cliniques de E. coli qui possèdent les plus grands génomes, alors que celui de la E. coli de laboratoire, non pathogène, fait 4,63 Mb. Il apparaît ainsi que le fossé qui sépare les E. coli commensales des E. coli pathogènes est dû à l'acquisition de répertoires de gènes de virulence. Il se pourrait que l’acquisition de ces gènes soit facilitée par une importante aptitude à muter. En effet, plus de 1% des isolats d’E. coli ou de Salmonella impliqués dans des infections alimentaires sont des « mutateurs » qui présentent une forte tendance à muter, un phénomène corrélé à une déficience dans certains systèmes de réparation de l’ADN. Les gènes de virulence sont le plus souvent localisés sur des éléments génétiques transmissibles comme des transposons, des plasmides ou des bactériophages. De plus, ils peuvent être regroupés sur de grands blocs d’ADN chromosomique appelés « îlots de virulence ».