En mathématiques, et plus particulièrement en analyse et en géométrie, le théorème de Hahn-Banach, dû aux deux mathématiciens Hans Hahn et Stefan Banach, garantit l'existence d'une forme linéaire vérifiant certaines conditions (valeurs imposées sur une partie de l'espace, mais limitées partout).
En permettant de prouver abstraitement l'existence de nombreuses fonctions continues, c'est un outil fondamental de l'analyse fonctionnelle.
Par son interprétation géométrique en termes d'hyperplans évitant un convexe fixé, il joue également un rôle primordial dans l'étude de la géométrie des convexes, et au-delà en analyse convexe.
Les énoncés dénommés « théorème de Hahn-Banach » dans la littérature scientifique sont nombreux, différant les uns des autres parfois par de simples détails et parfois de façon significative. Ils se divisent néanmoins nettement en deux classes : certains garantissent de pouvoir prolonger une forme linéaire, sous certaines exigences de majoration (les formes « analytiques » du théorème) ; d'autres assurent qu'on peut séparer deux ensembles convexes par un hyperplan affine (les formes « géométriques » du théorème).
Donnons pour commencer un exemple d'énoncé pour chacune de ces deux catégories.
Théorème — Soit V un espace vectoriel sur et p une fonction convexe définie sur V et qui ne prend que des valeurs finies.
Soit G un sous-espace vectoriel de V, et f une forme linéaire sur G qui y vérifie en tout point la condition de majoration : .
Il existe alors un prolongement de f en une forme linéaire sur l'espace V tout entier, vérifiant encore la condition : en tout point de V.
Théorème — Soit E un espace vectoriel topologique et C un convexe ouvert non vide de E.
Soit L un sous-espace affine de E qui vérifie la condition : .
Il existe alors un hyperplan affine H contenant L et qui vérifie lui aussi la condition : .
De plus, H est un hyperplan fermé.
La forme analytique du théorème est due à Banach (1932) généralisant un résultat de Hahn qui s'intéresse dès 1920 aux espaces vectoriels normés. Il existe une généralisation du théorème de Hahn-Banach aux espaces vectoriels sur le corps des complexes due à Bohnenblust et Sobczyk (1938). Les difficultés de la généralisation du théorème de Hahn-Banach apparaissent même pour des espaces vectoriels de dimension finie.
La forme géométrique du théorème —d'où on peut ensuite déduire une succession de variantes diverses relatives à la séparation des convexes— est la retranscription de la forme analytique pour le cas particulier où la fonction convexe qui y intervient est la jauge d'un ouvert convexe d'un espace normé. C'est d'ailleurs le cas dans les utilisations les plus simples et fondamentales du théorème en analyse fonctionnelle qu'on peut selon ses goûts lire depuis une version ou l'autre (on en verra un exemple plus bas).
Voyons de plus près comment la forme géométrique se déduit de la forme analytique :
Quitte à faire préalablement une translation, on supposera que l'origine est dans C. Dès lors, puisque L ne rencontre pas C, c'est donc un sous-espace affine évitant l'origine.
Notons p la jauge du convexe C. Elle est sous-linéaire et donc convexe comme toute jauge ; par définition même d'une jauge il est évident que pour tout x dans C, . Comme on a supposé C ouvert, on peut aller un peu plus loin : d'une part C est un voisinage de 0 et toute demi-droite ouverte issue de 0 contient donc des points de C, ce dont on déduit que p ne prend pas la valeur ; d'autre part on peut améliorer l'inégalité large et préciser sans peine que les points de C sont caractérisés par l'inéquation stricte p(x) < 1. Voilà pour la fonction sous-linéaire.
Notons G le sous-espace vectoriel engendré par L. Puisque , la sous-variété affine L est de codimension 1 dans G et il existe une (et une seule) forme linéaire f sur G telle que L soit la partie de G d'équation f(x) = 1. Voilà pour la forme linéaire à prolonger.
Enfin, pour x dans L, (puisque ) tandis que f(x) = 1. La condition est donc vérifiée sur L. En jouant sur l'homogénéité positive de f et de p, on étend son domaine de validité à un demi-espace strict de G ; sur l'autre demi-espace f prend des valeurs négatives ou nulles tandis que, comme partout, p est à valeurs positives ou nulles. L'inégalité est donc vraie partout dans G.
Toutes les hypothèses de la version dite « analytique » du théorème sont en place. Appliquons la donc. Elle nous offre une nouvelle forme linéaire encore notée f, cette fois définie sur E tout entier. Notons H l'hyperplan affine d'équation f(x) = 1 : par construction, c'est bien un hyperplan contenant L.
Soit maintenant un point x de C : pour ce point, (puisque f a été produite par la forme analytique de Hahn-Banach) et p(x) < 1 (puisqu'on est dans l'ouvert convexe C). Donc , et x n'est pas dans H. On a bien vérifié que C et H ne se rencontrent pas.
Enfin les hyperplans d'un espace vectoriel topologique sont nécessairement fermés ou denses. Or H n'est pas dense puisqu'il ne rencontre pas le voisinage C de 0. C'est donc qu'il est fermé.
On peut s'étonner que la forme géométrique fasse intervenir une topologie tandis que la forme analytique concerne un espace vectoriel sans structure additionnelle. En fait, il est tout à fait possible d'énoncer une forme géométrique dans un espace vectoriel quelconque : il faudra alors supposer que tout translaté du convexe C contenant l'origine est absorbant, à défaut de pouvoir donner un sens à « ouvert » ; on n'a bien sûr plus le complément sur le caractère fermé de l'hyperplan obtenu tombe. La démonstration est la même.
Deux types d'idées bien distinctes sont à mettre bout à bout pour aboutir à une preuve dans le cadre de généralité où le théorème a été énoncé. Dans un premier temps, quelques calculs assez simples permettent de justifier l'extension de la forme linéaire f dans le cas particulier où G est de codimension 1 dans V. Une fois cette étape franchie, on a déjà le théorème en dimension finie (il suffit de faire grossir pas à pas le sous-espace où on a réussi à étendre f, d'une dimension à chaque pas, et jusqu'à atteindre la dimension de V). En revanche, pour les usages en dimension infinie, il faut adapter cette méthode fort simple d'avancée méthodique et appeler quelques techniques assez standardisées de théorie des ensembles : on exécute ainsi une récurrence transfinie, le plus souvent rédigée sous forme d'un appel au lemme de Zorn.
Première partie : gagner une dimension
Dans un premier temps, on va prolonger la forme linéaire f à un espace plus grand que G en gagnant une dimension. Prenons un élément v0 de V en dehors de G (s'il n'y en a pas G = V et on a terminé avant même d'avoir commencé).
Le prolongement de f au sous-espace vectoriel s'opère en la définissant par la formule :
dans laquelle α est un réel qu'il va falloir choisir judicieusement pour que la condition de majoration de f reste vérifiée dans .
Il est clair que cette méthode d'extension fournit une forme linéaire, quel que soit le choix de α.
La condition de majoration sera vérifiée si et seulement si, pour chaque x de G et chaque λ réel, l'inégalité suivante est vérifiée :
Après avoir noté que pour λ = 0 elle est justifiée par hypothèse, on peut ne s'intéresser qu'aux contraintes correspondant à . Il est judicieux alors de séparer les conditions correspondant à λ > 0 et ceux où λ < 0 ; en notant μ = λ dans le premier cas, et μ = − λ dans le second, on a donc à vérifier deux familles d'inégalités :
Des manipulations élémentaires permettent de les regrouper sous la forme :
Notons et les extrémités de l'inégalité précédente. La condition nécessaire et suffisante pour qu'on puisse définir un prolongement valable de f est ainsi que les intervalles [ax,μ;bx,μ] (où x parcourt G et μ parcourt ) aient une intersection non vide. Or ceci est équivalent à :
Mais cette condition est réalisée, par une vérification lourde mais facile qui exploite la convexité de p, la linéarité de f et la majoration supposée vraie sur G : en effet, pour x, y dans G et tous μ,ν > 0:
Deuxième partie : exécution d'une récurrence transfinie
En raisonnant de proche en proche, on voit que l'on peut prolonger f à des espaces de plus en plus grands. Si G est de codimension finie dans V, alors le procédé ainsi défini s'arrête. Sinon, on utilise l'axiome du choix.
Pour cela, on considère l'ensemble des couples (M,g) dans lesquels M est un sous-espace vectoriel de V contenant G et g est une forme linéaire sur M prolongeant f (en respectant la contrainte de majoration par p), et on l'ordonne partiellement par :
L'ensemble des couples est inductif. En effet si est une chaîne totalement ordonnée, alors on pose :
M est un sous-espace vectoriel. (En général, une union d'espaces vectoriels n'est pas un espace vectoriel, en revanche, ici, c'est le cas car la famille des est totalement ordonnée).
On définit la forme linéaire g sur l'espace M par :
On vérifie aisément que cette définition de g est correcte. (M, g) est alors un majorant de la chaîne . Le lemme de Zorn s'applique, et on peut alors trouver un sous-espace N maximal sur lequel f se prolonge.
Maintenant si N n'est pas égal à V, alors la première partie de la démonstration montre que l'on peut prolonger f (définie sur N) à un espace strictement plus grand que N, ce qui en contradiction avec la maximalité de N.