Le paradoxe de Burali-Forti a été publié pour la première fois dans un article de cet auteur de 1897, mais sous une forme différente de celle décrite ci-dessus. Tout laisse penser cependant que Cantor connaissait ce paradoxe à une date antérieure. Les dates de 1895, ou une lettre à David Hilbert de 1896 sont souvent citées en référence. Il semble que ce soit Philip Jourdain qui les ait le premier avancées. On cite souvent un article paru en 1905 de Felix Bernstein, qui était étudiant de Cantor, mais celui-ci se réfère à Jourdain. Par exemple Jean Cavaillès cite Bernstein. Même si ces dates sont vraisemblables, aucune lettre de 1896 n'a été retrouvée. Dans une lettre à Hilbert de 1897, Cantor donne son explication du paradoxe du plus grand cardinal, mais en faisant référence à la série des aleph, indexés par les ordinaux. On peut donc penser qu'il connait aussi le paradoxe de Burali-Forti, d'autant que la lettre témoigne de l'état avancé de sa réflexion à ce sujet. Quoi qu'il en soit, à la fin des années 1890, à Göttingen, le paradoxe de Burali-Forti, et l'analyse qu'en fait Cantor sont connus de Hilbert et son entourage, dont Zermelo.
Burali-Forti déclare, dès la première phrase de sa note de 1897, que l'objet principal de celle-ci est de montrer qu'il existe des nombres transfinis qui ne sont pas comparables, c’est-à-dire la négation de la propriété de trichotomie (voir ci-dessus) démontrée par Cantor et publiée la même année, quelques mois après la note de Burali-Forti. Pour prouver ce résultat, Burali-Forti introduit la notion d’ensemble parfaitement ordonné, qu'il pense, à tort, être plus forte que celle d'ensemble bien ordonné (introduite par Cantor en 1883). Il définit ensuite les ordinaux, en tant que types d'ordre d'ensembles parfaitement ordonnés. Il ordonne ainsi la classe de ses « ordinaux » : un ensemble ordonné (A, <A) est strictement plus petit qu'un ensemble ordonné (B,<B), s'il existe une injection croissante de (A, <A) dans (B,<B), mais pas de bijection croissante, ce qui pour les « vrais » ordinaux, équivaut à l'ordre par section commençante décrit ci-dessus. Puis il montre que, si l'on suppose que cet ordre est total (propriété de trichotomie), alors la classe des « ordinaux » (en son sens) est parfaitement ordonnée. On ne peut faire de raisonnement par induction sur un ordre parfait, cependant cette notion suffit pour que Burali-Forti puisse montrer que les ordinaux tels qu'il les a définis, ne sont pas isomorphes à une de leurs sections commençantes propres, alors que cela est faux pour les ordres totaux en général, et, comme il le remarque lui-même, pour ce qu'il croit être les bons ordres (sous une forme un peu différente). Cependant, comme Burali-Forti pense que les ordres parfaits sont de bons ordres, il peut tout de même en déduire que la propriété de trichotomie est fausse a fortiori pour ceux-ci.
Le raisonnement de Burali-Forti est donc bien celui décrit ci-dessus, même si celui-ci ne l'applique pas à la bonne notion, et en tire donc une conclusion fausse pour les « vrais » bons ordres, mais juste pour les ordres parfaits, ou ce qu'il croit être les bons ordres. Les ordinaux de Burali-Forti, qui sont associés aux ordres parfaits, ne sont effectivement pas totalement ordonnés. Simplement sa preuve ne peut être considérée comme acceptable, elle ne peut se formaliser dans une théorie des ensembles raisonnable, puisqu'elle se transposerait telle quelle aux vrais ordinaux, pour lesquels le résultat est faux.
Dans une note de quelques lignes parue la même année dans la même revue (voir références), Burali-Forti fait lui-même remarquer qu'il s'est trompé dans sa définition de bon ordre, et que la notion d'ordre parfait est en fait plus faible que celle de bon ordre au sens de Cantor. Curieusement, il n'en tire aucune conclusion, si ce n'est que « le lecteur pourra vérifier quelles propositions dans ma note [...] sont également vérifiées par les classes bien ordonnées ». Cependant son raisonnement, comme déjà dit, s'applique sans aucun problème aux bons ordres, et donc aux ordinaux au sens de Cantor, et il semble que cela fut clair assez rapidement pour les mathématiciens qui s'intéressaient à ces problèmes, ce qui fait bien du paradoxe de Burali-Forti le premier paradoxe connu de théorie des ensembles, nonobstant le fait qu'il pourrait être connu de Cantor avant 1897.
Les ordres parfaits ne semblent guère avoir survécu à la note de Burali-Forti. Cette notion est de toute façon clairement moins utile que celle de bon ordre, et de principe d'induction qui lui est associée. Les définitions qui suivent n'ont donc essentiellement qu'un intérêt historique. On ne suit pas exactement la terminologie de Burali-Forti, même si elle resterait assez compréhensible pour un lecteur moderne.
Appelons successeur d'un élément dans un ensemble totalement ordonné le plus petit des majorants stricts de cet élément : il n'existe pas forcément, mais s'il existe il est bien unique. De façon analogue, appelons prédécesseur d'un élément le plus grand des minorants stricts (s'il existe) de cet élément.
Burali-Forti pense erronément qu'un ensemble bien ordonné (E,<) est un ensemble totalement ordonné qui satisfait les deux propriétés suivantes :
Pour définir les ensembles parfaitement ordonnés, il ajoute une troisième propriété :
Pourquoi introduire cette troisième propriété ? Burali-Forti donne un exemple d'ordre qui satisfait les deux premières mais pas la suivante : il suffit de mettre bout à bout une copie des entiers, suivie d'une copie dans l'ordre inverse, {0}×N ∪ {1}×Z- ordonné lexicographiquement pour être formel. Si l'on prend le successeur de cet ordre, celui obtenu en ajoutant un élément « au bout », {0}×N ∪ {1}×(Z- ∪ {1}) pour être formel, on obtient un ordre isomorphe. On ne peut donc espérer montrer l'irreflexivité de l'ordre de comparaison entre ensembles ordonnés défini par section commençante, et même si ce n'est pas celui-ci que Burali-Forti utilise, il a tout de même besoin de pouvoir construire un majorant strict.
Par contre l'exemple ci-dessus ne satisfait pas la troisième propriété. Dès que la troisième propriété est vérifiée, un ordre ne peut être isomorphe à son successeur. En effet soit l'ordre initial n'avait pas de plus grand élément, mais alors l'ordre successeur en a forcément un, soit il avait un plus grand élément et on a le résultat par récurrence ordinaire (sur les entiers) sur le nombre d'itérations nécessaire pour se ramener à un élément sans prédécesseur (il faut une itération de plus pour l'ordre successeur). Cela montre donc que le successeur d'un ensemble parfaitement ordonné est un majorant strict, propriété qui suffit pour l'argument de Burali-Forti (qui rappelons-le raisonne par l'absurde, en supposant la propriété de trichotomie).
Un bon ordre est un ordre parfait : s'il ne l'était pas la suite des prédécesseurs itérés d'un élément donnerait un ensemble sans plus petit élément. Un ordre est parfait quand chaque élément vit, en quelque sorte, dans une copie des entiers naturels, et quand il y un plus petit élément. Ce n'est pas suffisant pour assurer la propriété de bon ordre, car rien n'indique que ces copies des entiers soient elles-mêmes bien ordonnées. Par exemple, en ajoutant un plus petit élément à Z × N (ordonné lexicographiquement), on obtient un ordre parfait qui n'est pas un bon ordre.
On trouve le paradoxe de Burali-Forti (le nom de ce dernier n'est pas cité) expliqué de façon particulièrement lumineuse dans deux lettres de Georg Cantor à Dedekind datées de 1899. Cantor en donne une solution qui, si elle n'est pas vraiment satisfaisante d'un point de vue axiomatique, est compatible avec l'axiomatisation ultérieure de la théorie des ensembles.
Cantor distingue deux sortes de multiplicités définies [(de)bestimmte Vielheit] que nous appellerions aujourd'hui classes.
Cantor appelle Ω le système de tous les ordinaux. Il rappelle la propriété de trichotomie, et le fait que toute partie non vide de Ω a un plus petit élément. Comme un ordinal a même type d'ordre (est isomorphe) à l'ensemble des ordinaux qui lui sont strictement inférieurs, il en déduit que si Ω était un ensemble, donc un ordinal, il serait strictement supérieur à lui-même, d'où une contradiction. Pour Cantor, la classe de tous les ordinaux, Ω, est donc une multiplicité inconsistante, ou absolument infinie, c’est-à-dire peu ou prou .
La distinction entre mutiplicités consistantes et inconsistantes, si elle n'est pas très formelle, n'est pas une notion amorphe et entièrement ad hoc : Cantor énonce une propriété dont Van Heijenoort remarque qu'elle est une version du schéma d'axiomes de remplacement, à savoir que deux multiplicités équivalentes, c’est-à-dire en bijection, sont soit toutes deux des ensembles, soit toutes deux inconsistantes. Cantor l'utilise pour montrer que la classe des alephs, la série des cardinaux indexés par les ordinaux, est également inconsistante, ce qui est connu sous le nom de paradoxe du plus grand cardinal, ou paradoxe de Cantor. Cependant se pose le problème de savoir comment déterminer si une multiplicité bien définie est consistante. Cantor pose lui-même la question dans une lettre à Dedekind d'août 1899 : « ... on doit se demander d'où je sais que les multiplicités bien ordonnées ou suites auxquelles j'assigne les nombres cardinaux ... sont réellement des "ensembles" ». Cantor propose d'introduire de nouveaux axiomes dans le cas des cardinaux. Mais en l'absence par ailleurs d'une axiomatisation de la théorie des ensembles, cela semble difficile d'aller très loin dans cette voie.