Au début des années 1940, les télécommunications étaient dominées par l'analogique. La transmission radio ainsi que la télévision reposaient sur des modulations continues comme la modulation d'amplitude (AM) et la modulation en fréquence (FM). Les sons et les images étaient transformés en signaux électriques dont l'amplitude et/ou la fréquence sont des fonctions continues, parfois proportionnelles, au signal d'entrée. Dans le cas du son, nous mesurons à l'aide d'un microphone le phénomène de pression et de dépression voyageant dans l'air. Dans le cas de la télévision, la blancheur de l'image (sa luminosité) est le principal signal d'intérêt. Cette procédure implique qu'un bruit ajouté pendant la transmission résultait en une dégradation du signal reçu. L'archétype de ce type de bruit prend la forme de grésillement pour la radio et de neige pour la télévision. La modulation analogique implique l'utilisation des nombres réels dont l'expansion décimale est infinie pour représenter une information (pression sonore, intensité lumineuse, etc.). Un bruit, aussi infime soit-il, a donc une conséquence directe sur le signal.
Les chercheurs ont donc admis qu'une façon efficace de se prémunir du bruit serait de transformer le son et l'image en nombres discrets, plutôt que d'utiliser des nombres réels dont la précision requiert un nombre infini de chiffres. On pourrait par exemple convenir d'utiliser le nombre 0 pour représenter la noirceur totale et le nombre 10 pour un blanc parfait, avec tous les nombres entiers entre les deux représentant des niveaux successifs de gris. Si 11 niveaux ne paraissent pas suffisants, nous pouvons utiliser la même méthode pour un nombre de division des intensités aussi grand que nécessaire pour satisfaire l'oeil. Un raisonnement similaire peut être effectué pour le son et nous arrivons à un point où il est possible de représenter un film et sa trame sonore avec une quantité finie de nombres entiers.
La transmission de ces nombres entiers résulte en ce que nous appelons une communication numérique. Si le bruit dont nous avons parlé dans le cas analogique est considéré dans une transmission numérique, des erreurs se produiront lorsque ce bruit sera suffisamment fort pour transformer un nombre en un autre. Dans le cas analogique, même un petit bruit se transforme en erreurs perceptibles. En numérique, un petit bruit a peu de chances de produire une erreur, mais un bruit suffisant peut toutefois le faire. Les chercheurs ont longtemps pensé qu'il fallait se résoudre à accepter qu'une communication parfaite était impossible. C'est cette conjecture que Shannon devait réfuter par sa théorie de l'information. Il devait montrer qu'il était possible de transmettre des informations sans erreur en utilisant une stratégie de codage numérique à condition que nous nous contentions d'une certaine vitesse de transmission. On entend ici par sans erreur la capacité du récepteur à restaurer le message original même si le message reçu est modifié par le bruit.
L'entropie de Shannon, mesure du contenu informationnel d'un message, intervient alors conjointement aux théorèmes de Shannon pour décider de la vitesse à ne pas dépasser si nous voulons avoir espoir de transmettre les données de ce message sans erreur. Il va de soi qu'un bruit plus puissant altère davantage un message transmis et Shannon prédit qu'en présence d'un bruit plus important il faut réduire la vitesse de transmission pour arriver au même résultat sans erreur. Une stratégie de codage élémentaire, et historiquement utilisée en télégraphie, est le collationnement', ou transmission multiple (double en général) de la même information. En effet, la probabilité d'obtenir des erreurs sur la majorité de ces informations est plus basse que la probabilité d'obtenir une erreur pour une transmission unique. Une transmission en triple permettrait par un système de vote de voir où est l'anomalie y compris en l'absence de redondance du code (par exemple transmission de numéros de pièces à commander dans une nomenclature). Cela constitue toutefois un codage naïf et ne permet pas d'atteindre les limites posées par Shannon.
Le calcul de l'entropie d'une source de messages donne une mesure de l'information minimale que nous devons conserver afin de représenter ces donnnés sans perte. En termes communs, cela signifie pour le cas particulier de la compression de fichiers en informatique que l'entropie indique le nombre minimal de bits que peut atteindre un fichier compressé. Il faut comprendre que si nous sommes disposés à perdre des données, comme lors de la compression des sons par le format MP3 ou lors de la compression d'images par JPEG ou des vidéos par MPEG, nous pouvons franchir cette limite inférieure imposée par l'entropie de l'image originale. En réalité, nous abaissons d'abord l'entropie de l'image ou du son en retirant des détails imperceptibles pour les humains. La nouvelle entropie réduite est alors la nouvelle limite inférieure pour la compression sans perte subséquente.