Internet Archive est membre de l'Open Content Alliance, et exploite l'Open Library où plus de 200 000 livres numérisés appartenant au domaine public sont mis à la disposition sous une forme consultable en ligne et un format imprimable. Leur système de numérisation de livre Scribe est utilisé pour cette tâche.
En plus des archives Web, Internet Archive conserve d'importantes collections de médias numériques qui sont soit du domaine public soit titulaires d'une licence permettant leur redistribution, comme la Licence Creative Commons. Les médias sont organisés dans les collections par type de média (images animées, son, texte…), et en sous-collections selon différents critères. Chaque collection principale comprend une sous-collection Open Source où les contributions du public en général peuvent être stockées.
Ses collections incluent :
Mis à part les longs métrages, la collection vidéo de IA comprend des actualités, des classiques de la bande dessinée, de la propagande pro et antiguerre et des documents plus éphémères des Archives Prelinger comme des publicités, des films éducatifs et industriels et des collections de films amateurs.
Exemple de collection :
Exemple de film français :
La collection audio inclut de la musique, des livres audio, des émissions d'information, des spectacles radiophoniques anciens et une grande variété d'autres fichiers audio. La sous-collection Live Music Archive comprend 40 000 enregistrements de concerts d'artistes indépendants, ainsi que des artistes plus établis et des ensembles musicaux avec des règles plus permissives sur l'enregistrement des concerts tels que le Grateful Dead.
Cette collection rassemble des textes du Projet Gutenberg, des textes de diverses bibliothèques à travers le monde ainsi qu'une collection de documents et de notes issues de ARPANET.
À la fin de l'année 2002, Internet Archive a effacé différents sites critiques à l'égard de la scientologie recensé par la Wayback Machine. Le message d'erreur indique que c'était à la suite d'une « demande formulée par le propriétaire du site ». Il a par la suite été précisé que les avocats de l'Église de Scientologie avaient exigé le retrait, sans aucun motif juridique, et que les propriétaires de ces sites ne voulaient pas que leurs pages soient retirées.
En octobre 2004, dans une affaire appelée Telewizja Polska SA vs Echostar Satellite, un juriste tente d'utiliser les archives de la Wayback Machine comme source d'éléments de preuve recevables, probablement pour la première fois.
Telewizja Polska est le fournisseur de TV Polonia et de EchoStar exploitant le Dish Network. Avant le procès, EchoStar a indiqué qu'il avait l'intention d'utiliser des clichés provenant de la Wayback Machine comme preuve du contenu passé du site de Telewizja Polska. Telewizja Polska a déposé une requête in limine pour supprimer les clichés justifiants de ouï-dire et des sources non authentifiés, mais le juge Arlander Keys a rejeté les affirmations de Telewizja Polska et a refusé d'exclure ces éléments de preuve lors du procès. Toutefois, au moment du procès, le juge de la cour du district, Ronald Guzman, en première instance, a annulé les conclusions du juge Keys, et a conclu que ni l'Internet Archive ni les pages sous-jacentes (c'est-à-dire le site de Telewizja Polska) n'étaient admissibles comme preuve. Le juge Guzman a estimé que l'impression d'une page internet n'était pas une preuve d'authentification de l'information.
En 2003, Healthcare Advocates, Inc. a été accusée dans un procès de violation de marque. La poursuite a tenté d'utiliser du matériel internet archivé accessible via Internet Archive. Après avoir perdu ce procès, la compagnie a tenté de poursuivre Internet Archive pour violation de la DMCA et le Computer Fraud and Abuse Act. Ils ont fait valoir que, puisqu'ils avaient installé un fichier robots.txt sur leur site web, il aurait dû être évité par le robot d'IA. La première plainte a été déposée le 26 juin 2003, et ils ont ajouté le fichier robots.txt, le 8 juillet 2003, les pages devant être retirées rétroactivement. Le procès s'est réglé à l'amiable.
Robots.txt est utilisé dans le cadre du protocole d'exclusion des robots (Robots Exclusion Standard), une norme d'application volontaire qu'IA applique et qui interdit aux robots d'indexer certaines pages marquées par le créateur comme hors limite. En conséquence, l'IA a supprimé un certain nombre de sites Web qui sont maintenant inaccessibles via la Wayback Machine. Ceci est parfois dû à un nouveau propriétaire qui plaçait un fichier robots.txt interdisant l'indexation du site. Les administrateurs disent travailler sur un système qui permettra l'accès aux archives précédentes tout en excluant les éléments créés après l'ajout du fichier.
En 2006, IA appliquait la règle du Robots.txt rétroactivement. Si un site bloque IA, à l'instar de Healthcare Advocates, toutes les pages précédemment archivées depuis ce domaine sont également supprimées. Dans les cas de sites bloqués, seul le fichier robots.txt est archivé. Cette pratique semble être préjudiciable aux chercheurs accédant à des informations disponibles dans le passé.
Toutefois, IA précise également que, « parfois, un propriétaire de site Web nous contacte directement et nous demande d'arrêter l'indexation ou l'archivage d'un site. Nous nous conformons à ces demandes. » Ils ont aussi expliqué qu'« Internet Archive n'est pas intéressé par la préservation ou l'offre d'accès a des sites Web ou d'autres documents Internet appartenant à des personnes qui ne voudraient pas que leur matériel soit archivé ».
L'Office des brevets aux États-Unis et, sous réserve que des exigences supplémentaires soient remplies (par exemple, fournir une déclaration officielle de l'archiviste), l'Office européen des brevets accepteront une datation d'Internet Archive comme preuve de la publication d'une page Web. Ces dates sont utilisées pour déterminer si une page Web est disponible avant par exemple la date de dépôt d'une demande de brevet.
En novembre 2005, le téléchargement gratuit du concert de Grateful Dead a été supprimé du site. John Perry Barlow a identifié Bob Weir, Mickey Hart et Bill Kreutzmann comme les instigateurs de ce changement. Le 30 novembre, un post sur le forum de Brewster Kahle a résumé ce qui semble être le compromis atteint entre les membres du groupe. Les concerts live peuvent être téléchargés ou écoutés, et les enregistrements seront disponibles pour écoute seulement. Les concerts ont, depuis, été ajoutés.
Le 12 décembre 2005, la militante Suzanne Shell (en) a réclamé la somme de 100 000 USD pour l'archivage de son site « profane-justice.org » entre 1999 et 2004. Le 20 janvier 2006, Internet Archive a déposé une action en jugement déclaratoire dans le district du nord de la Californie, demandant au tribunal de juger qu'IA ne violait pas les droits d'auteur de Shell.
Shell a répondu et a déposé une autre plainte contre IA pour l'archivage de son site, elle invoquait la violation de ses conditions de service. Le 13 février 2007, un juge du district du Colorado a rejeté toutes les demandes, sauf celle de rupture de contrat.
Le 25 avril 2007, IA et Shell ont conjointement annoncé le règlement de leur litige. IA a déclaré : « Internet Archive n'a aucun intérêt à insérer des informations dans la Wayback Machine de personnes qui ne veulent pas voir leurs contenus web archivés. Nous reconnaissons que Mme Shell possède un droit d'auteur valide et applicable dans son site et nous regrettons que l'inscription de son site dans la Wayback Machine ait abouti à ce contentieux. Nous sommes heureux d'avoir cette affaire derrière nous. » Shell a déclaré : « Je respecte l'objectif et la valeur historique d'Internet Archive. Je n'ai jamais eu l'intention d'interférer avec cet objectif ni de causer aucun dommage. ».
En Europe, la Wayback Machine peut parfois enfreindre les lois sur le droit d'auteur. Seul le créateur peut décider de l'endroit où son contenu est publié ou reproduit, les pages devront être supprimées des archives sur demande du créateur.