A l'image des logiciels utilisés par la police américaine tentant de prédire les crimes susceptibles de se passer demain en analysant les données relatives aux crimes d'hier (voir notre article ici), un chercheur vient de mettre au point un outil analysant les coupures de presse pour prédire les faits majeurs qui se dérouleront les jours suivants.
Publié dans la revue scientifique First Monday, un article rapporte les premiers résultats de la recherche menée par Kalev Leetaru, un chercheur de l'Université de l'Illinois. Il explique comment il pense être capable de prévoir le comportement humain à l'aide de la tonalité des médias internationaux dans l'espace et le temps.
Pour arriver à ses fins, le chercheur utilise un puissant ordinateur d'une capacité de traitement de 8,2 téraflops, nommé "Nautilus" et installé à l'université du Tennessee, dans lequel ont été importées plus de 100 millions de coupures de presse et rapports gouvernementaux. Ces articles proviennent entre autre du BBC Monitoring, de l'Open Source Center (un fournisseur de renseignements étrangers du gouvernement américain), ou encore des archives du New York Times remontant à 1945.
L'ensemble de ces articles sont parcourus, et analysés à la recherche de deux informations principales: la localisation géographique (où s'est déroulé l'évènement ?) et l'humeur (s'agit-il d'une bonne ou mauvaise nouvelle ? Le système recherche des mots clés qualificatifs comme "terrible", "horreur" ou "bonheur"). Le Nautilus traite ainsi un réseau d'une centaine de milliards d'interconnexions d'évènements, en utilisant des méthodes de calcul proches des algorithmes utilisés pour les prévisions économiques.
D'après Kalev Leetaru, le Nautilus aurait pu fournir d'importants indices sur la localisation d'Oussama Ben Laden. Si beaucoup pensaient qu'il se trouvait en Afghanistan, un seul article de presse avait évoqué la ville d'Abbotabad, où il se trouvait réellement. Toutefois, l'ensemble des données géographiques récoltées par Nautilus ont permis de le localiser à moins de 200 kilomètres de cette ville.
Certes les premiers tests ont été réalisés sur des évènements passés en traitant des articles antérieurs à l'évènement, ce qui rend le système bien moins crédible (il parait en effet simple de donner un résultat d'analyse après que l'évènement se soit passé) mais le traitement pourrait facilement fonctionner en temps réel. C'est la prochaine étape prévue, mais avant d'en arriver là, les chercheurs ont encore besoin de parfaire le système en affinant les données géographiques.