Pages

jeudi 14 avril 2016

Le logiciel derrière les Panama Papers



La fuite a été de 2,6 téraoctets et composée de 4, 8 millions d'e-mails, de 3 millions formulaires de base de données, de 2,1 millions pdf, de 1,1 million d'images, de 320 000 textes et de 2200 documents d’autres types.
 
Lorsque le journal allemand Süddeutsche Zeitung et le Réseau des journalistes international ICIJ ont reçu ces 11,5 millions documents fuités, il fallait tout d’abord les rendre consultables.

Nuix est le nom du logiciel qui les a aidés. Il comprend des fonctions pour récupérer, indexer et analyser les documents non triés. La première mesure a été de scanner tous les documents qui n’étaient pas en format texte et d’utiliser la fonction reconnaissance optique de caractères, ROC, (en anglais optical character recognition,OCR), inclus dans Nuix. Cette tâche a pris plusieurs jours.

Une fois réalisée les journalistes pouvaient utiliser le moteur de recherche et d’autres utiles d’analyses, aussi intégré dans Nuix. Sans ces fonctionnalités le travail de corréler des noms et d’autres donnés dans un tel masse d’informations n’aurait pas été possible.

Le logiciel a été créé en 2000 par un groupe de chercheurs en informatique Australien, avec le but de créer un moteur de recherche pour la gestion de l'information non structurée. Ils ont nommé leur résultat Nuix, New Universal Intelligence Exchange.

Ce logiciel a maintenant été vendu à plus de 1500 clients dans 60 pays. Il est utilisé par des enquêteurs, des institutions financières, des entreprises, des organismes d'application de la loi, des cabinets d'avocats et d'autres qui ont besoin de chercher dans des masses de documents numérisés.

Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.