WARC : nouveau format de fichier ISO pour stocker des milliards de données en ligne
Une page aujourd'hui présente sur le Web peut avoir disparu le lendemain. Une nouvelle norme ISO, ISO 28500:2009, Information et documentation - Format de fichier WARC, fera en sorte que, lorsqu'une page est modifiée ou disparaît, les informations abondantes et souvent précieuses placées sur le Web ne se perdent pas.
La norme ISO 28500 définit un format de fichier appelé WARC (Web ARchive), qui propose une convention pour la concaténation de plusieurs objets de données dans un seul fichier long. Le format peut être utilisé pour créer des applications pour la collecte, la gestion, l'accès et l'échange de contenu.
« Pendant longtemps, garder la trace du nombre impressionnant de sites et pages Web a représenté une difficulté majeure pour les conservateurs et archivistes de données numériques et a abouti à la perte d'innombrables données », déclare Clément Oury, membre du groupe de travail qui a élaboré la norme.
« Grâce au format WARC, ISO 28500 porte l'archivage Internet à un niveau supérieur en permettant la gestion, la structuration et le stockage efficaces de milliards de ressources collectées sur le Web et ailleurs. Sa normalisation offre une garantie de durabilité, et contribuera à ce que l'archivage du Web devienne partie intégrante des activités ordinaires des organismes de préservation du patrimoine et d'autres institutions, par exemple en favorisant le développement de nouveaux outils et en assurant l'interopérabilité entre les collections », explique Clément Oury.
Le format WARC est une extension du format de fichier ARC, utilisé par l'Internet Archive depuis 1996, et par de nombreux organismes de préservation du patrimoine pour stocker les «Web crawls» - qui sont des extraits de pages Web entières avec leurs liens.
La motivation d'étendre l'ARC est née des débats et expériences de ces organisations au sein de l'International Internet Preservation Consortium (IIPC) - dont la mission principale est d'acquérir, préserver et rendre accessibles les connaissances et informations de l'Internet pour les générations futures. Les membres de l'IIPC constataient qu'il était de plus en plus difficile de stocker et gérer le volume croissant d'informations venant de l'Internet.
Le format WARC diffère du format ARC en ce sens qu'il offre des possibilités nouvelles, notamment l'enregistrement des entêtes de requête HTTP et des métadonnées, l'attribution d'un identifiant pour chaque fichier contenu, la gestion des doublons et des enregistrements migrés, et la segmentation des enregistrements. Les fichiers WARC sont destinés à stocker tout type de contenu numérique, qu'il soit récupéré par HTTP ou par un autre protocole.
« Plusieurs applications sont déjà conformes à WARC, notamment le robot d'indexation Heritrix, les outils WARC pour la gestion et l'échange des données, la Wayback Machine, NutchWAX et autres outils de recherche pour l'accès », ajoute M. Oury.
La norme ISO 28500: 2009, Information et documentation - Format de fichier WARC, a été élaborée par le comité technique ISO/TC 46, Information et documentation, sous-comité SC 4, Interopérabilité technique.
Les 10 derniers articles mis en ligne
- Cette adhésion nous a également permis de bénéficier de référencements nationaux
Regards croisés : Resadia et TL Systèmes - Dimension Data rachète Xigo
- Marché européen du PC : les gagnants pays par pays en 2011
- In (Big) Datis Veritas
- Lenovo épinglé pour "vente liée"
- Isilon d'EMC intègre le système de fichiers Hadoop
- Keyrus : des résultats 2011 comparables à ceux de 2010
- Les diplômés et les entreprises sont des partenaires
- Guy Roussel, Président de la Fondation Télécom - Karotz : le lapin qui se connecte à Facebook
- Urban Factory ajoute 5 connecteurs à l'iPad/iPhone









Imprimer l'article
Transférer par mail
Réagir à cet article













le 06/02/2012 à 08:48