Jaroslav Kvasnica, Andrea Prokopová, Zdenko Vozár, Zuzana Kvašová
Analýza českého webového archivu
Číslo: 1/2019
Periodikum: ProInflow
DOI: 10.5817/ProIn2019-1-2
Klíčová slova: archivace webu, Webarchiv, big data, vytěžování dat, datová analýza, digitální archivace, webové zdroje, metody webové archivace
Pro získání musíte mít účet v Citace PRO.
Design/metodologie/přístup – Stěžejní metodou pro zpracování článku byla datová analýza indexu, tj. seznamu všech digitálních objektů českého webového archivu (Webarchivu) Národní knihovny ČR, a vstupních proměnných při tvorbě archivních dat. Konkrétně byla zkoumána jejich provenience, autenticita nebo obsah. V neposlední řadě pak i technická stránka věci, kterou je například nastavení sklízečů. Analýza vychází z praxe a proběhla nad reálně sklizenými daty.
Výsledky – V článku jsou shrnuty faktory, které ovlivňují výslednou podobu archivních dat. Zaprvé jsou to faktory, které mají dopad na sběr dat, což jsou technická nastavení, strategie výběru zdrojů, tzv. Collection policy, a legislativa. Zadruhé se jedná o nakládání s archivními daty, a to zejména o pravidla pro jejich mazání a omezování přístupu k obsahu. V článku je dále popsána analýza indexu webového archivu, která přinesla kvantifikovaný pohled na archiv a ukázala počty digitálních objektů, procentuální zastoupení souborových formátů, složení domén a vývoj archivu v čase.
Originalita/hodnota – Největším přínosem článku je ucelený náhled na data uložená ve Webarchivu, jakým způsobem vznikají a co jejich vznik ovlivňuje. Toto je stěžejní pro všechny potenciální badatele, kteří mají zájem pracovat s daty Webarchivu a kteří potřebují znát provenienci dat pro svůj výzkum.