Analýza českého webového archivu

Jaroslav Kvasnica, Andrea Prokopová, Zdenko Vozár, Zuzana Kvašová

Analýza českého webového archivu

Číslo: 1/2019
Periodikum: ProInflow
DOI: 10.5817/ProIn2019-1-2

Klíčová slova: archivace webu, Webarchiv, big data, vytěžování dat, datová analýza, digitální archivace, webové zdroje, metody webové archivace

Pro získání musíte mít účet v Citace PRO.

Přečíst po přihlášení

Anotace: Účel – Článek poskytuje přehled možných vstupních kritérií při archivaci webových stránek webovými archivy a popisuje, jaký dopad může mít jejich nastavení na výsledná archivní data v rovině obsahové, formátové a technické. Nastavení vstupních parametrů při webové archivaci přímo determinuje výslednou podobu archivního obsahu a v případě realizování výzkumu nad těmito daty badatelé potřebují znát jejich provenienci. Bez těchto znalostí není pro badatele možné pracovat s archivními daty jako s reprezentativními.

Design/metodologie/přístup – Stěžejní metodou pro zpracování článku byla datová analýza indexu, tj. seznamu všech digitálních objektů českého webového archivu (Webarchivu) Národní knihovny ČR, a vstupních proměnných při tvorbě archivních dat. Konkrétně byla zkoumána jejich provenience, autenticita nebo obsah. V neposlední řadě pak i technická stránka věci, kterou je například nastavení sklízečů. Analýza vychází z praxe a proběhla nad reálně sklizenými daty.

Výsledky – V článku jsou shrnuty faktory, které ovlivňují výslednou podobu archivních dat. Zaprvé jsou to faktory, které mají dopad na sběr dat, což jsou technická nastavení, strategie výběru zdrojů, tzv. Collection policy, a legislativa. Zadruhé se jedná o nakládání s archivními daty, a to zejména o pravidla pro jejich mazání a omezování přístupu k obsahu. V článku je dále popsána analýza indexu webového archivu, která přinesla kvantifikovaný pohled na archiv a ukázala počty digitálních objektů, procentuální zastoupení souborových formátů, složení domén a vývoj archivu v čase.

Originalita/hodnota – Největším přínosem článku je ucelený náhled na data uložená ve Webarchivu, jakým způsobem vznikají a co jejich vznik ovlivňuje. Toto je stěžejní pro všechny potenciální badatele, kteří mají zájem pracovat s daty Webarchivu a kteří potřebují znát provenienci dat pro svůj výzkum.