Filip Jebavý
Pomocný software na tvorbu obrazových datových sad v digitální knihovně s využitím strojového učení
Číslo: 2/2023
Periodikum: ProInflow
DOI: 10.5817/ProIn2023-36869
Klíčová slova: datové sady; software; strojové učení; digitální knihovna; anotace
Pro získání musíte mít účet v Citace PRO.
Anotace:
Účel – Tento odborný článek popisuje možnosti využití pomocného softwaru za účelem efektivní tvorby obrazových datových sad z dokumentů digitální knihovny. Popisovaný software, kromě běžných způsobů práce s daty, využívá prvky strojového učení, které mají potenciál jak práci anotátorů usnadnit, tak také změnit anotační praktiky. Zároveň je kladen důraz na jednoduchost a otevřenost celého procesu. Cílem je na tyto prvky upozornit pomocí praktických ukázek.
Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score.
Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti.
Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.
Zobrazit více »
Design / metodologie / přístup – Po úvodní části jsou představeny možnosti výběru a separace dat z dokumentů digitální knihovny. Zároveň je poukázáno na limity těchto přístupů. Na základě těchto poznatků jsou poté zkoumány možné přístupy a využití pomocného softwaru za účelem tyto limity překonat. Metody jsou popisovány na základě praktického využití softwaru při anotačním procesu. Validace prvků strojového učení je provedena mimo jiné vizualizační technikou Class Activation Mapping a pomocí metriky F-score.
Výsledky – Popisované přístupy a využití pomocného softwaru s prvky strojového učení se ukázalo jako velmi přínosné. Software nejen práci anotátorů ulehčuje, ale zároveň značným způsobem urychluje a zpřesňuje. Za velké pozitivum lze považovat univerzálnost testovaného modelu strojového učení, která umožňuje rozšířit anotační procesy za zprvu předpokládané využití, a dává tedy prostor pro další výzkum v této oblasti.
Originalita / hodnota – Odborný článek poukazuje na možné přístupy využití pomocného softwaru, usnadňující tvorbu obrazových datových sad u dokumentů s omezeným množstvím identifikátorů, jako je například digitální knihovna, a to bez potřeby komerčních nástrojů. Dále ukazuje praktické příklady, jak lze pomocí strojového učení tyto procesy zefektivnit. Podstatné jsou také příklady možností univerzálního využití těchto procesů.