Bibliografická metadata

29.5.2018 19:20 | kategorie: Web | Komentáře

Delší dobu mi v hlavě leží otázky, jak na webu nejlépe citovat a jak to internetové citování usnadnit. Na první pohled by se mohlo zdát, že citace s těžkopádnými bibliografickými záznamy patří do "papírového věku", a když dnes jeden internetový zdroj cituje druhý, místo citace dobře poslouží prostý hypertextový odkaz. Ve skutečnosti to ovšem tak jednoduché není. Pokud se jako jediná reference na citované dílo použije jeho URI, je v delším časovém horizontu ohrožena integrita citujícího díla, protože citovaný zdroj s nemalou pravděpodobností časem zanikne nebo změní adresu. Trvanlivá citace i na internetu nutně obnáší nějakou formu zkopírování bibliografických metadat do citujícího díla (nebo nahrazení přímého odkazu na citované dílo nějakým trvanlivým identifikátorem, např. odkazem do bibliografické databáze s garantovanou trvanlivostí záznamů a jejich adres - ale to je zatím možnost spíš hypotetická).

Když jsem před delší dobou blog doplnil o generování bibliografických záznamů a strojově čitelných metadat ve dvou různých formátech, spíš než o praktické opatření pro dobro uživatelů šlo o formu "přemýšlení nahlas". (Články z webu In adiutorium samozřejmě nikdo soudný necituje, a když přeci, tak tak sporadicky, že pro to není potřeba programovat podporu.)

Nedávno jsem se na stará kolena zaregistroval na Wikipedii a začal pomalu pracovat především na kultivaci existujících českých stránek týkajících se oficia. Narcismu ne zcela prost, do jednoho hesla jsem vpašoval i citaci dvou článků z tohoto blogu. Wikipedie umožňuje automatické generování bibliografického záznamu pro článek na základě jeho URL. To mě samozřejmě zaujalo a hledal jsem, jak to funguje.

Za generování citací je zodpovědné MediaWiki rozšíření Citoid; to se zase spoléhá na službu Zotero. Dokumentace má tendenci svést čtenáře k domněnce, že pro každý internetový zdroj, který má být skrz Citoid citován, je potřeba naprogramovat Zotero "translator" (kus kódu, který díky znalosti struktury stránky nebo nějakého interního API webu umí bibliografické údaje extrahovat). To by pochopitelně pro malý a bezvýznamný web, jako je ten náš, nemělo smysl. Ve skutečnosti však Zotero při dobývání metadat z internetového zdroje, pro který nemá speciální "translator", zkouší použít výchozí, které hledají metadata podle několika rozšířenějších standardů.

Jednoduchý standard, umožňující opatřit každý článek strojově čitelnými daty podporovanými co nejširším spektrem nástrojů, je přesně to, co jsem si vždycky přál. Proto jsem si po zvážení možností jeden vybral a implementoval ho: DC-HTML, metadata podle iniciativy Dublin Core, zakódovaná přímo v (X)HTML dokumentu jen pomocí tagů link a meta. Nejen automatická citace na Wikipedii teď díky tomu umí z článku kromě titulku zjistit i autora (jak si žádá již zmiňovaný narcismus) a datum a čas vydání.