Fair data

FAIR data [fér data] jsou metodickým souborem pokynů ve světě vědy a výzkumu pro publikování výzkumných dat, které byly definovány v roce 2016.

Fair/Fér metody jsou základními principy, které fungují jako směrnice pro určení publikovaných vědeckých dat v kontextu jejich digitálního zpracovávání a užívání jak uživateli (lidmi) tak zpracovateli (stroje, počítače). Data a metadata, využívaná na základě FAIR principů, by měla být vyhledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a v poslední řadě by data a metadata měla být použitelná, případně užitá znovu bez změny své povahy (reusable). Tyto základní body principů FAIR při práci s metadaty ve vědeckém publikování jsou dále rozděleny na konkrétnější kritéria, která by měla být dodržována především v databázových systémech a datových repozitářích, které tyto data zpřístupňují.[1] Uplatnění těchto zásad je klíčovým bodem pro snazší sdílení dat, využívání informací a služeb pro vědeckou i širší odbornou veřejnost [2] a zároveň data zpracovaná FAIR zvyšují kvalitu digitálních zdrojů v kontextu tzv. otevřené vědy (open science) a volného přístupu ke zdrojům (open access).

Historie

Zkratka a principy byly definovány roku 2016 v časopise Scientific Data konsorciem vědců a organizací.[3] Data a principy FAIR vycházejí z principů strojové zpracovatelnosti dat publikovaných z vědecké činnosti společnosti Concept Web Alliance a sdružení FORCE11. Samotná vize vyhledatelnosti, přístupnosti, použitelnosti a citovatelnosti vědeckých dat byla poprvé představena na konferenci v Leidenu v roce 2014. Zároveň se stanovením samotných principů FAIR byla založena i skupina občanského sdružení FORCE11 – pojmenovaná také FAIR. V roce 2017 byl spuštěn projekt EOSC a byla založena iniciativa Global Open FAIR[4] – ve stejném roce česká skupina ELIXIR a nizozemský institut DTL vytvořili Data Stewardship Wizard (program, který umožnil plánovat správu dat pro výzkum). V roce 2020 měl být v rámci projektu European Open Science Cloud sjednocen přístup k datovým výstupům v rámci realizace výzkumných projektů v Evropě.[5]

Principy FAIR

Podle principů FAIR by digitální data a jejich metadata měla být dohledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a znovupoužitelná bez změny své povahy (reusable). Tyto principy FAIR jsou dále rozděleny na konkrétnější kritéria, tzv. bodů, které by měly být dodržovány především v databázových systémech a datových repozitářích, z důvodu zlepšení přístupu k těmto datům.[1]

Pro snazší sdílení dat a využívání informací v nich obsažených, jsou tyto zásady klíčové, jelikož přispívají ke zvýšení kvality digitálních zdrojů.

Findable – dohledatelnost

F1. (meta)datům je přiřazen jedinečný a perzistentní identifikátor (např. DOI)
F2. data jsou popsána dostatečnými metadaty
F3. (meta)data jsou registrována nebo indexována v prohledávatelných zdrojích  
F4. metadata specifikují identifikátor

Accesible – přístupnost

A1. (meta)data lze získat pomocí jejich identifikátorů při využití standardních komunikačních protokolů
A1.1 protokol je otevřený, zdarma k dispozici a univerzálně použitelný
A1.2 protokol umožňuje v případě potřeby autentizaci a autorizaci
A2. metadata jsou dostupná i v případě, že data samotná již nejsou k dispozici

Interoperable – interoperabilita

I1. (meta)data používají pro reprezentaci znalostí formální, dostupný, sdílený a široce aplikovatelný jazyk
I2. (meta)data používají slovníky, které se řídí zásadami FAIR
I3. (meta)data obsahují reference na další (meta)data

Reusable – znovuvyužitelnost

R1. meta(data) mají množství přesných a relevantních atributů
R1.1 (meta)data jsou zveřejněna s jasnou a dostupnou licencí
R1.2 (meta)data jsou spojena se svým původem
R1.3 (meta)data splňují standardy vědecké komunity pro daný obor

[6]

Princip F – findable – dohledatelnost

První bod principu – F1 – data či metadata musí být dohledatelná. K tomu slouží trvalý odkaz, ang. Persistent identifier (dále jen PI). Tento termín je nejčastěji spojen s daty přístupnými přes síťové rozhraní, kde není takový identifikátor jen trvalý, ale taktéž použitelný. V tomto případě lze jako příklad PI uvést URL. Mezi globální PI patří třeba identifikátor digitálního objektu (Digital Object Identifier – DOI).[1][4]

Druhým bodem je princip označený jako „F2“. Veškerá data musí být dostatečně popsána svými metadaty. Tato metadata slouží k následnému snazšímu vyhledávání a filtrování v datech. Metadata lze definovat jako „data o datech“, která se v digitálním prostředí využívají ve strojovém (počítačovém) zpracování při třídění a vyhledávání.

Třetí bod „Findability“ – označený jako „F3“ reprezentuje nalezitelnost dokumentu/datových souborů a určení dostupnosti a existence těchto souborů v databázi nebo úložišti. Podobně je definován i princip „F4“, který udává, že data by měla mít svůj specifický datový identifikátor.[1]

Princip A – accessible – přístupnost

Princip přístupnosti dat (nebo jejich získání nebo dosažení přístupnosti k nim) je základním principem, při jehož použití by měly být splněny podmínky přístupnosti. Ve výsledku by přístupnost dat dle principu FAIR měla zahrnovat přístupnost koncového uživatele ke zdroji nebo ke stažení datových souborů. Jedná se tedy o zohlednění požadavku, kdy data nemusejí být nutně přístupná volně, ale stačí, když je zde poskytnuta možnost jejich zpřístupnění (například při přihlášení do databáze). K tomuto se vztahuje první bod „A1“, kdy webový prohlížeč pomocí protokolu TCP (Transfer Control Protocol) umožní uživateli přístup pouze k části uloženého datového souboru (například dle metadat k abstraktu dokumentu nebo k jeho citaci), ovšem neumožní prohlédnout plný text nebo jeho stažení. Takový text je tedy díky protokolu TCP volný (free and universaly immplementable), ale není přístupný každému koncovému uživateli. Otevřený přístup k takovým datovým úložištím je poté dle bodu „A2“ podmíněn trvanlivostí uložených metadat – tedy i přesto, že samotné zdrojové datové soubory již nejsou přístupné nebo nejsou v úložišti k dispozici, metadata těchto souborů by měla být zachována (při vyhledávání jsou přístupná data o existenci dokumentu, ale k nahlédnutí je například pouze abstrakt nebo metadatový záznam o souboru).[4]

Princip I – interoperable – interoperabilita

Princip „I“ (čitelnost, reprezentace) je jeden z principů FAIR při publikování dat, který zaručuje, že data v repozitáři, v datovém úložišti nebo v databázi jsou snadno strojově čitelná a zpracovatelná, tedy, že každý počítačový systém zná alespoň formát výměny dat druhého systému.[1] Ve výsledku zpracované datové soubory by měly být přenositelné z jednoho systému do druhého za pomocí výměnných formátů dat, datových modelů (jako je například Dublin Core) či řízených slovníků tzv. tezaurů.[4] K těmto principům se vztahují body „I1“ (metadata a data využívají slovníky, kterými se principy FAIR řídí) až „I3“ (metadata a data odkazují na související data), která pro data FAIR stanovují, jaký výměnný formát bude použit (tedy zda se jedná o stejné výměnné formáty) a zda tyto datové soubory obsahují řízené slovníky nebo zda jsou na metadata vázána jiná data.[1][4]

Princip R – reusable – znovuvyužitelnost

Princip „R1“ ((meta)data mají množství přesných a relevantních atributů) stanovuje podmínky znovupoužitelnosti data a metadat. Znovupoužitelnost (popřípadě znovuvyužitelnost) se posuzuje i s přihlédnutím k metadatům, která by měla být co nejvíc vyčerpávající a plurální. Mezi taková metadata patří uvedení zdrojů, ze kterých prezentovaná data pocházejí a jakou mají povahu, jak a kým byla zpracována a zveřejněna. Uvedení zdroje (tedy původce dat) má povahu licence, kam patří například licence Creativ Commnons. Podle dalšího bodu „R1.2“ by publikovaná data a metadata měla být svázána se svým původcem a dle bodu „R1.3“ byla měla data FAIR respektovat komunitní standardy (standardizovaná data, formáty souborů, slovníky, postupy pro sdílení dat a jejich uchovávání).[2]

Reference

  1. a b c d e f HANK, Carolyn; BISHOP, Bradley Wade. Measuring FAIR Principles to Inform Fitness for Use. International Journal of Digital Curation. 2018-12-22, roč. 13, čís. 1, s. 35–46. Dostupné online [cit. 2021-12-13]. ISSN 1746-8256. DOI 10.2218/ijdc.v13i1.630. 
  2. a b IVÁNOVÁ, I.; BROWN, N.; FRASER, R. FAIR AND STANDARD ACCESS TO SPATIAL DATA AS THE MEANS FOR ACHIEVING SUSTAINABLE DEVELOPMENT GOALS. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019-11-15, roč. XLII-4/W20, s. 33–39. Dostupné online [cit. 2021-12-13]. ISSN 2194-9034. DOI 10.5194/isprs-archives-XLII-4-W20-33-2019. (anglicky) 
  3. WILKINSON, Mark D., Michel DUMONTIER, IJsbrand Jan AALBERSBERG, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, 3(1). ISSN 2052-4463. Dostupné z: doi:10.1038/sdata.2016.18
  4. a b c d e GO FAIR initiative: Make your data & services FAIR. GO FAIR [online]. [cit. 2021-12-13]. Dostupné online. (anglicky) 
  5. NOVOTNÝ, Vít. FAIR data: principy pro správu výzkumných dat. Masarykova univerzita, Fakulta informatiky. Brno, 2018. 4 strany. Dostupné také z: https://dspace.muni.cz/bitstream/ics_muni_cz/1074/1/report.pdf
  6. Open/FAIR data [online]. Knihovna AV ČR, v. v. i. [cit. 2024-12-21]. Dostupné online. 

Literatura

  • IVÁNOVÁ, I., N. BROWN, R. FRASER, N. TENGKU a E. RUBINOV. FAIR AND STANDARD ACCESS TO SPATIAL DATA AS THE MEANS FOR ACHIEVING SUSTAINABLE DEVELOPMENT GOALS. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019, XLII-4/W20, 33-39. ISSN 2194-9034. Dostupné z: doi:10.5194/isprs-archives-XLII-4-W20-33-2019
  • HANK, Carolyn a Bradley Wade BISHOP. Measuring FAIR Principles to Inform Fitness for Use. International Journal of Digital Curation. 2018, 13(1), 35-46. ISSN 1746-8256. Dostupné z: doi:10.2218/ijdc.v13i1.630
  • NOVOTNÝ, Vít. FAIR data: principy pro správu výzkumných dat. Masarykova univerzita, Fakulta informatiky. Brno, 2018. 4 strany. Dostupné také z: https://dspace.muni.cz/bitstream/ics_muni_cz/1074/1/report.pdf
  • WILKINSON, Mark D., Michel DUMONTIER, IJsbrand Jan AALBERSBERG, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, 3(1). ISSN 2052-4463. Dostupné z: doi:10.1038/sdata.2016.18

Externí odkazy