Data Commons |
---|
 |
Lançamento | maio de 2018; há 7 anos |
---|
Endereço eletrônico | datacommons.org |
---|
Data Commons é uma plataforma de código aberto[1] criada pelo Google[2] que fornece um grafo de conhecimento aberto, combinando conjuntos de dados econômicos, científicos e outros conjuntos de dados públicos em uma visão unificada.[3] Ramanathan V. Guha, um criador de padrões da web, incluindo RDF, [4] RSS e Schema.org, [5] é o fundador do projeto [6] atualmente liderado por Prem Ramaswami. [7]
O site do Data Commons foi lançado em maio de 2018 com um conjunto de dados inicial consistindo em dados de fact-checking (verificação de fatos) publicados no formato "ClaimReview" no site Schema.org por vários verificadores de fatos da International Fact-Checking Network. [8] [9] O Google trabalhou com parceiros como a Organização das Nações Unidas (ONU) para preencher o repositório, [2] que também inclui dados do Censo dos Estados Unidos, do Banco Mundial, do Bureau of Labor Statistics dos EUA, [10] da Wikipedia, da Administração Oceânica e Atmosférica Nacional e do Federal Bureau of Investigation. [11]
O serviço se expandiu durante 2019 para incluir um gráfico de conhecimento no estilo RDF preenchido a partir de uma série de conjuntos de dados abertos, em grande parte estatísticos. O serviço foi anunciado para um público mais amplo em 2019. [12] Em 2020, o serviço melhorou sua cobertura de conjuntos de dados nde fora dos Estados Unidos, ao mesmo tempo em que aumentou sua cobertura de bioinformática e de coronavírus. [13] Em 2023, o serviço foi relançado com um front-end de linguagem natural alimentado por um grande modelo de linguagem. [2] Ele também foi lançado como back-end para o portal de dados da ONU com dados dos Objetivos de Desenvolvimento Sustentável. [14]
Características
O Data Commons dá mais ênfase a dados estatísticos do que é comum para iniciativas de dados vinculados e grafos de conhecimento. Ele inclui dados geográficos, demográficos, meteorológicos e imobiliários junto com outras categorias, [3] descrevendo estados, distritos eleitorais e cidades nos Estados Unidos, bem como espécimes biológicos, usinas de energia e elementos do genoma humano por meio do projeto Encyclopedia of DNA Elements (ENCODE). [11] Ele representa dados como triplos semânticos, cada um dos quais pode ter sua própria procedência, [3] e se concentra na integração orientada a entidades de observações estatísticas de uma variedade de conjuntos de dados públicos. Embora suporte um subconjunto da linguagem de consulta W3C SPARQL, [15] suas APIs [16] também incluem ferramentas — como uma interface de dataframe Pandas — orientadas para ciência de dados, estatística e visualização de dados.
O Data Commons é integrativo. Isso significa que ele não fornece uma plataforma de hospedagem para diferentes conjuntos de dados, mas tenta consolidar grande parte das informações fornecidas pelos conjuntos de dados em um único grafo de dados.
Tecnologia
O Data Commons é construído em um modelo de dados de grafos. O grafo pode ser acessado por meio de uma interface de navegador e várias APIs, [3] [11] e é expandido por meio do carregamento de dados (tipicamente modelos baseados em CSV e MCF ). [17] O grafo pode ser acessado por consultas em linguagem natural na Pesquisa Google. [18] O vocabulário de dados usado para definir o grafo do datacommons.org é baseado no Schema.org . [3] Em particular, os termos StatisticalPopulation [19] e Observation [20] do Schema.org foram propostos ao Schema.org para oferecer suporte a casos de uso semelhantes aos do datacommons. [21]
O software do Data Commons está disponível no GitHub sob a licença Apache 2. [22]
- ↑ «Custom Data Commons». Docs - Data Commons. Consultado em 16 July 2024
- ↑ a b c «Data Commons is using AI to make the world's public data more accessible and helpful». Google (em inglês). 13 September 2023. Consultado em 16 July 2024 Erro de citação: Código
<ref>
inválido; o nome "Google 0923" é definido mais de uma vez com conteúdos diferentes
- ↑ a b c d e Fensel, Dieter; Şimşek, Umutcan; Angele, Kevin; Huaman, Elwin; Kärle, Elias; Panasiuk, Oleksandra; Toma, Ioan; Umbrich, Jürgen; Wahler, Alexander (2020), «Introduction: What Is a Knowledge Graph?», ISBN 978-3-030-37438-9, Cham: Springer International Publishing, Knowledge Graphs (em inglês): 1–10, doi:10.1007/978-3-030-37439-6_1, consultado em 16 de outubro de 2020 Erro de citação: Código
<ref>
inválido; o nome ":0" é definido mais de uma vez com conteúdos diferentes
- ↑ Guns, Raf (2013). «Tracing the origins of the semantic web». Journal of the American Society for Information Science and Technology. 64 (10): 2173–2181. doi:10.1002/asi.22907
- ↑ Funke, Daniel (7 December 2017). «This website helps you find related fact checks - and it was built by a 17-year-old». Poynter. Consultado em 16 July 2024
- ↑ Guha, Ramanathan V. (15 October 2020). «Data Commons, now accessible on Google Search». docs.datacommons.org. Consultado em 16 de outubro de 2020
- ↑ O'Donnell, James (12 September 2024). «Google's new tool lets large language models fact-check their responses». MIT Technology Review (em inglês). Consultado em 17 September 2024
- ↑ «Fact Checks». datacommons.org. 29 March 2019. Consultado em 14 October 2020
- ↑ Jiang, Shan; Baumgartner, Simon; Ittycheriah, Abe; Yu, Cong (20 de abril de 2020). «Factoring Fact-Checks: Structured Information Extraction from Fact-Checking Articles». Proceedings of the Web Conference 2020. Col: WWW '20 (em inglês). Taipei Taiwan: ACM. pp. 1592–1603. ISBN 978-1-4503-7023-3. doi:10.1145/3366423.3380231
- ↑ Raghavan, Prabhakar (15 de outubro de 2020). «How AI is powering a more helpful Google». Google (em inglês). Consultado em 16 de outubro de 2020
- ↑ a b c Sheth, Amit; Padhee, Swati; Gyrard, Amelie; Sheth, Amit (1 de julho de 2019). «Knowledge Graphs and Knowledge Networks: The Story in Brief». IEEE Internet Computing. 23 (4): 67–75. ISSN 1089-7801. arXiv:2003.03623
. doi:10.1109/MIC.2019.2928449 Erro de citação: Código <ref>
inválido; o nome ":1" é definido mais de uma vez com conteúdos diferentes
- ↑ Luong, Daphne; Chou, Charina (5 March 2019). «Doing our part to share open data responsibly». The Keyword. Consultado em 14 October 2020
- ↑ Ramasubramanian, Sowmya (21 September 2020). «Google's open source data to study impact of COVID-19». The Hindu. Consultado em 14 October 2020
- ↑ Manyika, James (19 September 2023). «Using data and AI to track progress toward the UN Global Goals». Google (em inglês). Consultado em 22 July 2024
- ↑ «Query the Data Commons Knowledge Graph using SPARQL». datacommons.org. Consultado em 14 October 2020
- ↑ «Overview». datacommons.org. Consultado em 14 October 2020
- ↑ «Contributing to Data Commons – Adding datasets». datacommons.org. Data Commons
- ↑ Guha, Ramanathan V. (15 October 2020). «Data Commons, now accessible on Google Search». docs.datacommons.org. Consultado em 16 de outubro de 2020
- ↑ «StatisticalPopulation type at Schema.org». schema.org. Consultado em 14 October 2020
- ↑ «Observation type at Schema.org». schema.org. Consultado em 14 October 2020
- ↑ «Proposal for representing Aggregate Statistical Data». GitHub – Schema.org repository. 25 June 2019. Consultado em 14 October 2020
- ↑ «datacommons.org GitHub». GitHub