Web data common

Web Data Commons пројекат издваја структуриране податке из заједничке Базе. Највећи део веб садржаја доступан је јавности, а пружа издвојене податке за јавно преузимање у циљу подршке научних истраживања и компанија. Тиме се користи богатство информација које су доступне на интернету.

Све више и више сајтова је почело да уграђује структуриране податке који описују производе, људе, организације, места и догађаје у своје HTML странице. Web Data Commons пројекат издваја ове податке из неколико милијарди веб страница. До сада пројекат има три различита сета података преузетих из Заједничке базе 2013, 2012. и 2010. год. Пројекат пружа издвојене податке за преузимање и објављује статистичке податке о распоређивању различитих формата.

Web Data Commons пројекат^[1] је започео с истраживањем на Freie Universität у Берлину и Karlsruhe Institute of Technology (КИТ) у 2012. Циљ пројекта је да олакша истраживања и подршку компанија у експлоатацију богатства информација на Вебу вадећи структуриране податке из Веб Базе и пописује ове податке за јавно преузимање. Данас WDC пројекат углавном одржава податаке у Web Science Research Group на Универзитету у Манхајму. Пројекат је координиран од стране Christiana Bizera који се преселио из Берлина у Манхајм.

Веб Табеле

Већина ових табела се користи у сврхе распореда, али део табела су такође квази-релационе, што значи да оне садрже структуриране податке који описују скуп ентитета, а тиме су корисни у ситуацијама као што су апликације за претрагу података. Веб табеле имају скуп података од 147 милиона веб релационих табела које су садржане у укупном сету од 11 милијарди HTML табела које се налазе у Заједничкој Бази. Да би се добио први утисак о темама табела, применили смо једноставан хеуристик за идентификацију заглавља колона сваке Веб табеле. Наша хеуристика претпоставка је да су заглавља колона у првом реду веб табеле која садржи најмање 80% не-празне ћелије. Са тренутним приступом подацима можемо да идентификујемо укупно 509.351.189 заглавља колона од којих 28.072.596 су различити. Да бисте добили почетни увид ентитетске покривености корпуса, увели смо налепнице колона табеле помоћу једноставног хеуристика и броје вредности у колони свих Веб табела. Почетне студије по Cafarella су показали да је од 14 милијарди HTML табела у Гоогле бази, 154 милиона табеле садржани релационе податке. Аутори дају фино-научну класификацију различитих врста HTML табела које се налазе на Вебу на основу Бинг веб пописивања.

Графикон Хипервезе

Нудимо велики графикон хипервезе који смо издвојили из Заједничке Базе 2012. Графикон може да помогне истраживачима да побољша претрагу алгоритма, развија спам методе откривања и процену графичких алгоритама за анализу. Према сазнањима, граф је највећа хипервеза графикона који је доступан јавности. Web Data Commons хиперлинк графикон се екстрактује из најновије верзије заједничке Базе, коју је окупио у првој половини 2012. Из овог корпуса, вадимо све HTML странице и свака хипервеза окренута на друго пописивање. За свако преусмјеравање, укључујемо додатне чворове у графикону који се повезује на додатном месту.

Надамо се да ће графикон бити корисан за истраживаче који развијају: Алгоритме који рангирају резултате засноване на хипервезама између страница. Методе детекције спама идентитета мреже веб страница које су објављене у циљу да преваре претраживача. Истраживачи који желе да анализирају повезане обрасце у оквиру посебних тематских области, како би се утврдили друштвени механизми који регулишу ове домене.

Лиценца

Екстрактовање податка, обезбеђује податке према истим условима коришћења, одрицање од гаранције и ограничења обавеза које се односе на Заједничку Базу. Web Data Commons екстракција framework-а оквир може да се користи под условима из Apache Software License. Apache Software License означава услове за коришћење, репродукција и дистрибуција као што је дефинисано у члановима овог документа. Давалац лиценце означава власник ауторских права или лице овлашћено од стране власника ауторских права. Можемо слати питања и повратне информације на Web Data Commons маилинг листе или да их поставимо у Web Data Commons Google Group.

Подршка

Web Data Commons је подржан од стране Европске уније EU FP7 пројеката, PlanetData и LOD2, као и Amazon Web Services in Education Grant Award^[2] и Њемачке фондације за истраживање.

PlanetData^[3] има за циљ да успостави одрживу европску заједницу истраживача који подржава организације у излагање своје податке у новим и корисних начина.
LOD2^[4] је велики пројекат суфинансиран од стране Европске комисије у оквиру ФП7 информационих и комуникационих технологија.
Amazon Web Services облак је у јединственој позицији да пружи трошковно ефикасна решења за образовне заједнице.

Види још

Референце

^ Web Data Commons
^ „Education Grant Award”. Архивирано из оригинала 17. 05. 2014. г. Приступљено 15. 05. 2014.
^ „PlanetData”. Архивирано из оригинала 30. 05. 2014. г. Приступљено 15. 05. 2014.
^ „LOD2”. Архивирано из оригинала 17. 05. 2014. г. Приступљено 15. 05. 2014.