Све више и више сајтова је почело да уграђује структуриране податке који описују производе, људе, организације, места и догађаје у своје HTML странице. Web Data Commons пројекат издваја ове податке из неколико милијарди веб страница. До сада пројекат има три различита сета података преузетих из Заједничке базе2013, 2012. и 2010. год. Пројекат пружа издвојене податке за преузимање и објављује статистичке податке о распоређивању различитих формата.
Већина ових табела се користи у сврхе распореда, али део табела су такође квази-релационе, што значи да оне садрже структуриране податке који описују скуп ентитета, а тиме су корисни у ситуацијама као што су апликације за претрагу података. Веб табеле имају скуп података од 147 милиона веб релационих табела које су садржане у укупном сету од 11 милијарди HTML табела које се налазе у Заједничкој Бази. Да би се добио први утисак о темама табела, применили смо једноставан хеуристик за идентификацију заглавља колона сваке Веб табеле. Наша хеуристика претпоставка је да су заглавља колона у првом реду веб табеле која садржи најмање 80% не-празне ћелије. Са тренутним приступом подацима можемо да идентификујемо укупно 509.351.189 заглавља колона од којих 28.072.596 су различити. Да бисте добили почетни увид ентитетске покривености корпуса, увели смо налепнице колона табеле помоћу једноставног хеуристика и броје вредности у колони свих Веб табела. Почетне студије по Cafarella су показали да је од 14 милијарди HTML табела у Гоогле бази, 154 милиона табеле садржани релационе податке. Аутори дају фино-научну класификацију различитих врста HTML табела које се налазе на Вебу на основу Бинг веб пописивања.
Графикон Хипервезе
Нудимо велики графиконхипервезе који смо издвојили из Заједничке Базе 2012. Графикон може да помогне истраживачима да побољша претрагуалгоритма, развија спам методе откривања и процену графичких алгоритама за анализу. Према сазнањима, граф је највећа хипервеза графикона који је доступан јавности. Web Data Commons хиперлинк графикон се екстрактује из најновије верзије заједничке Базе, коју је окупио у првој половини 2012. Из овог корпуса, вадимо све HTML странице и свака хипервеза окренута на друго пописивање. За свако преусмјеравање, укључујемо додатне чворове у графикону који се повезује на додатном месту.
Надамо се да ће графикон бити корисан за истраживаче који развијају:
Алгоритме који рангирају резултате засноване на хипервезама између страница.
Методе детекције спама идентитета мреже веб страница које су објављене у циљу да преваре претраживача.
Истраживачи који желе да анализирају повезане обрасце у оквиру посебних тематских области, како би се утврдили друштвенимеханизми који регулишу ове домене.
Лиценца
Екстрактовање податка, обезбеђује податке према истим условима коришћења, одрицање од гаранције и ограничења обавеза које се односе на Заједничку Базу. Web Data Commons екстракција framework-а оквир може да се користи под условима из Apache Software License.
Apache Software License означава услове за коришћење, репродукција и дистрибуција као што је дефинисано у члановима овог документа. Давалац лиценце означава власник ауторских права или лице овлашћено од стране власника ауторских права. Можемо слати питања и повратне информације на Web Data Commons маилинг листе или да их поставимо у Web Data Commons Google Group.
Подршка
Web Data Commons је подржан од стране Европске унијеEU FP7 пројеката, PlanetData и LOD2, као и Amazon Web Services in Education Grant Award[2] и Њемачке фондације за истраживање.
PlanetData[3] има за циљ да успостави одрживу европску заједницу истраживача који подржава организације у излагање своје податке у новим и корисних начина.