Common Crawl

Common Crawl, web 'de gezinen ve arşivlerini ve veri kümelerini halka açık bir şekilde sağlayan; ABD federal yasalarına göre de vergiden muaf olan, 501(c)(3) tipi bir kâr amacı gütmeyen kuruluştur.[1][2] Common Crawl web arşivi, 2011'den beri toplanan petabaytlarca veriden oluşur.[3] Genelde her ay taramaları tamamlar.[4]

Common Crawl, Gil Elbaz tarafından kurulmuştur.[5] Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır.[6] Kuruluşun tarayıcıları nofollow ve robots.txt politikalarına uymaktadır. Common Crawl veri kümesini işlemek için açık kaynak kodu herkesin kullanımına açıktır.

Tarih

Amazon Web Services, 2012 yılında Açık Veri Kümeleri (İngilizce: Public Data Sets) programı aracılığıyla Common Crawl arşivini barındırmaya başladı.[7]

Kuruluş, o yılın Temmuz ayında ".arc" dosyalarının yanı sıra meta veri dosyalarını ve tarayıcıların metin çıktılarını yayınlamaya başladı.[8] Common Crawl arşivleri daha önce yalnızca ".arc" dosyalarını içeriyordu.

Aralık 2012'de blekko; Şubat - Ekim 2012 arasında gerçekleştirilen aramaların metaverilerini Common Crawl'a bağışladı.[9] Bağışlanan veriler, Common Crawl'un "spam, porno ve aşırı SEO'nun etkisinden kaçınıp, taramasını iyileştirmesine" yardımcı oldu.

2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Yazılım Vakfının Nutch web tarayıcısını kullanmaya başladı.[10] Common Crawl, Kasım 2013 taramasıyla ".arc" dosyalarını kullanmaktan ".warc" dosyalarına geçti.[11]

Yaygın Tarama verilerinin geçmişi

Aşağıdaki veriler resmi Common Crawl Bloğundan 27 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi. toplanmıştır.

Tarama Tarihi TİB'in boyutu Milyarlarca sayfa Yorumlar
Kasım 2018 220 2.6
Ekim 2018 240 3.0
Eylül 2018 220 2.8
Ağustos 2018
Temmuz 2018 255 3.25
Haziran 2018 235 3.05
Mayıs 2018 215 2.75
Nisan 2018 230 3.1
Mart 2018 250 3.2
Şubat 2018 270 3.4
Ocak 2018 270 3.4
Aralık 2017 240 2.9
Kasım 2017 260 3.2
Ekim 2017 300 3.65
Eylül 2017 250 3.01
Ağustos 2017 280 3.28
Temmuz 2017 240 2.89
Haziran 2017 260 3.16
Mayıs 2017 250 2.96
Nisan 2017 250 2.94
Mart 2017 250 3.07
Şubat 2017 250 3.08
Ocak 2017 250 3.14
Kasım 2016 - 2.85
Ekim 2016 - 3.25
Eylül 2016 - 1.72
Ağustos 2016 - 1.61
Temmuz 2016 - 1.73
Haziran 2016 - 1.23
Mayıs 2016 - 1.46
Nisan 2016 - 1.33
Şubat 2016 - 1.73
Kasım 2015 151 1.82
Eylül 2015 106 1.32
Ağustos 2015 149 1.84
Temmuz 2015 145 1.81
Haziran 2015 131 1.67
Mayıs 2015 159 2.05
Nisan 2015 168 2.11
Mart 2015 124 1.64
Şubat 2015 145 1.9
Ocak 2015 139 1.82
Aralık 2014 160 2.08
Kasım 2014 135 1.95
Ekim 2014 254 3.7
Eylül 2014 220 2.8
Ağustos 2014 200 2.8
Temmuz 2014 266 3.6
Nisan 2014 183 2.6
Mart 2014 223 2.8 İlk Nutch taraması
Ocak 2014 148 2.3 Aylık gerçekleştirilen taramalar
Kasım 2013 102 2 Warc dosya biçimindeki veriler
Temmuz 2012 - - Arc dosya formatındaki veriler
Ocak 2012 - - Amazon Web Services'in Herkese Açık Veri Seti
Kasım 2011 40 5 Amazon'da ilk kullanılabilirlik

Norvig Web Veri Bilimi Ödülü

Common Crawl, SURFsara ile destek olarak, Benelüks'teki öğrencilere ve araştırmacılara açık bir yarışma olan Norvig Web Data Science Award'a sponsorluk yapmaktadır.[12][13] Ödül, aynı zamanda ödülün jüri komitesine de başkanlık eden Peter Norvig'e verildi.

Kaynakça

  1. ^ Rosanna Xia (5 Şubat 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  2. ^ "Gil Elbaz and Common Crawl". NBC News. 4 Nisan 2013. 8 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  3. ^ "So you're ready to get started". 8 Ekim 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018. 
  4. ^ Lisa Green (8 Ocak 2014). "Winter 2013 Crawl Data Now Available". 25 Mayıs 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018. 
  5. ^ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. 10 Ocak 2012. 
  6. ^ Tom Simonite (23 Ocak 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. 26 Haziran 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  7. ^ Jennifer Zaino (13 Mart 2012). "Common Crawl To Add New Data In Amazon Web Services Bucket". Semantic Web. 1 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  8. ^ Jennifer Zaino (16 Temmuz 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  9. ^ Jennifer Zaino (18 Aralık 2012). "Blekko Data Donation Is A Big Benefit To Common Crawl". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  10. ^ "Common Crawl's Move to Nutch". Common Crawl. 20 Şubat 2014. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  11. ^ "New Crawl Data Available!". Common Crawl. 27 Kasım 2013. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  12. ^ "The Norvig Web Data Science Award". Common Crawl. 15 Kasım 2012. 31 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 
  13. ^ "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. 15 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014. 

Dış bağlantılar