Common Crawl, web 'de gezinen ve arşivlerini ve veri kümelerini halka açık bir şekilde sağlayan; ABD federal yasalarına göre de vergiden muaf olan, 501(c)(3) tipi bir kâr amacı gütmeyen kuruluştur.[1][2] Common Crawl web arşivi, 2011'den beri toplanan petabaytlarca veriden oluşur.[3] Genelde her ay taramaları tamamlar.[4]
Common Crawl, Gil Elbaz tarafından kurulmuştur.[5] Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır.[6] Kuruluşun tarayıcıları nofollow ve robots.txt politikalarına uymaktadır. Common Crawl veri kümesini işlemek için açık kaynak kodu herkesin kullanımına açıktır.
Tarih
Amazon Web Services, 2012 yılında Açık Veri Kümeleri (İngilizce: Public Data Sets) programı aracılığıyla Common Crawl arşivini barındırmaya başladı.[7]
Kuruluş, o yılın Temmuz ayında ".arc" dosyalarının yanı sıra meta veri dosyalarını ve tarayıcıların metin çıktılarını yayınlamaya başladı.[8] Common Crawl arşivleri daha önce yalnızca ".arc" dosyalarını içeriyordu.
Aralık 2012'de blekko; Şubat - Ekim 2012 arasında gerçekleştirilen aramaların metaverilerini Common Crawl'a bağışladı.[9] Bağışlanan veriler, Common Crawl'un "spam, porno ve aşırı SEO'nun etkisinden kaçınıp, taramasını iyileştirmesine" yardımcı oldu.
2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Yazılım Vakfının Nutch web tarayıcısını kullanmaya başladı.[10] Common Crawl, Kasım 2013 taramasıyla ".arc" dosyalarını kullanmaktan ".warc" dosyalarına geçti.[11]
Yaygın Tarama verilerinin geçmişi
Aşağıdaki veriler resmi Common Crawl Bloğundan 27 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi. toplanmıştır.
Tarama Tarihi
|
TİB'in boyutu
|
Milyarlarca sayfa
|
Yorumlar
|
Kasım 2018
|
220
|
2.6
|
|
Ekim 2018
|
240
|
3.0
|
|
Eylül 2018
|
220
|
2.8
|
|
Ağustos 2018
|
|
|
|
Temmuz 2018
|
255
|
3.25
|
|
Haziran 2018
|
235
|
3.05
|
|
Mayıs 2018
|
215
|
2.75
|
|
Nisan 2018
|
230
|
3.1
|
|
Mart 2018
|
250
|
3.2
|
|
Şubat 2018
|
270
|
3.4
|
|
Ocak 2018
|
270
|
3.4
|
|
Aralık 2017
|
240
|
2.9
|
|
Kasım 2017
|
260
|
3.2
|
|
Ekim 2017
|
300
|
3.65
|
|
Eylül 2017
|
250
|
3.01
|
|
Ağustos 2017
|
280
|
3.28
|
|
Temmuz 2017
|
240
|
2.89
|
|
Haziran 2017
|
260
|
3.16
|
|
Mayıs 2017
|
250
|
2.96
|
|
Nisan 2017
|
250
|
2.94
|
|
Mart 2017
|
250
|
3.07
|
|
Şubat 2017
|
250
|
3.08
|
|
Ocak 2017
|
250
|
3.14
|
|
Kasım 2016
|
-
|
2.85
|
|
Ekim 2016
|
-
|
3.25
|
|
Eylül 2016
|
-
|
1.72
|
|
Ağustos 2016
|
-
|
1.61
|
|
Temmuz 2016
|
-
|
1.73
|
|
Haziran 2016
|
-
|
1.23
|
|
Mayıs 2016
|
-
|
1.46
|
|
Nisan 2016
|
-
|
1.33
|
|
Şubat 2016
|
-
|
1.73
|
|
Kasım 2015
|
151
|
1.82
|
|
Eylül 2015
|
106
|
1.32
|
|
Ağustos 2015
|
149
|
1.84
|
|
Temmuz 2015
|
145
|
1.81
|
|
Haziran 2015
|
131
|
1.67
|
|
Mayıs 2015
|
159
|
2.05
|
|
Nisan 2015
|
168
|
2.11
|
|
Mart 2015
|
124
|
1.64
|
|
Şubat 2015
|
145
|
1.9
|
|
Ocak 2015
|
139
|
1.82
|
|
Aralık 2014
|
160
|
2.08
|
|
Kasım 2014
|
135
|
1.95
|
|
Ekim 2014
|
254
|
3.7
|
|
Eylül 2014
|
220
|
2.8
|
|
Ağustos 2014
|
200
|
2.8
|
|
Temmuz 2014
|
266
|
3.6
|
|
Nisan 2014
|
183
|
2.6
|
|
Mart 2014
|
223
|
2.8
|
İlk Nutch taraması
|
Ocak 2014
|
148
|
2.3
|
Aylık gerçekleştirilen taramalar
|
Kasım 2013
|
102
|
2
|
Warc dosya biçimindeki veriler
|
Temmuz 2012
|
-
|
-
|
Arc dosya formatındaki veriler
|
Ocak 2012
|
-
|
-
|
Amazon Web Services'in Herkese Açık Veri Seti
|
Kasım 2011
|
40
|
5
|
Amazon'da ilk kullanılabilirlik
|
Norvig Web Veri Bilimi Ödülü
Common Crawl, SURFsara ile destek olarak, Benelüks'teki öğrencilere ve araştırmacılara açık bir yarışma olan Norvig Web Data Science Award'a sponsorluk yapmaktadır.[12][13] Ödül, aynı zamanda ödülün jüri komitesine de başkanlık eden Peter Norvig'e verildi.
Kaynakça
Dış bağlantılar