Robot engelleme standardı

Robot engelleme standardı, (aynı zamanda Robot engelleme protokolü veya robots.txt olarak da bilinir) web böceği (İngilizceweb spawler) veya web örümceği (İngilizceweb spider) gibi yazılımların web sunucularının kamuya açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.

Standart Hakkında

Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Örneğin, web sitenizde arama motorunda çıkmasını istemediğiniz mahrem bilgiler olabileceği gibi ya da sitenizdeki belirli bir içeriğin arama motorlarında çıkmasının sitenin bütününü yanlış tanıtacağı ya da yanlış anlaşılmalara yol açabileceği durumlarda olabilmektedir. Bu gibi durumlar dosyanın kullanım amaçlarından bazı örneklerdir.

Ana domain ile beraber birçok alt-domain'i bulunan web siteleri için, her bir alt-domain kendine ait bir robots.txt dosyasına sahip olmalıdır. Örneğin;

example.com domain'i kendine ait bir robots.txt dosyasına sahipse, fakat a.example.com altında bu dosya yok ise, arama motoru robotları olmayan siteyi arama sayfalarında tarama yaptıysa, listeleyecektir.

Dezavantajları

Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolü uygulamasına ihtiyaç duymaktadır. Yani sitenize bir robots.txt dosyası koymanız, mahremiyetinizi garanti altına almamaktadır. Bazı web site idarecileri robots dosyalarını web sitelerinin özel bölümlerini tüm dünyaya görünmez yapmak için kullanmayı denediler fakat dosyanın kamuya açık olması gerekmekteydi ve dosyanın içeriği bir web tarayıcısı olan herkese açıktı.

Robots.txt dosyası için herhangi bir resmi standart kurum ya da RFC (İng. Request For Comments - internet ve internetin çalışması ile ilgili metotlar araştırmalar ve bilgilerin bulunduğu dokümanlar arşivi) yoktur. Sadece bir robot mail grubu olan [email protected] üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden ibarettir.[1] Robotlar tarafından erişilmesinin istenmediği bölümlerin bulunduğu robots.txt dosyası, sitenin kök dizininde bulunmalıdır. Dosya içeriğinde kullanılabilecek metinler aşağıda ayrıca açıklanmıştır.

Otomatik İçerik Kullanım Protokolü

İngilizcesi Automated Content Access Protocol olan ve Dünya Gazeteler Birliği tarafından başlatılan bu girişimin amacı, kendi ifadelerine göre, gazete ve dergi içeriklerinin izinsiz kullanılmasını önlemek. Bu amaçla geliştirilen yazılım; gazete ve dergi içeriklerinin kullanımını denetliyor, bunun için izin alınmasını kolaylaştırıyor, izinsiz kullanılan malzemeyi saptıyor ve fikri hakların takibi için müthiş bir destek sağlıyor.[2] Bu uygulamada web sitelerinin içeriğini tarayıp izinsiz kullanım olup olmadığını tarayacağı sistemi nedeni ile, Robot Engelleme Standardının gelecekteki muhtemel eklentisi olarak görülmektedir.

Örnek Kullanımlar

Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; " * " yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.

User-agent: *
Disallow:

Bütün robotların, site üzerindeki hiçbir dosyayı taramaması istenen örnek;

User-agent: *
Disallow: /

Bütün robotlar, site üzerindeki aşağıdaki 4 klasörün içeriğini indekslememeli;

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

İsmi verilen robot, site üzerindeki ismi verilen klasörün içeriğini indekslememeli;

User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/

Bütün robotlar, site üzerindeki aşağıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.

User-agent: *
Disallow: /directory/file.html

a harfi ile başlayan içerikleri engelleme

User-agent: *
Disallow: /a
#Bu kullanımda siteadi.com/a içeriğinin yanı sıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.

Kod içinde yorum yazılan örnekler;

# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun

Wordpress için admin ve giriş panelinde örnek kullanım;

User-agent: *
Allow: /
Disallow: /wp-admin/*
Disallow: /wp-login/*
Disallow: /cgi-bin/

Blogger için arama sonuçları ve etiketlerde örnek kullanımı;

User-agent: *
Disallow: /search
Disallow: /search?q=
Allow: /

[3]

Uyumluluk

Bütün robotların, bütün sayfalara erişiminin istenmediği durumlarda

Disallow: *  # yıldız kullanmak pek uygun olmayacağı için onun yerine " / " kullanın.

Standart Dışı Kullanımlar

Geciktirme komutları

Çoğu büyük web arama botları geciktirme komutunu destekler. Örneğin aşağıdaki örnekte robottan ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır.[4][5]

User-agent: *
Crawl-delay: 10

İzin Ver komutu

Bazı büyük botlar, Allow (izin ver ) komutu kullanarak Disallow (kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt'nin ilk satırı uygulamaya konulabilir. Fakat Google'ın uygulamasında önce tüm Allow (izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Örneğin;

Allow: /folder1/myfile.html
Disallow: /folder1/

Bu örnekte folder1/myfile.html hariç o klasördeki tüm dosyalar göz ardı edilir.

Gelişmiş Standartlar

Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.[6]

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845     # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi

Bu standardın ilk versiyonunda " * " ya da " Disallow " diye herhangi bir komut yoktu. Googlebot ve Slurp gibi modern arama botları " * " lı komutları tanısa da, MSNbot ve Teoma bu komutu farklı şekilde anlamaktadır.[7]

En İyi Uygulamalar

  • Web sitenizin taranmasını istediğiniz hiçbir içeriğini engellemediğinizden emin olun.
  • Robots.txt tarafından engellenen sayfalardaki bağlantılar taranmayacaktır. Bu da demek oluyor ki: Diğer arama motorlarına erişilebilen sayfalar (yani, robots.txt, meta robotlar veya başka bir yolla engellenmeyen sayfalar) bağlantılı olmadıkça, kaynaklar taranmayacak ve dizine eklenmeyecektir. Engellenen sayfalar arası veri eşitliği sağlanamaz. Eşitliğin sağlanmasını istediğiniz sayfalarınız varsa, robots.txt dışında farklı bir engelleme mekanizması kullanabilirsiniz.
  • SERP sonuçlarında hassas verilerin (özel kullanıcı bilgileri gibi) görünmesini engellemek için robots.txt dosyasını kullanmayın. Diğer sayfalar doğrudan özel bilgiler içeren bir sayfaya (domaininizin ana sayfasındaki robots.txt yönergelerini atlayarak) bağlanabileceğinden, izin vermediğiniz dizine erişebilir. Sayfanızı arama sonuçlarından engellemek istiyorsanız, parola koruması veya noindex meta yönergesi gibi farklı yöntemler kullanabilirsiniz.
  • Bazı arama motorlarında birden fazla kullanıcı aracısı vardır. Örneğin, Google, aramalar için Googlebot’u ve görsel arama için Googlebot-Image’i kullanır. Aynı arama motorundaki çoğu kullanıcı aracısı aynı komutlara göre hareket eder, böylece bir arama motorunun birden fazla tarayıcısının her biri için yönergeler ayrı komutlar atamanıza gerek kalmaz. Ancak bunu yapabilmeniz için site içeriğinizin nasıl taranacağını iyi ayarlayabilmeniz gerekir.
  • Bir arama motoru robots.txt içeriğini önbelleğe alır, ancak genellikle önbellek içeriğini günde en fazla bir kez günceller. Dosyayı değiştirirmek ve olduğundan daha hızlı bir şekilde güncellemek istiyorsanız, robots.txt URL’nizi Google’a gönderebilirsiniz.[8]

Ayrıca bakınız

Dış bağlantılar

Kaynakça

  1. ^ "RFC History (İngilizce)". Robotstxt.org. 17 Mayıs 2008 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  2. ^ "Medyalens". Medyalens. 11 Ocak 2009 tarihinde kaynağından arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  3. ^ "Robots.txt Nedir". Hacoos. 19 Ocak 2020 tarihinde kaynağından arşivlendi. Erişim tarihi: 19 Ocak 2020. 
  4. ^ "How can I reduce the number of requests you make on my web site?". Yahoo! Slurp. 20 Kasım 2011 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 31 Mart 2007. 
  5. ^ "MSNBot is crawling a site too frequently". Troubleshoot issues with MSNBot and site crawling. 7 Mayıs 2008 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 8 Şubat 2007. 
  6. ^ "An Extended Standard for Robot Exclusion". 10 Kasım 2015 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 16 Aralık 2008. 
  7. ^ "Search engines and dynamic content issues". MSNbot issues with robots.txt. 1 Nisan 2010 tarihinde kaynağından (HTML) arşivlendi. Erişim tarihi: 1 Nisan 2007. 
  8. ^ "Robots.txt Dosyası - HACOOS". 4 Aralık 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 15 Şubat 2021. 

Read other articles:

Bruce RaunerRauner pada 2016 Gubernur Illinois ke-42Masa jabatan12 Januari 2015 – 14 Januari 2019WakilEvelyn Sanguinetti PendahuluPat QuinnPenggantiJ. B. Pritzker Informasi pribadiLahirBruce Vincent Rauner18 Februari 1956 (umur 68)Chicago, Illinois, ASPartai politikRepublikSuami/istriElizabeth Wessel ​ ​(m. 1980; bercerai 1993)​ Diana Mendley ​(m. 1994)​Anak6PendidikanDartmouth College (Sarjana)Harvar...

 

Peta Lokasi Kabupaten Aceh Selatan di Aceh Berikut ini adalah daftar kecamatan dan gampong di kabupaten Aceh Selatan.Kabupaten Aceh Selatan memiliki 18 kecamatan dan 260 gampong dengan kode pos 23711-23774 (dari total 243 kecamatan dan 5827 gampong di seluruh Aceh). Per tahun 2010 jumlah penduduk di wilayah ini adalah 202.003 (dari penduduk seluruh provinsi Aceh yang berjumlah 4.486.570) yang terdiri atas 99.616 pria dan 102.387 wanita (rasio 97,29). Dengan luas daerah 417.659 ha (dibanding l...

 

Le 12 août 2017 est organisée, à Charlottesville en Virginie, la manifestation « Unite the Right », visant à maintenir la statue équestre du général Lee dans un parc de la ville. Après l'annulation de la manifestation par les forces de l'ordre, une voiture-bélier fait irruption dans une foule de contre-manifestants, blessant plusieurs dizaines de personnes et provoquant la mort de Heather Heyer, alors âgée de 32 ans. Le conducteur de la voiture, James Alex Fields, est r...

Untuk desa di Jawa Tengah, lihat Pujut, Tersono, Batang. PujutKecamatanNegara IndonesiaProvinsiNusa Tenggara BaratKabupatenLombok TengahPemerintahan • CamatLalu Sungkul, S.Pd (2O19)Populasi • Total9,6302 jiwa jiwaKode Kemendagri52.02.04 Kode BPS5202020 Luas233,55km² Pujut adalah sebuah kecamatan di kabupaten Lombok Tengah, Nusa Tenggara Barat, Indonesia. Pusat pemerintahannya berada di Desa Desa Sengkol yang berjarak sekitar 15 Km tenggara ibu kota Kabupaten Lomb...

 

Kosmografi Dinasti Zhou yang menggambarkan Huaxia dan Siyi: Dongyi di timur, Nanman di selatan, Xirong di barat, dan Beidi di utara. Beidi, Di Utara, atau Suku Barbar Utara adalah sejumlah kelompok etnis yang tinggal di sebelah utara Tiongkok (Huaxia) pada masa Dinasti Zhou. Pada awalnya mereka digambarkan sebagai suku yang nomaden, tetapi mereka tampaknya menggambungkan praktik peternakan, pertanian, dan perburuan, dan tidak sama dengan suku-suku nomaden di stepa Eurasia (Hu) yang tinggal di...

 

Unincorporated community in California, United States Census-designated place in California, United StatesAltadena, CaliforniaCensus-designated placeAerial view of Altadena and Eaton Canyon FlagLocation of Altadena in Los Angeles County, CaliforniaAltadena, CaliforniaLocation in the United StatesCoordinates: 34°11′19″N 118°8′5″W / 34.18861°N 118.13472°W / 34.18861; -118.13472Country United StatesState CaliforniaCounty Los AngelesArea[1]...

Yemeni tribal confederation HashidحاشدQahtaniteSadiq al-Aḥmar, former Sheikh of all sheikhs of HashidEthnicityArabNisbaAl-HāshidiLocationYemenDescended fromJashim ibn Jubran ibn Nawf ibn Tuba'a ibn Zayd ibn Amr ibn HamdanParent tribeBanu HamdanBranches Banu Suraim Banu Kharif Banu al-Asimat Banu Eudhr Banu Ghithan Banu Qasim Banu Arajila Banu Yam Banu Murra Banu Ajam LanguageArabicReligionIslam The Hashid (Arabic: حاشد; Musnad: 𐩢𐩦𐩵𐩣) is a tribal confederation in Yemen. ...

 

Mixed Indigenous ethnic group of Canada and the US For other uses, see Metis. Not to be confused with Meitei people. MétisMichifMétis flagsTotal population624,220[1] (2021)Canada624,220[1]United StatesUnknownLanguagesMichif, Cree, Canadian French, North American English, Hand Talk, Bungee, other Indigenous languagesReligionPredominantly Christianity (Roman Catholicism and Protestantism) MétisPeopleMétisLanguageMichifMétis FrenchHand TalkCountryMichif Piyii The Métis (/me...

 

1943 airliner shootdown incident BOAC Flight 777AAccidentDate1 June 1943SummaryAttacked by eight German Junkers Ju 88 bombers of KG 40, crashed into the seaSiteBay of Biscay, off the coast of Spain and France 46°07′00″N 10°15′00″W / 46.11667°N 10.25000°W / 46.11667; -10.25000AircraftAircraft typeDouglas DC-3-194Aircraft nameIbisOperatorBritish Overseas Airways Corporation (aircraft owned and operated by KLM)RegistrationG-AGBBFlight originLisbon Po...

1993 Lithuanian presidential election 14 February 1993 1997–98 →   Nominee Algirdas Brazauskas Stasys Lozoraitis Jr. Party LDDP Independent Popular vote 1,212,075 772,922 Percentage 61.06% 38.94% President before election Algirdas Brazauskas (acting) LDDP Elected President Algirdas Brazauskas LDDP Presidential elections were held in Lithuania on 14 February 1993.[1] They were the first presidential elections under the new October 1992 constitution and the first...

 

Paul Alo'o Informasi pribadiNama lengkap Paul Claudel Alo'o EfoulouTanggal lahir 12 November 1983 (umur 40)Tempat lahir Yaoundé, KamerunTinggi 1,76 m (5 ft 9+1⁄2 in)Posisi bermain PenyerangInformasi klubKlub saat ini NancyNomor 14Karier junior2001–2002 ASM YaoundéKarier senior*Tahun Tim Tampil (Gol)2002–2003 Mouscron 12 (1)2003–2004 Racing Paris 23 (16)2004–2007 L'Entente 89 (35)2007–2009 Angers 69 (24)2009– Nancy 37 (6)2011–2012 → Le Havre (pinjam...

 

SinunukanKecamatanPeta lokasi Kecamatan SinunukanNegara IndonesiaProvinsiSumatera UtaraKabupatenMandailing NatalPemerintahan • CamatSatruddin, S.HPopulasi • Total15,519 jiwa jiwaKode Kemendagri12.13.22 Kode BPS1202011 Luas23.663 km²Desa/kelurahan14 Sinunukan adalah sebuah kecamatan di Kabupaten Mandailing Natal, Sumatera Utara, Indonesia. Kecamatan ini termasuk kawasan Pantai Barat Sumatera Utara yang komoditas utama masyarakatnya adalah pertanian dan perkebunan ...

1991 studio album by Diana RossThe Force Behind the PowerStudio album by Diana RossReleasedSeptember 10, 1991GenreNew jack swingR&BLength47:3356:51LabelMotownProducerStevie WonderAl B. Sure!James Anthony CarmichaelPeter AsherDiana Ross chronology Greatest Hits Live(1989) The Force Behind the Power(1991) Stolen Moments: The Lady Sings... Jazz and Blues(1993) Singles from The Force Behind the Power If We Hold on TogetherReleased: November 5, 1988 No Matter What You Do (Duet w/ Al B....

 

Artikel ini bukan mengenai Bosnia dan Herzegovina atau Republik Bosnia dan Herzegovina. Federasi Bosnia dan HerzegovinaFederacija Bosne i Hercegovine Федерација Босне и ХерцеговинеEntitas federal FlagLokasi Federasi Bosnia danHerzegovina (red) di dalam Bosnia dan Herzegovina.aNegara Bosnia dan HerzegovinaPerjanjian Washington (1994)18 Maret 1994Diakui sebagaibagian dari Bosniadan Herzegovina14 Desember 1995Capitaland largest citySarajevo43°52′N 18°25′E&#x...

 

United States federal law Grain Futures ActOther short titlesGrain Futures Act of 1922Grain Standards ActLong titleA bill for the prevention and removal of obstructions and burdens upon interstate commerce in grain, by regulating transactions on grain future exchanges, and for other purposes.Enacted bythe 67th United States CongressEffectiveSeptember 21, 1922CitationsPublic law67-331Statutes at Large42 Stat. 998CodificationTitles amended7 U.S.C.: AgricultureU.S.C. sections amen...

List of events ← 1960 1959 1958 1961 in the United States → 1962 1963 1964 Decades: 1940s 1950s 1960s 1970s 1980s See also: History of the United States (1945–1964) Timeline of United States history (1950–1969) List of years in the United States 1961 in the United States1961 in U.S. states and territories States Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Ma...

 

Grand opera in five acts by Charles Gounod This article is about the opera by Charles Gounod. For the opera by Louis Spohr, see Faust (Spohr). For other operas, see Works based on Faust § Operas. FaustOpera by Charles GounodMarguerite's garden in the original production, set design by Édouard DesplechinOther titleMargarethe or GretchenLibrettist Jules Barbier Michel Carré LanguageFrenchBased onFaust et Margueriteby Michel CarréPremiere19 March 1859 (1859-03-19)Théâtr...

 

日本における公衆電話については「日本の公衆電話」をご覧ください。 この項目では、施設としての公衆電話について説明しています。構造物または電話の設置形態の一種については「電話ボックス」をご覧ください。 この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する�...

Disambiguazione – Se stai cercando altri significati, vedi Santo Sepolcro (disambigua). Edicola con all'interno il Santo Sepolcro. Visuale Edicola e Chiesa Santo Sepolcro Il Santo Sepolcro è, secondo la tradizione cristiana, la tomba dove furono depositate le spoglie mortali di Gesù Cristo dopo la crocifissione. Oggi il luogo è inglobato nella Basilica del Santo Sepolcro, a Gerusalemme, ed è meta di pellegrinaggi. Indice 1 Descrizione 2 Storia del Santo Sepolcro 2.1 Cronologia 2.2 Il S...

 

Polish football club This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: RKS Radomsko – news · newspapers · books · scholar · JSTOR (January 2019) (Learn how a...