Robots.txt protokolünün veya "robot dışlama protokolünün" kökenleri, web robotlarının web sitelerini okumak için interneti gezdiği ilk günlerde 1990'ların ortalarına kadar izlenebilir. Bazı web yöneticileri, sitelerini hangi robotun ziyaret ettiği konusunda endişelendi. Hangi site bölümlerinin taranması gerektiğine ilişkin yönergeleri içeren ve site sahiplerine, hangi tarayıcıların URL'lerini ziyaret edebileceği ve ne kadar kapasite tüketmelerine izin verildiği konusunda daha fazla denetime sahip olma sözü veren bir dosya olarak ortaya çıktı.
O zamandan beri robots.txt, modern web tasarımcılarının ve web sitesi sahiplerinin ihtiyaçlarını karşılayacak şekilde büyüdü. Protokolün mevcut sürümleri, büyük arama motorlarının ilgili sıralama algoritmaları için bilgi toplamak üzere gönderdiği robotlar tarafından kabul edilecektir. Farklı arama motorları arasındaki bu ortak anlaşma, bu nedenle komutları SEO raporlarında markalar için potansiyel olarak değerli, ancak genellikle gözden kaçan bir araç haline getirir.
Robots.txt Nedir?
Robots.txt, web sitenizin kök dizininde bulunan ve arama motorları tarayıcılarına, tarama ve dizine ekleme işlemi sırasında hangi sayfaları tarayabilecekleri ve dizine ekleyebilecekleri konusunda talimatlar veren bir metin dosyasıdır. Arama motorlarının nasıl çalıştığına dair tarama ve indeksleme aşamasında, arama motorlarının halka açık web'de bulunan ve indekslerine ekleyebilecekleri sayfaları bulmaya çalıştıklarını bilirsiniz. Bir web sitesini ziyaret ederken, yaptıkları ilk şey robots.txt dosyasının içeriğini aramak ve kontrol etmektir.Dosyada belirtilen kurallara bağlı olarak, tarayabilecekleri URL'lerin bir listesini oluştururlar ve daha sonra belirli web sitesi için dizine eklerler. Robots.txt, arama motoru robotuna bir web sitesinin belirli sayfalarını veya bölümlerini taramamalarını söyleyen bir dosyadır. Çoğu büyük arama motoru (Google, Bing ve Yahoo dahil) Robots.txt isteklerini tanır ve kabul eder. Çoğu web sitesinin robots.txt dosyasına ihtiyacı yoktur. Bunun nedeni, Google'ın genellikle sitenizdeki tüm önemli sayfaları bulup dizine ekleyebilmesidir. Ayrıca önemli olmayan veya diğer sayfaların yinelenen sürümlerini otomatik olarak dizine almazlar.
Neden Robots.Txt Dosyası Kullanmalısınız?
Google'ın web sitelerini nasıl taradığını anlamak, robots.txt kullanmanın değerini görmenize yardımcı olacaktır. Google'ın bir tarama bütçesi vardır. Bu, belirli bir siteyi taramaya ayıracakları süreyi açıklar. Google, bu bütçeyi bir tarama hızı sınırına ve tarama talebine göre hesaplar. Google, bir siteyi taramasının o URL'yi yavaşlattığını ve dolayısıyla herhangi bir organik tarayıcı için kullanıcı deneyimine zarar verdiğini görürse, taramaların hızını yavaşlatacaktır. Bu, sitenize yeni içerik eklerseniz Google'ın bunu o kadar hızlı görmeyeceği ve potansiyel olarak SEO' nuza zarar vereceği anlamına gelir. Bütçe hesaplamasının ikinci kısmı olan talep, daha popüler olan URL'lerin Google robotundan daha fazla ziyaret alacağını belirtir. Diğer bir deyişle, Google'ın belirttiği gibi, sunucunuzun Google'ın tarayıcısı tarafından boğulmasını veya sitenizdeki önemsiz veya benzer sayfaları tarayarak tarama bütçesini boşa harcamasını istemezsiniz. Protokol, arama motoru tarayıcılarının nereye ve ne zaman gideceği konusunda daha fazla kontrol sahibi olmanıza olanak tanıyarak bu sorunu önlemenize yardımcı olur. Arama motoru tarayıcılarını sitenizdeki daha az önemli veya tekrar eden sayfalardan uzaklaştırmanıza yardımcı olmanın yanı sıra, robots.txt başka önemli amaçlara da hizmet edebilir. Bununla birlikte, bir robots.txt dosyası kullanmak istemenizin 3 ana nedeni vardır.
Herkese Açık Olmayan Sayfaları Engelleyin: Bazen sitenizde dizine alınmasını istemediğiniz sayfalar olabilir. Örneğin, bir sayfanın aşamalı bir sürümüne sahip olabilirsiniz. Veya bir giriş sayfası. Bu sayfaların var olması gerekiyor. Ama rastgele insanların onlara inmesini istemezsiniz. Bu, bu sayfaları arama motoru tarayıcılarından ve botlardan engellemek için robots.txt'yi kullanacağınız bir durumdur.
Tarama Bütçesini En Üst Düzeye Çıkarın: Tüm sayfalarınızın dizine eklenmesinde güçlük çekiyorsanız, bir tarama bütçesi sorununuz olabilir. Önemsiz sayfaları robots.txt ile engelleyerek, Googlebot gerçekten önemli sayfalara tarama bütçenizin daha fazlasını harcayabilir.
Kaynakların İndekslenmesini Önleyin: Meta yönergeleri kullanmak, sayfaların indekslenmesini önlemek için Robots.txt kadar işe yarayabilir. Ancak meta yönergeler, PDF'ler ve resimler gibi multimedya kaynakları için iyi çalışmaz. Robots.txt burada devreye giriyor.
Robots.txt Nasıl Kurulur?
İlk adımınız robots.txt dosyanızı gerçekten oluşturmaktır. Bir metin dosyası olarak, aslında Windows not defteri kullanarak bir tane oluşturabilirsiniz. Ve nihayetinde robots.txt dosyanızı nasıl yaparsanız yapın, biçim tamamen aynıdır. Kullanıcı-aracı, konuştuğunuz belirli bottur. Ve "izin verme" seçeneğinden sonra gelen her şey, engellemek istediğiniz sayfalar veya bölümlerdir. Bu kural, Googlebot’a web sitenizin resim klasörünü dizine eklememesini söyler. Web siteniz tarafından durdurulan tüm botlarla konuşmak için yıldız işareti (*) de kullanabilirsiniz.
"*", Tüm robotlar resimler klasörünüzü taramamayı söyler.
Bu, robots.txt dosyasını kullanmanın birçok yolundan yalnızca biridir. Google'ın bu yararlı kılavuzu, botların sitenizin farklı sayfalarını taramasını engellemek veya bunlara izin vermek için kullanabileceğiniz farklı kurallar hakkında daha fazla bilgi içermektedir.
Robots.txt dosyanızı aldıktan sonra, onu yayınlama zamanı gelmiştir.Robots.txt dosyanızı teknik olarak sitenizin herhangi bir ana dizinine yerleştirebilirsiniz. Ancak robots.txt dosyanızın bulunma olasılığını artırmak için, şu adrese yerleştirmeniz önerilir:
https://ornekdomain.com/robots.txt
(Robots.txt dosyanızın büyük / küçük harfe duyarlı olduğunu unutmayın. Bu nedenle, dosya adında küçük harf "r" kullandığınızdan emin olun) Robots.txt dosyanızın doğru ayarlanması gerçekten önemlidir. Tek bir hata ve sitenizin tamamı indekslenebilir.
Robots.txt ve Meta Yönergeleri
Sayfa düzeyinde "noindex" meta etiketiyle sayfaları engelleyebildiğinizde neden robots.txt kullanasınız? Daha önce bahsettiğim gibi noindex etiketinin videolar ve PDF'ler gibi multimedya kaynaklarına uygulanması zordur. Ayrıca, engellemek istediğiniz binlerce sayfanız varsa, her sayfaya manuel olarak bir noindex etiketi eklemek yerine bazen o sitenin tüm bölümünü robots.txt ile engellemek daha kolaydır. Noindex etiketi olan sayfalarda Google açılışında herhangi bir tarama bütçesini boşa harcamak istemediğiniz uç durumlar da vardır.
Bu uç durum dışında, robots.txt yerine meta yönergeleri kullanmanızı öneririm. Uygulanması daha kolaydır. Ve bir felaketin olma olasılığı daha düşüktür (sitenizin tamamını engellemek gibi).
Robots.txt Dosyası Nasıl Oluşturulur?
Bir robots.txt dosyasına sahip olmak pek çok web sitesi için, özellikle de küçük olanlar için çok önemli değildir. Bununla birlikte, buna sahip olmamak için iyi bir neden de yoktur. Bu dosyaya sahip olmak arama motorlarının web sitenize nerelere girip giremeyeceği konusunda size daha fazla kontrol sağlar ve bu, aşağıdaki gibi konularda yardımcı olabilir:
- Yinelenen içeriğin taranmasını önleme; Bir web sitesinin bölümlerini gizli tutmak (örneğin, hazırlık siteniz),
- Dahili arama sonuçları sayfalarının taranmasını önleme,
- Sunucu aşırı yüklenmesinin önlenmesi,
- Google'ın "tarama bütçesini" boşa harcamasını önleme,
- Görsellerin, videoların ve kaynak dosyalarının Google arama sonuçlarında görünmesini engelleme,
Robots.txt Dosyası Kullanımı
Google genellikle robots.txt dosyasında engellenen web sayfalarını dizine eklemese de robots.txt dosyasını kullanmak, arama sonuçlarından dışlanmayı garanti etmenin bir yolu değildir. Google'ın dediği gibi, içerik web'deki diğer yerlerden bağlantılıysa, yine de Google arama sonuçlarında görünebilir. Site haritanızı doğru bir şekilde oluşturduysanız ve standartlaştırılmış, indekslenmemiş ve yeniden yönlendirilmiş sayfaları hariç tuttuysanız, gönderilen hiçbir sayfa robots.txt tarafından engellenmemelidir. Etkilendiyse, hangi sayfaların etkilendiğini araştırın, ardından robots.txt dosyanızı uygun şekilde düzenleyerek o sayfanın engelini kaldırın. Hangi yönergenin içeriği engellediğini görmek için Google'ın robots.txt test aracını kullanabilirsiniz.
Robots.txt Kullanım Örnekleri
Yeni bir metin belgesi açalım ismini Robots.txt yapalım. Robots.txt dosyamız içersinde iki farklı değişkenimiz olacak. Bunlar ve anlamları şöyledir:
User-agent: Google Botu'nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak
Örnek 1:
User-agent: *
Allow: /
Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları'nın isimleri gelecekti fakat "*" işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları'nca istisnasız indexlenmesine izin vermişsiniz demektir.
Örnek 2:
User-agent: *
Disallow: /
Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları'na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda "/" böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.
Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları'nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.
Örnek 2:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Bütün Google botları, bu 4 dosyayı indexlemeyecektir.
Örnek 3:
User-agent: DeepCrawl
Disallow: /private/
DeepCrawl, bir Google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.
Örnek 4:
User-agent: *
Disallow: /directory/dosya.html
Tüm botlar, ilgili dosyayı indexlemeyecektir. Ama directory dizinindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.
Örnek 5:
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Bu kodların anlamı ise, tüm Google Botları dosya dizininde bulunan site.html dosyası hariç diğer tüm dosyaları taramaz ve indexlemeyecektir.
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
Dilerseniz Robots.txt Oluşturucu araç ile kolayca robots.txt kodlarınızı oluşturup kullanmaya başlayabilirsiniz.
Robots.txt İle İlgili Soru ve Cevaplar
- SEO Açısından En Faydalı Robots.txt nedir?
En faydalı robots.txt dosyası yoktur. Doğru veya yanlış kurgulanan dosyalar vardır. Sitenize en uygun robots.txt dosyasını ancak siz oluşturabilirsiniz. Hangi sayfaların arama motorları tarafından indexlenmesini istemiyorsanız onları belirtiyorsunuz. Örneğin eğer Google, Yandex, Bing arama motorlarında farklı farklı indexlenmesini istiyorsanız aşağıdaki gibi robots.txt dosyanıza uygulayabilirsiniz;
User-agent: Googlebot
Disallow: /wp-admin/
Disallow: /indexlenmesini-istemediginiz-sayfa/
User-agent: YandexBot
Disallow: /wp-admin/
Disallow: /indexlenmesini-istemediginiz-sayfa/
Ayrıca bunlar dışında Google’ın kendi örümceklerini ekleyebilirsiniz. Örneğin görseller için özel robots.txt kodu;
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
Mobil için özel Google robotu;
User-agent: Googlebot-Mobile
Allow: /
Bunlar ekleyebilirsiniz. Ancak robots.txt dosyanızın sade olması sizin için daha yararlı olacaktır. Tabi temanızda indexlenmesini istemediğiniz sayfa yoksa onları belirtebilirsiniz.
- Google Bot Robots.txt Hata Uyarısı
Eğer sitenizin fonksiyonlarına ve tasarımlarına ait kodları engellerseniz Googlebotları sitenizi düzgün tarayamayacaktır. Bu sebeple Disallow: /*.js$ Disallow: /*.css$ komutları kodları ile css ve js dosyalarını engellemek, "Google sistemleri, yakın zamanda ana sayfanızla ilgili, algoritmalarımızın içeriğinizi oluşturma ve dizine ekleme başarısını etkileyecek bir sorun tespit etti. Daha ayrıntılı ifadeyle, Googlebot, robots.txt dosyanızdaki kısıtlamalardan dolayı JavaScript ve/veya CSS dosyalarınıza erişemiyor. Bu dosyalar, Google’ın, web sitenizin düzgün şekilde çalıştığını bilmesine yardımcı olduğundan, bu öğelere erişimin engellenmesi, sıralamanın gerektiği gibi olmamasına yol açacaktır." uyarısıyla karşılaşmanıza neden olabilir.
- Subdomaini Robots.txt Tarafından Engelleme
Subdomain bulunan URL’lerinize özel robot.txt dosyası oluşturabilirsiniz. Bu dosya örneğin sub.ornekdomain.com/robots.txt şeklinde açılmalıdır. Bu dosya içerisine aşağıda belirttiğim kod bloğunu ekleyerek hedef kitlenizin URL adresiniz ile sayfanıza erişmesini ve arama motoru botlarının taramamasını sağlayabilirsiniz.
User-agent: *
Disallow: /
- Arama Sonuçlarında WordPress Dosya İçeriklerim Yer Alıyor
Robots.txt dosyanızda disallow olarak arama sonuçlarına kapatılması gerekenleri allow olarak belirtmişsiniz bu sebeple arama sonuçlarında görünmesi çok normaldir. robots.txt aracınızı aşağıdaki gibi revize etmenizi tavsiye ediyorum.
User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Allow: /wp-admin/admin-ajax.php
Sitemap: site haritasının yolu
Bu işlemi yaptıktan sonra Search Console > Tarama > Robots.txt Google’a robots.txt dosyanızı güncellediğinizi belirtmeniz gerekiyor.
- Yeni açacağım sitede düzenleme yaparken robots.txt ile index almasını engellemek zararlı mı?
Sitenizin URL’lerin index almasını engellemek sitenize şu durumda zarar verecektir;
İndex alıp üst sıralarda olan ve ziyaretçi alan sayfalarınız varsa, onların sıralamasını düşürecektir. Dolayısıyla sitenizi tamamen index almasını engellemek yerine, tek tek istediğiniz sayfaları robots.txt dosyası içerisinde belirtin. Böylece önemli olan sayfalar yerini korumuş olacaktır.
Eğer sitenizi yeni oluşturuyorsanız bu SEO için sorun teşkil etmeyecektir. URL’lerin index almasını engelleyip ardından işlerini tamamlarsanız, kodu tekrar kaldırın ve birkaç gün bekleyin. Sonra tekrar istediğiniz işlemlere başlayabilirsiniz. İlkten index alma durumu biraz zorlayabilir, bunu sosyal medya paylaşımlarıyla veya Google gibi getir aracıyla index almasını sağlayabilirsiniz.
- robots.txt ve sitemap.xml Sitemde Görünmüyor
Bazı toollar hatalı sonuç verebilmektedir, manuel olarak kontrol ederek veya Google Search Console üzerinden site haritanızı ekleyip doğrulayarak emin olabilirsiniz.
- Robots.txt yerine Meta Robot Tag Kullanmak
Google ve diğer arama motorları bir siteye girdiğinde ilk olarak Robots.txt dosyasını kontrol eder ve oradaki içeriklerden yola çıkarak sayfaya giriş yapar. Eğer sitede robots.txt dosyası yoksa sayfa içindeki meta name=”robots” etiketine göre hareket eder.
Bir açıdan bakıldığında eğer sitenin tüm indekslerinin kontrolünü mantıklı olarak sağlayabiliyorsanız yapabilirsiniz ki WordPress’te bir çok SEO eklentisi bu duruma imkan sağlıyor, manuel olarak robots kodlarını ekliyor.
Siz bu konuda Google’a daha kesin direktifler vermek istiyor ve tüm sayfaları manuel olarak yönlendirmek istiyorsanız Robots.txt dosyasını kullanmayabilirsiniz.
Eğer aksi bir durum varsa kullanmanız sitenizdeki gizli dosyalar açısından önemlidir.
Gerçekten SEO için önemli kriterlerden bir tanesi. Bu detaylı paylaşımın için teşekkürler.
Evet sitemap'i bu yollada tanıtmış oluruz. Ama bu yöntemi blog siteleri için değil de daha çok forum siteleri için kullanıyorum ben.
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /feed/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
Disallow: /page/
Disallow: /tag/
Disallow: /category/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
aynısını deniyorum 2 hafta içinde sonucu yazıcam şu anda tr indexim
Yaklaşık 252 sonuç (0,27 saniye)
ziyaretci ortalama 90-120 arası iki hafta sonra bakalım:)
Hocam öncelikle konunuz için teşekkür ederim. Benim birkaç blogum var ve ben tag category page gibi sayfaları indexletiyorum. Çünkü oradanda bayağı trafik alıyorum.burada Disallow: /page/
Disallow: /tag/
Disallow: /category/ demişsiniz bu şekilde yaptığımız zaman bu sayfalar indexlenmiyor olacak ve benim hit kaybım olacak. Sizcede mantıklımı bunları indexletmemem? Cevabınızı bekliyorum teşekkür ederim.
Teşekkürler. Robots.txt dosyasını WordPress'e uygun şekilde ayarladım sayenizde.
Burak arkadaşın sorduğunu bende merak ediyorum. Şu anda tam araştırdığım konu bu...
hocam bu konuda bilgilendirirseniz memnun olurum. Özellikle mail atmanızı rica ederim bu konuyla ilgili...
@Burak, @manyak, tag ve category sayfalarının disallow olarak gösterilmesi yanlıştır. Yazar arkadaş büyük ihtimalle bir siteyi referans alarak böyle bir sonuca verdi. Yazıda gerekli düzeltme yapılmıştır.
teşekkürler.. Aynı şekilde archive ve feed kısımları da engellenmemesi gerektiğini düşünüyorum..
Acaba bilinmedik bişi var mı diye özellikle sormak istedim...
teşekkürler
bence robot.txt dosyasını fazla kurcalamayın indexler buradan yola çıkıyor çünkü
User-agent: *
Disallow
üstteki şekilde yapın gitsin gizli ne olabilirki sitenizde 😀 olanlarda zaten şifrelidir yada izinleri genele kapalıdır.
Bencede fazla kurcalamanın anlamı yok bırakın indexlensin derim.
User-agent: *
Disallow
Bilgilendirme için teşekkürler ama dikkatimi çeken bir nokta oldu. O da "ia_archiver", yanlış bilmiyorsam ve ki denemesini de yaptım bu Alexa için çalışan bir örümcektir. Eğer bunu engellerseniz ki ben iki üç denedim 100 lerce "K" gerilemiş oldu sitem 🙂 Kısacası yazılan hazır şeyleri iyi araştırmak gerekir. Burada yazacağımız bir çok zararlı örümcek tarayıcı vb şeyler var onlar OK engelensin ama zararı düşünüldüğü kadar yararı olan şeyler de var.
Yapılması gereken bence sadece istenmeyen veya indexlemesini istemediğiniz dosyaları engellemek geri kalanı ise normal bırakmak engellememek. 🙂 Aslında en idali sizin de yaptığınız gibi hocam. Ancak ek olarak sitemap ekleme ve admin panel engellenmesi gerekir diye düşünüyorum 🙂 İyi Çalışmalar.
google web araçlarına kaydolmuştum nasıl olduysa engellenen URLler bölümünde blogumun adresi var. robot sayfamı engelliyor ve URL m aramalarda her zaman başta çıkarken artık Google tarafından görülmüyor robot.txt i nasıl kaldırabilirim..
Teşekkürler. Ben şunu soracağım robot.txt dosyası yoksa bir sitede bu çok büyük dezavantaj mıdır? Yani ne zararı var olmamasının?
Konuyu inceledim paylaşım için teşekkürler yanlız yorumları inceldigimde bir yanlış anlaşılma oldugunun kanatin vardım robots.txt dosyasını şu şeklide yapma ; (User-agent: * Disallow) bu şeklide yapmak sitemde hiçbirşeye izin vermiyorum demek dogru olanı şu şeklide ( User-agent: * Allow ) Bu şeklide bir kanıya vardım çok araştırdıktan sonra şuanda da 1 hafta oldu gidişat güzel denediğim sitede Benim düşüncemde bu 🙂
Sitem yaklaşık 2 haftadır indexlemede sorun yaşıyor. Google webmaster paneline şu şekilde bir mesaj gelmiş :
Over the last 24 hours, Googlebot encountered 29 errors while attempting to access your robots.txt. To ensure that we didn't crawl any pages listed in that file, we postponed our crawl. Your site's overall robots.txt error rate is 11.4%.
You can see more details about these errors in Search Console.
Ne yapmam gerekli anlayamadım. Yardımcı olabilir misiniz?
Öncelikle paylaşımınız için teşekkürler;
Arama motorlarına indexleme kısıtlaması getirmemenin bir zararı olur mu peki?
Google robots.txt dosyasını ne kadar süre içerisinde güncelliyor bu konuda bilgi verebilir misiniz?
Peki robots.txt dosyasını nasıl açıp nereye koyacağız. Yani nasıl kullanacağız.
/ işareti konduktan sonra kök dizindeki klasör ismini yazmadan direkt dosya ismini mi yazacağız.
mesala
Disallow: /dosya1/ddd.html ile Disallow: /ddd.html aynı ifademidir. Yoksa yolu mutlaka bildirmemiz mi gerekiyor
Son zamanlarda okuduğum SEO ile ilgili makaleler arasında anlaşılması en kolay ve net olanı.
Teşekkürler.
SMF forumları için de "iyileştirilmiş" ve SEO için en ideal kodları yayınlayabilir misiniz? Ve her SMF formu için takip edilmeyecek dosya isimleri aynı mı? Çünkü internette smf için arattığımda birçok farklı dosya isimleri geliyor. Bir de benim sitemde hem SMF hem de wiki kurulu. Google indeksinde formun iletisinin altında formun değil wiki kaynak'ın "Üye ol" linki çıkıyor. Ziyaretçiler de forma üye olduğunu zannedip wiki kaynaka üye oluyor. Wiki kaynak'ın login ve register sayfalarının indekslenmemesini ama smf formunun "bağlan" ve "üye ol" sayfalarının indekslenmesini nasıl sağlarım?
bazen bu kodları verdiğimizde indexleme hatası veriyor 404 bunu nasıl halledicez
Gerçekten çok işe yaradı hocam. Çok anlaşılır ve net bir açıklama yapmışsınız.
Selamun aleykum bilgiler için teşekkürler. en iyi WordPress robots.txt kullandım halde sitem 2 günde bir index aliyor ve birçok çalışma yapiyorum imleme vs.. Ama neyazikki önüne geçemedim bu konu hakkında bilgi verir misiniz.
Hocam forumları ve alakalı yazıları araştırdığım halde kesin bir bigliye ulaşamadım. Benim yapmak istediğim sadece bir yada iki tane arama motoruna izin vermek. Mesela ben Bing yada Yahoo arama motorlarının sitemi indexlemesini istemiyorum. Robot.txt dosyası üzerinden sadece bir yada iki tane arama motorunu engelleyemez miyim?
merhabalar benim bir sorunum var ben html den sonra kini engellemek istiyorum örnek.
wordpressle galeri olarak eklediğim resimler site.com/konu.html/resimismi/ oluşuyor. Ben bunu Google'dan nasıl engellerim indexlenmemesi için
site.com/konu.html/ bundan sonrasını indexlenmesin?
hazırladığım bir stemap.xml dosyasının içindekileri indexlememesi gibi bir şey yapabilir miyiz?
Merhaba Yazı için Teşekkürler. Ben bunu blogger için kullanmak istiyorum.robots ile blogger arama uzantıs search/label kullanmak istemiyorum.sadece com/yayın ismi olarak kullanmak istiyorum.
Çok teşekkür etmem gerekir.spesifik olarak,Wordpress'e verdiğiniz örnek için.saygılar
DataLife Engine (DLE) için de en iyi robot.txt kodlarını vereyim DLE kullananların işine yarayabilir;
User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Merhaba kopekburada.org sitesi robots.txt dosyası olduğu halde yok görünüyor yardımcı olursanız sevinirim. robots.txt dosyası
/public_html içinde robots.txt olarak duruyor içeriği şu şekilde
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
chmod değeri 644 tip olarak metin belgesi görünüyor lütfen yardım.
Vermiş olduğunuz bilgiler için teşekkürler, ben robot.txt yi ayarladım fakat hocam oluşturduğuımuz robot.txt yi nereye atacağız onu bilmiyorum?
Tşk Ederim hocam güzel aciklamisin robot.txt nin ilkez ne işe yaradiğini öğrendim inanın ve robot u direkt ana dizine attim sorun cikmaz dimi
En iyi WordPress kodlarını vemişsiniz teşekkürler ama sizin neden kullanmadığınızı merak ettim.
Çok yararlı ve açıklayıcı bir konu olmuş bu konuya ilgi duyan herkes için çok önemli bir makale emeğiniz için çok teşekkürler.
İnsallh duzelir çok yararli bisey olur çünkü siteye giremiyorum neden oldu anlamadim bu site düzeltir inşallah gitmek istediğim yere olmazsa çok uzulurum
Bu sitenin robots.txt dosyası olduğundan, bu sonuç için bir açıklama bulunmamaktadır. Daha fazla bilgi edinin.
Benım Google'da aramalarda bu sorun çıkıyor bu yazdığınız kodlardan hangısnı kullanmamız gerekır botlara nelerı taratmamış nelerıde taratmamamıs gerekır adım atmadan once yanlış yapmak ıstemedıgımden yazıyorum saygılarımla
hem burdadan hem de faceden yazıyorum lakın sızden cewap alamadım ben bu wordpres ıcın verdıgınız kodları kullandım hem not defterı oalrak hem de dreamwewar olarak 4 kez attım public.htlm ye lakın bu dosyalar nereede onları bulamadım nereye attı nerde goremıyorum ne yapmam gerekıyor saygılarımla teşekkurler
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
kodlar bunlar hocam sızın yazdıgınız kodlar sizden yardım beklıyorum
ama dosyayı bulamadım nerede oldugunu sımdı sıtem ındexlenır mı yoksa hata mı var
hocam çok güzel anlatmışsınız oluşumu, yapımı da birazcıkta acemi kullanıcıları düşünseniz. Ben şimdi sizin sitenizden analiz ettim. Benim sitemde yokmuş robot.txt ben bunu siteme nasıl uygulayacağım.
Teşekkürler elinize sağlık.
ornekdomain.com/kategori-adi/icerik-sayfasi.html/attachment/gorsel-ismi şeklinde indexlenen URL'ler var.
Robots.txt üzerinden
Disallow: /attachment/ şeklinde düzenledim fakat index almaya devam ediyor. Burada nasıl bir yol izlemeliyim
Merhaba
User-agent: *
Allow: /index.html
Disallow: /
kodu sadece anasayfamı indexletmek için yeterlimidir?
Ben bu şekilde yaptım sizde sitemap'ı kendinize göre editleyip kullanabilirsiniz.
User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: YandexBot
User-agent: YandexImages
User-agent: Bingbot
Sitemap: /sitemap.xml