Plik robots.txt to pierwszy przystanek dla każdego bota odwiedzającego Twoją stronę. Jako webdeveloper wykorzystuję go do zarządzania tzw. Crawl Budgetem (budżetem indeksowania) – dbam o to, aby roboty wyszukiwarek nie marnowały zasobów na nieistotne skrypty, a skupiły się na kluczowych treściach. Źle skonfigurowany plik może w kilka sekund "wyciąć" Twoją stronę z wyników wyszukiwania, dlatego warto wiedzieć, jak ustawić go z głową.
To prosty plik tekstowy umieszczony na serwerze, który zawiera instrukcje dla robotów indeksujących (np. Googlebot, Bingbot). Informuje on wyszukiwarki, do których sekcji strony mogą wejść, a których powinny unikać. Jest to standard protokołu wykluczania robotów (REP), który respektują wszystkie liczące się wyszukiwarki.
Aby plik był skuteczny, musi znajdować się zawsze w katalogu głównym (root) Twojej domeny. Prawidłowa ścieżka to
zawsze: twojadomena.pl/robots.txt. Każda inna lokalizacja sprawi, że roboty go zignorują. Jako webdeweloper dbam o
to, by dostęp do robots.txt był poprawnie skonfigurowany na
poziomie hostingu, co gwarantuje, że wyszukiwarki bez przeszkód
odczytają instrukcje skanowania.
Zarządzanie robotami opiera się na kilku prostych komendach:
* oznacza wszystkie roboty).Przykład dla WordPressa:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Warto pamiętać, że poprawna konfiguracja dyrektyw Disallow bezpośrednio wpływa na Crawl Budget Twojej witryny. Ograniczając robotom dostęp do zbędnych, obciążających skryptów, pozwalasz im skupić się na kluczowych podstronach. Jest to szczególnie istotne, gdy optymalizujesz Core Web Vitals – im szybciej i sprawniej bot przeanalizuje Twoją strukturę bez "rozbijania się" o niepotrzebne zasoby, tym lepiej oceni techniczną kondycję całego serwisu.
To największy błąd, jaki widuję podczas audytów. Robots.txt nie służy do usuwania stron z Google! Dyrektywa Disallow blokuje
jedynie skanowanie strony. Jeśli do Twojej zablokowanej podstrony prowadzą linki z innych serwisów, Google i tak ją zaindeksuje "po omacku".
Jeśli chcesz całkowicie wykluczyć stronę z wyników wyszukiwania, musisz użyć tagu meta name="robots" content="noindex" bezpośrednio
w kodzie HTML danej podstrony.
Najlepszą praktyką deweloperską jest wskazanie linku do głównej mapy witryny (Sitemap Index) na samym końcu pliku. Choć mapę możesz zgłosić bezpośrednio w Google Search Console, dodanie jej do robots.txt ułatwia pracę innym wyszukiwarkom (jak Bing czy DuckDuckGo).
Sitemap: https://davidburdelak.pl/sitemap_index.xml
Jako osoba techniczna, zawsze zwracam uwagę na te trzy aspekty:
Disallow: /Admin/ nie zadziała na folder /admin/.