David Burdelak
Blog

Plik robots.txt - czym jest i co powinien zawierać

Plik robots.txt


Plik robots.txt to pierwszy przystanek dla każdego bota odwiedzającego Twoją stronę. Jako webdeveloper wykorzystuję go do zarządzania tzw. Crawl Budgetem (budżetem indeksowania) – dbam o to, aby roboty wyszukiwarek nie marnowały zasobów na nieistotne skrypty, a skupiły się na kluczowych treściach. Źle skonfigurowany plik może w kilka sekund "wyciąć" Twoją stronę z wyników wyszukiwania, dlatego warto wiedzieć, jak ustawić go z głową.


Plik robots.txt – co to właściwie jest?

To prosty plik tekstowy umieszczony na serwerze, który zawiera instrukcje dla robotów indeksujących (np. Googlebot, Bingbot). Informuje on wyszukiwarki, do których sekcji strony mogą wejść, a których powinny unikać. Jest to standard protokołu wykluczania robotów (REP), który respektują wszystkie liczące się wyszukiwarki.

Gdzie powinien znajdować się ten plik?

Aby plik był skuteczny, musi znajdować się zawsze w katalogu głównym (root) Twojej domeny. Prawidłowa ścieżka to zawsze: twojadomena.pl/robots.txt. Każda inna lokalizacja sprawi, że roboty go zignorują. Jako webdeweloper dbam o to, by dostęp do robots.txt był poprawnie skonfigurowany na poziomie hostingu, co gwarantuje, że wyszukiwarki bez przeszkód odczytają instrukcje skanowania.

Podstawowa składnia i dyrektywy

Zarządzanie robotami opiera się na kilku prostych komendach:

  • User-agent: Określa, do którego bota kierujesz instrukcję (np. * oznacza wszystkie roboty).
  • Disallow: Ścieżka, której bot nie powinien skanować.
  • Allow: Pozwala na dostęp do konkretnego pliku wewnątrz zablokowanego folderu.

Przykład dla WordPressa:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Warto pamiętać, że poprawna konfiguracja dyrektyw Disallow bezpośrednio wpływa na Crawl Budget Twojej witryny. Ograniczając robotom dostęp do zbędnych, obciążających skryptów, pozwalasz im skupić się na kluczowych podstronach. Jest to szczególnie istotne, gdy optymalizujesz Core Web Vitals – im szybciej i sprawniej bot przeanalizuje Twoją strukturę bez "rozbijania się" o niepotrzebne zasoby, tym lepiej oceni techniczną kondycję całego serwisu.

Robots.txt vs Noindex – kluczowa różnica

To największy błąd, jaki widuję podczas audytów. Robots.txt nie służy do usuwania stron z Google! Dyrektywa Disallow blokuje jedynie skanowanie strony. Jeśli do Twojej zablokowanej podstrony prowadzą linki z innych serwisów, Google i tak ją zaindeksuje "po omacku".

Jeśli chcesz całkowicie wykluczyć stronę z wyników wyszukiwania, musisz użyć tagu meta name="robots" content="noindex" bezpośrednio w kodzie HTML danej podstrony.

Dlaczego warto wskazać tu mapę witryny?

Najlepszą praktyką deweloperską jest wskazanie linku do głównej mapy witryny (Sitemap Index) na samym końcu pliku. Choć mapę możesz zgłosić bezpośrednio w Google Search Console, dodanie jej do robots.txt ułatwia pracę innym wyszukiwarkom (jak Bing czy DuckDuckGo).

Sitemap: https://davidburdelak.pl/sitemap_index.xml

Dobre praktyki i najczęstsze błędy

Jako osoba techniczna, zawsze zwracam uwagę na te trzy aspekty:

  • Wielkość liter: Robots.txt rozróżnia wielkość liter. Disallow: /Admin/ nie zadziała na folder /admin/.
  • Bezpieczeństwo: Pamiętaj, że ten plik jest publiczny. Nigdy nie wpisuj w nim ścieżek do tajnych folderów, ponieważ każdy może je podejrzeć.
  • Testowanie: Zawsze sprawdzaj poprawność pliku w Testerze robots.txt w Google Search Console. Pozwoli Ci to uniknąć przypadkowego zablokowania całej witryny.

Lista kontrolna konfiguracji pliku robots.txt

  • Upewnij się, że plik jest dostępny w głównym katalogu domeny (kod 200 OK).
  • Sprawdź, czy przypadkiem nie blokujesz botom dostępu do plików CSS i JS.
  • Zweryfikuj, czy link do mapy witryny (Sitemap) prowadzi do poprawnej, szyfrowanej wersji adresu (HTTPS).
  • Przetestuj każdą nową regułę w Testerze robots.txt w Google Search Console przed jej wdrożeniem.