robots.txt
je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.
Uvedením následujícího textu v souboru robots.txt
lze zakázat procházení webu všem vyhledávačům:
User-agent: * Disallow: /
Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin
, /images
, /tmp
a /private
:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/
Zakázaní Googlebotu procházet vše v adresáři /en
:
User-agent: Googlebot Disallow: /en/
Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow"
do každého z odkazů.
<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">
Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.
<meta name="robots" content="nofollow" />
Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.
Sitemap: http://www.example.org/sitemap/sitemap.xml
Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt
, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.