Indeksowanie stron – proces analizy dokumentów dostępnych w World Wide Web (np. w formatach HTML, PDF) przez specjalny program komputerowy nazywany robotem indeksującym. Polega na gromadzeniu danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w wydajnych bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów. To dzięki indeksowaniu wyszukiwarka internetowa może podać wynik przeszukiwania miliardów dokumentów w bardzo krótkim czasie[1].
Robot indeksujący porusza się po stronach internetowych na wiele sposobów. Na konkretny adres URL program może trafić przy pomocy linków. W przypadku wyszukiwarki Google możliwa jest także implementacja mapy witryny do narzędzia Google Search Console. Wówczas robot indeksujący odwiedza witrynę, analizuje ją i pobiera zasoby do indeksu. Następnie strona internetowa może wyświetlać się w wynikach wyszukiwania. Jeżeli adres URL nie zostanie zaindeksowany, konkretna podstrona nie będzie wyświetlana na zapytanie użytkownika[2].
Nie każdy adres URL w obrębie domeny powinien być indeksowany przez wyszukiwarkę. Przykładem są strony archiwalne, strony testowe, koszyki w sklepach internetowych, a także zasoby wyświetlane dopiero po zalogowaniu na konkretny portal internetowy. Dlatego administrator domeny może zablokować indeksowanie wybranych adresów URL. W tym celu umieszcza się w sekcji <head>
strony internetowej atrybut noindex
. Noindex Tag to specjalny tag HTML, który używa się w celu ukrycia niechcianych lub duplikujących się treści przed wyszukiwarkami. Zapobiega problemom z powtarzającymi się wynikami wyszukiwania[3]. Choć jest to sposób na blokadę indeksowania, Noindex Tag nie ogranicza działania robotów wyszukiwarek na stronie.
Robot indeksujący może być również poinformowany o tym, aby nie indeksować danego adresu URL przy pomocy pliku robots.txt[4].