Przeważnie zależy nam na tym, aby nasza strona internetowa i jej podstrony indeksowały się w Google, czyli żeby wyszukiwarka miała świadomość ich istnienia i serwowała je w wynikach wyszukiwania. Czasami jednak musimy usunąć podstronę lub nawet grupę podstron z wyszukiwarki. Dlatego w tym artykule:
- Wyjaśnię, w jakich sytuacjach warto wyindeksować podstrony.
- Opiszę dostępne metody wyindeksowywania wraz z ich wadami i zaletami.
- Przedstawię, jak przeprowadzić w praktyce wyindeksowywanie.
Dlaczego wyindeksowujemy strony?
Z perspektywy SEO (optymalizacji pod wyszukiwarki) najczęściej chcemy wyindeksować zakładkę, kiedy z perspektywy SEO nie ma ona znaczenia, a nie chcemy, aby robot Google’a tracił czas na jej przeglądanie. Ma to największe znaczenie, gdy chodzi o większą liczbę stron - wtedy sumaryczna oszczędność czasu i zasobów robota (tzw. budżet crawlowania) jest znaczna. Niekiedy motywacja nie dotyczy stricte SEO - o czym poniżej.
Oto najczęstsze przyczyny usuwania stron z indeksu:
Zduplikowane treści
Np. strony tagów czasem osłabiają wyniki głównych zakładek, “kradnąc” im ruch i pozycję, prowadząc użytkownika do mniej wartościowych treści. Czasem zużywają zasoby robota (budżet crawlowania), nie pozwalając mu dotrzeć do bardziej wartościowych zakładek.
Przed wykonaniem takiego wyindeksowania upewnij się, że nie da się tego zrobić bardziej pokojową metodą - zwłaszcza linkowaniem wewnętrznym, canonicalami.
Wersje testowe
Środowisko deweloperskie nie jest przeznaczone dla użytkowników Internetu. Co więcej, poza potencjalnymi szkodami wizerunkowymi, Google może ocenić Twoją zasadniczą - produkcyjną wersję - jako duplikat wersji deweloperskiej. Będzie to skutkowało odpływem ruchu z Twojej strony na rzecz często zawierającej błędy wersji DEV. W przypadku sklepu czy formularzy może to się skończyć wpadnięciem zamówienia… w pustkę sandboksu ;) A ważny formularz od kontrahenta, zamiast do prezesa, trafi do testowej skrzynki dewelopera.
Strony bez wartości SEO
Regulaminy, strony koszyka lub polityka prywatności rzadko generują ruch organiczny. Mogą natomiast być źródłem treści, linków wewnętrznych, dlatego do(bez)myślne wyindeksowywanie każdej tego typu zakładki nie jest rozsądne. Warto to zrobić tylko dla tych zakładek, co do których nie chcemy, żeby użytkownicy trafiali do nich prosto z Google - np. koszyk. Każdy inny przypadek warto rozważyć indywidualnie.
Panele administracyjne
Ekran logowania do systemu CMS musi być niewidoczny w wyszukiwarce. Na szczęście domyślnie systemy zarządzania treścią, zwłaszcza te najpopularniejsze (Wordpress, Joomla!), prawidłowo ustawiają reguły indeksowania - wystarczy tego więc nie zepsuć.
Archiwa i nieaktualne oferty
Zakończone promocje w sklepie wprowadzają klientów w błąd.
Najpierw wyjaśnimy pojęcie - indeksowanie w Google - o co chodzi?
Indeksowanie to nic innego jak proces czytania, porządkowana tych informacji i w konsekwencji “zapamiętywania” Internetu przez Google. Podstawową informacją dla Ciebie powinno być to, że dla każdej strony internetowej można sprawdzić w Google Search Console status strony - czy dana strona jest zaindeksowana, czy nie - a może robot w ogóle o niej nie wie?
Tylko zaindeksowane strony pojawiają się w wynikach wyszukiwania.
Kiedy chcesz zablokować Google’owi (i innym wyszukiwarkom) możliwość indeksowania Twojej strony, czyli ostatecznie - prezentowania Twojej strony w wynikach wyszukiwania - możesz to zrobić na wiele różnych sposobów. Poniżej je zebrałem i porównałem.
Przegląd wszystkich metod wyindeksowania
Każda metoda ma swoje ściśle określone zastosowanie.
Metoda
Działanie
Zastosowanie
Tag meta noindex
Zabrania botom dodawania strony do indeksu.
Skuteczne wykluczanie podstron HTML - np. polityka prywatności, regulaminy, strony tagów.
X-Robots-Tag
Nagłówek HTTP z dyrektywą noindex.
Dokumenty PDF, grafiki.
Plik robots.txt
Zabrania botom “crawlowania” (pełzania) po danych ścieżkach.
Oszczędzanie budżetu skanowania. Natomiast nie daje to pewności, że strona nie będzie się indeksowała - niekiedy wręcz zwiększa to ryzyko zaindeksowania - więcej poniżej.
Google Search Console - prośba o usunięcie
Ukrywa URL w wynikach na około 6 miesięcy.
Szybkie, tymczasowe działanie ratunkowe.
Hasło (.htpasswd, .htaccess)
Blokuje serwer przed nieautoryzowanym dostępem.
Ochrona środowisk testowych i wrażliwych danych.
Wyindeksowywanie strony przez Google Search Console
Google Search Console umożliwia szybkie, tymczasowe ukrycie strony w wynikach wyszukiwania. To dobre rozwiązanie w sytuacjach awaryjnych, np. przy wycieku danych lub przypadkowej publikacji treści.
Aby usunąć adres URL:
- Przejdź do sekcji „Usunięcia”.
- Kliknij „Nowa prośba”.
- Wklej adres URL, który chcesz ukryć.
- Wybierz opcję tymczasowego usunięcia.
Strona zniknie z wyników zwykle w ciągu kilku godzin, jednak efekt utrzymuje się około 6 miesięcy. Po tym czasie adres może wrócić do indeksu, jeśli nadal jest dostępny dla robotów.
Dlatego narzędzie to należy traktować jako rozwiązanie tymczasowe - równolegle warto zastosować trwałą metodę, np. tag noindex, odpowiedni status HTTP lub usunięcie strony.
Tag noindex w praktyce (na przykładzie WordPress i Joomla)
Wstawienie tagu noindex do sekcji \ to najpewniejsza metoda. W systemach CMS robimy to bez dotykania kodu źródłowego. Wystarczy odpowiednia konfiguracja.
WordPress (przy użyciu wtyczki Yoast SEO)
- Zaloguj się do kokpitu WordPress.
- Wejdź w edycję wybranego wpisu lub strony.
- Zjedź na dół strony do panelu Yoast SEO.
- Kliknij zakładkę "Zaawansowane".
- Znajdź pole "Czy zezwolić wyszukiwarkom na wyświetlanie tego Wpisu w wynikach wyszukiwania?".
- Wybierz z listy rozwijanej opcję "Nie".
- Zaktualizuj i zapisz stronę.
Joomla (ustawienia wbudowane)
- Zaloguj się do panelu administratora Joomla.
- Wejdź w "Artykuły".
- Wybierz i otwórz artykuł do edycji.
- Przejdź do zakładki "Opcje publikacji" (lub "Metadane" w nowszych wersjach).
- Odszukaj pole wyboru "Tagi dla robotów".
- Ustaw wartość na "Noindex, Nofollow" (aby zablokować też linki) lub "Noindex, Follow".
- Zapisz wprowadzony artykuł.
Plik robots.txt - blokada strony przed robotami
Plik robots.txt steruje ruchem botów na Twoim serwerze. Znajduje się zawsze w głównym katalogu domeny.
Wpisanie tam dyrektyw powstrzymuje bota przed czytaniem kodu strony. Musisz jednak pamiętać o ważnym fakcie. Blokada strony przed robotami w robots.txt nie wyindeksowuje jej całkowicie. Zablokowany adres wciąż może wyświetlać się w Google z pustym opisem. Dzieje się tak, gdy inne strony internetowe linkują do tego ukrytego adresu.
Co więcej, jeśli dana strona została wyindeksowana przy pomocy tagu noindex, Google się o tym nie dowie. Wynika to z tego, że aby robot Google odczytał poprawnie ten tag, musi otworzyć stronę - więc mieć do niej dostęp. A w tym przypadku tak nie będzie. Zatem paradoksalnie takie działanie może spowodować wręcz zaindeksowanie strony.
Używaj więc robots.txt przede wszystkim wtedy, kiedy chcesz oszczędzić budżet crawlowania. Zwłaszcza wtedy, kiedy widzisz, że robot poświęca głównie czas na przeglądanie nieistotnych zakładek, a nie dociera tam, gdzie jest najbardziej potrzebny.
Przykład poprawnego zablokowania całego katalogu w pliku robots.txt:
User-agent: *
Disallow: /tajny-katalog/
Zabezpieczenie strony hasłem (.htpasswd / .htaccess)
To najtwardsza metoda ochrony dostępu. Bot Google nie dysponuje hasłem, więc nie przejdzie przez ekran logowania na serwerze. W ten sposób treść nigdy nie trafi do sieci. Potrzebujesz do tego pliku .htpasswd (z zaszyfrowanym hasłem) oraz pliku .htaccess.
Instrukcja dla serwerów Apache (metoda .htpasswd):
- Otwórz dowolny darmowy generator plików .htpasswd w przeglądarce - np. https://www.web2generators.com/apache-tools/htpasswd-generator.
- Wpisz wybrany login oraz hasło.
- Skopiuj wygenerowany, zaszyfrowany ciąg znaków.
- Zaloguj się na swój serwer firmowy przez klienta FTP.
- Stwórz nowy plik tekstowy. Nazwij go dokładnie .htpasswd.
- Wklej skopiowany wcześniej ciąg znaków do tego pliku.
- Wgraj plik na serwer. Umieść go w bezpiecznym folderze powyżej katalogu public_html.
- Przejdź do głównego folderu swojej strony.
- Odszukaj tam plik o nazwie .htaccess. Zrób jego kopię zapasową.
- Edytuj ten plik w notatniku.
- Wklej kod wymuszający logowanie. Użyj dyrektywy AuthType Basic oraz Require valid-user.
- W linijce AuthUserFile podaj bezwzględną ścieżkę do Twojego pliku .htpasswd na serwerze.
- Zapisz plik .htaccess i wgraj go na serwer główny.
- Wejdź na swoją stronę przez przeglądarkę. Wyskoczy bezpieczne okienko logowania.
Oto gotowy kod do wklejenia w pliku .htaccess:
<If "%{REQUEST_URI} =~ m#^/tajna-strona#">
AuthType Basic
AuthName "Panel zablokowany"
AuthUserFile /bezwzgledna/sciezka/na/serwerze/.htpasswd
Require valid-user
</If>
W linijce AuthUserFile musisz podać dokładną ścieżkę do pliku z hasłem na swoim hostingu.
Praca z plikami serwerowymi i indeksami wymaga ostrożności! Drobny błąd w pliku .htaccess potrafi zablokować całą domenę.
Jak sprawdzić status indeksowania?
Skuteczność naszych działań zawsze weryfikujemy. Najlepiej użyć do tego darmowych narzędzi od Google.
- Zaloguj się do Google Search Console.
- Wklej usunięty adres URL w górny pasek wyszukiwarki.
- Wciśnij Enter, aby uruchomić sprawdzanie adresu.
- Rozwiń sekcję "Indeksowanie stron".
- Sprawdź widoczny tam komunikat.
- Jeśli użyłeś tagu meta w kodzie, zobaczysz status: Strona wykluczona za pomocą tagu noindex.
Szybkim testem jest też użycie operatora w zwykłej wyszukiwarce. Wpisz komendę site:twojadomena.pl/ukryty-adres. Brak wyników oznacza prawidłowe ukrycie strony.
Podsumowanie
Każda metoda ma swoje wady i zalety - i w zależności od sytuacji, jedne albo drugie przeważają. Poniżej znajdziesz zestawienie metod zależnie od sytuacji.
Sytuacja biznesowa
Najlepsza metoda
Dlaczego warto?
Awaryjny wyciek danych
Narzędzie usunięć w GSC
Działa w kilka godzin. Pamiętaj, że działa to ok. 6 miesięcy i nie chroni przed wejściem bezpośrednio - więc równolegle podejmij inne działania.
Zduplikowane treści
Tag meta noindex
Skutecznie i trwale usuwa adres z wyników wyszukiwania (nie stosuj, gdy da się to rozwiązać np. silnym linkowaniem wewnętrznym - a zwykle się da).
Środowisko testowe
Zabezpieczenie hasłem
Gwarantuje stuprocentową ochronę przed botami i konkurencją.
Duże serwisy e-commerce
Plik robots.txt
Oszczędza budżet skanowania na ważnych stronach produktowych.
Osobiście najbardziej lubię blokowanie hasłem (strony DEV), tag noindex (strony logowania, koszyki itp.), a poza tym - takie działania, żeby wyindeksowywanie nie było konieczne - odpowiedni rozkład treści, canonicale, linki wewnętrzne.
Uważaj na paradoksalne działanie robots.txt - to nie jest narzędzie stworzone do wyindeksowywania. I chociaż można nim taki efekt uzyskać, to może też stać się dokładnie odwrotnie - co opisałem powyżej.
Źródła: