skip to Main Content

Czym jest crawl budget i jaki ma wpływ na indeksowanie Twojej witryny?

Czym jest crawl budget i jaki ma wpływ na indeksowanie Twojej witryny?

Analiza budżetu crawlowego to jeden z obowiązków każdego specjalisty SEO (szczególnie jeśli zajmuje się dużymi serwisami). Zadanie ważne, przyzwoicie omówione w materiałach udostępnianych przez Google. A jednak, jak widać na Twitterze, nawet pracownicy Google bagatelizują rolę crawl budget w zdobywaniu lepszego ruchu i rankingów.

Jak działa Google i jak zbiera dane?

Skoro już poruszamy ten temat, przypomnijmy sobie, w jaki sposób wyszukiwarka zbiera, indeksuje i porządkuje informacje. Utrzymanie tych trzech kroków w pamięci jest niezbędne podczas późniejszej pracy nad stroną:

Krok 1: Crawling.

Przeszukiwanie zasobów internetowych w celu odkrycia – i nawigowania po nich – wszystkich istniejących linków, plików i danych. Generalnie Google zaczyna od najbardziej popularnych miejsc w sieci, a następnie przechodzi do skanowania innych, mniej modnych zasobów.

Krok 2: Indeksowanie.

Google stara się określić, czego dotyczy strona i czy analizowana treść/dokument stanowi materiał unikalny czy też zduplikowany. Na tym etapie Google grupuje treść i ustala kolejność ważności (poprzez odczytanie sugestii w znacznikach rel=”canonical” lub rel=”alternate” lub w inny sposób).

Krok 3: Serwowanie.

Po segmentacji i indeksowaniu, dane są wyświetlane w odpowiedzi na zapytania użytkowników. Wtedy też Google odpowiednio sortuje dane, biorąc pod uwagę takie czynniki jak lokalizacja użytkownika.

Ważne: wiele z dostępnych materiałów pomija krok 4: renderowanie treści. Domyślnie Googlebot indeksuje treści tekstowe. Jednak wraz z rozwojem technologii webowych, Google musiało opracować nowe rozwiązania, aby przestać tylko “czytać”, a zacząć również “widzieć”. Na tym właśnie polega renderowanie. Służy on Google do znacznego zwiększenia zasięgu wśród nowo uruchamianych stron i rozszerzenia indeksu.

Co to jest budżet na przeszukiwanie (crawl budget)?

Budżet indeksowania to nic innego jak częstotliwość, z jaką crawlery i boty wyszukiwarek mogą indeksować Twoją witrynę, a także łączna liczba adresów URL, do których mogą dotrzeć podczas pojedynczego crawlowania. Wyobraź sobie swój crawl budget jako kredyty, które możesz wydać w serwisie lub aplikacji. Jeśli nie pamiętasz, aby “naładować” swój budżet na indeksowanie, robot zwolni tempo i zapłaci Ci mniejszą liczbę wizyt.

W SEO “ładowanie” odnosi się do pracy włożonej w pozyskiwanie backlinków lub poprawę ogólnej popularności strony internetowej. W związku z tym budżet na indeksowanie jest integralną częścią całego ekosystemu sieci. Jeśli wykonujesz dobrą pracę nad treścią i backlinkami, podnosisz limit swojego dostępnego budżetu na indeksowanie. W swoich zasobach Google nie podejmuje przedsięwzięcia w celu wyraźnego zdefiniowania budżetu indeksowania. Zamiast tego wskazuje na dwa podstawowe składniki indeksowania, które wpływają na dokładność Googlebota oraz częstotliwość jego wizyt:

  • limit szybkości indeksowania;
  • crawl demand.

Co to jest crawl rate limit i jak go sprawdzić?

Najprościej rzecz ujmując, crawl rate limit to liczba jednoczesnych połączeń, jakie Googlebot może nawiązać podczas indeksowania Twojej witryny. Ponieważ Google nie chce zaszkodzić użytkownikom, ogranicza liczbę połączeń, aby utrzymać płynną wydajność Twojej strony/serwera. W skrócie, im wolniejsza witryna, tym mniejszy limit szybkości indeksowania.

Ważne: Limit indeksowania zależy również od ogólnej kondycji SEO Twojej witryny – jeśli Twoja witryna powoduje wiele przekierowań, błędów 404/410 lub jeśli serwer często zwraca kod statusu 500, liczba połączeń również spadnie.

Dane dotyczące limitu indeksowania można analizować za pomocą informacji dostępnych w Google Search Console, w raporcie Statystyki indeksowania.

Zapotrzebowanie na crawlowanie, czyli popularność witryny

Podczas gdy crawl rate limit wymaga od Ciebie dopracowania szczegółów technicznych witryny, crawl demand nagradza Cię za jej popularność. Z grubsza rzecz biorąc, im większy szum wokół witryny (i na niej), tym większe jest zapotrzebowanie na indeksowanie.

W tym przypadku Google bierze pod uwagę dwie kwestie:

  • Ogólna popularność – Google chętniej przeprowadza częste przeszukiwanie adresów URL, które są ogólnie popularne w Internecie (niekoniecznie tych z backlinkami z największej liczby adresów URL).
  • Świeżość danych w indeksie – Google stara się prezentować tylko najnowsze informacje. Ważne: Tworzenie coraz większej ilości nowych treści nie oznacza, że Twój ogólny limit budżetu na indeksowanie wzrasta.

Czynniki wpływające na budżet na indeksowanie

W poprzedniej części zdefiniowaliśmy crawl budget jako kombinację limitu szybkości indeksowania i zapotrzebowania na indeksowanie. Należy pamiętać, że aby zapewnić prawidłowe indeksowanie (a tym samym indeksowanie) witryny, należy zadbać o oba te czynniki jednocześnie.

Poniżej znajduje się prosta lista punktów, które należy wziąć pod uwagę podczas optymalizacji budżetu indeksowania.

  • Serwer – główną kwestią jest wydajność. Im mniejsza prędkość, tym większe ryzyko, że Google przeznaczy mniej zasobów na indeksowanie Twojej nowej treści.
  • Kody odpowiedzi serwera – im większa liczba przekierowań 301 i błędów 404/410 na Twojej stronie, tym gorsze wyniki indeksowania otrzymasz. Ważne: Zwracaj uwagę na pętle przekierowań – każdy “hop” zmniejsza limit szybkości indeksowania Twojej witryny przy kolejnej wizycie bota.
  • Bloki w robots.txt – jeśli opierasz swoje dyrektywy robots.txt na przeczuciu, możesz skończyć z tworzeniem wąskich gardeł indeksowania. Efekt: wyczyścisz indeks, ale kosztem efektywności indeksowania dla nowych stron (gdy zablokowane adresy URL były mocno osadzone w strukturze całej witryny).
  • Nawigacja fasetowa / identyfikatory sesji / wszelkie parametry w adresach URL – przede wszystkim należy uważać na sytuacje, w których adres z jednym parametrem może być parametryzowany dalej, bez żadnych ograniczeń. Jeśli tak się stanie, Google dotrze do nieskończonej liczby adresów, poświęcając wszystkie dostępne zasoby na mniej istotne części naszej strony.
  • Duplicate content – skopiowana treść (pomijając kanibalizację) znacząco obniża skuteczność indeksowania nowej treści.
  • Thin Content – występuje wtedy, gdy strona ma bardzo niski stosunek tekstu do HTML. W efekcie Google może zidentyfikować taką stronę jako tzw. miękkie 404 i ograniczyć indeksację jej zawartości (nawet jeśli treść jest sensowna, co może mieć miejsce np. na stronie producenta prezentującej jeden produkt i brak unikalnej treści tekstowej).
    Słabe linkowanie wewnętrzne lub jego brak.

This Post Has 0 Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

Back To Top