David Burdelak
Blog

Czynniki rankingowe Yandex - wyciek pełnej listy

Czynniki rankingowe Yandex


Analiza technicznej dokumentacji niemal dwóch tysięcy czynników rankingowych to unikalna okazja, by zrozumieć logikę inżynierii systemów wyszukiwania z perspektywy deweloperów, a nie tylko domysłów SEO. Choć wyciek dotyczy bezpośrednio kodu Yandex, dla branży jest to przede wszystkim bezcenne narzędzie do analizy "inżynierii wstecznej" algorytmów Google. Oba systemy dzielą wspólną historię deweloperską i bazują na zbliżonej architekturze uczenia maszynowego opartej na drzewach decyzyjnych, co sprawia, że te same zasady matematyczne rządzą widocznością stron w obu wyszukiwarkach. Poniższe zestawienie pokazuje, jak techniczne wagi — od tekstowej precyzji (BM25) po autorytet brandu i spójność tematyczną (Site Focus) — budują pozycję strony w nowoczesnym internecie.


Podstawy struktury rankingu Yandex

Zrozumienie rankingu należy zacząć od faktu, że algorytm nie jest jedną, sztywną listą zasad, lecz dynamicznym systemem wag. W analizowanym pliku czynniki są podzielone na grupy (Groups) i klasy (Slices), co pokazuje, jak wyszukiwarka segreguje dane przed ich ostatecznym przetworzeniem. Warto zauważyć, że choć specyfika Yandexa jest unikalna, wiele z tych mechanizmów pokrywa się z tym, jak działają ogólne zasady SEO, które stosujemy przy optymalizacji pod Google. Nie każda strona jest oceniana tą samą miarą – algorytm najpierw klasyfikuje zapytanie i dokument, a dopiero potem dobiera odpowiedni zestaw wag.

Kluczowym elementem są tzw. tagi (Tags). Każdy z 1922 czynników posiada oznaczenia takie jak TG_STATIC czy TG_DYNAMIC, które definiują ich rolę w procesie obliczeniowym:

  • Czynniki statyczne (TG_STATIC) - to "DNA" Twojej strony. Są to informacje o dokumentach, które wyszukiwarka zna jeszcze przed wpisaniem zapytania przez użytkownika. Znajdziemy tu dane o wieku domeny, bazowe wskaźniki autorytetu (jak PageRank) czy techniczne parametry serwera. To fundament, który określa potencjał strony do rankowania.
  • Czynniki dynamiczne (TG_DYNAMIC) - są obliczane "w locie". Mierzą one, jak dobrze Twoja treść pasuje do konkretnego pytania wpisanego w danej sekundzie. To tutaj odbywa się matematyczne dopasowanie intencji użytkownika do treści artykułu.

System korzysta również z zaawansowanego indeksowania strefowego. Dokumentacja ujawnia, że algorytm osobno ocenia tytuł, nagłówki i treść główną, przypisując im różne priorytety. Oznacza to, że to samo słowo kluczowe ma inną wagę w zależności od tego, gdzie się znajduje. Co ciekawe, wiele czynników posiada flagę TG_USER, co potwierdza, że dane o tym, kim jest użytkownik i jak się zachowuje, są wplecione bezpośrednio w fundamenty rankingu.

Wszystko to spaja architektura uczenia maszynowego oparta na drzewach decyzyjnych. System nieustannie analizuje, który z tych tysięcy parametrów jest w danym momencie najważniejszy. Warto zauważyć, że w dokumentacji wiele czynników ma status "deprecated" lub "unused" – to dowód na to, że ranking to żywy organizm, który ciągle ewoluuje, porzucając stare metody na rzecz nowych sygnałów, takich jak zaawansowana semantyka czy analiza intencji.

Czynniki trafności tekstowej

Większość najważniejszych czynników tekstowych w pliku (jak FI_TEXT_BM25, FI_TITLE_BM25, FI_URL_BM25) opiera się na algorytmie BM25 (Best Matching 25). Jest to funkcja rankingu, która ocenia trafność dokumentu względem zapytania, opierając się na trzech kluczowych zasadach:

  • Częstotliwość słowa (Term Frequency): Im częściej słowo kluczowe pojawia się w tekście, tym wyższy wynik, ale — co kluczowe — algorytm stosuje tutaj "nasycenie". W przeciwieństwie do starych metod, BM25 wie, że dziesiąte powtórzenie tego samego słowa nie czyni strony dziesięć razy lepszą. To mechanizm, który naturalnie zwalcza keyword stuffing.
  • Rzadkość słowa (Inverse Document Frequency): Algorytm nadaje większą wagę słowom rzadkim i konkretnym. Słowo "naprawa" ma mniejszą wartość niż unikalny model pralki, bo to drugie precyzyjniej definiuje temat.
  • Długość dokumentu: BM25 normalizuje wynik względem długości tekstu. Krótki opis, który zawiera słowo kluczowe trzy razy, może zostać oceniony wyżej niż bardzo długi artykuł, w którym to samo słowo występuje pięć razy, ale "ginie" w masie innych informacji.

Poza samym BM25, system wykorzystuje grupę czynników BestForm. Pozwala ona algorytmowi na tzw. lematyzację, czyli rozpoznawanie wszystkich odmian danego słowa. Dzięki temu strona rankuje na frazę "naprawa pralek", nawet jeśli w tekście występuje ona w formie "naprawiamy pralkę".

Kluczowym dopełnieniem są czynniki proximity (bliskość), w pliku oznaczone jako TRp1 czy TRp2. Mierzą one fizyczną odległość między słowami z zapytania wewnątrz dokumentu. Jeśli słowa z frazy kluczowej znajdują się obok siebie (np. w jednym zdaniu), waga trafności rośnie drastycznie w porównaniu do sytuacji, gdy są one rozrzucone w różnych akapitach. Dodatkowo, parametry z grupy PositionLanguageModel analizują prawdopodobieństwo wystąpienia słów w danej kolejności, co pomaga odfiltrować teksty generowane automatycznie, które mogą być poprawne gramatycznie, ale nienaturalne statystycznie.

Czynniki struktury nagłówków i treści

Dokumentacja pokazuje, że system nie traktuje strony jako jednego bloku tekstu. Zamiast tego, rozbija dokument na strefy i dla każdej z nich liczy osobne wskaźniki trafności. Najważniejszym z nich jest FI_TITLE_BM25, który odpowiada za treść znacznika TITLE. Jest on traktowany jako najsilniejszy, skondensowany sygnał o tematyce strony – jeśli tutaj nie ma dopasowania do zapytania, stronie znacznie trudniej przebić się przez inne czynniki.

Równie istotna jest grupa parametrów FI_TXT_HEAD_BM25. Fakt, że nagłówki (od H1 do H6) mają własny licznik BM25, oznacza, że słowa w nich zawarte ważą więcej niż ten sam tekst w zwykłym akapicie. System analizuje hierarchię dokumentu:

  • Nagłówek H1 traktowany jako deklaracja zawartości sekcji lub całej strony. Algorytm sprawdza, czy treść pod nagłówkiem (tzw. content body) faktycznie rozwija myśl zawartą w tytule sekcji.
  • Nagłówki H2-H3 służą do mapowania podtematów. Plik sugeruje, że wyszukiwarka bada "spójność pionową" – czyli czy słowa kluczowe w podnagłówkach wspierają główny temat zdefiniowany w tytule i H1.

Kolejnym ciekawym elementem jest wskaźnik gęstości strukturalnej. System analizuje stosunek czystego tekstu do znaczników HTML oraz tzw. segmentację dokumentu. W pliku znajdziemy odniesienia do czynników badających, czy ważne informacje znajdują się w górnej części strony (tzw. above the fold). Tekst ukryty w głębokich strukturach kodu lub na samym dole długiego dokumentu może otrzymać niższą wagę w końcowym rankingu.

Warto też zwrócić uwagę na obecność tabel i list wypunktowanych. Chociaż nie mają one w pliku tak bezpośrednich nazw jak nagłówki, to algorytmy trafności tekstowej wyżej oceniają dokumenty, które prezentują dane w sposób uporządkowany. Dla systemu jest to sygnał, że treść jest przygotowana pod kątem konkretnej użyteczności, a nie jest jedynie "ścianą tekstu" stworzoną pod roboty.

Czynniki linkowania zewnętrznego

Część specjalistów SEO skupia się na "mocy" linka, ale plik ujawnia, że system priorytetyzuje wiarygodność źródła (Trust) ponad jego siłę. Fundamentem jest tu parametr FI_PAGE_RANK, ale w nowoczesnym wydaniu jest on modyfikowany przez szereg czynników korygujących:

  • Wiek linku i stabilność (LinkAge): To jeden z najciekawszych parametrów. Algorytm odróżnia linki "świeże" od tych, które trwają w strukturze sieci od lat. Nagły przyrost linków (tzw. link blast) jest flagowany, ponieważ statystycznie rzadko zdarza się w sposób naturalny. Linki, które przetrwały wiele aktualizacji bazy danych, zyskują najwyższy mnożnik zaufania.
  • LinkBM25 – Matematyka zakotwiczenia: To, co odróżnia ten system od prostych algorytmów, to stosowanie funkcji BM25 do treści anchorów. System nie sprawdza tylko, czy słowo kluczowe jest w linku. On analizuje unikalność i rzadkość tego słowa w całym profilu linkowym. Jeśli 90% linków ma ten sam tekst (tzw. exact match), mechanizm BM25 "nasyca się" i przestaje dodawać wagę, a w skrajnych przypadkach włącza flagi antyspamowe.
  • Autorytet Host-to-Host: W pliku widać wyraźny podział na wagę dokumentu i wagę hosta (TG_HOST). Link z podstrony, która sama nie ma autorytetu, ale znajduje się na domenie o ogromnym zaufaniu (np. uniwersytet, duży portal informacyjny), jest wart więcej niż link ze strony o wysokim PageRanku, ale na słabym, "śmieciowym" hostingu.
  • Dopasowanie tematyczne (Site Radius): System bada, w jakim "promieniu tematycznym" znajduje się linkujący. Jeśli strona o mechanice samochodowej linkuje do serwisu o zdrowiu, waga takiego linka jest drastycznie obniżana. Algorytm szuka potwierdzenia eksperckości w obrębie tej samej niszy.

To pokazuje, że nie liczy się suma linków, ale ich profil statystyczny. System szuka naturalnego rozkładu: mieszanki linków starych i nowych, o różnych anchorach, pochodzących z domen o ugruntowanej reputacji w danej dziedzinie. Każde odchylenie od tej normy matematycznej osłabia wpływ linkowania na pozycję strony.

Czynniki linkowania wewnętrznego

Wewnętrzna architektura połączeń jest w dokumentacji traktowana jako system dystrybucji priorytetów. Podczas gdy linki zewnętrzne budują autorytet globalny, linkowanie wewnętrzne (Internal Linking) decyduje o tym, jak ten autorytet jest „rozlewany” na poszczególne podstrony.

W pliku odnajdujemy parametry wskazujące na to, że algorytm buduje graf połączeń wewnątrz hosta. Nie jest to tylko kwestia ułatwienia pracy robotowi indeksującemu, ale realna metoda oceny ważności dokumentu. Kluczowe aspekty techniczne to:

  • Dystrybucja Static Rank: System oblicza wewnętrzny ekwiwalent PageRanku. Jeśli strona główna posiada dużą moc (bo prowadzą do niej silne linki zewnętrzne), linki wychodzące z niej bezpośrednio do kategorii przekazują największą część tego „ładunku”. W dokumentacji widać, że strony znajdujące się głęboko w strukturze (np. 5 kliknięć od strony głównej) automatycznie otrzymują niższe wagi startowe, co jest odzwierciedlone w parametrach odległości (distance factors).
  • Kontekstualność Anchorów Wewnętrznych: Podobnie jak przy linkach zewnętrznych, tutaj również działa mechanika dopasowania tekstu odnośnika do celu. Jednak w przypadku linkowania wewnętrznego, system kładzie większy nacisk na spójność nawigacyjną. Jeśli linki w menu (tzw. sitewide) są czytelne i stałe, algorytm przypisuje domenie wyższy wskaźnik stabilności strukturalnej.
  • Izolacja Sierot (Orphan Pages): Dokumenty, do których nie prowadzą żadne linki wewnętrzne, są w strukturze wag niemal pomijane, nawet jeśli istnieją w mapie strony XML. System traktuje brak powiązań wewnętrznych jako sygnał o niskiej istotności treści.
  • Ciężar linków z treści vs. nawigacji: Analiza sugeruje, że linki umieszczone wewnątrz unikalnych bloków tekstu (tzw. linki kontekstowe) mogą nieść inną wartość niż linki w stopce czy sidebarze. Te pierwsze są dla algorytmu sygnałem redakcyjnym, te drugie jedynie technologicznym.

Zrozumienie tej hierarchii pozwala na celowe sterowanie „uwagą” algorytmu. Poprzez odpowiednie linkowanie wewnętrzne, możemy wymusić na systemie, aby traktował konkretną podstronę produktową jako ważniejszą od wpisu blogowego sprzed trzech lat, nawet jeśli ten drugi ma więcej linków zewnętrznych.

Czynniki behawioralne

Głównym mechanizmem jest tutaj analiza ścieżki powrotu (pogo-sticking). Algorytm mierzy nie tylko sam fakt kliknięcia w wynik (CTR), ale przede wszystkim to, co dzieje się później. Jeśli użytkownik po przejściu na stronę wraca do wyszukiwarki po kilku sekundach i klika w kolejny wynik, system otrzymuje silny sygnał, że dokument – mimo technicznej trafności – nie zrealizował intencji (Search Intent). W pliku odpowiadają za to czynniki monitorujące czas trwania sesji i głębokość interakcji, które potrafią przeważyć nad autorytetem linków.

Kolejnym poziomem jest Query-to-Document Affinity. System uczy się, które dokumenty są „wybierane” dla konkretnych grup zapytań. Jeśli dany brand jest często wyszukiwany z konkretną frazą (np. „buty [marka]”), to powiązanie to zostaje zapisane jako stały mnożnik. Tutaj właśnie spójność brandu spotyka się z zachowaniem tłumu – jeśli użytkownicy masowo ignorują dany wynik na rzecz innego, wagi TG_DYNAMIC dla tej podstrony są obniżane, co w dłuższej perspektywie skutkuje spadkiem w rankingu, niezależnie od optymalizacji treści.

Warto też zwrócić uwagę na personalizację behawioralną ukrytą pod flagami TG_USER. System bierze pod uwagę historię wyszukiwania i lokalizację. Jeśli użytkownik regularnie odwiedza strony o konkretnej tematyce, algorytm dostosowuje wagi tak, by promować wyniki zbieżne z jego dotychczasowym profilem zainteresowań. To sprawia, że ranking staje się strukturą płynną – ten sam dokument może mieć różną wartość „punktową” dla dwóch różnych osób, co czyni sztywne listy czynników rankingowych jedynie modelem wyjściowym, a nie ostatecznym werdyktem.

Czynniki doświadczenia użytkownika

Współczesne systemy rankingowe traktują warstwę techniczną jako fundament wiarygodności. W analizowanym kodzie widać wyraźnie, że błędy techniczne nie są tylko problemem "estetycznym", ale działają jako silne demotywatory dla algorytmu. Jeśli bot napotyka na problemy z renderowaniem lub stabilnością, wagi przypisane do trafności tekstowej są automatycznie redukowane.

Główne parametry techniczne można zestawić w formie matrycy wpływów, która pokazuje, jak system kategoryzuje błędy:

Kategoria sygnału Kluczowy parametr w kodzie Wpływ na ranking
Dostępność zasobu HTTP_Code_2xx/4xx/5xx Krytyczny – błędy 4xx/5xx trwale usuwają dokument z aukcji o pozycję.
Szybkość Server_Response_Time Progresywny – opóźnienia FI_FETCH_TIME powyżej 2s obniżają wagę czynników dynamicznych.
Stabilność Layout_Shift_Signals Pośredni – wpływa na współczynnik odrzuceń (pogo-sticking), korygując pozycję.
Bezpieczeństwo HTTPS_Flag / SSL_Valid Binarny – brak certyfikatu może flagować stronę jako o niskim zaufaniu (TG_HOST).

Interesującym aspektem jest sposób, w jaki system interpretuje rozmieszczenie elementów interaktywnych. Plik sugeruje, że algorytm potrafi zidentyfikować "szum" na stronie. Nadmiar reklam (szczególnie tych przesłaniających treść główną) czy nachalne okna pop-up są identyfikowane przez czynniki badające stosunek treści użytecznej do bloków kodu zewnętrznego, co w dokumentacji często wiąże się z parametrem FI_ADS_DISTANCE.

Warto zwrócić uwagę na to, jak system waży urządzenia mobilne. Z dokumentacji wynika, że nie jest to już tylko "dodatkowy czynnik", ale osobna klasa rankingu (Slice). System stosuje tu specyficzne reguły:

  • Analiza viewportu: Czy elementy nie wychodzą poza ekran urządzenia (FI_VIEWPORT_WIDTH).
  • Czytelność fontów: Czy rozmiar tekstu pozwala na konsumpcję treści bez powiększania.
  • Interaktywność: Odstępy między przyciskami (tzw. tap targets), które zapobiegają błędom użytkownika.

Na koniec warto wspomnieć o świeżości technicznej. Algorytm preferuje dokumenty, które są regularnie re-indeksowane bez błędów. Każda udana wizyta bota, która nie kończy się timeoutem, buduje "techniczny autorytet" hosta. W efekcie, czysta i szybka struktura kodu działa jak mnożnik dla wszystkich pozostałych czynników – sprawia, że moc linków i jakość treści mogą w pełni wybrzmieć w wynikach wyszukiwania.

Czynniki klasyfikacji typu strony

W dokumentacji proces klasyfikacji typu strony jest opisany jako kluczowy etap "pre-rankingu". Algorytm najpierw definiuje przeznaczenie dokumentu, aby dobrać do niego odpowiednią miarę sukcesu. W pliku widać, że strona, która zostanie błędnie sklasyfikowana (np. artykuł uznany za stronę produktową), traci szansę na wysokie pozycje, bo system przykłada do niej niewłaściwe filtry jakościowe.

1. Wykrywanie natury dokumentu przez PageType

System w pierwszej kolejności analizuje strukturę techniczną, aby przypisać stronie jej "rolę". Algorytm szuka specyficznych wzorców w kodzie – obecność formularzy, przycisków akcji czy danych strukturalnych pozwala mu odróżnić stronę główną od strony artykułu czy oferty. Jeśli dokument zostanie sklasyfikowany jako strona produktowa, system przesuwa ciężar oceny z długości tekstu na precyzję parametrów technicznych. Błędna identyfikacja PageType często skutkuje tym, że wartościowa treść merytoryczna jest ignorowana, bo algorytm oczekiwał w tym miejscu krótkiej specyfikacji handlowej.

2. Mechanizm siteFocusScore i spójność tematyczna

To jeden z najważniejszych parametrów klasyfikacyjnych dla całego hosta. Algorytm oblicza matematyczną odległość między nowym dokumentem a dotychczasową historią publikacji domeny. Jeśli siteFocusScore wykazuje, że strona o określonej tematyce pojawia się na domenie o zupełnie innym profilu, system nadaje jej etykietę "dokumentu poza kontekstem". Taka klasyfikacja drastycznie obniża zaufanie startowe, ponieważ system uznaje, że domena nie posiada "prawa do wypowiadania się" w tej nowej dziedzinie, co ma zapobiegać budowaniu rankingów przez portale "o wszystkim".

3. Filtry degradacji dla treści niskiej jakości (Low-Quality Content)

Klasyfikacja typu strony obejmuje również identyfikację treści, które w pliku określane są jako szkodliwe lub bezwartościowe. System nakłada na dokumenty filtry wykrywające konkretne wzorce:

  • Thin Content: Dokumenty o bardzo niskim stosunku treści unikalnej do kodu szablonu są klasyfikowane jako "cienkie" i automatycznie otrzymują niższy priorytet indeksowania.
  • Scraped Content: System porównuje sygnatury czasowe i strukturę zdań. Jeśli dokument zostanie sklasyfikowany jako kopia, jego wagi są zerowane, a status "oryginału" zostaje przypisany źródłu pierwotnemu.
  • Aggressive Monetization: Strony, na których stosunek linków wychodzących lub reklam do treści głównej przekracza krytyczny próg, są klasyfikowane jako "Low-quality Commercial", co odcina je od zapytań o charakterze edukacyjnym i informacyjnym.

4. Identyfikacja nisz wrażliwych i mechanizm YMYL Flag

Gdy system wykryje w treści pojęcia z zakresu medycyny, finansów czy bezpieczeństwa, dokument otrzymuje specjalną flagę klasyfikacyjną (często powiązaną z SensitiveVerticals). W tym momencie zasady rankingu ulegają całkowitej zmianie – algorytm przestaje premiować nowość czy nasycenie słowami kluczowymi, a zaczyna rygorystycznie sprawdzać historyczną wiarygodność hosta (TG_HOST). Taka klasyfikacja sprawia, że w wynikach wyszukiwania dla tematów wrażliwych preferowane są strony o stabilnej, wieloletniej historii, nawet jeśli technicznie ustępują one nowszej konkurencji.

5. Analiza intencji przez Intent Classification

Ostatecznym etapem klasyfikacji jest przypisanie strony do konkretnej potrzeby użytkownika. Algorytm dzieli dokumenty na informacyjne, transakcyjne i nawigacyjne. W dokumentacji widać, że system premiuje te strony, które "nie oszukują" swojej natury. Jeśli strona sklasyfikowana jako informacyjna (poradnikowa) nagle zmienia się w agresywny landing page sprzedażowy, algorytm wykrywa ten rozdźwięk i obniża jej ranking, uznając, że przestała ona realizować intencję, dla której użytkownicy ją odwiedzali.

Czynniki czasu i świeżości

W architekturze systemu kluczową rolę w reagowaniu na aktualne wydarzenia odgrywa czynnik FI_FRESH_NEWS_DETECTOR_PREDICT, będący detektorem nowości obliczanym w czasie rzeczywistym. Gdy system zidentyfikuje zapytanie jako wymagające świeżych danych, aktywuje on priorytet dla najnowszych dokumentów, co pozwala im czasowo zniwelować przewagę autorytetu starszych domen. Jest to mechanizm ściśle powiązany z intencją użytkownika, gdzie dla określonych kategorii zapytań (np. wiadomości) świeżość staje się nadrzędnym kryterium trafności.

Kolejnym poziomem analizy jest fizyczny wiek dokumentu oraz hosta, mierzony przez czynniki FI_ADD_TIME oraz FI_ADD_TIME_MP. Pierwszy z nich określa czas od dodania konkretnej strony do indeksu, przy czym wartość ta jest normalizowana (np. wiek powyżej 3 lat otrzymuje maksymalną wartość 1), natomiast drugi mierzy staż strony głównej hosta. Najważniejsze jest to, że system analizuje historię zmian dokumentu, a premię za aktualność przyznaje tylko w przypadku wykrycia istotnych modyfikacji merytorycznych, co ma zapobiegać sztucznemu odświeżaniu treści bez wnoszenia nowej wartości dla użytkownika.

Ostatnim filarem jest stabilność historyczna domeny, oparta na grupie czynników związanych z czasem życia hosta oraz długofalowymi danymi użytkowników, takimi jak FI_US_LONG_PERIOD_URL_URL_DT3600_AVG_REG, który analizuje sesje z okresu aż 1600 dni. Podczas gdy poszczególne podstrony mogą walczyć o miano najświeższych, długi czas obecności domeny w sieci oraz stabilne zachowania użytkowników na przestrzeni lat budują fundament zaufania, który chroni witrynę przed nagłymi spadkami pozycji. System łączy te odległe dane historyczne z bieżącymi sygnałami, tworząc profil zaufania, który promuje serwisy o udokumentowanej, wieloletniej jakości.

Czynniki techniczne i anty-spam

Czynniki semantyczne i intencji

Czynniki multimedialne

Czynniki sztucznej inteligencji i sieci neuronowych

Priorytetyzacja działań optymalizacyjnych