Analiza technicznej dokumentacji niemal dwóch tysięcy czynników rankingowych to unikalna okazja, by zrozumieć logikę inżynierii systemów wyszukiwania z perspektywy deweloperów, a nie tylko domysłów SEO. Choć wyciek dotyczy bezpośrednio kodu Yandex, dla branży jest to przede wszystkim bezcenne narzędzie do analizy "inżynierii wstecznej" algorytmów Google. Oba systemy dzielą wspólną historię deweloperską i bazują na zbliżonej architekturze uczenia maszynowego opartej na drzewach decyzyjnych, co sprawia, że te same zasady matematyczne rządzą widocznością stron w obu wyszukiwarkach. Poniższe zestawienie pokazuje, jak techniczne wagi — od tekstowej precyzji (BM25) po autorytet brandu i spójność tematyczną (Site Focus) — budują pozycję strony w nowoczesnym internecie.
Zrozumienie rankingu należy zacząć od faktu, że algorytm nie jest jedną, sztywną listą zasad, lecz dynamicznym systemem wag. W analizowanym pliku czynniki są podzielone na grupy (Groups) i klasy (Slices), co pokazuje, jak wyszukiwarka segreguje dane przed ich ostatecznym przetworzeniem. Warto zauważyć, że choć specyfika Yandexa jest unikalna, wiele z tych mechanizmów pokrywa się z tym, jak działają ogólne zasady SEO, które stosujemy przy optymalizacji pod Google. Nie każda strona jest oceniana tą samą miarą – algorytm najpierw klasyfikuje zapytanie i dokument, a dopiero potem dobiera odpowiedni zestaw wag.
Kluczowym elementem są tzw. tagi (Tags). Każdy z 1922 czynników posiada oznaczenia takie jak TG_STATIC czy TG_DYNAMIC, które definiują ich rolę w
procesie obliczeniowym:
TG_STATIC) - to "DNA" Twojej strony. Są to informacje o dokumentach, które wyszukiwarka zna jeszcze przed wpisaniem
zapytania przez użytkownika. Znajdziemy tu dane o wieku domeny, bazowe wskaźniki autorytetu (jak PageRank) czy techniczne parametry
serwera. To fundament, który określa potencjał strony do rankowania.TG_DYNAMIC) - są obliczane "w locie". Mierzą one, jak dobrze Twoja treść pasuje do konkretnego pytania wpisanego w danej
sekundzie. To tutaj odbywa się matematyczne dopasowanie intencji użytkownika do treści artykułu.System korzysta również z zaawansowanego indeksowania strefowego. Dokumentacja ujawnia, że algorytm osobno ocenia tytuł, nagłówki i treść główną,
przypisując im różne priorytety. Oznacza to, że to samo słowo kluczowe ma inną wagę w zależności od tego, gdzie się znajduje. Co ciekawe, wiele
czynników posiada flagę TG_USER, co potwierdza, że dane o tym, kim jest użytkownik i jak się zachowuje, są wplecione bezpośrednio w fundamenty rankingu.
Wszystko to spaja architektura uczenia maszynowego oparta na drzewach decyzyjnych. System nieustannie analizuje, który z tych tysięcy parametrów jest w danym momencie najważniejszy. Warto zauważyć, że w dokumentacji wiele czynników ma status "deprecated" lub "unused" – to dowód na to, że ranking to żywy organizm, który ciągle ewoluuje, porzucając stare metody na rzecz nowych sygnałów, takich jak zaawansowana semantyka czy analiza intencji.
Większość najważniejszych czynników tekstowych w pliku (jak FI_TEXT_BM25, FI_TITLE_BM25, FI_URL_BM25) opiera się na algorytmie BM25
(Best Matching 25). Jest to funkcja rankingu, która ocenia trafność dokumentu względem zapytania, opierając się na trzech kluczowych zasadach:
Poza samym BM25, system wykorzystuje grupę czynników BestForm. Pozwala ona algorytmowi na tzw. lematyzację, czyli rozpoznawanie wszystkich odmian danego słowa. Dzięki temu strona rankuje na frazę "naprawa pralek", nawet jeśli w tekście występuje ona w formie "naprawiamy pralkę".
Kluczowym dopełnieniem są czynniki proximity (bliskość), w pliku oznaczone jako TRp1 czy TRp2. Mierzą one fizyczną odległość między słowami z zapytania wewnątrz dokumentu. Jeśli słowa z frazy kluczowej znajdują się obok siebie (np. w jednym zdaniu), waga trafności rośnie drastycznie w porównaniu do sytuacji, gdy są one rozrzucone w różnych akapitach. Dodatkowo, parametry z grupy PositionLanguageModel analizują prawdopodobieństwo wystąpienia słów w danej kolejności, co pomaga odfiltrować teksty generowane automatycznie, które mogą być poprawne gramatycznie, ale nienaturalne statystycznie.
Dokumentacja pokazuje, że system nie traktuje strony jako jednego bloku tekstu. Zamiast tego, rozbija dokument na strefy i dla każdej z nich
liczy osobne wskaźniki trafności. Najważniejszym z nich jest FI_TITLE_BM25, który odpowiada za treść znacznika TITLE. Jest on traktowany jako
najsilniejszy, skondensowany sygnał o tematyce strony – jeśli tutaj nie ma dopasowania do zapytania, stronie znacznie trudniej przebić się przez inne
czynniki.
Równie istotna jest grupa parametrów FI_TXT_HEAD_BM25. Fakt, że nagłówki (od H1 do H6) mają własny licznik BM25, oznacza, że słowa w nich zawarte
ważą więcej niż ten sam tekst w zwykłym akapicie. System analizuje hierarchię dokumentu:
Kolejnym ciekawym elementem jest wskaźnik gęstości strukturalnej. System analizuje stosunek czystego tekstu do znaczników HTML oraz tzw. segmentację dokumentu. W pliku znajdziemy odniesienia do czynników badających, czy ważne informacje znajdują się w górnej części strony (tzw. above the fold). Tekst ukryty w głębokich strukturach kodu lub na samym dole długiego dokumentu może otrzymać niższą wagę w końcowym rankingu.
Warto też zwrócić uwagę na obecność tabel i list wypunktowanych. Chociaż nie mają one w pliku tak bezpośrednich nazw jak nagłówki, to algorytmy trafności tekstowej wyżej oceniają dokumenty, które prezentują dane w sposób uporządkowany. Dla systemu jest to sygnał, że treść jest przygotowana pod kątem konkretnej użyteczności, a nie jest jedynie "ścianą tekstu" stworzoną pod roboty.
Część specjalistów SEO skupia się na "mocy" linka, ale plik ujawnia, że system priorytetyzuje wiarygodność źródła (Trust) ponad jego
siłę. Fundamentem jest tu parametr FI_PAGE_RANK, ale w nowoczesnym wydaniu jest on modyfikowany przez szereg czynników korygujących:
TG_HOST). Link z podstrony, która sama nie ma autorytetu, ale
znajduje się na domenie o ogromnym zaufaniu (np. uniwersytet, duży portal informacyjny), jest wart więcej niż link ze strony o wysokim PageRanku, ale
na słabym, "śmieciowym" hostingu.To pokazuje, że nie liczy się suma linków, ale ich profil statystyczny. System szuka naturalnego rozkładu: mieszanki linków starych i nowych, o różnych anchorach, pochodzących z domen o ugruntowanej reputacji w danej dziedzinie. Każde odchylenie od tej normy matematycznej osłabia wpływ linkowania na pozycję strony.
Wewnętrzna architektura połączeń jest w dokumentacji traktowana jako system dystrybucji priorytetów. Podczas gdy linki zewnętrzne budują autorytet globalny, linkowanie wewnętrzne (Internal Linking) decyduje o tym, jak ten autorytet jest „rozlewany” na poszczególne podstrony.
W pliku odnajdujemy parametry wskazujące na to, że algorytm buduje graf połączeń wewnątrz hosta. Nie jest to tylko kwestia ułatwienia pracy robotowi indeksującemu, ale realna metoda oceny ważności dokumentu. Kluczowe aspekty techniczne to:
Zrozumienie tej hierarchii pozwala na celowe sterowanie „uwagą” algorytmu. Poprzez odpowiednie linkowanie wewnętrzne, możemy wymusić na systemie, aby traktował konkretną podstronę produktową jako ważniejszą od wpisu blogowego sprzed trzech lat, nawet jeśli ten drugi ma więcej linków zewnętrznych.
Głównym mechanizmem jest tutaj analiza ścieżki powrotu (pogo-sticking). Algorytm mierzy nie tylko sam fakt kliknięcia w wynik (CTR), ale przede wszystkim to, co dzieje się później. Jeśli użytkownik po przejściu na stronę wraca do wyszukiwarki po kilku sekundach i klika w kolejny wynik, system otrzymuje silny sygnał, że dokument – mimo technicznej trafności – nie zrealizował intencji (Search Intent). W pliku odpowiadają za to czynniki monitorujące czas trwania sesji i głębokość interakcji, które potrafią przeważyć nad autorytetem linków.
Kolejnym poziomem jest Query-to-Document Affinity. System uczy się, które dokumenty są „wybierane” dla konkretnych grup zapytań. Jeśli dany brand jest często
wyszukiwany z konkretną frazą (np. „buty [marka]”), to powiązanie to zostaje zapisane jako stały mnożnik. Tutaj właśnie spójność brandu spotyka się z
zachowaniem tłumu – jeśli użytkownicy masowo ignorują dany wynik na rzecz innego, wagi TG_DYNAMIC dla tej podstrony są obniżane, co w dłuższej
perspektywie skutkuje spadkiem w rankingu, niezależnie od optymalizacji treści.
Warto też zwrócić uwagę na personalizację behawioralną ukrytą pod flagami TG_USER. System bierze pod uwagę historię wyszukiwania i lokalizację. Jeśli
użytkownik regularnie odwiedza strony o konkretnej tematyce, algorytm dostosowuje wagi tak, by promować wyniki zbieżne z jego dotychczasowym profilem
zainteresowań. To sprawia, że ranking staje się strukturą płynną – ten sam dokument może mieć różną wartość „punktową” dla dwóch różnych osób, co
czyni sztywne listy czynników rankingowych jedynie modelem wyjściowym, a nie ostatecznym werdyktem.
Współczesne systemy rankingowe traktują warstwę techniczną jako fundament wiarygodności. W analizowanym kodzie widać wyraźnie, że błędy techniczne nie są tylko problemem "estetycznym", ale działają jako silne demotywatory dla algorytmu. Jeśli bot napotyka na problemy z renderowaniem lub stabilnością, wagi przypisane do trafności tekstowej są automatycznie redukowane.
Główne parametry techniczne można zestawić w formie matrycy wpływów, która pokazuje, jak system kategoryzuje błędy:
| Kategoria sygnału | Kluczowy parametr w kodzie | Wpływ na ranking |
|---|---|---|
| Dostępność zasobu | HTTP_Code_2xx/4xx/5xx | Krytyczny – błędy 4xx/5xx trwale usuwają dokument z aukcji o pozycję. |
| Szybkość | Server_Response_Time | Progresywny – opóźnienia FI_FETCH_TIME powyżej 2s obniżają wagę czynników dynamicznych. |
| Stabilność | Layout_Shift_Signals | Pośredni – wpływa na współczynnik odrzuceń (pogo-sticking), korygując pozycję. |
| Bezpieczeństwo | HTTPS_Flag / SSL_Valid | Binarny – brak certyfikatu może flagować stronę jako o niskim zaufaniu (TG_HOST). |
Interesującym aspektem jest sposób, w jaki system interpretuje rozmieszczenie elementów interaktywnych. Plik sugeruje, że algorytm potrafi
zidentyfikować "szum" na stronie. Nadmiar reklam (szczególnie tych przesłaniających treść główną) czy nachalne okna pop-up są identyfikowane
przez czynniki badające stosunek treści użytecznej do bloków kodu zewnętrznego, co w dokumentacji często wiąże się z parametrem FI_ADS_DISTANCE.
Warto zwrócić uwagę na to, jak system waży urządzenia mobilne. Z dokumentacji wynika, że nie jest to już tylko "dodatkowy czynnik", ale osobna klasa rankingu (Slice). System stosuje tu specyficzne reguły:
FI_VIEWPORT_WIDTH).Na koniec warto wspomnieć o świeżości technicznej. Algorytm preferuje dokumenty, które są regularnie re-indeksowane bez błędów. Każda udana wizyta bota, która nie kończy się timeoutem, buduje "techniczny autorytet" hosta. W efekcie, czysta i szybka struktura kodu działa jak mnożnik dla wszystkich pozostałych czynników – sprawia, że moc linków i jakość treści mogą w pełni wybrzmieć w wynikach wyszukiwania.
W dokumentacji proces klasyfikacji typu strony jest opisany jako kluczowy etap "pre-rankingu". Algorytm najpierw definiuje przeznaczenie dokumentu, aby dobrać do niego odpowiednią miarę sukcesu. W pliku widać, że strona, która zostanie błędnie sklasyfikowana (np. artykuł uznany za stronę produktową), traci szansę na wysokie pozycje, bo system przykłada do niej niewłaściwe filtry jakościowe.
System w pierwszej kolejności analizuje strukturę techniczną, aby przypisać stronie jej "rolę". Algorytm szuka specyficznych wzorców w kodzie – obecność formularzy, przycisków akcji czy danych strukturalnych pozwala mu odróżnić stronę główną od strony artykułu czy oferty. Jeśli dokument zostanie sklasyfikowany jako strona produktowa, system przesuwa ciężar oceny z długości tekstu na precyzję parametrów technicznych. Błędna identyfikacja PageType często skutkuje tym, że wartościowa treść merytoryczna jest ignorowana, bo algorytm oczekiwał w tym miejscu krótkiej specyfikacji handlowej.
To jeden z najważniejszych parametrów klasyfikacyjnych dla całego hosta. Algorytm oblicza matematyczną odległość między nowym dokumentem a dotychczasową
historią publikacji domeny. Jeśli siteFocusScore wykazuje, że strona o określonej tematyce pojawia się na domenie o zupełnie innym profilu, system nadaje
jej etykietę "dokumentu poza kontekstem". Taka klasyfikacja drastycznie obniża zaufanie startowe, ponieważ system uznaje, że domena nie posiada "prawa do
wypowiadania się" w tej nowej dziedzinie, co ma zapobiegać budowaniu rankingów przez portale "o wszystkim".
Klasyfikacja typu strony obejmuje również identyfikację treści, które w pliku określane są jako szkodliwe lub bezwartościowe. System nakłada na dokumenty filtry wykrywające konkretne wzorce:
Gdy system wykryje w treści pojęcia z zakresu medycyny, finansów czy bezpieczeństwa, dokument otrzymuje specjalną flagę klasyfikacyjną (często
powiązaną z SensitiveVerticals). W tym momencie zasady rankingu ulegają całkowitej zmianie – algorytm przestaje premiować nowość czy nasycenie
słowami kluczowymi, a zaczyna rygorystycznie sprawdzać historyczną wiarygodność hosta (TG_HOST). Taka klasyfikacja sprawia, że w wynikach wyszukiwania
dla tematów wrażliwych preferowane są strony o stabilnej, wieloletniej historii, nawet jeśli technicznie ustępują one nowszej konkurencji.
Ostatecznym etapem klasyfikacji jest przypisanie strony do konkretnej potrzeby użytkownika. Algorytm dzieli dokumenty na informacyjne, transakcyjne i nawigacyjne. W dokumentacji widać, że system premiuje te strony, które "nie oszukują" swojej natury. Jeśli strona sklasyfikowana jako informacyjna (poradnikowa) nagle zmienia się w agresywny landing page sprzedażowy, algorytm wykrywa ten rozdźwięk i obniża jej ranking, uznając, że przestała ona realizować intencję, dla której użytkownicy ją odwiedzali.
W architekturze systemu kluczową rolę w reagowaniu na aktualne wydarzenia odgrywa czynnik FI_FRESH_NEWS_DETECTOR_PREDICT, będący detektorem
nowości obliczanym w czasie rzeczywistym. Gdy system zidentyfikuje zapytanie jako wymagające świeżych danych, aktywuje on priorytet dla najnowszych
dokumentów, co pozwala im czasowo zniwelować przewagę autorytetu starszych domen. Jest to mechanizm ściśle powiązany z intencją użytkownika, gdzie
dla określonych kategorii zapytań (np. wiadomości) świeżość staje się nadrzędnym kryterium trafności.
Kolejnym poziomem analizy jest fizyczny wiek dokumentu oraz hosta, mierzony przez czynniki FI_ADD_TIME oraz FI_ADD_TIME_MP. Pierwszy z
nich określa czas od dodania konkretnej strony do indeksu, przy czym wartość ta jest normalizowana (np. wiek powyżej 3 lat otrzymuje maksymalną
wartość 1), natomiast drugi mierzy staż strony głównej hosta. Najważniejsze jest to, że system analizuje historię zmian dokumentu, a premię za aktualność
przyznaje tylko w przypadku wykrycia istotnych modyfikacji merytorycznych, co ma zapobiegać sztucznemu odświeżaniu treści bez wnoszenia nowej wartości
dla użytkownika.
Ostatnim filarem jest stabilność historyczna domeny, oparta na grupie czynników związanych z czasem życia hosta oraz długofalowymi danymi
użytkowników, takimi jak FI_US_LONG_PERIOD_URL_URL_DT3600_AVG_REG, który analizuje sesje z okresu aż 1600 dni. Podczas gdy poszczególne
podstrony mogą walczyć o miano najświeższych, długi czas obecności domeny w sieci oraz stabilne zachowania użytkowników na przestrzeni lat budują
fundament zaufania, który chroni witrynę przed nagłymi spadkami pozycji. System łączy te odległe dane historyczne z bieżącymi sygnałami, tworząc
profil zaufania, który promuje serwisy o udokumentowanej, wieloletniej jakości.