Blog

Czynniki rankingowe Yandex - wyciek pełnej listy

Czynniki rankingowe Yandex


Niedawno Yandex był rzekomo ofiarą wycieku kodu źródłowego (lub być może został zhakowany). Jak się okazało, w kodzie źródłowym znaleziono listę czynników rankingowych, które używa rosyjska wyszukiwarka w celu oceny danej witryny. Istnieje ponad 1900 indywidualnych czynników rankingowych, zaczynając od „PageRank” i schodząc w dół do wszelkiego rodzaju szczegółów, które mogą Cię zaskoczyć.

Lista czynników rankinowych wyszukiwarki Yandex

  1. Page Rank - budowany na podstawie linków na podstawie krajóww: RU i UA.
  2. Trafność tekstu (maxfreq - częstotliwość występowania najczęstszego słowa, która nadaje sens długości dokumentu.
  3. Link relewantny (link rel).
  4. Premia za tekst wysokiej jakości, który jest określany jako prioret 7.
  5. Ścisły priorytet dla trafnego tekstu - na stronie znajdują się wszystkie słowa/zapytania (o ile przejdą ograniczenia kontekstowe zapytania, np. oba słowa powinny znajdować się w tym samym zdaniu).
  6. Priorytet frazy dla trafnego tekstu - w dokumencie znajdują się wszystkie słowa zapytania w rzędzie.
  7. W treści linku znajdują się wszystkie słowa kluczowe.
  8. Obecność dokładnego zapytania/frazy w tytule strony oraz w pierwszym zdaniu treści.
  9. Napotkano witrynę, w której wszystkie pozycje słów są oznaczone jako mające znaczenie - słowa kluczowe z nagłówka lub sekcji HEAD).
  10. Długa strona - im dłuższa, tym większa wartość współczynnika.
  11. Trafność tekstu w którym waga wszystkich uważana jest za równą (tj. nie uwzględniają premii za bliskość trafności tytułu i słowa).
  12. Suma słów zapytania. Nazwa nie odzwierciedla istoty: na przykład dla zapytania "Poznań" współczynnik ten będzie większy niż dla zapytania "Warszawa Rafał Trzaskowski".
  13. Długi tekst bez odnośników.
  14. Czy strona ma "kaganiec" - jest zablokowana filtrem.
  15. Dopasowanie geolokalizacyjne na poziomie kraju pomiędzy regionem użytkownika a stroną internetową. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.
  16. Dopasowanie tematyczne zapytania do strony.
  17. Czynnik w liczbie rafinacji. Język zapytań posiada rafinacje użytkownika ("słowo poprzedzone znakiem procentu"). Ma to oznaczać coś w rodzaju "Chciałbym, aby w dokumencie było słowo". Jedynym znanym wartościowym zastosowaniem tej funkcji jest zapytanie [%official %site FirmName].
  18. Boost dla linków posiadających wysoką wartość treści oraz mało linków wychodzących.
  19. Moduł DSSM (Deep Semantic Similarity Model) - wytrenowany na przeformułowaniach, wykorzystuje odpowiednie zdania w części strony.
  20. Dla stron o wysokim znaczeniu linku - znormalizowana istotność linku bez uwzględnienia powiązania.
  21. Czy URL posiada wysoką linku relewantnego
  22. Jakość linków zewnętrznych.
  23. Liczba linków przychodzących.
  24. Popularność frazy.
  25. Wartość znaczenia linku podzielona przez sześcian liczby słów w zapytaniu i przeliczona przez standardowy remap wartości.
  26. Strona jest w języku rosyjskim.
  27. Jeśli jest to strona główna właściciela (najczęściej domena drugiego poziomu, np. xxxx.ru), to współczynnik wynosi 1. Dla bumelantów, gospodarzy, osobistych blogów itp. (np. Lyfjornal, narod.ru, itp.) - domeny trzeciego poziomu (takie jak xxxxx.narod.ru) również będą miały współczynnik 1.
  28. Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny
  29. BM25 określana za pomocą treśći - funkcja rankingowa wykorzystywana przez wyszukiwarki do oszacowania trafności strony dla danego zapytania, opierająca się na probabilistycznych ramach wyszukiwania.
  30. BM25 według linków - wagi linków nie są brane pod uwagę.
  31. BM25 w tekście i linkach jednocześnie.
  32. Na podstawie Okapi BM25, czy wszystkie słowa/zapytania są w tekście + linkach.
  33. Czy na stronie znajdują się reklamy.
  34. Czy na stronie znajduje się Yandex Ads.
  35. Klasyfikator spamu przez filtry antyspamowe - czy uznał stronę za NIE(!) spam. Tzn. 0=spam, 1=dobry.
  36. BM25 według par słów - suma wszystkich par słów zapytania i policzona liczba ich wystąpień w tekście strony. Suma wag słów = waga pary.
  37. BM25 według par linków - suma wszystkich par słów zapytania i policzona liczba ich wystąpień w tekście strony. Wagi linków linków nie są brane pod uwagę.
  38. BM25 od liczby zdań w dokumencie, w którym występuje.
  39. BM25 według samego tytułu.
  40. BM25 w słowach oznaczonych wysoką wartością - czyli np. pogrubione.
  41. Min(liczba słów zapytania/10.
  42. 1/liczba słów w zapytaniu.
  43. Czy strona nie posiada trafnego tekstu.
  44. Czy strona nie posiada znacznika link rel.
  45. Brak informacji o kliknięciu tego adresu URL dla tego żądania 1 - żądania lub adresu URL żądania nie ma w bazie danych kliknięć, 0 - adresu URL żądania znajduje się w bazie danych kliknięć.
  46. Brak informacji o klikalności dla tego żądania 1 - żądania nie ma w bazie kliknięć, 0 - żądania nie ma w bazie kliknięć.
  47. Liczba przekierowań adresu URL (jak mniej - bliżej węzła, tym niższa wartość (0 - węzeł, 1 - nie można się z niego dostać, 0 < można się z niego dostać < 1). Wartość normalna dla nost root wynosi 0,0039).
  48. Logarytm znaczenia linku odwzorowany liniowo na [0,1].
  49. Obecność par słów w tekście, lecz w dokładnej formie.
  50. Liczba zdań, które zawierają wiele słów w dokładnej formie.
  51. Obecność słów w tytule w dokładnej formie.
  52. Obecność słów w nagłówku w dokładnej formie.
  53. BM25 na podstawie wartości linków w dokładnej formie.
  54. BM25 na podstawie wartości treści w dokładnej formie.
  55. Obecność par wyrazów z uwzględnieniem synonimów.
  56. Liczba zdań, w których występuje wiele słów, w tym synonimów.
  57. Obecność słów w tytule, z uwzględnieniem synonimów.
  58. BM25 z synonimami.
  59. Uproszczony BM25 z synonimami.
  60. Jak często adresy URL danej domeny są klikane dla danego zapytania - CTR domeny pomnożony przez współczynnik korygujący.
  61. Czy jest informacja o klikalności dla danego domainId dla danego żądania 1 - żądania lub właściciela żądania nie ma w bazie klikalności, 0 - właściciel żądania jest w bazie klikalności.
  62. Kliki wykonane przez właściciela witryny.
  63. Względna częstotliwość występowania słów zapytania w linkach (1 - słowa zapytania występują często w linkach, 0.3 - rzadko); dokładniej, wartość tego współczynnika jest negowana jeśli: TR=0 && LR=0 && (brak linków ze wszystkimi słowami zapytania) && (brak quorum) && (przynajmniej jedna para słów zapytania występuje w tekście)
  64. Linki mają wszystkie słowa z zapytania.
  65. Jeden link zawiera wszystkie słowa z zapytania.
  66. Czy istnieje łącze, które przekroczyło "kworum".
  67. Jaki procent linków jest "dobrych".
  68. Ile jest "złych" linków.
  69. Maksymalna liczba linków DPR.
  70. TfIdf (zwykły TF*IDF według powiązań) - częstotliwość słów w linkach jest mnożona przez odwrotność częstotliwości strony i sumowana po wszystkich słowach, a następnie normalizowana do długości strony.
  71. Link relewantny według Gulina (autora współczynnika).
  72. Czy w tekście/linkach znajduje się dokładna forma wszystkich słów zapytania.
  73. Czy istnieje lemat wszystkich słów zapytania w tekście/linkach.
  74. Czy strona przeszła zmiękczenie przez ograniczenia kreatora składni. Tylko dla stron o relewantności tekstowej. Dla zapytań jednowyrazowych jest to zawsze 1.
  75. Nowy klasyfikator jakości łącza przychodzącego - uszkodzony.
  76. Równa się jeden, jeśli strona ma ukraiński geoatrybut (tj. 1 to strona ukraińska).
  77. Czy strona jest z hostingu/serwisu stricte blogowego.
  78. Czy strona jest z z livejournal.com.
  79. Automatyczny klasyfikator spamu Alexeyeva - prawdopodobieństwo, że strona jest spamem (0 nie spam, 1- spam).
  80. Jakość tekstu - obliczone przy użyciu dość skomplikowanego wzoru.
  81. Jakość tekstu na podstawie klasyfikatora Alekseev'a.
  82. Anty-spammer "Karma" - prawdopodobieństwo, że witryna należy do spamera; na podstawie informacji whois.
  83. Liczba linków, które dokładnie odpowiadają zapytaniu.
  84. Długość strony pod względem liczby zdań.
  85. Długość adresu URL podzielona przez 5.
  86. Komercyjność zapytania według Słownika fraz z Direct: 0 - maksymalna komercyjność, 1 - minimalna komercyjność.
  87. Wielkość serwera hostingu na którym znajduje się strona.
  88. Czy strona jest w formacie HTML.
  89. "Szybkość linku" - liczba będąca odwrotnością wariancji czasów występowania linków ze słowami zapytania.
  90. Trafność linków na podstawie tematyki.
  91. Trafność linków w oparciu o jakość każdego linku.
  92. Trafność linków uwzględniająca jakość każdego linku i tematyczność każdego linku.
  93. Istotność linku z uwzględnieniem niekomercyjnego charakteru każdego linku.
  94. Trafność powiązania z uwzględnieniem niekomercyjności każdego powiązania i tematyczności.
  95. Trafność linków, biorąc pod uwagę niekomercyjny charakter każdego linku i jakość każdego linku.
  96. Trafność linków, biorąc pod uwagę niekomercyjny charakter każdego linku i jakość każdego linku oraz powiązanie tematyczne.
  97. Zgodność między regionem wymienionym w zapytaniu a znalezionymi stronami na poziomie regionu. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.
  98. Procent linków zewnętrznych zawierających słowa zapytania.
  99. Procent linków przychodzących zawierających wszystkie słowa zapytania.
  100. Czy zapytanie zawiera słowa określone przez filtr jako pornograficzne z yweb/pornofilter/porno.query.
  101. Czy strona zawiera treści pornograficzne.
  102. Czy strona jest słafszowana/podrobiona.
  103. Przestrzały czynnik, lecz na pewno warty uwagi - czy nagłowek H1 strony zawiera język komercyjny, określany jako "isSEO".
  104. Czy strona jest na ru.wikipedia.org.
  105. Czy strona jest sklepem komercyjnym.
  106. Czy strona nie zawiera wszystkich słów zapytania (do najbliższego synonimu).
  107. Procent słów zapytania na stronie (do najbliższego synonimu).
  108. Czy strona zawiera wszystkie słowa z zapytania (do najbliższego synonimu).
  109. Procent słów zapytania w linkach (do synonimu).
  110. Czy linki zawierają wszystkie słowa z zapytania (do najbliższego synonimu).
  111. Wartość detektora komercyjności obliczona w behemoth. Zakres: (-10, 10).
  112. Trafność tekstu podzielona przez pary słów zapytania w odwrotnej kolejności.
  113. Trafność linków podzielona przez pary słów zapytania w odwrotnej kolejności.
  114. Trafność tekstu podzielona przez pary słów zapytania poprzez jedno słowo w tekstach.
  115. Trafność linków podzielona przez pary słów zapytania poprzez jedno słowo w tekstach.
  116. Procent wszystkich słów zapytania w tekście (w dokładnej formie).
  117. Czy strona zawiera wszystkie słowa z zapytania (w dokładnej formie).
  118. Czy zapytanie zawiera słownictwo związane z blogowaniem?
  119. Log(trafność linków, zawężenie według kraju użytkownika).
  120. Log(trafność linków w oparciu o jakość każdego linku, zawężenie według kraju użytkownika).
  121. Binarna niekomercyjność zapytania: QueryNonCommerciality > 0,965.
  122. Liczba linków pasujących do tekstu zapytania (kolejne ponowne mapowanie).
  123. Znormalizowanie do sumy wag trafność linków w oparciu o jakość wszystkich linków, a nie sumy ich wag początkowych.
  124. Trafność powiązania z uwzględnieniem niekomercyjności każdego powiązania i tematyczności.
  125. Trafność linków z uwzględnieniem niekomercyjności każdego linku, jakości każdego linku i tematyki.
  126. Czy duplikacja treści nie jest stosowana - poprawność witryny (0 do 1) oparta na tym, ile i jakie witryny pożyczają zawartość od danej witryny.
  127. Czy duplikacja treści nie jest stosowana - witryna "badness" (0 do 1) - proporcjonalnie do liczby drugorzędnych treści w obrębie witryny.
  128. Średni wiek linków wnoszących coś do trafnośći linków LinkAge=Min(log(średni wiek linku)/7, 1), powyżej 1 przyjętych 3 lat.
  129. Długość tekstu strony w słowach TLen = Map(liczba słów, 1/400), gdzie Map(x, y) = x*y / (1 + x*y).
  130. Czy strona jest nieosiągalna poprzez linki z kagańca.
  131. Trafność linków z dopasowaniem języka odniesienia i zapytań.
  132. Trafność linków z dopasowaniem języka referencyjnego i zapytań oraz tytułami.
  133. Stosunek liczby kliknięć na dany adres url do wszystkich kliknięć na żądanie. AntiSeoUpperBound: 0.3
  134. Stosunek liczby kliknięć na daną domenę do wszystkich kliknięć na dane zapytanie.
  135. Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny. AntiSeoUpperBound: 0.42
  136. Jaki ułamek (średnio na sesję) kliknięć na dane żądanie z dodanym miastem użytkownika stanowi ten adres url. Obliczany według sesji użytkownika.
  137. Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny, przez małe regiony z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.4
  138. Jak często adresy URL danej domeny są klikane dla danego zapytania - CTR domeny pomnożony przez współczynnik korekcyjny, przez małe regiony z pliku relev_regions.web.txt.
  139. Stosunek liczby kliknięć w dany adres url do wszystkich kliknięć w zapytanie, w podziale na małe regiony z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.25
  140. Stosunek liczby kliknięć na daną domenę do wszystkich kliknięć na zapytanie, w podziale na małe regiony z pliku relev_regions.web.txt.
  141. Kombinacja kliknięć adresu URL zapytania według małych regionów z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.5
  142. Kombinacja kliknięć "Downer" według małych regionów z relev_regions.web.txt.
  143. Trafność linków według opisów katalogowych. AntiSeoUpperBound: 1.0
  144. Trafność linków w sprawie wypisania się z katalogu Yandex.pl.
  145. Długość maksymalnego dopasowania formularza w tekście i zapytaniu.
  146. Waga stworzonego formularza w celu uzyskania i zapytania.
  147. Długość maksymalnego dopasowania lematu w tekście i zapytaniu.
  148. Waga maksymalnego dopasowania lematu w tekście i zapytaniu.
  149. Maksymalny wiek znaczącego nagromadzenia referencji wnoszących coś do trafności linków.
  150. Warianty odpowiednich czynników z uwzględnieniem słów stop.
  151. Trafność tekstu najlepszego fragmentu – jak wysokiej jakości może być fragment.
  152. Trafność tekstu ze zniżką za numer oferty.
  153. Ranking witryny dla najbardziej wymawianego słowa zapytania (zwykle jest to nazwa witryny).
  154. Klikalność domAttr na maksymalnie wyrażone słowo. Na przykład wszystkie zapytania zawierające słowo wikipedia są klikalne na stronach wikipedii.
  155. HostRank dla poszczególnych słów.
  156. Klikalność domeny według słów.
  157. Czy adres URL pasuje do wyrażenia regularnego FORUM_DETECTOR, czyli czy dana witryna jest określana jako forum społecznościowe.
  158. Czy w adresie URL znajduje się "starożytna data". Czynnik 1 jeśli w adresie url jest rok <=2007.
  159. Waga maksymalnego dopasowania form w tekście i zapytaniu.
  160. Czy strona dotyczy "płacenia za SMS-y".
  161. Czy link jest spamowowy.
  162. Czy strona jest sklepem.
  163. Czy strona jest pornograficzna.
  164. Ruch z wyszukiwarek - konwersja.
  165. Wejścia na stronę z wyszukiwarek dla poszczególnych fraz, według paska.
  166. Największy wspólny podciąg adresu URL i zapytania, znormalizowany przez długość adresu URL.
  167. Wszystkie dopasowania są tylko w adresie URL, nie ma żadnych dopasowań w tekście strony.
  168. Trzy poziomy dopasowania geografii użytkownika i strony.
  169. Trzy poziomy dopasowania regionu łącza i zapytania.
  170. Bliskość geograficzna.
  171. Czy zapytanie jest nawigowalne, pod względem klikalności odpowiedzi.
  172. Najbardziej charakterystyczne słowo zapytania odpowiadające stronie, według paska.
  173. Klikalność domeny dla pierwszego słowa zapytania. Dość często pierwsze (ostatnie) słowo zapytania jest jednoznacznym wskazaniem strony, na której należy szukać informacji.
  174. Średni ciągły czas aktywności użytkownika (w sekundach) na stronach domeny po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (query,domAttr))
  175. Aktywny ciągły średni czas użytkownika (w sekundach) na stronach hosta po zapytaniu z wyszukiwarki (współczynnik zależy od pary (query,domAttr)). Według wewnętrznego licznika Yandex.Bar/Elements/Browser
  176. Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) na użytkownika, gdy użytkownik przebywa stale na stronach domeny po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (query,domAttr)) . Według wewnętrznego licznika Yandex.Bar/Elements/Browser
  177. Liczba unikalnych odwiedzających z wyszukiwarek dla danego zapytania.
  178. Aktywny, nieprzerwany średni czas przebywania użytkownika (w sekundach) na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)).
  179. Aktywny, nieprzerwany średni czas przebywania użytkownika (w sekundach) na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)). Według wewnętrznego licznika Yandex.Bar/Elements/Browser.
  180. Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) na użytkownika na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)).
  181. Pula logów PRS jest tagowana przy użyciu Berta wytrenowanego na sinsigu. Model dssm jest trenowany na tej puli, używając BaseRegionChain.
  182. Pula logów PRS jest tagowana przy użyciu Berta wytrenowanego pod kątem trafności. Model dssm jest trenowany na tej puli, używając BaseRegionChain.
  183. Czy zapytanie jest w języku rosyjskim.
  184. Strona z klastra zagranicznego.
  185. Rozmiar regionu strony.
  186. Współczynnik odwrotnie proporcjonalny do wielkości regionu strony.
  187. Wielkość regionu, którego dotyczy zapytanie.
  188. Współczynnik ten jest odwrotnie proporcjonalny do wielkości regionu objętego zapytaniem.
  189. Bliskość geograficzna użytkownika i strony.
  190. Charakteryzuje promocję strony przez pierścienie linków. Wartość ta to udział linków zewnętrznych, które wchodzą w skład link ringów i wymian linków.
  191. Liczba unikalnych odwiedzających, remapując wykładniczo.
  192. Udział ruchu z wyszukiwarek.
  193. Udział wejść na stronę nie przez linki (ustawiane ręcznie lub z zakładek).
  194. Średni aktywny ciągły użytkownik spędzający czas (w sekundach) na stronach domeny.
  195. Średni aktywny nieprzerwany czas spędzony przez użytkownika (w sekundach) na stronach hosta przez użytkowników. Według wewnętrznego licznika Yandex.Bar/Elements/Browser.
  196. Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) przypadających na jednego użytkownika podczas jego ciągłego przebywania na stronach domeny (w sek.).

Wpis w trakcie aktualizacji.