Blog
Czynniki rankingowe Yandex - wyciek pełnej listy
Niedawno Yandex był rzekomo ofiarą wycieku kodu źródłowego (lub być może został zhakowany). Jak się okazało, w kodzie źródłowym
znaleziono listę czynników rankingowych, które używa rosyjska wyszukiwarka w celu oceny danej witryny.
Istnieje ponad 1900 indywidualnych czynników rankingowych, zaczynając od „PageRank” i schodząc w dół do wszelkiego rodzaju szczegółów, które mogą Cię zaskoczyć.
Lista czynników rankinowych wyszukiwarki Yandex
- Page Rank - budowany na podstawie linków na podstawie krajóww: RU i UA.
- Trafność tekstu (maxfreq - częstotliwość występowania najczęstszego słowa, która nadaje sens długości dokumentu.
- Link relewantny (link rel).
- Premia za tekst wysokiej jakości, który jest określany jako prioret 7.
- Ścisły priorytet dla trafnego tekstu - na stronie znajdują się wszystkie słowa/zapytania (o ile przejdą ograniczenia kontekstowe zapytania, np. oba słowa powinny znajdować się w tym samym zdaniu).
- Priorytet frazy dla trafnego tekstu - w dokumencie znajdują się wszystkie słowa zapytania w rzędzie.
- W treści linku znajdują się wszystkie słowa kluczowe.
- Obecność dokładnego zapytania/frazy w tytule strony oraz w pierwszym zdaniu treści.
- Napotkano witrynę, w której wszystkie pozycje słów są oznaczone jako mające znaczenie - słowa kluczowe z nagłówka lub sekcji HEAD).
- Długa strona - im dłuższa, tym większa wartość współczynnika.
- Trafność tekstu w którym waga wszystkich uważana jest za równą (tj. nie uwzględniają premii za bliskość trafności tytułu i słowa).
- Suma słów zapytania. Nazwa nie odzwierciedla istoty: na przykład dla zapytania "Poznań" współczynnik ten będzie większy niż dla zapytania "Warszawa Rafał Trzaskowski".
- Długi tekst bez odnośników.
- Czy strona ma "kaganiec" - jest zablokowana filtrem.
- Dopasowanie geolokalizacyjne na poziomie kraju pomiędzy regionem użytkownika a stroną internetową. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.
- Dopasowanie tematyczne zapytania do strony.
- Czynnik w liczbie rafinacji. Język zapytań posiada rafinacje użytkownika ("słowo poprzedzone znakiem procentu"). Ma to oznaczać coś w
rodzaju "Chciałbym, aby w dokumencie było słowo". Jedynym znanym wartościowym zastosowaniem tej funkcji jest zapytanie [%official %site FirmName].
- Boost dla linków posiadających wysoką wartość treści oraz mało linków wychodzących.
- Moduł DSSM (Deep Semantic Similarity Model) - wytrenowany na przeformułowaniach, wykorzystuje odpowiednie zdania w części strony.
- Dla stron o wysokim znaczeniu linku - znormalizowana istotność linku bez uwzględnienia powiązania.
- Czy URL posiada wysoką linku relewantnego
- Jakość linków zewnętrznych.
- Liczba linków przychodzących.
- Popularność frazy.
- Wartość znaczenia linku podzielona przez sześcian liczby słów w zapytaniu i przeliczona przez standardowy remap wartości.
- Strona jest w języku rosyjskim.
- Jeśli jest to strona główna właściciela (najczęściej domena drugiego poziomu, np. xxxx.ru), to współczynnik wynosi 1.
Dla bumelantów, gospodarzy, osobistych blogów itp. (np. Lyfjornal, narod.ru, itp.) - domeny trzeciego poziomu (takie jak xxxxx.narod.ru) również
będą miały współczynnik 1.
- Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny
- BM25 określana za pomocą treśći - funkcja rankingowa wykorzystywana przez wyszukiwarki do oszacowania trafności strony dla danego zapytania, opierająca się
na probabilistycznych ramach wyszukiwania.
- BM25 według linków - wagi linków nie są brane pod uwagę.
- BM25 w tekście i linkach jednocześnie.
- Na podstawie Okapi BM25, czy wszystkie słowa/zapytania są w tekście + linkach.
- Czy na stronie znajdują się reklamy.
- Czy na stronie znajduje się Yandex Ads.
- Klasyfikator spamu przez filtry antyspamowe - czy uznał stronę za NIE(!) spam. Tzn. 0=spam, 1=dobry.
- BM25 według par słów - suma wszystkich par słów zapytania i policzona liczba ich wystąpień w tekście strony. Suma wag słów = waga pary.
- BM25 według par linków - suma wszystkich par słów zapytania i policzona liczba ich wystąpień w tekście strony. Wagi linków linków nie są brane pod uwagę.
- BM25 od liczby zdań w dokumencie, w którym występuje.
- BM25 według samego tytułu.
- BM25 w słowach oznaczonych wysoką wartością - czyli np. pogrubione.
- Min(liczba słów zapytania/10.
- 1/liczba słów w zapytaniu.
- Czy strona nie posiada trafnego tekstu.
- Czy strona nie posiada znacznika link rel.
- Brak informacji o kliknięciu tego adresu URL dla tego żądania 1 - żądania lub adresu URL żądania nie ma w bazie danych kliknięć, 0 - adresu URL
żądania znajduje się w bazie danych kliknięć.
- Brak informacji o klikalności dla tego żądania 1 - żądania nie ma w bazie kliknięć, 0 - żądania nie ma w bazie kliknięć.
- Liczba przekierowań adresu URL (jak mniej - bliżej węzła, tym niższa wartość (0 - węzeł, 1 - nie można się z niego dostać, 0 < można się z niego dostać < 1). Wartość normalna dla nost root wynosi 0,0039).
- Logarytm znaczenia linku odwzorowany liniowo na [0,1].
- Obecność par słów w tekście, lecz w dokładnej formie.
- Liczba zdań, które zawierają wiele słów w dokładnej formie.
- Obecność słów w tytule w dokładnej formie.
- Obecność słów w nagłówku w dokładnej formie.
- BM25 na podstawie wartości linków w dokładnej formie.
- BM25 na podstawie wartości treści w dokładnej formie.
- Obecność par wyrazów z uwzględnieniem synonimów.
- Liczba zdań, w których występuje wiele słów, w tym synonimów.
- Obecność słów w tytule, z uwzględnieniem synonimów.
- BM25 z synonimami.
- Uproszczony BM25 z synonimami.
- Jak często adresy URL danej domeny są klikane dla danego zapytania - CTR domeny pomnożony przez współczynnik korygujący.
- Czy jest informacja o klikalności dla danego domainId dla danego żądania 1 - żądania lub właściciela żądania nie ma w bazie klikalności, 0 - właściciel
żądania jest w bazie klikalności.
- Kliki wykonane przez właściciela witryny.
- Względna częstotliwość występowania słów zapytania w linkach (1 - słowa zapytania występują często w linkach, 0.3 - rzadko); dokładniej,
wartość tego współczynnika jest negowana jeśli: TR=0 && LR=0 && (brak linków ze wszystkimi słowami zapytania) && (brak quorum) &&
(przynajmniej jedna para słów zapytania występuje w tekście)
- Linki mają wszystkie słowa z zapytania.
- Jeden link zawiera wszystkie słowa z zapytania.
- Czy istnieje łącze, które przekroczyło "kworum".
- Jaki procent linków jest "dobrych".
- Ile jest "złych" linków.
- Maksymalna liczba linków DPR.
- TfIdf (zwykły TF*IDF według powiązań) - częstotliwość słów w linkach jest mnożona przez odwrotność częstotliwości strony i sumowana
po wszystkich słowach, a następnie normalizowana do długości strony.
- Link relewantny według Gulina (autora współczynnika).
- Czy w tekście/linkach znajduje się dokładna forma wszystkich słów zapytania.
- Czy istnieje lemat wszystkich słów zapytania w tekście/linkach.
- Czy strona przeszła zmiękczenie przez ograniczenia kreatora składni. Tylko dla stron o relewantności tekstowej. Dla zapytań jednowyrazowych
jest to zawsze 1.
- Nowy klasyfikator jakości łącza przychodzącego - uszkodzony.
- Równa się jeden, jeśli strona ma ukraiński geoatrybut (tj. 1 to strona ukraińska).
- Czy strona jest z hostingu/serwisu stricte blogowego.
- Czy strona jest z z livejournal.com.
- Automatyczny klasyfikator spamu Alexeyeva - prawdopodobieństwo, że strona jest spamem (0 nie spam, 1- spam).
- Jakość tekstu - obliczone przy użyciu dość skomplikowanego wzoru.
- Jakość tekstu na podstawie klasyfikatora Alekseev'a.
- Anty-spammer "Karma" - prawdopodobieństwo, że witryna należy do spamera; na podstawie informacji whois.
- Liczba linków, które dokładnie odpowiadają zapytaniu.
- Długość strony pod względem liczby zdań.
- Długość adresu URL podzielona przez 5.
- Komercyjność zapytania według Słownika fraz z Direct: 0 - maksymalna komercyjność, 1 - minimalna komercyjność.
- Wielkość serwera hostingu na którym znajduje się strona.
- Czy strona jest w formacie HTML.
- "Szybkość linku" - liczba będąca odwrotnością wariancji czasów występowania linków ze słowami zapytania.
- Trafność linków na podstawie tematyki.
- Trafność linków w oparciu o jakość każdego linku.
- Trafność linków uwzględniająca jakość każdego linku i tematyczność każdego linku.
- Istotność linku z uwzględnieniem niekomercyjnego charakteru każdego linku.
- Trafność powiązania z uwzględnieniem niekomercyjności każdego powiązania i tematyczności.
- Trafność linków, biorąc pod uwagę niekomercyjny charakter każdego linku i jakość każdego linku.
- Trafność linków, biorąc pod uwagę niekomercyjny charakter każdego linku i jakość każdego linku oraz powiązanie tematyczne.
- Zgodność między regionem wymienionym w zapytaniu a znalezionymi stronami na poziomie regionu. Czynnik jest binarny: 1-pasuje, 0-nie pasuje.
- Procent linków zewnętrznych zawierających słowa zapytania.
- Procent linków przychodzących zawierających wszystkie słowa zapytania.
- Czy zapytanie zawiera słowa określone przez filtr jako pornograficzne z yweb/pornofilter/porno.query.
- Czy strona zawiera treści pornograficzne.
- Czy strona jest słafszowana/podrobiona.
- Przestrzały czynnik, lecz na pewno warty uwagi - czy nagłowek H1 strony zawiera język komercyjny, określany jako "isSEO".
- Czy strona jest na ru.wikipedia.org.
- Czy strona jest sklepem komercyjnym.
- Czy strona nie zawiera wszystkich słów zapytania (do najbliższego synonimu).
- Procent słów zapytania na stronie (do najbliższego synonimu).
- Czy strona zawiera wszystkie słowa z zapytania (do najbliższego synonimu).
- Procent słów zapytania w linkach (do synonimu).
- Czy linki zawierają wszystkie słowa z zapytania (do najbliższego synonimu).
- Wartość detektora komercyjności obliczona w behemoth. Zakres: (-10, 10).
- Trafność tekstu podzielona przez pary słów zapytania w odwrotnej kolejności.
- Trafność linków podzielona przez pary słów zapytania w odwrotnej kolejności.
- Trafność tekstu podzielona przez pary słów zapytania poprzez jedno słowo w tekstach.
- Trafność linków podzielona przez pary słów zapytania poprzez jedno słowo w tekstach.
- Procent wszystkich słów zapytania w tekście (w dokładnej formie).
- Czy strona zawiera wszystkie słowa z zapytania (w dokładnej formie).
- Czy zapytanie zawiera słownictwo związane z blogowaniem?
- Log(trafność linków, zawężenie według kraju użytkownika).
- Log(trafność linków w oparciu o jakość każdego linku, zawężenie według kraju użytkownika).
- Binarna niekomercyjność zapytania: QueryNonCommerciality > 0,965.
- Liczba linków pasujących do tekstu zapytania (kolejne ponowne mapowanie).
- Znormalizowanie do sumy wag trafność linków w oparciu o jakość wszystkich linków, a nie sumy ich wag początkowych.
- Trafność powiązania z uwzględnieniem niekomercyjności każdego powiązania i tematyczności.
- Trafność linków z uwzględnieniem niekomercyjności każdego linku, jakości każdego linku i tematyki.
- Czy duplikacja treści nie jest stosowana - poprawność witryny (0 do 1) oparta na tym, ile i jakie witryny pożyczają zawartość od danej witryny.
- Czy duplikacja treści nie jest stosowana - witryna "badness" (0 do 1) - proporcjonalnie do liczby drugorzędnych treści w obrębie witryny.
- Średni wiek linków wnoszących coś do trafnośći linków LinkAge=Min(log(średni wiek linku)/7, 1), powyżej 1 przyjętych 3 lat.
- Długość tekstu strony w słowach TLen = Map(liczba słów, 1/400), gdzie Map(x, y) = x*y / (1 + x*y).
- Czy strona jest nieosiągalna poprzez linki z kagańca.
- Trafność linków z dopasowaniem języka odniesienia i zapytań.
- Trafność linków z dopasowaniem języka referencyjnego i zapytań oraz tytułami.
- Stosunek liczby kliknięć na dany adres url do wszystkich kliknięć na żądanie. AntiSeoUpperBound: 0.3
- Stosunek liczby kliknięć na daną domenę do wszystkich kliknięć na dane zapytanie.
- Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny. AntiSeoUpperBound: 0.42
- Jaki ułamek (średnio na sesję) kliknięć na dane żądanie z dodanym miastem użytkownika stanowi ten adres url. Obliczany według sesji użytkownika.
- Jak często dany URL jest klikany dla danego zapytania - CTR pomnożony przez współczynnik korekcyjny, przez małe regiony z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.4
- Jak często adresy URL danej domeny są klikane dla danego zapytania - CTR domeny pomnożony przez współczynnik korekcyjny, przez małe regiony z pliku relev_regions.web.txt.
- Stosunek liczby kliknięć w dany adres url do wszystkich kliknięć w zapytanie, w podziale na małe regiony z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.25
- Stosunek liczby kliknięć na daną domenę do wszystkich kliknięć na zapytanie, w podziale na małe regiony z pliku relev_regions.web.txt.
- Kombinacja kliknięć adresu URL zapytania według małych regionów z pliku relev_regions.web.txt. AntiSeoUpperBound: 0.5
- Kombinacja kliknięć "Downer" według małych regionów z relev_regions.web.txt.
- Trafność linków według opisów katalogowych. AntiSeoUpperBound: 1.0
- Trafność linków w sprawie wypisania się z katalogu Yandex.pl.
- Długość maksymalnego dopasowania formularza w tekście i zapytaniu.
- Waga stworzonego formularza w celu uzyskania i zapytania.
- Długość maksymalnego dopasowania lematu w tekście i zapytaniu.
- Waga maksymalnego dopasowania lematu w tekście i zapytaniu.
- Maksymalny wiek znaczącego nagromadzenia referencji wnoszących coś do trafności linków.
- Warianty odpowiednich czynników z uwzględnieniem słów stop.
- Trafność tekstu najlepszego fragmentu – jak wysokiej jakości może być fragment.
- Trafność tekstu ze zniżką za numer oferty.
- Ranking witryny dla najbardziej wymawianego słowa zapytania (zwykle jest to nazwa witryny).
- Klikalność domAttr na maksymalnie wyrażone słowo. Na przykład wszystkie zapytania zawierające słowo wikipedia są klikalne na stronach wikipedii.
- HostRank dla poszczególnych słów.
- Klikalność domeny według słów.
- Czy adres URL pasuje do wyrażenia regularnego FORUM_DETECTOR, czyli czy dana witryna jest określana jako forum społecznościowe.
- Czy w adresie URL znajduje się "starożytna data". Czynnik 1 jeśli w adresie url jest rok <=2007.
- Waga maksymalnego dopasowania form w tekście i zapytaniu.
- Czy strona dotyczy "płacenia za SMS-y".
- Czy link jest spamowowy.
- Czy strona jest sklepem.
- Czy strona jest pornograficzna.
- Ruch z wyszukiwarek - konwersja.
- Wejścia na stronę z wyszukiwarek dla poszczególnych fraz, według paska.
- Największy wspólny podciąg adresu URL i zapytania, znormalizowany przez długość adresu URL.
- Wszystkie dopasowania są tylko w adresie URL, nie ma żadnych dopasowań w tekście strony.
- Trzy poziomy dopasowania geografii użytkownika i strony.
- Trzy poziomy dopasowania regionu łącza i zapytania.
- Bliskość geograficzna.
- Czy zapytanie jest nawigowalne, pod względem klikalności odpowiedzi.
- Najbardziej charakterystyczne słowo zapytania odpowiadające stronie, według paska.
- Klikalność domeny dla pierwszego słowa zapytania. Dość często pierwsze (ostatnie) słowo zapytania jest jednoznacznym wskazaniem strony,
na której należy szukać informacji.
- Średni ciągły czas aktywności użytkownika (w sekundach) na stronach domeny po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy
od pary (query,domAttr))
- Aktywny ciągły średni czas użytkownika (w sekundach) na stronach hosta po zapytaniu z wyszukiwarki (współczynnik zależy od pary (query,domAttr)).
Według wewnętrznego licznika Yandex.Bar/Elements/Browser
- Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) na użytkownika, gdy użytkownik przebywa stale na stronach domeny po kliknięciu na
zapytanie z wyszukiwarki (współczynnik zależy od pary (query,domAttr)) . Według wewnętrznego licznika Yandex.Bar/Elements/Browser
- Liczba unikalnych odwiedzających z wyszukiwarek dla danego zapytania.
- Aktywny, nieprzerwany średni czas przebywania użytkownika (w sekundach) na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)).
- Aktywny, nieprzerwany średni czas przebywania użytkownika (w sekundach) na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)). Według wewnętrznego licznika Yandex.Bar/Elements/Browser.
- Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) na użytkownika na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)).
- Pula logów PRS jest tagowana przy użyciu Berta wytrenowanego na sinsigu. Model dssm jest trenowany na tej puli, używając BaseRegionChain.
- Pula logów PRS jest tagowana przy użyciu Berta wytrenowanego pod kątem trafności. Model dssm jest trenowany na tej puli, używając BaseRegionChain.
- Czy zapytanie jest w języku rosyjskim.
- Strona z klastra zagranicznego.
- Rozmiar regionu strony.
- Współczynnik odwrotnie proporcjonalny do wielkości regionu strony.
- Wielkość regionu, którego dotyczy zapytanie.
- Współczynnik ten jest odwrotnie proporcjonalny do wielkości regionu objętego zapytaniem.
- Bliskość geograficzna użytkownika i strony.
- Charakteryzuje promocję strony przez pierścienie linków. Wartość ta to udział linków zewnętrznych, które wchodzą w skład link ringów i wymian linków.
- Liczba unikalnych odwiedzających, remapując wykładniczo.
- Udział ruchu z wyszukiwarek.
- Udział wejść na stronę nie przez linki (ustawiane ręcznie lub z zakładek).
- Średni aktywny ciągły użytkownik spędzający czas (w sekundach) na stronach domeny.
- Średni aktywny nieprzerwany czas spędzony przez użytkownika (w sekundach) na stronach hosta przez użytkowników. Według wewnętrznego licznika Yandex.Bar/Elements/Browser.
- Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) przypadających na jednego użytkownika podczas jego ciągłego przebywania na stronach domeny (w sek.).
Wpis w trakcie aktualizacji.