Как Яндекс модифицирует инвертированный индекс на основе кликов по результатам, не содержащим всех слов запроса

Яндекс патентует метод обогащения инвертированного индекса данными о кликах. Если пользователи кликают на документ, в котором отсутствует одно из слов запроса (найденный по «правилу кворума»), система добавляет «клик-постинг» для этого документа в список постинга отсутствующего слова. Это позволяет документу в будущем находиться по запросам, для которых ранее ему не хватало текстовой релевантности для прохождения порога отбора кандидатов.

Описание

Какую задачу решает

Патент решает фундаментальную проблему разрыва между текстовой релевантностью и поведенческими сигналами на самом раннем этапе поиска — этапе отбора кандидатов (Retrieval/Stage 1). В традиционных системах кликовые данные (click-through data) используются только на этапе ранжирования (Ranking/Stage 2) уже отобранных результатов. Это приводит к тому, что документы, которые доказали свою релевантность кликами в прошлом, могут не попасть в выдачу по новым похожим запросам, если они не преодолевают текстовый порог «правила кворума» (Quorum Rule). Патент устраняет эту уязвимость, позволяя поведенческим данным влиять на то, какие документы вообще будут отобраны для ранжирования.

Что запатентовано

Запатентована система модификации инвертированного индекса (Inverted Index) путем добавления нового типа записей — «клик-постингов» (Click-Through Postings, CTP). Суть изобретения в том, что если пользователь кликает на результат, который не содержит всех слов запроса (т.е. был найден благодаря Quorum Rule), система добавляет CTP для этого документа в список постинга того слова, которое в документе отсутствует. Это создает «неявное» присутствие термина в документе на уровне индекса.

Как это работает

Система отслеживает клики пользователей по результатам поиска. Когда происходит клик по документу D, найденному по запросу Q, система проверяет, все ли термины из Q присутствуют в D. Если термин T отсутствует, система обновляет инвертированный индекс, добавляя Click-Through Posting для документа D в список постинга термина T. При будущих поисках этот CTP учитывается при расчете Quorum Rule, позволяя документу D преодолеть порог отбора, даже если текстовой релевантности недостаточно. Вес CTP может быть ниже веса стандартного постинга и регулируется с помощью «фактора снижения» (Reduction Factor), который зависит от частоты прошлых кликов.

Актуальность для SEO

Высокая. Интеграция поведенческих сигналов на самых глубоких уровнях поисковой архитектуры (вплоть до индекса и отбора кандидатов) является ключевым направлением развития современных поисковых систем. Этот механизм эффективно решает проблему «несоответствия словаря» (vocabulary mismatch) и повышает качество поиска за счет использования пользовательского опыта как подтверждения релевантности.

Важность для SEO

Влияние на SEO критическое (9/10). Этот патент демонстрирует механизм, при котором удовлетворение интента пользователя (подтвержденное кликом) может компенсировать отсутствие точного ключевого слова на странице. Это фундаментально меняет подход к текстовой оптимизации: если страница хорошо решает задачу пользователя, Яндекс может начать ассоциировать ее с терминами, которых на ней нет, позволяя ей ранжироваться по более широкому пулу запросов.

Детальный разбор

Термины и определения

Click-Through Posting (CTP) (Клик-постинг / Постинг второго типа): Специальный тип записи в инвертированном индексе. CTP добавляется для документа D в список постинга термина T, если пользователи кликали на D в ответ на запросы, содержащие T, даже если сам документ D текст термина T не содержит.
Inverted Index (Инвертированный индекс): Структура данных, хранящая отображение из терминов (слов) в документы, которые их содержат. Состоит из списков постинга.
NOC(T,D) (Number of Clicks): Счетчик, показывающий, сколько раз документ D был кликнут в результатах поиска по запросам, включающим термин T, при условии, что D не содержит T текстуально. Используется для расчета Reduction Factor.
Posting List (Список постинга): Список документов, связанных с определенным термином. В рамках патента может содержать как Standard Postings, так и Click-Through Postings.
QIR (Query-Independent Relevance): Независимая от запроса релевантность (статический вес) документа. Используется для предварительной сортировки документов в индексе.
QSR (Query-Specific Relevance): Зависимая от запроса релевантность. Используется на финальных этапах ранжирования (Stage 2).
Quorum Rule (Правило кворума): Механизм поиска, позволяющий находить документы, которые содержат не все, а только часть (кворум) терминов запроса. Документ отбирается, если сумма весов присутствующих терминов превышает пороговое значение (Threshold Item Weight).
Reduction Factor (RF) (Фактор снижения): Коэффициент, используемый для понижения веса Click-Through Posting по сравнению со Standard Posting. Может быть динамическим и зависеть от NOC.
Standard Posting (SP) (Стандартный постинг / Постинг первого типа): Стандартная запись в инвертированном индексе, указывающая, что документ D текстуально содержит термин T.

Ключевые утверждения (Анализ Claims)

Патент описывает метод обогащения инвертированного индекса на основе поведения пользователей и использование этого обогащенного индекса для улучшения поиска.

Claim 1 (Независимый пункт): Описывает процесс обогащения индекса (Enrichment).

Система получает первый запрос (Q1).
Выполняется первый поиск, результаты которого включают документы, не содержащие всех слов запроса (т.е. применяется Quorum Rule).
Результаты отправляются пользователю.
Система получает индикацию клика пользователя на результат (D), в котором отсутствует один из терминов запроса (T_missing).
Критическое действие: Система вставляет постинг второго типа (Click-Through Posting, CTP) для документа D в список постинга отсутствующего термина T_missing.

Claim 2 (Зависит от 1): Описывает процесс использования обогащенного индекса (Execution).

Система получает второй запрос (Q2), который содержит термин T_missing (из пункта 1).
Выполняется второй поиск.
Во время этого поиска система учитывает CTP, добавленный на шаге 1.

Claim 4 (Зависит от 2): Описывает механизм отбора кандидатов.

При выполнении второго поиска каждому документу присваивается вес (Item Weight).
Документ включается в результаты, только если его вес не ниже порогового значения (Threshold Item Weight) — это и есть применение Quorum Rule.

Claim 5 (Зависит от 4): Описывает расчет веса документа.

Каждому термину запроса присваивается вес (Search Term Weight).
Вес документа (Item Weight) рассчитывается как сумма весов терминов запроса, для которых у документа есть постинг либо первого типа (SP), либо второго типа (CTP).

Claims 7 и 8 (Зависят от 4): Вводят понятие «Фактора снижения» (Reduction Factor).

При расчете веса документа (Item Weight) вес термина умножается на фактор снижения.
В Claim 7 фактор снижения применяется только к CTP.
В Claim 8 факторы снижения могут применяться как к SP (First-type reduction factor), так и к CTP (Second-type reduction factor).

Claim 9 (Зависит от 7): Определяет динамический характер фактора снижения для CTP.

Фактор снижения второго типа (для CTP) является функцией от количества раз, когда этот документ был кликнут в результатах предыдущих запросов, содержащих данный термин (NOC).

Claim 11 (Зависит от 2): Вводит ограничение на использование CTP.

Документ включается в результаты второго поиска, только если соотношение его CTP к его SP не превышает порогового значения (Threshold Ratio). Это защита от того, чтобы документ не ранжировался только за счет кликов при отсутствии текстовой релевантности по большинству терминов.

Где и как применяется

Изобретение затрагивает ключевые компоненты инфраструктуры поиска и применяется на нескольких слоях.

INDEXING – Индексирование и извлечение признаков
Это основной слой, где происходит модификация данных. Indexing Server отвечает за физическое обновление Inverted Index Database. Он принимает сигналы от Query Server о кликах и вставляет или обновляет Click-Through Postings (CTP) и связанные с ними счетчики (NOC).

RANKING – Ранжирование (Уровень L1/Retrieval)
Механизм применяется на самом первом этапе ранжирования — отборе кандидатов (Retrieval), который выполняет Searching Server. На этом этапе система проверяет списки постинга и применяет Quorum Rule. Ключевая особенность — Searching Server теперь учитывает не только стандартные постинги (SP), но и CTP при расчете веса документа для кворума.

Офлайн-процессы и обработка логов
Query Server анализирует логи кликов (Query DB), определяет, какие документы были кликнуты и каких терминов в них не хватало, и формирует запросы на обновление индекса к Indexing Server.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, где часто встречается «несоответствие словаря» (vocabulary mismatch) — когда пользователи и авторы контента используют разные слова для описания одного и того же (например, синонимы, профессиональный жаргон против бытового языка). Пример в патенте: запрос «hybrid cars fuel consumption», а релевантный документ содержит «hybrid car ratings fuel efficiency».
Типы контента: Влияет на все типы контента, где поведенческие сигналы сильны. Позволяет документам, хорошо решающим задачу пользователя, но слабо оптимизированным текстуально, преодолеть порог отбора кандидатов.

Когда применяется

Алгоритм работает постоянно в двух режимах:

Режим записи (Enrichment):
- Триггер активации: Пользователь кликает на результат поиска.
- Условие срабатывания: Кликнутый документ был найден по Quorum Rule, то есть в нем отсутствовал как минимум один термин из запроса.
- Действие: В индекс добавляется CTP для отсутствующего термина или обновляется счетчик NOC. В патенте указано, что эти обновления могут выполняться пакетно (batch processing) вместе с индексацией новых документов для оптимизации нагрузки.
Режим чтения (Execution):
- Триггер активации: Поступление нового поискового запроса.
- Действие: На этапе Retrieval (Searching Server) при расчете кворума учитываются как SP, так и CTP (с возможным применением Reduction Factor).

Пошаговый алгоритм

Процесс А: Обогащение индекса (Index Enrichment)

Получение запроса: Query Server получает запрос Q1 от пользователя.
Отбор кандидатов: Searching Server выполняет поиск, применяя Quorum Rule. Формируется список результатов R(Q1).
Ранжирование и выдача: Query Server ранжирует R(Q1) по QSR и отправляет пользователю.
Фиксация поведения: Пользователь кликает на документ D из R(Q1). Query Server фиксирует клик.
Анализ клика: Система определяет, какие термины из Q1 отсутствуют в D. Пусть это термин T_missing.
Обновление индекса: Indexing Server обновляет инвертированный индекс для списка постинга термина T_missing:
- Если CTP для D уже существует, обновляется счетчик NOC(T_missing, D).
- Если CTP для D не существует, он создается (NOC=1).

Процесс Б: Выполнение поиска с обогащенным индексом (Search Execution)

Получение запроса: Query Server получает новый запрос Q2.
Отбор кандидатов (Retrieval): Searching Server обходит списки постинга для терминов из Q2.
Расчет веса документа (Quorum Calculation): Для каждого найденного документа D рассчитывается его вес W(D, Q2). При расчете учитываются как SP, так и CTP.
- Если для термина T у документа есть SP, он вносит полный вклад в вес (или с фактором RFE).
- Если для термина T у документа есть CTP, он вносит вклад в вес, умноженный на фактор снижения RFI(T,D).
Применение фактора снижения: Фактор RFI рассчитывается на основе счетчика NOC, хранящегося в CTP. Например, по формуле: $RFI(T,D) = \frac{NOC(T,D)}{NOC(T,D) + 1}$.
Фильтрация по кворуму: Если W(D, Q2) превышает пороговое значение (Threshold), документ D включается в список кандидатов R(Q2).
(Опционально) Фильтрация по соотношению: Проверяется, что соотношение CTP к SP для документа D не превышает установленный лимит (Threshold Ratio).
Ранжирование и выдача: Query Server ранжирует R(Q2) по QSR и отправляет пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Данные о кликах (Click-through data) являются основой изобретения. Система использует информацию о том, на какой документ был совершен клик и каков был исходный запрос. Это необходимо для идентификации отсутствующих терминов и расчета счетчика NOC.
Контентные факторы: Текст документов используется для построения стандартных постингов (SP) и определения того, какие термины отсутствуют в документе при анализе клика.
Системные данные: Структура инвертированного индекса, включая списки постинга и хранящиеся в них данные (тип постинга SP/CTP, счетчики NOC).

Какие метрики используются и как они считаются

Система вводит несколько ключевых метрик для реализации механизма:

NOC(T,D) (Number of Clicks): Счетчик кликов по документу D для запросов с термином T (когда T отсутствует в D). Увеличивается при каждом соответствующем клике.
RFI(T,D) (Reduction Factor for Implicit occurrences): Фактор снижения веса для CTP. Рассчитывается на основе NOC. В патенте приводится пример формулы (монотонно возрастающая функция, стремящаяся к 1):
$$RFI(T,D) = \frac{NOC(T,D)}{NOC(T,D) + 1}$$
Например: 1 клик -> RFI=0.5; 2 клика -> RFI=0.66; 9 кликов -> RFI=0.9.
RFE(T,D) (Reduction Factor for Explicit occurrences): В одном из вариантов реализации (embodiment) аналогичный фактор может применяться и к стандартным постингам (SP), основываясь на количестве вхождений термина в текст (NOO — Number of Occurrences):
$$RFE(T,D) = \frac{NOO(T,D)}{NOO(T,D) + 1}$$
IMP(T,D) (Importance): Функция важности термина T для документа D, объединяющая явные и неявные вхождения:
$$IMP(T,D) = RFE(T,D) + RFI(T,D)$$
(Примечание: эта формула предполагает, что RFE=0 если нет SP, и RFI=0 если нет CTP. Так как SP и CTP взаимоисключающи по определению в данном патенте, IMP равен либо RFE, либо RFI).
W(D,Q) (Weighting function): Общий вес документа D для запроса Q. Используется для проверки Quorum Rule. Рассчитывается как сумма весов терминов запроса, умноженных на их важность для документа:
$$W(D,Q) = \sum_{T_i \in Q} w(T_i, Q) \cdot IMP(T_i, D)$$
Threshold Ratio: Максимально допустимое соотношение CTP к SP для того, чтобы документ прошел отбор. Используется как защитный механизм.

Выводы

Поведенческие данные интегрированы в индекс: Это ключевой вывод. Яндекс не просто использует клики для ранжирования (QSR), но и модифицирует базовый инвертированный индекс (QIR/Retrieval) на их основе. Клик рассматривается как валидация релевантности, способная компенсировать отсутствие ключевого слова.
Введение Click-Through Postings (CTP): Создание нового типа записей в индексе, которые обозначают «неявное» присутствие термина, подтвержденное поведением пользователей.
Динамическое доверие к CTP: Система не доверяет CTP слепо. Введен механизм динамического веса через Reduction Factor (RFI), основанный на частоте кликов (NOC). Чем чаще кликают, тем больше вес CTP приближается к весу стандартного постинга (SP).
Улучшение этапа Retrieval (Stage 1): Механизм направлен на увеличение полноты поиска (Recall) на этапе отбора кандидатов, позволяя документам преодолеть порог Quorum Rule за счет прошлых кликов, даже если им не хватает текстовой релевантности для текущего запроса.
Защитные механизмы: Патент предусматривает защиту от чрезмерного влияния CTP, например, через ограничение максимального соотношения CTP к SP (Threshold Ratio), чтобы избежать появления нерелевантных результатов с большим количеством «неявных» вхождений.

Практика

Best practices (это мы делаем)

Приоритет удовлетворения интента над точным вхождением: Фокусируйтесь на том, чтобы страница максимально полно и качественно отвечала на запрос пользователя, даже если вы используете синонимы или связанные понятия вместо точных ключевых слов из запроса. Если интент удовлетворен, пользователи кликнут, и система создаст CTP для отсутствующих терминов.
Оптимизация сниппетов для повышения CTR: Высокий CTR критически важен. Если ваш сниппет точно отражает содержание и привлекает клик, даже при отсутствии ключевого слова на странице, вы запускаете механизм обогащения индекса (CTP). Это валидирует релевантность вашей страницы в глазах Яндекса.
Анализ семантических кластеров и синонимов: Изучайте, какие слова используют пользователи (в запросах) и какие слова используются в контенте (на вашем сайте). Если есть разрыв (vocabulary mismatch), но контент качественный, этот патент позволяет его преодолеть. Создавайте контент, который охватывает тему широко, используя естественный язык.
Улучшение поведенческих факторов (Engagement): Необходимо не только получить клик, но и удержать пользователя. Хорошие поведенческие факторы в целом укрепляют авторитет сайта и косвенно способствуют тому, что система будет более склонна доверять кликам на ваши страницы.

Worst practices (это делать не надо)

Слепое следование рекомендациям по плотности ключевых слов: Попытка искусственно вставить все возможные ключевые слова может ухудшить читаемость и удовлетворенность пользователя. Патент показывает, что можно ранжироваться и без точного вхождения, если страница полезна.
Игнорирование поведенческих сигналов: Если страница имеет низкий CTR или плохие показатели вовлеченности, она не только теряет в ранжировании (QSR), но и не получает преимуществ от механизма CTP (QIR/Retrieval).
Создание кликбейтных заголовков, не соответствующих содержанию: Хотя это может привлечь клик и потенциально создать CTP, последующее плохое поведение пользователя (быстрый возврат к выдаче) приведет к пессимизации на этапе QSR-ранжирования, нивелируя любые преимущества от CTP.

Стратегическое значение

Патент подтверждает стратегический приоритет Яндекса на использование поведения пользователей как основного мерила релевантности (Ground Truth). Он демонстрирует, что Яндекс готов модифицировать даже самые фундаментальные структуры данных (инвертированный индекс), чтобы привести текстовую релевантность в соответствие с поведенческой. Для SEO это означает, что долгосрочная стратегия должна строиться вокруг глубокого понимания интента пользователя и создания контента, который этот интент удовлетворяет лучше всего, а не вокруг механической оптимизации текста.

Практические примеры

Сценарий: Преодоление Vocabulary Mismatch

Исходная ситуация: Есть два популярных запроса: Q1 и Q2. У вас есть качественная страница, оптимизированная под Q1, но не содержащая слово «бу» и «машина» (используется только «авто» и «с пробегом»).
Действие пользователя: Пользователь вводит запрос Q2. Благодаря Quorum Rule, ваша страница попадает в выдачу (например, за счет синонимизации или других механизмов ранжирования, позволяющих ей оказаться в зоне видимости). Пользователь видит сниппет, понимает, что это релевантно, и кликает.
Действие системы (Enrichment): Яндекс фиксирует клик и видит, что в документе нет слов «бу» и «машина». Система добавляет Click-Through Postings (CTP) для вашей страницы в списки постинга слов «бу» и «машина». NOC=1 для обоих терминов.
Повторение: Другие пользователи повторяют это поведение. NOC увеличивается. Reduction Factor (RFI) растет (например, до 0.8).
Результат (Execution): При следующем поиске по запросу Q2 ваша страница на этапе Retrieval будет рассматриваться как содержащая эти слова (с весом 0.8 от стандартного). Это гарантирует ее попадание в кандидаты на ранжирование и значительно повышает шансы на высокие позиции.

Вопросы и ответы

Что такое «Правило Кворума» (Quorum Rule) и почему оно важно в этом патенте?

Quorum Rule — это механизм, позволяющий поисковой системе находить документы, которые содержат не все, а только часть слов из запроса. Документ проходит отбор, если сумма весов найденных в нем слов превышает определенный порог. Это важно, потому что именно клики по таким «неполным» результатам запускают механизм, описанный в патенте. Если бы искались только документы со 100% вхождением слов, то Click-Through Postings было бы некуда добавлять.

В чем разница между Click-Through Posting (CTP) и Standard Posting (SP)?

Standard Posting (SP) — это стандартная запись в инвертированном индексе, которая означает, что термин текстуально присутствует в документе. Click-Through Posting (CTP) — это специальная запись, которая добавляется, если пользователи кликали на документ по запросам с этим термином, даже если сам термин в тексте отсутствует. CTP указывает на «неявное» (implicit) присутствие термина, подтвержденное поведением.

На каком этапе поиска работает этот механизм: Retrieval (отбор кандидатов) или Ranking (ранжирование)?

Этот механизм работает именно на этапе Retrieval (Stage 1). Он модифицирует инвертированный индекс, который используется для первичного отбора кандидатов с помощью Quorum Rule. Это принципиальное отличие от большинства поведенческих факторов (QSR), которые применяются позже, на этапе ранжирования (Stage 2) уже отобранных документов.

Имеет ли CTP такой же вес, как и SP при поиске?

Необязательно. Патент описывает механизм «Фактора снижения» (Reduction Factor, RFI). Вес CTP может быть ниже, чем у SP. Однако этот вес динамический: чем больше кликов (NOC) подтверждают связь термина и документа, тем выше становится RFI и тем ближе вес CTP приближается к весу SP (стремится к 1, но не достигает его).

Как рассчитывается Фактор Снижения (RFI)?

В патенте приводится пример формулы: $RFI = \frac{NOC}{NOC + 1}$, где NOC — количество зафиксированных кликов. При 1 клике RFI = 1/2 (50% веса). При 4 кликах RFI = 4/5 (80% веса). Это означает, что система начинает больше доверять CTP по мере накопления статистики кликов.

Может ли документ ранжироваться вообще без текстовых вхождений, только за счет CTP?

Теоретически, да, если Quorum Rule это позволяет (порог достаточно низкий). Однако патент предусматривает защитный механизм (Claim 11): система может установить максимальное допустимое соотношение CTP к SP (Threshold Ratio). Например, если правило требует наличия хотя бы одного SP на каждые два CTP, то документ не сможет ранжироваться исключительно за счет кликов.

Как это влияет на работу SEO-специалиста по сбору семантики?

Это снижает необходимость в обязательном включении всех возможных синонимов и вариантов написания в текст, если они ухудшают его качество. Важнее сфокусироваться на основном интенте и качестве контента. Если страница полезна, пользователи своими кликами «научат» Яндекс, каким отсутствующим терминам она соответствует, через механизм CTP.

Означает ли это, что текстовая оптимизация больше не важна?

Нет, она по-прежнему критически важна. Стандартные постинги (SP) имеют максимальный вес и не требуют предварительных кликов для активации. Кроме того, наличие SP необходимо для соблюдения защитного механизма Threshold Ratio. Текстовая оптимизация обеспечивает стабильное попадание в Retrieval, а механизм CTP расширяет охват для страниц, доказавших свою полезность.

Как быстро CTP добавляются в индекс после клика?

Патент указывает, что обновление индекса для добавления CTP — ресурсоемкая операция, так как требует декодирования и перекодирования сегментов списка постинга. Поэтому в реализациях эти операции группируются в пакеты (batches) и выполняются периодически, часто одновременно с индексацией новых документов, чтобы минимизировать время недоступности индекса.

Если я улучшу CTR сниппета, поможет ли это моему сайту с точки зрения этого патента?

Да, напрямую. Высокий CTR по запросу является триггером для запуска этого механизма. Если пользователи кликают на ваш результат, несмотря на отсутствие какого-то слова из запроса на странице, вы сигнализируете Яндексу, что страница релевантна этому слову. Это приведет к созданию CTP и улучшению видимости страницы по будущим запросам, содержащим это слово.