Яндекс патентует метод обогащения инвертированного индекса поведенческими данными. Если пользователи кликают на документ, в котором отсутствует один из терминов запроса (найденный благодаря «Правилу Кворума»), система добавляет в индекс «неявную словопозицию» (CTP). Это позволяет документу в будущем находиться на ранней стадии поиска (L1 Retrieval) по этому термину, даже если текст его не содержит.
Описание
Какую задачу решает
Патент решает проблему улучшения полноты поиска (Recall) на самой ранней стадии — L1 Retrieval (отбор кандидатов). Он устраняет ситуацию, когда релевантный документ отсеивается, так как не удовлетворяет «Правилу Кворума» (минимальному набору слов из запроса), хотя исторические данные о кликах показывают его релевантность схожим запросам. Традиционно данные о кликах используются только на поздних стадиях ранжирования (QSR), но не могут помочь документам, отсеянным на первой стадии.
Что запатентовано
Запатентована система модификации инвертированного индекса на основе пользовательских кликов. Суть изобретения — введение нового типа записей в индекс: «Словопозиция второго типа» (Type 2 Wordposition или Click-Through Posting, CTP). Если пользователь кликает на документ, который был найден по «Правилу Кворума» и не содержит термин Т, система добавляет этот документ в список словопозиций для термина Т, помечая его как «неявное вхождение».
Как это работает
Система отслеживает клики на результаты, найденные по «Правилу Кворума». Если такой документ получает клик, система интерпретирует это как сигнал неявной релевантности отсутствующему термину. В инвертированный индекс добавляется CTP. При будущих запросах эта CTP учитывается на этапе L1 Retrieval, как если бы термин присутствовал в документе. Это повышает шансы документа пройти порог Кворума и попасть в ранжирование. Для контроля качества используются понижающие коэффициенты и ограничения на соотношение явных и неявных вхождений.
Актуальность для SEO
Высокая. Глубокая интеграция поведенческих сигналов в архитектуру поиска, вплоть до уровня индекса и L1 Retrieval, является ключевым направлением развития современных поисковых систем для решения проблем синонимии, преодоления лексического разрыва и понимания интента пользователя.
Важность для SEO
Влияние на SEO критическое (9/10). Этот патент демонстрирует конкретный механизм, как поведенческие факторы могут компенсировать отсутствие текстовой релевантности на самом базовом уровне (индексации и L1 Retrieval). Он подчеркивает критическую важность удовлетворения интента: если страница стабильно решает задачу пользователя, Яндекс может начать ассоциировать термины из запроса с документом напрямую в индексе, даже если этих терминов нет в тексте.
Детальный разбор
Термины и определения
- Инвертированный индекс (Inverted Index)
- Основная структура данных поисковой системы. Содержит списки словопозиций для каждого термина.
- Правило Кворума (Quorum Rule)
- Механизм на этапе L1 Retrieval, позволяющий документу считаться кандидатом, даже если он не содержит всех терминов запроса, при условии, что сумма весов присутствующих терминов превышает пороговое значение (величину кворума).
- Словопозиция первого типа (Стандартная словопозиция, SP)
- Стандартная запись в индексе. Ссылка на документ, который фактически содержит поисковый термин в тексте. Указывает на явное присутствие термина.
- Словопозиция второго типа (Словопозиция перехода по щелчку, CTP)
- Специальная запись, добавляемая в индекс на основе клика пользователя. Ссылка на документ, который НЕ содержит поисковый термин в тексте, но был кликнут в выдаче по запросу, содержащему этот термин. Указывает на неявное присутствие термина.
- Понижающий коэффициент (Damping Factor, rf)
- Коэффициент, применяемый к весу термина при расчете кворума. Используется для снижения веса CTP по сравнению с SP или для динамического расчета веса на основе частоты кликов/вхождений.
- noc(T,D) (Number of Clicks)
- Счетчик числа кликов на документ D в результатах поиска по запросам, содержащим термин T, при условии, что D не содержит T в тексте. Используется для расчета веса неявных вхождений (CTP).
- noo(T,D) (Number of Occurrences)
- Счетчик числа явных вхождений термина T в тексте документа D. Используется для расчета веса явных вхождений (SP).
- QIR (Query-Independent Relevance)
- Релевантность, не зависящая от запроса. Статический ранг документа. Используется для первоначального упорядочивания документов в индексе.
- QSR (Query-Specific Relevance)
- Релевантность, зависящая от запроса. Динамический ранг документа, определяемый на поздних стадиях ранжирования.
Ключевые утверждения (Анализ Claims)
Ядром изобретения является механизм обогащения инвертированного индекса на основе пользовательских кликов по результатам, найденным с применением правила кворума.
Claim 1 (Независимый пункт): Описывает процесс идентификации неявной связи и модификации индекса (Фаза Обучения).
- Система получает первый поисковый запрос.
- Выполняется поиск. Результаты включают документы, в которых отсутствует один или несколько терминов запроса (применяется правило кворума). Индекс содержит только Словопозиции первого типа (SP).
- Система получает указание (клик) на выбранный документ, в котором отсутствует некий термин Т.
- Ключевое действие: Система осуществляет вставку Словопозиции второго типа (CTP) в список словопозиций для отсутствующего термина Т. Эта CTP ссылается на кликнутый документ.
Claim 2 (Зависимый от 1): Описывает использование обогащенного индекса (Фаза Применения).
- Система получает второй поисковый запрос, содержащий термин Т.
- Выполняется второй поиск. При этом поиске система учитывает Словопозиции второго типа (CTP), добавленные ранее.
Claim 4 и 5 (Зависимые): Описывают механизм расчета веса (кворума).
- При втором поиске документу назначается весовой коэффициент, который сравнивается с порогом (кворумом).
- Вес рассчитывается как сумма весовых коэффициентов терминов запроса, которые связаны с документом через Словопозицию первого типа (SP) ИЛИ Словопозицию второго типа (CTP).
Claims 6-12 (Зависимые): Описывают применение Понижающих коэффициентов (Damping) для контроля влияния CTP и SP.
- При расчете веса вклад от словопозиций может умножаться на Понижающие коэффициенты (Claims 6, 7, 8).
- Коэффициент для CTP является функцией от числа предыдущих кликов (noc(T,D)) (Claim 9).
- Коэффициент для SP является функцией от числа фактических вхождений термина в документ (noo(T,D)) (Claims 10-12).
Claims 13 и 14 (Зависимые): Вводят механизм контроля качества (Guardrail). Документ включается в результаты, только если отношение числа CTP к числу SP не превышает установленного порогового значения (Ratio Limit).
Где и как применяется
Это изобретение уникально тем, что оно интегрирует поведенческие данные в самые фундаментальные слои поиска.
INDEXING – Индексирование и извлечение признаков
Процесс индексирования модифицируется для обогащения данных.
- Процесс: Когда Сервер Запросов (18) фиксирует клик на документ, найденный по кворуму, он передает эту информацию Серверу Индексирования (14). Сервер Индексирования обновляет Инвертированный Индекс (22), добавляя Словопозицию второго типа (CTP) или обновляя счетчик кликов (noc).
- Технические особенности: Это обогащение индекса происходит офлайн или в пакетном режиме для оптимизации производительности.
RANKING – Ранжирование (Уровень L1 — Base Search / Retrieval)
Основное применение происходит на первой стадии поиска (отбор кандидатов).
- Процесс: Сервер Поиска (16) при обработке запроса просматривает списки словопозиций. Теперь он учитывает не только стандартные вхождения (SP/Тип 1), но и неявные вхождения (CTP/Тип 2) при расчете Правила Кворума.
- Влияние: Это напрямую влияет на то, какие документы будут отобраны в качестве кандидатов для дальнейшего ранжирования (L2/L3), увеличивая полноту поиска (Recall).
На что влияет
- Синонимия и Лексический разрыв: Основное влияние оказывается на запросы, где интент пользователя выражен словами, отличающимися от тех, что используются в релевантных документах (например, «расход топлива» vs «экономичность»). Система учится ассоциировать эти понятия через клики пользователей.
- Длиннохвостые запросы (Long-tail): Может улучшить полноту выдачи по сложным многословным запросам, где часто активируется Правило Кворума и трудно найти документы, содержащие все термины.
- Тематики: Особенно актуально в нишах с разнообразной терминологией (медицина, технологии), где связь между концепциями устанавливается поведением пользователей.
Когда применяется
Алгоритм имеет две фазы активации:
Фаза 1: Обучение (Обогащение Индекса)
- Условие 1: Поиск должен выполняться с применением Правила Кворума.
- Условие 2 (Триггер): Пользователь должен кликнуть на результат, в котором отсутствует хотя бы один термин из его запроса.
Фаза 2: Применение (Использование Обогащенного Индекса)
- Применяется при каждом поиске на стадии L1 Retrieval, где используется расчет кворума. Система проверяет наличие как SP, так и CTP.
Пошаговый алгоритм
Процесс А: Обогащение Индекса (Фаза Обучения)
- Получение Запроса и Поиск (L1): Сервер Поиска (16) выполняет запрос $Q_1$, используя Правило Кворума. В результаты попадает Документ D, который не содержит Термин T (из запроса $Q_1$).
- Ранжирование и Выдача: Результаты показываются пользователю.
- Фиксация Клика: Пользователь кликает на Документ D. Сервер Запросов (18) записывает этот клик.
- Анализ Клика: Система определяет, что в кликнутом Документе D отсутствовал Термин T из запроса $Q_1$.
- Обновление Индекса: Сервер Индексирования (14) обрабатывает эту информацию (в пакетном режиме):
- Система добавляет Словопозицию второго типа (CTP) для D в список термина T.
- (Опционально) Обновляется счетчик кликов noc(T,D).
Процесс Б: Поиск по Обогащенному Индексу (Фаза Применения)
- Получение Нового Запроса: Система получает новый запрос $Q_2$ (содержащий Термин T).
- Поиск Кандидатов (L1 Retrieval): Сервер Поиска (16) просматривает списки словопозиций для терминов из $Q_2$.
- Расчет Кворума: Для Документа D система рассчитывает его вес $W(D, Q_2)$. При расчете учитываются как Словопозиции первого типа (SP), так и Словопозиции второго типа (CTP, включая ту, что была создана для термина T).
- Применение Весов/Фильтров:
- К CTP применяется понижающий коэффициент (Damping), зависящий от noc(T,D).
- Проверяется соотношение CTP/SP. Если оно слишком высокое, документ может быть отброшен.
- Отбор Кандидатов: Документы, чей вес $W(D, Q_2)$ превышает порог кворума $W_q$, отбираются для дальнейшего ранжирования.
Какие данные и как использует
Данные на входе
- Поведенческие факторы: Ключевые данные для изобретения. Используются данные о кликах (Click-Through Data) на результаты поиска. Конкретно фиксируется факт клика на документ, в котором отсутствуют слова из запроса.
- Контентные факторы: Данные о наличии или отсутствии поисковых терминов в тексте документа (для определения типа словопозиции). Также используется число явных вхождений термина (noo).
- Системные данные: Инвертированный индекс, весовые коэффициенты терминов, правила Кворума.
Какие метрики используются и как они считаются
Система использует несколько ключевых метрик и формул для расчета кворума:
1. Понижающие коэффициенты (Damping Factors, rf):
Патент предлагает формулы для расчета коэффициентов на основе частотности. Они монотонно возрастают от 0 до 1.
Коэффициент для неявных вхождений (CTP), основанный на числе кликов noc(T,D):
$${rfi(T,D) = \frac{noc(T,D)}{noc(T,D)+1}}$$
Коэффициент для явных вхождений (SP), основанный на числе вхождений термина в тексте noo(T,D):
$${rfe(T,D) = \frac{noo(T,D)}{noo(T,D)+1}}$$
2. Функция Важности (Importance Function, IMP):
Общая важность термина Т в отношении документа D:
$${IMP(T,D) = rfe(T,D) + rfi(T,D)}$$
(Примечание: Эта функция заменяет бинарное наличие термина (occ(T,D)) на непрерывное значение, учитывающее степень уверенности системы).
3. Расчет Кворума (Вес документа W(D,Q)):
Вес документа D для запроса Q рассчитывается как сумма весов терминов ($w(T_i, Q)$), умноженных на их важность ($IMP(T_i, D)$):
$${W(D,Q) = \sum_{i} w(T_i, Q) \cdot IMP(T_i, D)}$$
Документ отбирается, если $W(D,Q) \ge W_q$ (порог кворума).
4. Ограничение Соотношения CTP/SP (Ratio Limit) (Claim 13,):
Документ включается в результаты, только если: (Число CTP / Число SP) < Порог.
Выводы
- Поведенческие данные интегрированы в Индекс и L1 Retrieval: Это ключевое изменение парадигмы. Клики пользователей напрямую модифицируют инвертированный индекс, влияя на самую первую стадию поиска (отбор кандидатов), а не только на финальное ранжирование (QSR).
- Индекс отражает не только текст, но и ассоциации пользователей: Индекс становится картой семантических ассоциаций, подтвержденных поведением. Документ может быть проиндексирован по слову, которого в нем нет (через CTP).
- Критическая роль «Правила Кворума»: Механизм обогащения запускается только тогда, когда документ был найден по кворуму (без всех слов) и получил клик. Это связывает базовую текстовую релевантность и поведенческие сигналы.
- Защита от зашумления (Damping и Ratios): Яндекс предусмотрел механизмы контроля качества. CTP обычно имеют меньший вес, чем текстовые вхождения (Damping), и их количество ограничено относительно реальных текстовых вхождений (Ratio Limit).
- Важность частоты кликов (noc): В продвинутых вариантах вес CTP зависит от количества накопленных кликов (функция IMP). Единичные клики дают малый вес, но систематическое подтверждение релевантности пользователями значительно усиливает сигнал.
Практика
Best practices (это мы делаем)
- Фокус на Удовлетворении Интента (Intent Satisfaction): Приоритет номер один. Создавайте контент, который полностью решает задачу пользователя. Если страница удовлетворяет интент, она может начать ранжироваться по терминам, которых на ней нет, через механизм CTP, так как пользователи будут на нее кликать, даже если она найдена по частичному совпадению.
- Максимизация CTR для результатов в зоне видимости (включая Топ-50): Критически важно оптимизировать сниппеты (Title, Description). Клик на результат, ранжирующийся по кворуму (даже на низких позициях), является триггером для обучения индекса и может привести к улучшению позиций по другим запросам в будущем.
- Построение Тематического Авторитета (Topical Authority): Создавайте контент, который является лучшим ответом на кластер связанных запросов. Широкий охват темы увеличивает вероятность того, что страница будет показана по Кворуму для смежных запросов и получит клики, необходимые для формирования CTP.
- Обеспечение стабильных поведенческих сигналов: Поскольку вес CTP зависит от частоты кликов (noc(T,D)), необходимо обеспечивать стабильно высокое качество контента и пользовательского опыта для систематического получения позитивных сигналов.
Worst practices (это делать не надо)
- Игнорирование текстовой оптимизации в надежде на ПФ: Поведенческие факторы (CTP) дополняют, но не заменяют текстовую релевантность (SP). Механизмы контроля (Damping, Ratios) гарантируют, что документы с сильной текстовой релевантностью будут иметь преимущество.
- Использование кликбейта для накрутки CTR: Хотя клики важны для запуска механизма, система учитывает и пост-клик поведение. Кликбейт может привести к краткосрочному получению CTP, но долгосрочно навредит ранжированию из-за плохих общих поведенческих сигналов (например, Профицит).
- Создание узкоспециализированного контента без контекста: Контент, который слишком узко сфокусирован и не покрывает смежные понятия, имеет меньше шансов быть найденным по Правилу Кворума и, следовательно, не получит преимуществ от механизма CTP.
Стратегическое значение
Этот патент имеет фундаментальное значение для понимания архитектуры поиска Яндекса. Он подтверждает, что Яндекс интегрирует поведенческие данные на всех уровнях, включая самый базовый — инвертированный индекс. Это снижает зависимость системы от точного текстового соответствия и повышает роль семантического и поведенческого соответствия. Для SEO это означает, что долгосрочная стратегия должна фокусироваться на создании авторитетных ресурсов и обеспечении наилучшего пользовательского опыта, так как именно поведение пользователей формирует понимание системой релевантности контента.
Практические примеры
Сценарий: Оптимизация страницы о расходе топлива.
Страница D оптимизирована под запрос «экономичность гибридных авто», но не содержит слово «расход».
- Запрос 1: Пользователь ищет «гибридные авто расход топлива» (4 слова).
- Действие системы (L1): Страница D содержит 3 из 4 слов. По правилу кворума (например, порог 3/4) она попадает в выдачу на 25 позицию.
- Действие пользователя: Пользователь видит сниппет, понимает, что он релевантен (речь про экономичность), и кликает.
- Обогащение Индекса: Яндекс фиксирует клик и отмечает, что в D нет слова «расход». Система добавляет Словопозицию второго типа (CTP) для D в индекс по слову «расход». Счетчик noc(«расход», D) = 1.
- Запрос 2 (Позже): Другой пользователь ищет «сравнение расхода машин» (3 слова).
- Действие системы (L1): Страница D содержит 1 слово явно («машин») и 1 слово неявно («расход»). Общий счет 2/3.
- Результат: Страница D удовлетворяет кворуму 2/3 и попадает в выдачу (Retrieval), хотя раньше (без CTP) она бы имела счет 1/3 и не была бы найдена.
Вопросы и ответы
Что такое «Словопозиция второго типа» (CTP) и чем она отличается от обычной?
Обычная словопозиция (первый тип, SP) указывает на то, что термин физически присутствует в тексте документа. Словопозиция второго типа (CTP — Click-Through Posting) — это запись в инвертированном индексе, которая указывает на то, что термин отсутствует в тексте, но документ был кликнут пользователем в ответ на запрос, содержащий этот термин. CTP представляет собой «неявную» или «поведенческую» связь между термином и документом.
В чем главное отличие этого механизма от стандартного учета поведенческих факторов (ПФ) в ранжировании?
Стандартные ПФ обычно применяются на поздних стадиях ранжирования (L3/L4 или QSR) для пересортировки уже отобранных кандидатов. Описанный механизм работает на самой первой стадии — L1 Retrieval (отбор кандидатов). Он модифицирует сам инвертированный индекс. Это влияет на то, будет ли документ вообще рассмотрен как кандидат, а не только на его позицию в топе.
Что такое «Правило Кворума» и почему оно важно для этого патента?
«Правило Кворума» — это механизм, позволяющий документу попасть в выдачу, даже если он не содержит всех слов из запроса. Это критически важно для данного патента, потому что механизм генерации CTP активируется только тогда, когда пользователь кликает на результат, найденный именно по этому правилу (т.е. на результат с отсутствующими терминами). Без Кворума документ бы не появился в выдаче и не получил бы клик.
Означает ли это, что можно ранжироваться по запросам, слов из которых вообще нет на странице?
Да, это возможно, но с ограничениями. Документ должен сначала попасть в выдачу по кворуму и получить клик, чтобы сформировать CTP. Кроме того, патент описывает защитные механизмы: Понижающие коэффициенты (Damping) и ограничение на соотношение CTP и стандартных словопозиций (Ratio Limit). Документ, состоящий преимущественно из CTP, скорее всего, будет отфильтрован.
Как Яндекс определяет вес неявных вхождений (CTP)? Все ли клики одинаково полезны?
Нет, вес динамический. Патент предлагает использовать Понижающий коэффициент, который зависит от количества кликов (noc(T,D)), подтверждающих связь термина и документа. Чем больше пользователей кликнули, тем выше уверенность системы и тем больший вес получает CTP (согласно формуле $rf_i(T,D) = \frac{noc(T,D)}{noc(T,D)+1}$), приближаясь к весу реального текстового вхождения.
Как это влияет на стратегию создания контента и сбора семантики?
Это смещает фокус с формального включения всех синонимов на создание максимально полезного контента, отвечающего на интент. Если ваш контент качественно решает задачу, пользователи своими кликами могут сами «добавить» отсутствующие синонимы в индекс вашей страницы. Сбор семантики остается важным для понимания интента, но необходимость 100% покрытия всех формулировок в тексте снижается.
Что важнее для активации этого механизма: позиция в выдаче или сам факт клика?
Ключевым является факт клика на документ, в котором отсутствуют слова запроса. Неважно, был ли этот документ на 1 или 50 позиции, если он попал в выдачу по кворуму и пользователь его выбрал, механизм обогащения индекса активируется. Это подчеркивает важность оптимизации CTR для всех страниц в зоне видимости.
Как этот патент связан с семантическим поиском (YATI, BERT)?
Этот патент описывает дополнительный механизм обеспечения семантической релевантности. В то время как нейросетевые модели (YATI) определяют семантическую близость на основе анализа текста и эмбеддингов, данный механизм использует прямые поведенческие сигналы (клики) для валидации и фиксации семантических связей непосредственно в классическом инвертированном индексе. Они решают ту же задачу разными методами.
Как быстро обновляется индекс после клика?
Патент указывает ([0138]), что обновление индекса для CTP требует ресурсов и делает индекс временно недоступным. Поэтому предпочтительным является выполнение этих операций не в реальном времени, а в пакетном режиме (сгруппированными сериями), возможно, одновременно с обработкой новых документов. Это означает, что может быть задержка.
Если я добавлю на страницу недостающие ключевые слова, удалит ли Яндекс соответствующие CTP?
Патент не описывает механизм удаления CTP при обновлении контента. Однако, согласно логике работы (Claim 1), CTP создается только для отсутствующих терминов. Если при следующей переиндексации термин появится в документе, для него будет создана Словопозиция первого типа (SP). При расчете Кворума SP обычно имеет приоритет или больший вес, делая CTP избыточной для этого конкретного термина.