Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

Описание

Какую задачу решает

Патент решает проблему оценки эффективности правил близости (Proximity Rules), используемых в поиске. Традиционно предполагается, что близкое расположение терминов запроса в документе повышает релевантность, но это не всегда так. Изобретение создает механизм обратной связи для автоматического определения того, когда правило близости полезно, а когда оно ошибочно понижает релевантные результаты, где термины расположены далеко друг от друга. Цель — динамически калибровать или отключать неэффективные правила.

Что запатентовано

Запатентована система и метод для автоматической оценки Proximity Rules на основе анализа агрегированного поведения пользователей в поисковой выдаче. Система анализирует журналы запросов (query log data), сопоставляя расстояние между терминами в кликнутых и пропущенных результатах. На основе этого вычисляются метрики качества правила (Click Count, Skip Count, Fake Skip Count), которые определяют его дальнейшее использование в ранжировании.

Как это работает

Система работает путем анализа логов и оценки взаимодействия пользователей с выдачей:

Анализ близости: Для результатов в SERP определяется расстояние между терминами запроса относительно заданного порога (Distance Threshold).
Подсчет кликов (Click Count): Если пользователь кликает на результат, где термины расположены далеко (разделены), и выше в выдаче не было других результатов с таким же разделением, это сигнал, что разделение приемлемо (свидетельство против строгого правила близости).
Подсчет пропусков (Skip Count): Если пользователь пропускает результат с разделенными терминами и кликает на результат ниже, где термины расположены ближе, это сигнал, что разделение нежелательно (свидетельство в пользу строгого правила близости).
Расчет оценки: На основе взвешенного соотношения Click Count, Skip Count и Fake Skip Count вычисляется итоговая оценка (Score) качества правила.
Корректировка: Если оценка правила низкая, оно может быть удалено или его вес снижен.

Актуальность для SEO

Высокая. Несмотря на развитие нейросетевых моделей (BERT, MUM), которые лучше понимают контекст независимо от расстояния между словами, физическая близость (Proximity) остается сигналом релевантности. Более того, описанный механизм валидации сигналов ранжирования на основе поведения пользователей является фундаментальным элементом современных поисковых систем, использующих машинное обучение.

Важность для SEO

Среднее-Высокое (7/10). Патент критически важен для понимания того, как Google валидирует и корректирует свои алгоритмы. Он демонстрирует, что важность близости терминов не статична, а динамически адаптируется на основе реального поведения пользователей. Это подчеркивает приоритет естественности текста и удовлетворения интента пользователя над механической оптимизацией расположения ключевых слов.

Детальный разбор

Термины и определения

Proximity Rule (Правило близости): Правило, используемое поисковой системой для скоринга результата на основе физического расстояния (количества слов) между терминами запроса в тексте документа. Может использоваться как правило скоринга (query term scoring rule) или как правило переписывания запроса (query term revision rule).
Click Count (Счетчик кликов): Метрика оценки правила. Увеличивается, когда пользователь выбирает результат, в котором термины разделены (на пороговое расстояние), при условии, что ни один из выше ранжированных результатов не имел такого же разделения. Свидетельствует против строгого правила близости.
Skip Count (Счетчик пропусков): Метрика оценки правила. Увеличивается, когда пользователь пропускает результат, в котором термины разделены, и выбирает результат ниже, в котором термины расположены ближе. Свидетельствует в пользу строгого правила близости.
Fake Skip Count (Счетчик ложных пропусков): Метрика, увеличивающаяся, когда пользователь выбирает результат с разделением терминов, но при этом выше в выдаче уже был другой результат, также имевший такое же разделение терминов. Используется для фильтрации шума.
Distance Threshold (Порог расстояния): Заданное минимальное количество слов (predetermined minimum number of terms), разделяющих термины запроса. Используется для определения, считаются ли термины «разделенными».
Query Context (Контекст запроса): Условия применения правила. Патент различает общий контекст (General) — расстояние от одного термина до всех остальных терминов запроса, и специфический контекст (Specific) — расстояние между конкретной парой терминов.
Query Log Data (Данные логов запросов): Анонимизированные данные о поисковых сессиях, включающие запрос, показанные результаты, их ранжирование и выбор пользователя.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии оценки существующих правил близости.

Claim 1 (Независимый пункт): Описывает метод подсчета Click Count.

Система получает доступ к Query Log Data.
Определяется, что (i) в тексте выбранного пользователем результата конкретный термин отделен от ВСЕХ остальных терминов запроса как минимум на пороговое расстояние (N слов).
И одновременно определяется, что (ii) в тексте любого результата, ранжированного ВЫШЕ выбранного, этот термин НЕ был отделен от всех остальных терминов на это расстояние (т.е. располагался ближе).
На основе этого определения увеличивается Click Count для соответствующего правила близости.

Claim 25 (Независимый пункт): Описывает метод подсчета Skip Count.

Система получает доступ к Query Log Data.
Определяется, что (i) в тексте выбранного пользователем результата конкретный термин НЕ отделен от всех остальных терминов запроса как минимум на пороговое расстояние (т.е. располагался ближе).
И одновременно определяется, что (ii) в тексте результата, ранжированного ВЫШЕ (т.е. пропущенного пользователем), этот термин БЫЛ отделен от ВСЕХ остальных терминов на это пороговое расстояние.
На основе этого определения увеличивается Skip Count для соответствующего правила близости.

Claim 2, 5, 6 (Зависимые пункты): Детализируют расчет итоговой оценки (Score) правила.

Оценка назначается на основе Click Count, Skip Count и Fake Skip Count (Claim 2). Вводится использование весовых коэффициентов W1, W2, W3 для каждой метрики (Claim 5). Приводится формула расчета Score (Claim 6): (Click*W1) / ((Click*W1) + (Skip*W2) + (FakeSkip*W3)).

Claim 4 (Зависимый пункт): Описывает применение результатов оценки.

Если рассчитанный Score не достигает определенного порога, соответствующее правило близости удаляется из набора правил, используемых для генерации пересмотренных поисковых запросов (revised search queries) или скоринга.

Где и как применяется

Изобретение функционирует как система валидации факторов ранжирования, преимущественно в офлайн-режиме.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна зафиксировать точное расположение (позиционные данные) терминов в документах. Эти данные необходимы для последующей оценки близости. В патенте указано, что если термин встречается несколько раз, используется наименьшее расстояние (smallest separation) между ним и другими терминами запроса.

RANKING – Ранжирование
На этом этапе активные Proximity Rules применяются для расчета Ranking Scores. Качество работы этих правил впоследствии будет оцениваться механизмом патента.

[OFFLINE EVALUATION] – Офлайн-оценка
Это основная фаза применения патента. Система (Proximity Rule System) периодически анализирует накопленные Query Logs для оценки эффективности правил, используемых на этапе RANKING. Это процесс самокоррекции поисковой системы.

Входные данные:

Query Log Data (запросы, ранжированные результаты, текст/позиционные данные результатов, выбранные пользователем результаты).
Набор существующих Proximity Rules.
Заданные Distance Thresholds.

Выходные данные:

Агрегированные метрики (Click Count, Skip Count, Fake Skip Count) и рассчитанный Score для каждого правила.
Скорректированный (очищенный) набор Proximity Rules для использования на этапе RANKING.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на многословные запросы, где расстояние между словами может существенно менять смысл или указывать на разные интенты. Пример из патента: «white house president» — близость слов указывает на резиденцию президента США, удаленность может указывать на биографию человека по фамилии White.
Конкретные типы контента: Влияет на все типы контента, где применяется текстовый анализ и оценка близости терминов.

Когда применяется

Временные рамки: Алгоритм применяется в офлайн-режиме при периодической обработке накопленных логов поисковых сессий.
Триггеры активации (для подсчета метрик при анализе логов):

Click: Активируется, когда пользователь выбирает результат, удовлетворяющий условию разделения терминов, при отсутствии таких результатов выше по рангу.
Skip: Активируется, когда пользователь пропускает результат, удовлетворяющий условию разделения, и выбирает результат ниже, который ему не удовлетворяет (термины ближе).
Fake Skip: Активируется, когда пользователь выбирает результат, удовлетворяющий условию разделения, при наличии таких же результатов выше по рангу.

Пошаговый алгоритм

Процесс офлайн-оценки правила близости

Сбор данных: Получение доступа к Query Log Data, содержащим информацию о множестве поисковых сессий.
Инициализация счетчиков: Для оцениваемого Proximity Rule (например, правило для Термина А и Термина Б с порогом N слов) обнуляются счетчики Click Count, Skip Count, Fake Skip Count.
Итерация по сессиям: Обработка каждой релевантной поисковой сессии из логов.
Анализ близости в результатах: Для каждого результата в рамках сессии определяется, разделены ли Термин А и Термин Б на расстояние N слов или более (используя smallest separation, если вхождений несколько).
Оценка поведения пользователя и инкремент счетчиков:

Проверка Click: Если выбранный результат имеет разделение терминов И ни один результат выше него не имеет разделения -> Инкремент Click Count.
Проверка Skip: Если выбранный результат НЕ имеет разделения терминов (термины близко) И существует результат выше него, который имеет разделение -> Инкремент Skip Count.
Проверка Fake Skip: Если выбранный результат имеет разделение терминов И существует результат выше него, который также имеет разделение -> Инкремент Fake Skip Count.

Агрегация данных: Суммирование всех счетчиков по обработанным сессиям.
Расчет оценки (Score): Вычисление итоговой оценки качества правила по взвешенной формуле.
Принятие решения: Сравнение полученного Score с пороговым значением. Если Score ниже порога, правило помечается как неэффективное (удаляется или понижается в весе).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Критические): Query Log Data. Система использует информацию о том, какие результаты были показаны, в каком порядке (ranking) и какой результат был выбран (selected by a user).
Контентные факторы: Текст, ассоциированный с каждым поисковым результатом (text associated with the particular search result). Это может быть сниппет или полный текст документа.
Структурные/Технические факторы: Позиционные данные терминов в тексте, необходимые для вычисления расстояния (number of terms) между ними.

Какие метрики используются и как они считаются

Метрики: Click Count, Skip Count, Fake Skip Count. Расчет основан на сложных условных проверках, описанных в разделе 3.3.
Формулы и алгоритмы расчета: Ключевой является формула расчета итоговой оценки качества правила (Score):

Выводы

Валидация алгоритмов через поведение пользователей: Патент демонстрирует, что Google активно использует агрегированные поведенческие данные (клики и пропуски) для самообучения и оценки качества своих сигналов ранжирования (в данном случае, Proximity Rules).
Близость (Proximity) — это динамический сигнал: Важность близости терминов не является универсальной константой. Если пользователи систематически предпочитают результаты, где термины расположены далеко друг от друга (высокий Click Count), система делает вывод, что для данного контекста строгое правило близости неэффективно, и может его отключить или ослабить.
Сложная интерпретация поведения и фильтрация шума: Система использует сложную логику, учитывая контекст ранжирования. Различение Skip и Fake Skip позволяет отфильтровывать случаи, когда пропуск результата не был связан с фактором близости, что повышает точность оценки.
Контекстуальная оценка: Система оценивает правила как в общем (General), так и в специфическом (Specific) контексте, что позволяет проводить тонкую настройку релевантности для разных пар терминов.
Офлайн-обработка: Процесс оценки правил является офлайновым и основан на анализе значительного объема логов, что обеспечивает статистическую значимость выводов.

Практика

Best practices (это мы делаем)

Приоритет естественного языка и интента: Создавайте контент, который естественно читается и отвечает на запрос пользователя, не пытаясь механически сблизить все ключевые слова. Если контент релевантен и полезен, он будет получать клики. Через механизм Click Count это даст Google сигнал, что строгое соблюдение близости для этого интента не является критичным.
Оптимизация сниппетов и CTR: Поскольку весь механизм основан на анализе кликов и пропусков, привлекательность сниппета (Title, Description) критически важна. Релевантный результат, который систематически пропускают (генерируя Skip Count), может негативно повлиять на восприятие Google факторов ранжирования для этого запроса.
Структурирование контента и глубокое раскрытие темы: Используйте четкую структуру. В подробном контенте связанные термины могут появляться в разных разделах (т.е. на большом расстоянии). Если такой контент удовлетворяет интент пользователя, Google адаптирует свои правила близости.

Worst practices (это делать не надо)

Искусственное сближение ключевых слов (Keyword Proximity Stuffing): Попытки насильно разместить все ключевые слова рядом друг с другом, ухудшая читаемость. Если такой контент не удовлетворяет пользователя и генерирует пропуски (Skip Count), это подтвердит для Google, что такая оптимизация нежелательна.
Применение универсальных правил оптимизации: Предположение, что «чем ближе ключи, тем лучше» для всех запросов без исключения. Патент доказывает, что это не так.
Игнорирование UX и читаемости ради SEO-метрик: Создание текстов, оптимизированных под формальные правила близости, но сложных для восприятия. Поведенческие факторы, используемые в этом патенте, выявят это несоответствие.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google: поведение пользователей является главным валидатором качества ранжирования. Система постоянно калибрует свои алгоритмические гипотезы (сигналы ранжирования) через реальный пользовательский опыт. Для долгосрочной SEO-стратегии это означает, что фокус должен быть на удовлетворении интента пользователя и улучшении UX, а не на эксплуатации отдельных технических сигналов, таких как близость слов, так как их вес динамически изменяется.

Практические примеры

Сценарий: Адаптация правила близости для информационного запроса

Запрос: «как пересадить орхидею после покупки».
Исходное состояние: Google применяет строгое правило близости. В ТОП-3 находятся короткие статьи с высокой плотностью ключевых слов, расположенных рядом.
Поведение пользователей: Пользователи ищут подробное руководство. Они пропускают ТОП-3 и кликают на Позицию 4 — детальный лонгрид, где «пересадить орхидею» находится в заголовке, а «после покупки» упоминается в отдельном разделе ниже (термины разделены).
Анализ системой (Офлайн):

Система фиксирует клик на результат с разделенными терминами (Позиция 4).
Система проверяет ТОП-3 и видит, что там термины были расположены близко.
Для правила близости инкрементируется Click Count (сигнал, что разделение приемлемо и предпочтительно для пользователей).

Результат: После накопления данных, Score для строгого правила близости по этому кластеру запросов снижается. Google ослабляет требование к близости слов, что позволяет подробным лонгридам ранжироваться выше.

Вопросы и ответы

Означает ли этот патент, что близость ключевых слов (Proximity) больше не важна в SEO?

Нет, не означает. Близость остается важным сигналом релевантности, особенно для фраз и названий. Патент описывает механизм, с помощью которого Google оценивает, *насколько* важна близость для конкретного запроса или контекста. Если данные показывают, что пользователи довольны результатами с разделенными терминами, Google может снизить вес этого фактора, но не уберет его полностью.

Как Google определяет, что такое «Click», «Skip» и «Fake Skip»?

Определение этих метрик строго формализовано и зависит от контекста вышестоящих результатов. «Click» засчитывается, если вы выбрали результат с разделенными терминами, а выше таких не было. «Skip» – если вы пропустили результат с разделенными терминами и выбрали тот, где они ближе. «Fake Skip» – если вы выбрали результат с разделенными терминами, но выше был другой результат, где термины также были разделены.

Могу ли я как SEO-специалист повлиять на Click Count и Skip Count?

Да, косвенно. Создавая качественный контент, который точно отвечает на интент пользователя и имеет привлекательный сниппет, вы повышаете вероятность клика. Если ваш контент лучше отвечает на запрос, чем у конкурентов выше, даже при более свободном расположении ключевых слов, вы будете генерировать сигналы (Click Count), которые помогут Google скорректировать правила близости.

Патент говорит об удалении правил. Значит ли это, что Google может полностью отказаться от учета близости для моего запроса?

Теоретически да. Если оценка (Score) правила близости упадет ниже порога, патент предполагает удаление этого правила из набора используемых правил (Claim 4). На практике это скорее приведет к значительному снижению веса этого фактора для определенного кластера запросов или контекста, а не к полному игнорированию близости.

Применяется ли этот механизм в реальном времени?

Нет. Патент описывает офлайн-процесс (Offline Evaluation). Система сначала накапливает логи запросов (Query Logs), затем анализирует их агрегированно, и только после этого принимает решение о корректировке правил. Это не происходит мгновенно после одного клика.

Что такое общий (General) и специфический (Specific) контекст в правилах близости?

Общий контекст оценивает расстояние от одного конкретного термина до всех остальных терминов запроса (например, слово А до слов Б и В). Специфический контекст оценивает расстояние только между конкретной парой терминов (например, слово А до слова Б). Патент описывает механизмы для оценки правил в обоих типах контекстов независимо.

Какое значение имеет Fake Skip Count?

Fake Skip Count помогает отфильтровать шум. Если и пропущенный, и выбранный результаты имели одинаковые характеристики близости (например, оба имели разделенные термины), то пропуск, вероятно, был вызван другими факторами, а не расположением слов. Включение этой метрики в знаменатель формулы Score снижает влияние таких неинформативных событий на итоговую оценку правила.

Если в документе есть несколько вхождений ключевых слов с разным расстоянием, какое используется?

В патенте указано, что если в документе термин встречается как близко, так и далеко от других терминов, то для определения близости используется наименьшее расстояние (smallest separation) между этим термином и другими терминами запроса. Это важный нюанс для анализа контента.

Стоит ли мне теперь специально разделять ключевые слова в тексте?

Нет, это неправильная интерпретация. Не нужно ни специально разделять, ни искусственно сближать слова. Нужно писать естественно и релевантно. Патент лишь показывает, что если естественный и релевантный текст предполагает разделение терминов, Google имеет механизм, чтобы распознать это как норму через анализ кликов.

Какие веса (W1, W2, W3) использует Google в формуле оценки?

Точные веса неизвестны и могут меняться. В патенте указано, что они подбираются эмпирически, и приводятся примеры (например, 7, 3, 5). Важно понимать, что наличие этих весов позволяет Google придавать разную значимость кликам, пропускам и ложным пропускам при оценке качества своих алгоритмов.