SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует клики и пропуски пользователей для оценки и корректировки правил близости терминов (Proximity Rules)

CLICK OR SKIP EVALUATION OF PROXIMITY RULES (Оценка правил близости на основе кликов или пропусков)
  • US9146966B1
  • Google LLC
  • 2013-01-07
  • 2015-09-29
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует поведение пользователей для оценки эффективности правил близости (Proximity Rules), которые влияют на ранжирование в зависимости от расстояния между ключевыми словами на странице. Система отслеживает, кликают ли пользователи на результаты, где термины расположены далеко друг от друга, или пропускают их. На основе этих данных (Click Count, Skip Count) вычисляется оценка качества правила, что позволяет Google динамически адаптировать важность фактора близости.

Описание

Какую проблему решает

Патент решает проблему оценки эффективности правил близости (Proximity Rules), используемых в поиске. Традиционно предполагается, что близкое расположение терминов запроса в документе повышает релевантность, но это не всегда так. Изобретение создает механизм обратной связи для автоматического определения того, когда правило близости полезно, а когда оно ошибочно понижает релевантные результаты, где термины расположены далеко друг от друга. Цель — динамически калибровать или отключать неэффективные правила.

Что запатентовано

Запатентована система и метод для автоматической оценки Proximity Rules на основе анализа агрегированного поведения пользователей в поисковой выдаче. Система анализирует журналы запросов (query log data), сопоставляя расстояние между терминами в кликнутых и пропущенных результатах. На основе этого вычисляются метрики качества правила (Click Count, Skip Count, Fake Skip Count), которые определяют его дальнейшее использование в ранжировании.

Как это работает

Система работает путем анализа логов и оценки взаимодействия пользователей с выдачей:

  • Анализ близости: Для результатов в SERP определяется расстояние между терминами запроса относительно заданного порога (Distance Threshold).
  • Подсчет кликов (Click Count): Если пользователь кликает на результат, где термины расположены далеко (разделены), и выше в выдаче не было других результатов с таким же разделением, это сигнал, что разделение приемлемо (свидетельство против строгого правила близости).
  • Подсчет пропусков (Skip Count): Если пользователь пропускает результат с разделенными терминами и кликает на результат ниже, где термины расположены ближе, это сигнал, что разделение нежелательно (свидетельство в пользу строгого правила близости).
  • Расчет оценки: На основе взвешенного соотношения Click Count, Skip Count и Fake Skip Count вычисляется итоговая оценка (Score) качества правила.
  • Корректировка: Если оценка правила низкая, оно может быть удалено или его вес снижен.

Актуальность для SEO

Высокая. Несмотря на развитие нейросетевых моделей (BERT, MUM), которые лучше понимают контекст независимо от расстояния между словами, физическая близость (Proximity) остается сигналом релевантности. Более того, описанный механизм валидации сигналов ранжирования на основе поведения пользователей является фундаментальным элементом современных поисковых систем, использующих машинное обучение.

Важность для SEO

Среднее-Высокое (7/10). Патент критически важен для понимания того, как Google валидирует и корректирует свои алгоритмы. Он демонстрирует, что важность близости терминов не статична, а динамически адаптируется на основе реального поведения пользователей. Это подчеркивает приоритет естественности текста и удовлетворения интента пользователя над механической оптимизацией расположения ключевых слов.

Детальный разбор

Термины и определения

Proximity Rule (Правило близости)
Правило, используемое поисковой системой для скоринга результата на основе физического расстояния (количества слов) между терминами запроса в тексте документа. Может использоваться как правило скоринга (query term scoring rule) или как правило переписывания запроса (query term revision rule).
Click Count (Счетчик кликов)
Метрика оценки правила. Увеличивается, когда пользователь выбирает результат, в котором термины разделены (на пороговое расстояние), при условии, что ни один из выше ранжированных результатов не имел такого же разделения. Свидетельствует против строгого правила близости.
Skip Count (Счетчик пропусков)
Метрика оценки правила. Увеличивается, когда пользователь пропускает результат, в котором термины разделены, и выбирает результат ниже, в котором термины расположены ближе. Свидетельствует в пользу строгого правила близости.
Fake Skip Count (Счетчик ложных пропусков)
Метрика, увеличивающаяся, когда пользователь выбирает результат с разделением терминов, но при этом выше в выдаче уже был другой результат, также имевший такое же разделение терминов. Используется для фильтрации шума.
Distance Threshold (Порог расстояния)
Заданное минимальное количество слов (predetermined minimum number of terms), разделяющих термины запроса. Используется для определения, считаются ли термины "разделенными".
Query Context (Контекст запроса)
Условия применения правила. Патент различает общий контекст (General) — расстояние от одного термина до всех остальных терминов запроса, и специфический контекст (Specific) — расстояние между конкретной парой терминов.
Query Log Data (Данные логов запросов)
Анонимизированные данные о поисковых сессиях, включающие запрос, показанные результаты, их ранжирование и выбор пользователя.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методологии оценки существующих правил близости.

Claim 1 (Независимый пункт): Описывает метод подсчета Click Count.

  1. Система получает доступ к Query Log Data.
  2. Определяется, что (i) в тексте выбранного пользователем результата конкретный термин отделен от ВСЕХ остальных терминов запроса как минимум на пороговое расстояние (N слов).
  3. И одновременно определяется, что (ii) в тексте любого результата, ранжированного ВЫШЕ выбранного, этот термин НЕ был отделен от всех остальных терминов на это расстояние (т.е. располагался ближе).
  4. На основе этого определения увеличивается Click Count для соответствующего правила близости.

Claim 25 (Независимый пункт): Описывает метод подсчета Skip Count.

  1. Система получает доступ к Query Log Data.
  2. Определяется, что (i) в тексте выбранного пользователем результата конкретный термин НЕ отделен от всех остальных терминов запроса как минимум на пороговое расстояние (т.е. располагался ближе).
  3. И одновременно определяется, что (ii) в тексте результата, ранжированного ВЫШЕ (т.е. пропущенного пользователем), этот термин БЫЛ отделен от ВСЕХ остальных терминов на это пороговое расстояние.
  4. На основе этого определения увеличивается Skip Count для соответствующего правила близости.

Claim 2, 5, 6 (Зависимые пункты): Детализируют расчет итоговой оценки (Score) правила.

Оценка назначается на основе Click Count, Skip Count и Fake Skip Count (Claim 2). Вводится использование весовых коэффициентов W1, W2, W3 для каждой метрики (Claim 5). Приводится формула расчета Score (Claim 6): (Click*W1) / ((Click*W1) + (Skip*W2) + (FakeSkip*W3)).

Claim 4 (Зависимый пункт): Описывает применение результатов оценки.

Если рассчитанный Score не достигает определенного порога, соответствующее правило близости удаляется из набора правил, используемых для генерации пересмотренных поисковых запросов (revised search queries) или скоринга.

Где и как применяется

Изобретение функционирует как система валидации факторов ранжирования, преимущественно в офлайн-режиме.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна зафиксировать точное расположение (позиционные данные) терминов в документах. Эти данные необходимы для последующей оценки близости. В патенте указано, что если термин встречается несколько раз, используется наименьшее расстояние (smallest separation) между ним и другими терминами запроса.

RANKING – Ранжирование
На этом этапе активные Proximity Rules применяются для расчета Ranking Scores. Качество работы этих правил впоследствии будет оцениваться механизмом патента.

[OFFLINE EVALUATION] – Офлайн-оценка
Это основная фаза применения патента. Система (Proximity Rule System) периодически анализирует накопленные Query Logs для оценки эффективности правил, используемых на этапе RANKING. Это процесс самокоррекции поисковой системы.

Входные данные:

  • Query Log Data (запросы, ранжированные результаты, текст/позиционные данные результатов, выбранные пользователем результаты).
  • Набор существующих Proximity Rules.
  • Заданные Distance Thresholds.

Выходные данные:

  • Агрегированные метрики (Click Count, Skip Count, Fake Skip Count) и рассчитанный Score для каждого правила.
  • Скорректированный (очищенный) набор Proximity Rules для использования на этапе RANKING.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на многословные запросы, где расстояние между словами может существенно менять смысл или указывать на разные интенты. Пример из патента: "white house president" — близость слов указывает на резиденцию президента США, удаленность может указывать на биографию человека по фамилии White.
  • Конкретные типы контента: Влияет на все типы контента, где применяется текстовый анализ и оценка близости терминов.

Когда применяется

  • Временные рамки: Алгоритм применяется в офлайн-режиме при периодической обработке накопленных логов поисковых сессий.
  • Триггеры активации (для подсчета метрик при анализе логов):
    • Click: Активируется, когда пользователь выбирает результат, удовлетворяющий условию разделения терминов, при отсутствии таких результатов выше по рангу.
    • Skip: Активируется, когда пользователь пропускает результат, удовлетворяющий условию разделения, и выбирает результат ниже, который ему не удовлетворяет (термины ближе).
    • Fake Skip: Активируется, когда пользователь выбирает результат, удовлетворяющий условию разделения, при наличии таких же результатов выше по рангу.

Пошаговый алгоритм

Процесс офлайн-оценки правила близости

  1. Сбор данных: Получение доступа к Query Log Data, содержащим информацию о множестве поисковых сессий.
  2. Инициализация счетчиков: Для оцениваемого Proximity Rule (например, правило для Термина А и Термина Б с порогом N слов) обнуляются счетчики Click Count, Skip Count, Fake Skip Count.
  3. Итерация по сессиям: Обработка каждой релевантной поисковой сессии из логов.
  4. Анализ близости в результатах: Для каждого результата в рамках сессии определяется, разделены ли Термин А и Термин Б на расстояние N слов или более (используя smallest separation, если вхождений несколько).
  5. Оценка поведения пользователя и инкремент счетчиков:
    • Проверка Click: Если выбранный результат имеет разделение терминов И ни один результат выше него не имеет разделения -> Инкремент Click Count.
    • Проверка Skip: Если выбранный результат НЕ имеет разделения терминов (термины близко) И существует результат выше него, который имеет разделение -> Инкремент Skip Count.
    • Проверка Fake Skip: Если выбранный результат имеет разделение терминов И существует результат выше него, который также имеет разделение -> Инкремент Fake Skip Count.
  6. Агрегация данных: Суммирование всех счетчиков по обработанным сессиям.
  7. Расчет оценки (Score): Вычисление итоговой оценки качества правила по взвешенной формуле.
  8. Принятие решения: Сравнение полученного Score с пороговым значением. Если Score ниже порога, правило помечается как неэффективное (удаляется или понижается в весе).

Какие данные и как использует

Данные на входе

  • Поведенческие факторы (Критические): Query Log Data. Система использует информацию о том, какие результаты были показаны, в каком порядке (ranking) и какой результат был выбран (selected by a user).
  • Контентные факторы: Текст, ассоциированный с каждым поисковым результатом (text associated with the particular search result). Это может быть сниппет или полный текст документа.
  • Структурные/Технические факторы: Позиционные данные терминов в тексте, необходимые для вычисления расстояния (number of terms) между ними.

Какие метрики используются и как они считаются

  • Метрики: Click Count, Skip Count, Fake Skip Count. Расчет основан на сложных условных проверках, описанных в разделе 3.3.
  • Формулы и алгоритмы расчета: Ключевой является формула расчета итоговой оценки качества правила (Score):

Выводы

  1. Валидация алгоритмов через поведение пользователей: Патент демонстрирует, что Google активно использует агрегированные поведенческие данные (клики и пропуски) для самообучения и оценки качества своих сигналов ранжирования (в данном случае, Proximity Rules).
  2. Близость (Proximity) — это динамический сигнал: Важность близости терминов не является универсальной константой. Если пользователи систематически предпочитают результаты, где термины расположены далеко друг от друга (высокий Click Count), система делает вывод, что для данного контекста строгое правило близости неэффективно, и может его отключить или ослабить.
  3. Сложная интерпретация поведения и фильтрация шума: Система использует сложную логику, учитывая контекст ранжирования. Различение Skip и Fake Skip позволяет отфильтровывать случаи, когда пропуск результата не был связан с фактором близости, что повышает точность оценки.
  4. Контекстуальная оценка: Система оценивает правила как в общем (General), так и в специфическом (Specific) контексте, что позволяет проводить тонкую настройку релевантности для разных пар терминов.
  5. Офлайн-обработка: Процесс оценки правил является офлайновым и основан на анализе значительного объема логов, что обеспечивает статистическую значимость выводов.

Практика

Best practices (это мы делаем)

  • Приоритет естественного языка и интента: Создавайте контент, который естественно читается и отвечает на запрос пользователя, не пытаясь механически сблизить все ключевые слова. Если контент релевантен и полезен, он будет получать клики. Через механизм Click Count это даст Google сигнал, что строгое соблюдение близости для этого интента не является критичным.
  • Оптимизация сниппетов и CTR: Поскольку весь механизм основан на анализе кликов и пропусков, привлекательность сниппета (Title, Description) критически важна. Релевантный результат, который систематически пропускают (генерируя Skip Count), может негативно повлиять на восприятие Google факторов ранжирования для этого запроса.
  • Структурирование контента и глубокое раскрытие темы: Используйте четкую структуру. В подробном контенте связанные термины могут появляться в разных разделах (т.е. на большом расстоянии). Если такой контент удовлетворяет интент пользователя, Google адаптирует свои правила близости.

Worst practices (это делать не надо)

  • Искусственное сближение ключевых слов (Keyword Proximity Stuffing): Попытки насильно разместить все ключевые слова рядом друг с другом, ухудшая читаемость. Если такой контент не удовлетворяет пользователя и генерирует пропуски (Skip Count), это подтвердит для Google, что такая оптимизация нежелательна.
  • Применение универсальных правил оптимизации: Предположение, что "чем ближе ключи, тем лучше" для всех запросов без исключения. Патент доказывает, что это не так.
  • Игнорирование UX и читаемости ради SEO-метрик: Создание текстов, оптимизированных под формальные правила близости, но сложных для восприятия. Поведенческие факторы, используемые в этом патенте, выявят это несоответствие.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google: поведение пользователей является главным валидатором качества ранжирования. Система постоянно калибрует свои алгоритмические гипотезы (сигналы ранжирования) через реальный пользовательский опыт. Для долгосрочной SEO-стратегии это означает, что фокус должен быть на удовлетворении интента пользователя и улучшении UX, а не на эксплуатации отдельных технических сигналов, таких как близость слов, так как их вес динамически изменяется.

Практические примеры

Сценарий: Адаптация правила близости для информационного запроса

  1. Запрос: "как пересадить орхидею после покупки".
  2. Исходное состояние: Google применяет строгое правило близости. В ТОП-3 находятся короткие статьи с высокой плотностью ключевых слов, расположенных рядом.
  3. Поведение пользователей: Пользователи ищут подробное руководство. Они пропускают ТОП-3 и кликают на Позицию 4 — детальный лонгрид, где "пересадить орхидею" находится в заголовке, а "после покупки" упоминается в отдельном разделе ниже (термины разделены).
  4. Анализ системой (Офлайн):
    • Система фиксирует клик на результат с разделенными терминами (Позиция 4).
    • Система проверяет ТОП-3 и видит, что там термины были расположены близко.
    • Для правила близости инкрементируется Click Count (сигнал, что разделение приемлемо и предпочтительно для пользователей).
  5. Результат: После накопления данных, Score для строгого правила близости по этому кластеру запросов снижается. Google ослабляет требование к близости слов, что позволяет подробным лонгридам ранжироваться выше.

Вопросы и ответы

Означает ли этот патент, что близость ключевых слов (Proximity) больше не важна в SEO?

Нет, не означает. Близость остается важным сигналом релевантности, особенно для фраз и названий. Патент описывает механизм, с помощью которого Google оценивает, *насколько* важна близость для конкретного запроса или контекста. Если данные показывают, что пользователи довольны результатами с разделенными терминами, Google может снизить вес этого фактора, но не уберет его полностью.

Как Google определяет, что такое "Click", "Skip" и "Fake Skip"?

Определение этих метрик строго формализовано и зависит от контекста вышестоящих результатов. "Click" засчитывается, если вы выбрали результат с разделенными терминами, а выше таких не было. "Skip" – если вы пропустили результат с разделенными терминами и выбрали тот, где они ближе. "Fake Skip" – если вы выбрали результат с разделенными терминами, но выше был другой результат, где термины также были разделены.

Могу ли я как SEO-специалист повлиять на Click Count и Skip Count?

Да, косвенно. Создавая качественный контент, который точно отвечает на интент пользователя и имеет привлекательный сниппет, вы повышаете вероятность клика. Если ваш контент лучше отвечает на запрос, чем у конкурентов выше, даже при более свободном расположении ключевых слов, вы будете генерировать сигналы (Click Count), которые помогут Google скорректировать правила близости.

Патент говорит об удалении правил. Значит ли это, что Google может полностью отказаться от учета близости для моего запроса?

Теоретически да. Если оценка (Score) правила близости упадет ниже порога, патент предполагает удаление этого правила из набора используемых правил (Claim 4). На практике это скорее приведет к значительному снижению веса этого фактора для определенного кластера запросов или контекста, а не к полному игнорированию близости.

Применяется ли этот механизм в реальном времени?

Нет. Патент описывает офлайн-процесс (Offline Evaluation). Система сначала накапливает логи запросов (Query Logs), затем анализирует их агрегированно, и только после этого принимает решение о корректировке правил. Это не происходит мгновенно после одного клика.

Что такое общий (General) и специфический (Specific) контекст в правилах близости?

Общий контекст оценивает расстояние от одного конкретного термина до всех остальных терминов запроса (например, слово А до слов Б и В). Специфический контекст оценивает расстояние только между конкретной парой терминов (например, слово А до слова Б). Патент описывает механизмы для оценки правил в обоих типах контекстов независимо.

Какое значение имеет Fake Skip Count?

Fake Skip Count помогает отфильтровать шум. Если и пропущенный, и выбранный результаты имели одинаковые характеристики близости (например, оба имели разделенные термины), то пропуск, вероятно, был вызван другими факторами, а не расположением слов. Включение этой метрики в знаменатель формулы Score снижает влияние таких неинформативных событий на итоговую оценку правила.

Если в документе есть несколько вхождений ключевых слов с разным расстоянием, какое используется?

В патенте указано, что если в документе термин встречается как близко, так и далеко от других терминов, то для определения близости используется наименьшее расстояние (smallest separation) между этим термином и другими терминами запроса. Это важный нюанс для анализа контента.

Стоит ли мне теперь специально разделять ключевые слова в тексте?

Нет, это неправильная интерпретация. Не нужно ни специально разделять, ни искусственно сближать слова. Нужно писать естественно и релевантно. Патент лишь показывает, что если естественный и релевантный текст предполагает разделение терминов, Google имеет механизм, чтобы распознать это как норму через анализ кликов.

Какие веса (W1, W2, W3) использует Google в формуле оценки?

Точные веса неизвестны и могут меняться. В патенте указано, что они подбираются эмпирически, и приводятся примеры (например, 7, 3, 5). Важно понимать, что наличие этих весов позволяет Google придавать разную значимость кликам, пропускам и ложным пропускам при оценке качества своих алгоритмов.

Похожие патенты

Как Google использует клики и пропуски (Clicks/Skips) для определения важности порядка слов в запросе
Google анализирует поведение пользователей для оценки правил, которые меняют порядок слов в запросе (Reordering Rules). Если пользователи кликают на результаты с измененным порядком слов, правило считается полезным (Click Count). Если пропускают такие результаты ради нижестоящих (Skip Count), правило отключается. Это позволяет системе автоматически понять, когда порядок слов критичен для смысла запроса, а когда им можно пренебречь.
  • US8959103B1
  • 2015-02-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона
Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.
  • US8463772B1
  • 2013-06-11
  • Local SEO

  • Поведенческие сигналы

Как Google использует клики и пропуски (skips) для определения, какие слова в запросе можно игнорировать
Google тестирует правила, которые делают определенные слова в запросе необязательными (опциональными), чтобы найти более релевантные результаты. Патент описывает, как система оценивает эффективность этих правил, анализируя поведение пользователей. Если пользователи кликают на результаты, найденные благодаря игнорированию слова, правило считается успешным. Если пропускают (skip) такие результаты, правило может быть удалено.
  • US9141672B1
  • 2015-09-22
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса
Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.
  • US10366422B2
  • 2019-07-30
  • Поведенческие сигналы

  • Local SEO

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования
Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.
  • US7925498B1
  • 2011-04-12
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования
Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.
  • US9684697B1
  • 2017-06-20
  • Поведенческие сигналы

  • SERP

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)
Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.
  • US9223868B2
  • 2015-12-29
  • Поведенческие сигналы

  • SERP

  • Антиспам

seohardcore