SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

GENERALIZED EDIT DISTANCE FOR QUERIES (Обобщенное расстояние редактирования для запросов)
  • US8417692B2
  • Google LLC
  • 2011-05-18
  • 2013-04-09
  • Семантика и интент
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

Описание

Какую проблему решает

Патент решает проблему точного измерения семантической близости между разными поисковыми запросами. Традиционное расстояние редактирования (например, расстояние Левенштейна) основано на количестве символьных изменений и не отражает семантику (например, расстояние от "dentist" до "deist" меньше, чем до "doctor"). Для эффективной работы систем подсказок (Query Suggestions), расширения запросов (Query Expansion) и подбора ключевых слов (например, для рекламы) необходима метрика, которая оценивает именно смысловую, а не синтаксическую близость.

Что запатентовано

Запатентована система расчета Generalized Edit Distance (Обобщенного расстояния редактирования) между запросами. Суть изобретения заключается в определении «стоимости» (Transition Cost) замены одного термина в запросе на другой. Эта стоимость вычисляется не на основе символов, а на основе анализа исторических данных (Historical Data) о том, как пользователи последовательно переформулируют свои запросы (Consecutive Queries). Для оценки семантической связи между терминами используется метрика Pointwise Mutual Information (PMI).

Как это работает

Система работает в два этапа:

  1. Офлайн-обработка (Cost Matrix Builder): Система анализирует логи запросов и выделяет пары последовательных запросов (Q1 -> Q2). Она определяет, какие термины были удалены из Q1 и какие добавлены в Q2. На основе частоты таких совместных замен вычисляется PMI для пар терминов, что отражает их семантическую близость. Затем PMI нормализуется (с учетом обобщения или специализации) и преобразуется в Transition Cost. Эти данные сохраняются в Cost Matrix.
  2. Рантайм (Query Cost Engine): Когда поступает текущий запрос и набор кандидатов в подсказки, система вычисляет общее расстояние (суммарную стоимость трансформации) от текущего запроса до каждого кандидата, используя данные из Cost Matrix. Подсказки с наименьшим расстоянием считаются наиболее семантически близкими.

Актуальность для SEO

Высокая. Понимание семантических связей между запросами является фундаментальной задачей в современном поиске. Описанный метод предлагает масштабируемый способ изучения этих связей непосредственно из поведения пользователей (переформулировок), что критически важно для улучшения качества подсказок, автодополнения и механизмов расширения запросов.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (8/10). Он раскрывает один из ключевых механизмов, который Google использует для понимания взаимосвязей между ключевыми словами, включая синонимию, обобщение и специализацию. Понимание того, как Google вычисляет семантическое расстояние между запросами, критически важно для построения эффективной контент-стратегии, исследования ключевых слов и понимания того, как Google может расширять или изменять исходный запрос пользователя перед ранжированием.

Детальный разбор

Термины и определения

Consecutive Queries (Последовательные запросы)
Пара запросов (первый и второй), поданных одним пользователем друг за другом в течение одной сессии. Анализ этих пар позволяет понять, как пользователи уточняют или изменяют свои намерения.
Co-occurrence Value (Значение совместной встречаемости)
Предварительная метрика, присваиваемая паре терминов (один из первого запроса, другой из второго) при анализе последовательных запросов. Зависит от того, сколько всего терминов было изменено одновременно.
Cost Matrix (Матрица стоимости)
Структура данных, хранящая предварительно рассчитанные Transition Costs для пар терминов. Используется для быстрого расчета Generalized Edit Distance.
Generalized Edit Distance (Обобщенное расстояние редактирования)
Метрика семантической близости между двумя запросами. Представляет собой минимальную суммарную стоимость операций (вставка, удаление, замена), необходимых для преобразования одного запроса в другой, где стоимость замены основана на семантике (Transition Cost), а не на символах.
Historical Data (Исторические данные)
Логи поисковых запросов и сессий пользователей.
Pointwise Mutual Information (PMI) (Поточечная взаимная информация)
Метрика ассоциации между двумя терминами. Показывает, насколько чаще два термина встречаются вместе (в контексте переформулировок), чем если бы они встречались случайно. Высокий PMI указывает на сильную семантическую связь.
PMI Normalization (Нормализация PMI)
Процесс масштабирования значения PMI. Патент описывает три типа:
Joint Normalization (Совместная нормализация)
Симметричная метрика. Измеряет долю общей информации, которая является общей для обоих терминов.
Specialization Normalization (Нормализация специализации)
Асимметричная метрика. Дает более высокое значение, если второй термин является специализацией первого (например, "apple" -> "macintosh").
Generalization Normalization (Нормализация обобщения)
Асимметричная метрика. Дает более высокое значение, если второй термин является обобщением первого (например, "apple" -> "fruit").
Transition Cost (Стоимость перехода/замены)
Числовое значение, присваиваемое операции замены одного термина на другой. Обратно пропорционально их семантической близости (PMI). Высокая близость = низкая стоимость.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения Transition Costs на основе анализа логов.

  1. Система выбирает пары запросов (Q1 и Q2) из пользовательских сессий, которые были поданы последовательно (с возможным небольшим числом промежуточных запросов).
  2. Для каждой пары запросов выбираются пары терминов (T1 из Q1, T2 из Q2).
  3. Определяется Co-occurrence value для каждой пары терминов. Это включает:
    • Идентификацию набора терминов S1 (есть в Q1, нет в Q2).
    • Идентификацию набора терминов S2 (есть в Q2, нет в Q1).
    • Если T1 принадлежит S1 и T2 принадлежит S2, то Co-occurrence value определяется на основе размера S1 и размера S2.
  4. На основе агрегированных Co-occurrence values определяются итоговые Transition Costs.

Claim 2 (Зависимый от 1): Уточняет расчет Co-occurrence value.

Значение обратно пропорционально произведению размера набора S1 и размера S2. Это означает, что если один термин был заменен на один термин (S1=1, S2=1), значение будет 1. Если два термина были заменены на два других (S1=2, S2=2), значение для каждой из 4 возможных пар будет 1/(2*2) = 0.25.

Claim 3 (Зависимый от 1): Детализирует расчет Transition Costs.

  1. Агрегирование Co-occurrence values для пары терминов по всем логам.
  2. Определение вероятности совместной встречаемости этой пары терминов (это основа для расчета PMI).
  3. Определение Transition Cost на основе этой вероятности.
  4. Сохранение стоимости в Cost Matrix.

Claim 8 (Независимый пункт): Описывает метод с акцентом на нормализацию.

  1. Выбор пар запросов и определение Co-occurrence values (аналогично Claim 1).
  2. Определение Transition Costs (аналогично Claim 3, включая сохранение в Cost Matrix).
  3. Нормализация Transition Costs в матрице на основе вероятности того, что первый термин встречается с любым другим термином, И/ИЛИ вероятности того, что второй термин встречается с любым другим термином.

Claim 9 (Зависимый от 8): Уточняет процесс нормализации.

Создается несколько Cost Matrices, каждая из которых использует свой фактор нормализации. Эти факторы включают вероятность первого термина (для Специализации), вероятность второго термина (для Обобщения) и произведение вероятностей обоих терминов (для Совместной нормализации).

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов, но требует предварительной офлайн-обработки данных.

INDEXING / Офлайн-обработка
Компонент Cost Matrix Builder работает офлайн. Он анализирует Historical Data (логи запросов), чтобы рассчитать PMI и Transition Costs между терминами. Результат сохраняется в Transitional Cost Data (Cost Matrix).

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Компонент Query Cost Engine использует предварительно рассчитанную Cost Matrix для оценки семантической близости между текущим запросом пользователя и кандидатами, предоставленными Query Suggestion Engine. Это позволяет ранжировать подсказки по семантической релевантности или принимать решение об автоматическом расширении/замене запроса (Query Expansion).

RANKING – Ранжирование
Механизм напрямую не участвует в ранжировании документов, но он влияет на то, КАКОЙ запрос будет использоваться для ранжирования. Если система решает расширить или заменить исходный запрос на основе низкой стоимости перехода (высокой семантической близости), то для этапа Ranking будет использован измененный запрос.

Входные данные (Офлайн):

  • Historical Data (Логи поисковых сессий).

Выходные данные (Офлайн):

  • Cost Matrix (Матрица стоимостей переходов между терминами). Возможно, несколько матриц для разных типов нормализации.

Входные данные (Рантайм):

  • Текущий запрос пользователя.
  • Набор кандидатов для подсказок/расширений.
  • Cost Matrix.

Выходные данные (Рантайм):

  • Оценка Generalized Edit Distance для каждого кандидата.

На что влияет

  • Специфические запросы: Влияет на все типы запросов, где возможны переформулировки, синонимы или уточнения (информационные, транзакционные). Особенно важно для многословных запросов, где семантика комбинации терминов играет ключевую роль.
  • Языковые ограничения: Метод не зависит от языка, так как основан на статистическом анализе логов, а не на лингвистических правилах.

Когда применяется

  • Триггеры активации: Активируется каждый раз, когда система генерирует или оценивает поисковые подсказки (включая автодополнение), предлагает связанные запросы ("Related Searches") или рассматривает возможность автоматического расширения запроса (Query Expansion).
  • Временные рамки: Расчет Cost Matrix происходит периодически офлайн. Применение матрицы происходит в реальном времени при обработке запроса.

Пошаговый алгоритм

Процесс А: Офлайн-генерация Матрицы Стоимости (Cost Matrix)

  1. Сбор данных: Получение доступа к Historical Data (логам поисковых сессий).
  2. Выбор пар запросов: Идентификация пар последовательных запросов (Q1, Q2) в рамках сессий.
  3. Идентификация изменений терминов: Для каждой пары (Q1, Q2):
    • Определить набор S1 (термины в Q1, которых нет в Q2).
    • Определить набор S2 (термины в Q2, которых нет в Q1).
  4. Расчет Co-occurrence Value: Для каждой пары терминов (X из Q1, Y из Q2):
    • Если X=Y (идентичное совпадение), значение = 1.
    • Если X в S1 и Y в S2, значение = 1 / (Размер S1 * Размер S2).
    • Иначе, значение = 0.
  5. Агрегация данных: Суммирование Co-occurrence Values для каждой пары терминов (X, Y) по всем логам. Получение общего количества N(X,Y).
  6. Расчет вероятностей: Вычисление вероятности совместной встречаемости P(X,Y) и индивидуальных вероятностей P(X) и P(Y).
  7. Расчет PMI: Вычисление Поточечной Взаимной Информации для каждой пары терминов:

Выводы

  1. Семантика изучается через поведение пользователей: Ключевой вывод заключается в том, что Google активно использует анализ пользовательских переформулировок запросов для построения карты семантических связей между терминами. Это не просто анализ ко-оккурентности в текстах, а анализ того, как люди считают термины взаимозаменяемыми или уточняющими.
  2. От синтаксического к семантическому расстоянию: Generalized Edit Distance позволяет Google предпочесть семантически близкие запросы (например, "local dentist" и "local endodontist"), даже если они сильно различаются по написанию, и отбросить синтаксически близкие, но семантически далекие варианты.
  3. Типизация семантических связей (Обобщение vs Специализация): Система не просто определяет близость, но и классифицирует тип связи. Использование асимметричных нормализаций PMI (Generalization и Specialization) позволяет системе понять, является ли новый запрос уточнением старого или его обобщением. Это критично для понимания интента пользователя.
  4. Инфраструктура для подсказок и расширений: Описанный механизм является фундаментальным для работы Query Suggestions и Query Expansion. Предварительный расчет Cost Matrix позволяет быстро и эффективно находить релевантные альтернативы запросам в реальном времени.
  5. Зависимость от данных: Эффективность метода напрямую зависит от объема и качества исторических логов. Для редких или новых терминов система может не иметь достаточных данных для точного расчета PMI и Transition Cost.

Практика

Best practices (это мы делаем)

  • Анализ путей переформулировки запросов: Необходимо исследовать не только сами ключевые слова, но и то, как пользователи их уточняют или изменяют. Используйте инструменты подсказок Google и блоки "Related Searches" как источник данных о низкостоимостных переходах (low Transition Cost). Это покажет, какие запросы Google считает семантически близкими.
  • Построение Topical Authority с охватом специализаций и обобщений: Поскольку Google различает обобщение и специализацию, контент-стратегия должна охватывать тему на разных уровнях детализации. Если вы пишете о "computer technician", убедитесь, что вы также охватываете связанные специализации ("systems programmer"), которые пользователи часто используют для уточнения.
  • Кластеризация семантики на основе поведения: При группировке ключевых слов учитывайте не только их лексическую близость или совместную встречаемость в контенте, но и поведенческую связь. Запросы, которые часто следуют друг за другом в сессиях, должны рассматриваться как семантически связанные, даже если они выглядят по-разному.
  • Оптимизация под расширенные запросы (Query Expansion): Понимая, что Google может автоматически расширить запрос пользователя на семантически близкий (с низким Generalized Edit Distance), необходимо убедиться, что ваш контент релевантен не только целевому ключу, но и его наиболее вероятным расширениям/синонимам, выявленным на этапе анализа переформулировок.

Worst practices (это делать не надо)

  • Фокус только на точном соответствии ключевых слов: Игнорирование семантических связей и потенциальных расширений запросов делает стратегию уязвимой. Google может предпочесть контент, оптимизированный под семантически близкий вариант запроса.
  • Игнорирование интента переформулировки (Generalization/Specialization): Рассмотрение всех связанных запросов как равных синонимов. Необходимо понимать контекст: ищет ли пользователь более общую информацию или уточняет запрос.
  • Оценка близости ключевых слов "на глаз": Нельзя полагаться на интуицию или синтаксическую близость при определении семантической связи. Связь определяется статистически на основе поведения миллионов пользователей (PMI).

Стратегическое значение

Этот патент подтверждает стратегическую важность данных о поведении пользователей для формирования семантического понимания языка в Google. Он демонстрирует, как Google строит свою собственную карту знаний о взаимосвязях терминов, основанную на реальных пользовательских сессиях. Для SEO это означает, что стратегии должны быть направлены на соответствие не просто запросам, а целым поисковым сценариям (user journeys), включая этапы обобщения и специализации информации.

Практические примеры

Сценарий: Оптимизация страницы категории интернет-магазина

  1. Исходный запрос: Пользователь ищет "купить ноутбук".
  2. Анализ переформулировок (Best Practice): SEO-специалист анализирует подсказки и связанные запросы и видит, что пользователи часто переходят от "купить ноутбук" к "купить игровой ноутбук" (Специализация) или "лучшие ноутбуки 2025" (Уточнение интента).
  3. Расчеты Google (Механизм патента): Google знает из логов, что Transition Cost между этими запросами низкий. PMI для пары (ноутбук, игровой ноутбук) высокий, особенно при Specialization Normalization.
  4. Действия SEO: Страница категории "Ноутбуки" должна содержать не только общую информацию, но и явные ссылки, фильтры и контентные блоки, релевантные этим специализациям (игровые, для работы).
  5. Результат: Страница лучше соответствует как исходному запросу, так и потенциальным автоматическим расширениям запроса, которые Google может применить, а также лучше удовлетворяет интент пользователя на этапе уточнения информации.

Вопросы и ответы

В чем ключевое отличие Generalized Edit Distance от традиционного расстояния редактирования (Левенштейна)?

Традиционное расстояние измеряет количество символьных изменений (вставка, удаление, замена символа) для преобразования одной строки в другую. Оно не учитывает семантику. Generalized Edit Distance измеряет стоимость замены целых терминов, и эта стоимость основана на семантической близости (PMI), вычисленной из анализа поведения пользователей. Это позволяет считать семантически близкие, но синтаксически разные запросы более похожими.

Что такое Pointwise Mutual Information (PMI) и как она используется в этом патенте?

PMI – это статистическая мера, которая показывает, насколько сильно два термина связаны друг с другом. В контексте патента она вычисляется на основе того, как часто пользователи заменяют один термин на другой при переформулировке запросов. Высокий PMI означает, что термины часто заменяют друг друга (сильная связь), что приводит к низкой стоимости замены (Transition Cost) между ними.

Как система узнает, какие термины являются взаимозаменяемыми?

Система анализирует миллионы пар последовательных запросов (Consecutive Queries) в логах. Если пользователи часто меняют запрос "local dentist" на "local endodontist", система фиксирует, что термин "dentist" был заменен на "endodontist". Агрегируя эти данные, система вычисляет высокий PMI для этой пары терминов, что сигнализирует об их взаимозаменяемости или близкой семантической связи в данном контексте.

Что означают Generalization и Specialization Normalization?

Это два типа асимметричной нормализации PMI. Specialization Normalization дает более высокую оценку, если второй термин является уточнением первого (например, переход от "телефон" к "iPhone 15"). Generalization Normalization дает более высокую оценку, если второй термин является обобщением первого (например, переход от "iPhone 15" к "смартфон"). Это позволяет Google понять направление изменения интента.

Как это влияет на мою стратегию исследования ключевых слов?

Необходимо сместить фокус с анализа отдельных ключевых слов на анализ поисковых сценариев и путей переформулировки. Важно идентифицировать, какие запросы Google считает семантически близкими к вашим целевым запросам (имеют низкий Generalized Edit Distance). Это расширяет семантическое ядро за счет терминов, которые пользователи реально используют как синонимы или уточнения.

Связан ли этот патент с Query Expansion (Расширением запросов)?

Да, напрямую. Generalized Edit Distance предоставляет метрику для оценки того, насколько кандидат на расширение близок к исходному запросу. Если расстояние очень мало (стоимость перехода низкая), система может принять решение автоматически расширить или даже заменить исходный запрос пользователя на этот семантически близкий вариант для улучшения результатов поиска.

Может ли система использовать разные Cost Matrices для разных пользователей?

Патент упоминает такую возможность. Если система может определить предпочтения пользователя (например, на основе истории поиска), она может выбрать соответствующую матрицу нормализации. Например, если пользователь склонен уточнять запросы, система может использовать Cost Matrix, основанную на Specialization Normalization, чтобы предлагать более узкоспециализированные подсказки.

Как рассчитывается Co-occurrence Value, если пользователь изменил сразу несколько слов?

Если пользователь изменил M слов на N новых слов, стоимость распределяется между всеми возможными парами. Например, если "computer technician" заменено на "systems programmer" (2 слова на 2 слова), то для каждой из 4 пар (computer-systems, computer-programmer, technician-systems, technician-programmer) значение будет 1/(2*2) = 0.25. Это предотвращает случайное присвоение высокой связи несвязанным терминам.

Влияет ли этот механизм на ранжирование моего сайта?

Он влияет опосредованно. Механизм определяет, по какому именно запросу (исходному или расширенному/измененному) будет происходить ранжирование. Если ваш сайт хорошо оптимизирован под исходный запрос, но плохо под его семантически близкое расширение, а Google решит использовать расширение, ваш сайт может потерять позиции.

Как я могу увидеть этот механизм в действии?

Наиболее очевидные проявления – это поисковые подсказки (Autocomplete) и блок "Related Searches". Они часто содержат запросы, которые синтаксически отличаются от вашего ввода, но семантически очень близки. Это и есть результаты работы системы, которая нашла варианты с низким Generalized Edit Distance на основе анализа поведения пользователей.

Похожие патенты

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов
Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.
  • US9703871B1
  • 2017-07-11
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов
Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.
  • US7617205B2
  • 2009-11-10
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов
Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.
  • US9009146B1
  • 2015-04-14
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
  • US9110975B1
  • 2015-08-18
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Популярные патенты

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов
Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.
  • US20190278836A1
  • 2019-09-12
  • Семантика и интент

  • Персонализация

  • EEAT и качество

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц
Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.
  • US9081832B2
  • 2015-07-14
  • Ссылки

  • SERP

  • Свежесть контента

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео
Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.
  • US8903812B1
  • 2014-12-02
  • Поведенческие сигналы

  • SERP

  • Антиспам

seohardcore