SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обучает модели машинного обучения для персонализации поиска при недостатке данных о пользователе

TECHNIQUES FOR UTILIZING AND ADAPTING A PREDICTION MODEL (Методы использования и адаптации прогнозной модели)
  • US9122986B2
  • Google LLC
  • 2012-11-05
  • 2015-09-01
  • Персонализация
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Этот патент описывает продвинутую технику машинного обучения, используемую Google для комбинирования различных типов сигналов (запрос, история пользователя, контекст) при ранжировании. Он использует метод иерархического взвешивания (тензорные произведения и слои), который гарантирует точность системы, даже если часть информации (например, история пользователя) отсутствует, отдавая приоритет фундаментальной релевантности над сложными взаимодействиями.

Описание

Какую проблему решает

Патент решает фундаментальную проблему в машинном обучении: снижение точности сложных прогнозных моделей (prediction models), использующих большое количество признаков, когда входные данные являются разреженными (sparse). В контексте поиска и рекомендательных систем это происходит, когда система имеет мало информации о пользователе (скудная история поиска) или текущем контексте сессии. Изобретение направлено на создание модели, которая остается надежной и точной независимо от количества доступных признаков для конкретного события прогнозирования.

Что запатентовано

Запатентован метод адаптации и использования прогнозной модели в средах с богатым набором признаков, но разреженными событиями. Суть изобретения заключается в специфическом способе структурирования и обучения модели с использованием шаблонов признаков (feature templates), вычисления тензорных произведений (tensor products) их комбинаций, организации этих произведений в иерархические слои и применения строгого ограничения на весовые коэффициенты: веса более простых комбинаций признаков должны быть не меньше весов более сложных комбинаций.

Как это работает

Система структурирует модель следующим образом:

  • Группировка признаков: Признаки группируются в шаблоны (Feature Templates), например: A=Запрос, B=История пользователя, C=Контекст.
  • Вычисление взаимодействий: Система вычисляет все возможные комбинации шаблонов (Power Set) и их взаимодействия через Tensor Product (например, A⊗B, A⊗B⊗C).
  • Иерархические слои: Взаимодействия организуются в слои (Layers) от простых (Слой 1: A, B, C) к сложным (Слой 3: A⊗B⊗C).
  • Ограниченное взвешивание: Модель обучается с использованием функции потерь (Loss Function) с критическим ограничением: вес более простого слоя должен быть больше или равен весу более сложного слоя, который его включает (например, Вес(A) ≥ Вес(A⊗B) ≥ Вес(A⊗B⊗C)). Это штрафует сложность и обеспечивает надежность модели при отсутствии данных (например, если B отсутствует).

Актуальность для SEO

Высокая. Хотя конкретные методы машинного обучения постоянно развиваются, проблема обработки разреженных данных остается центральной задачей в крупномасштабных системах персонализации и ранжирования, таких как Google Search и YouTube (который упоминается в патенте как пример применения). Описанные методы тензорного произведения и иерархического обучения актуальны для современных архитектур глубокого обучения.

Важность для SEO

Влияние на SEO низкое (3/10). Это инфраструктурный патент, описывающий математический метод обучения моделей машинного обучения, а не конкретный алгоритм ранжирования или новые факторы. Он не дает прямых рекомендаций по оптимизации контента. Однако он предоставляет важное понимание того, как Google может взвешивать сигналы персонализации относительно базовой релевантности запроса, предполагая, что из-за иерархических ограничений базовая релевантность остается доминирующей.

Детальный разбор

Термины и определения

Feature Templates (Шаблоны признаков)
Группы связанных признаков. Например, шаблон для "Истории пользователя" (User History), шаблон для "Запроса" (Query) и шаблон для "Контекста" (Context).
Loss Function (Функция потерь)
Математическая функция, которая измеряет ошибку прогнозной модели. Цель обучения — минимизировать значение этой функции.
Layers (Слои)
Иерархическая организация комбинаций шаблонов признаков. Более низкие слои содержат более простые комбинации (например, только Запрос), а более высокие слои содержат более сложные взаимодействия (например, Запрос × История × Контекст).
Power Set (Множество всех подмножеств)
Набор всех возможных комбинаций Feature Templates. Если шаблоны A, B, C, то Power Set включает {A}, {B}, {C}, {A,B}, {A,C}, {B,C}, {A,B,C}.
Prediction Event (Событие прогнозирования)
Конкретный экземпляр, требующий прогноза, например, пользователь вводит запрос или заканчивает просмотр видео.
Prediction Model (Прогнозная модель)
Статистическая модель, обученная для прогнозирования результатов, например, релевантности контента для пользователя.
Sparsity (Разреженность данных)
Ситуация, когда для конкретного Prediction Event доступно только небольшое количество из всех возможных признаков модели.
Tensor Product (Тензорное произведение, ⊗)
Математическая операция, используемая для вычисления взаимодействий между векторами признаков из разных шаблонов. Результатом является Transformed Feature Vector Space.
Weight Vector (Вектор весов)
Набор числовых значений, определяющих важность различных признаков и их комбинаций в модели.

Ключевые утверждения (Анализ Claims)

Это изобретение относится к области машинного обучения и его применению в поисковых системах.

Claim 1 (Независимый пункт): Описывает метод предоставления релевантных результатов поиска пользователю.

  1. Система получает запрос, извлекает историю пользователя и определяет текущий контекст пользователя.
  2. Система определяет релевантные результаты поиска на основе запроса, истории и контекста, используя Prediction Model.
  3. Система предоставляет результаты пользователю.

Ключевая часть Claim 1 детально описывает, как именно была адаптирована (обучена) эта Prediction Model:

  • Определяется Power Set шаблонов признаков (комбинации Запроса, Истории, Контекста).
  • Вычисляется Tensor Product для каждой комбинации, создавая Transformed Feature Vector Space.
  • Пространство организуется в Layers (Слои) по сложности (где слой x+1 сложнее слоя x).
  • Определяется Weight Vector на основе Loss Function с критическим ограничением: вес для слоя x не больше, чем вес для слоя x-1 (т.е. веса уменьшаются или остаются равными по мере увеличения сложности).

Claim 11 (Независимый пункт): Описывает сам метод адаптации Prediction Model в обобщенном виде (не привязываясь строго к поиску).

  1. Определение набора Feature Templates.
  2. Получение Prediction Event и соответствующих признаков.
  3. Адаптация модели путем: включения новых данных, определения Power Set, вычисления Tensor Product, организации в Layers и определения Weight Vector с тем же иерархическим ограничением (вес слоя x ≤ вес слоя x-1).

Ядром изобретения является специфический метод обучения (адаптации) модели машинного обучения. Использование иерархической структуры тензорных произведений и применение ограничения на веса (штраф за сложность) позволяет модели оставаться эффективной даже при недостатке входных данных (разреженности), что критично для систем персонализации.

Где и как применяется

Изобретение описывает технику машинного обучения, которая может применяться на различных этапах поисковой архитектуры, где используются прогнозные модели.

INDEXING – Индексирование и извлечение признаков
На этом этапе извлекаются признаки, которые затем будут использоваться в Feature Templates (например, признаки контента, признаки авторов).

RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение. Prediction Model, обученная с использованием описанной техники, используется для оценки релевантности результатов поиска или рекомендаций. Система получает доступные признаки для текущего Prediction Event (Запрос, История, Контекст) и использует модель для генерации прогноза (например, Ranking Score).

Взаимодействие компонентов:

  • Model Adaption Module: Отвечает за обучение (адаптацию) модели. Этот процесс может происходить офлайн или в режиме онлайн-обучения по мере поступления новых данных. Он выполняет сложные вычисления (Tensor Products, оптимизация Weight Vector).
  • Model Datastore: Хранит обученную модель и ее веса.
  • Processor (в момент запроса): Использует обученную модель из Model Datastore для быстрого выполнения прогнозов во время ранжирования.

Входные данные (для модели):

  • Конкретные признаки события (Prediction Event Features), соответствующие определенным шаблонам (Query, User History, Context).

Выходные данные (от модели):

  • Прогноз релевантности контента (например, оценка или ранжированный список).

На что влияет

  • Конкретные типы контента: В патенте явно упоминается применение для поиска видео (video search website, например, YouTube) и поиска документов (document search website). Техника особенно полезна для рекомендательных систем.
  • Специфические запросы: Влияет на запросы, где важна персонализация и контекстуализация. Модель позволяет системе адаптировать выдачу на основе истории пользователя и его текущих действий.
  • Персонализация: Метод напрямую влияет на то, как сигналы персонализации (история, контекст) комбинируются с сигналами запроса, особенно в ситуациях, когда данных о пользователе мало.

Когда применяется

  • Применение модели (Prediction): Активируется каждый раз, когда система генерирует персонализированные результаты поиска или рекомендации.
  • Адаптация модели (Training): Происходит непрерывно (в режиме онлайн-обучения) или периодически, когда система обрабатывает новые данные о взаимодействиях пользователей и обновляет Weight Vector для минимизации Loss Function.

Пошаговый алгоритм

Алгоритм описывает процесс адаптации (обучения) прогнозной модели.

  1. Определение структуры модели: Система определяет набор Feature Templates (например, Ф = {f1=Запрос, f2=История, f3=Контекст}).
  2. Получение данных: Система получает новое Prediction Event (например, пользователь выполнил поиск и кликнул на результат) и соответствующие признаки.
  3. Включение данных: Новое событие и признаки включаются в набор данных, на которых базируется модель.
  4. Определение комбинаций (Power Set): Система определяет множество всех подмножеств шаблонов признаков (P(Ф)).
  5. Трансформация пространства признаков (Tensor Product): Для каждого элемента в P(Ф) вычисляется тензорное произведение соответствующих векторов признаков. Например, для элемента {f1, f2} вычисляется xf1 ⊗ xf2. Это формирует Transformed Feature Vector Space.
  6. Организация слоев (Layers): Трансформированное пространство организуется в иерархические слои. Слой 1 содержит результаты для {f1}, {f2}, {f3}. Слой 2 для {f1, f2}, {f1, f3}, {f2, f3}. Слой 3 для {f1, f2, f3}.
  7. Оптимизация и определение весов (Weight Vector): Система определяет вектор весов (w) путем минимизации Loss Function с применением регуляризации и строгого иерархического ограничения: вес любого элемента должен быть не больше веса элементов на предыдущем слое, которые его включают. Это гарантирует, что более сложные взаимодействия штрафуются сильнее.

Какие данные и как использует

Данные на входе

Патент фокусируется на методологии машинного обучения, но приводит конкретные примеры данных, используемых в контексте поиска (особенно видео/документов):

  • Запрос (Query): Текст запроса, введенный пользователем.
  • История пользователя (User History):
    • Ранее просмотренные видео или документы.
    • Известные предпочтения пользователя.
    • Ранее введенные запросы.
  • Контекст (Context): (Взаимодействие пользователя с сайтом в момент запроса)
    • Видео или документ, который пользователь только что просмотрел.
    • Запрос, который пользователь использовал для нахождения последнего просмотренного контента.

Какие метрики используются и как они считаются

Патент описывает математическую основу для обучения модели.

  • Loss Function (Функция потерь): Используется для измерения ошибки модели. В патенте приводится пример (Claim 8, 13, 18), похожий на Hinge Loss: l(w;(x,y))=max(0,1−y(w⋅x))l(w;(x,y)) = max(0, 1-y(w·x))l(w;(x,y))=max(0,1−y(w⋅x)), где w — вектор весов, x — трансформированное пространство признаков, y — истинная метка (ground truth label).
  • Tensor Product (Тензорное произведение): Используется для вычисления взаимодействий (Claim 7, 12, 17): xpi=⊗k∈pi(Φ)xfkx_{p_i} = ⊗_{k∈p_i(Φ)} x_{f_k}xpi​​=⊗k∈pi​(Φ)​xfk​​.
  • Optimization Objective (Цель оптимизации): Модель стремится минимизировать сумму регуляризованных потерь по всем элементам трансформированного пространства (Claim 9, 14, 19). Ключевым является использование функции регуляризации (D), которая обеспечивает иерархическое ограничение весов между слоями.

Выводы

  1. Инфраструктурный характер патента: Патент описывает не конкретный алгоритм ранжирования, а математическую технику машинного обучения (ML infrastructure). Он объясняет, *как* Google может обучать свои модели, а не *какие именно* факторы они используют.
  2. Приоритет надежности над сложностью: Основная цель изобретения — обеспечить надежную работу прогнозных моделей в условиях разреженности данных (sparsity). Это критически важно для персонализации, так как история пользователя часто бывает неполной.
  3. Иерархическое взвешивание и штраф за сложность: Ключевая особенность — ограничение весов. Более простые комбинации признаков (например, только соответствие запросу) должны иметь вес больший или равный, чем более сложные взаимодействия (например, запрос + история + контекст).
  4. Доминирование базовой релевантности: Для SEO это означает, что система спроектирована так, чтобы отдавать приоритет фундаментальной релевантности контента запросу. Сигналы персонализации и контекста действуют как модификаторы, но из-за ограничений на веса они вряд ли смогут компенсировать слабую базовую релевантность.
  5. Подтверждение использования сигналов: Патент подтверждает, что Query, User History и Context (текущая сессия) являются ключевыми входными данными для моделей прогнозирования релевантности в поиске и рекомендательных системах (например, YouTube).

Практика

Best practices (это мы делаем)

Хотя патент носит инфраструктурный характер, он подтверждает важность фундаментальных принципов SEO:

  • Фокус на фундаментальной релевантности запросу: Поскольку модель иерархически взвешивает признаки и отдает предпочтение более простым комбинациям (вероятно, соответствию запросу), обеспечение высокой степени релевантности контента основному интенту запроса остается первостепенной задачей. Это самый надежный сигнал.
  • Построение Topical Authority: Создание контента, который всесторонне отвечает на запрос, обеспечивает сильные сигналы в базовом слое модели (Query Template), что дает наибольший вес при ранжировании.
  • Оптимизация под контекст пользователя (User Journey): Понимание того, как пользователи перемещаются по сайту и какой контент они потребляют последовательно (Context), может помочь в оптимизации внутренней перелинковки и рекомендательных блоков, чтобы соответствовать моделям, которые используют контекст сессии.

Worst practices (это делать не надо)

  • Ставка на гиперперсонализацию в ущерб релевантности: Не следует предполагать, что можно манипулировать ранжированием, оптимизируя контент под узкие комбинации истории и контекста, игнорируя общий интент. Модель спроектирована так, чтобы штрафовать сложные взаимодействия (более высокие слои), если они не дают значительного прироста точности по сравнению с базовой релевантностью.
  • Игнорирование пользователей без истории: Не стоит создавать контент, который понятен только "посвященным". Описанная техника гарантирует, что система может эффективно ранжировать контент даже для пользователей, о которых ничего не известно (sparsity), полагаясь на базовые слои модели.

Стратегическое значение

Патент демонстрирует уровень сложности инфраструктуры машинного обучения Google, направленной на масштабируемую и надежную персонализацию. Стратегически он подтверждает, что Google придерживается консервативного подхода к взвешиванию сложных сигналов: базовая релевантность является основой, а персонализация и контекст — это улучшения, которые не должны нарушать эту основу. Это подчеркивает важность долгосрочной стратегии построения авторитетности и качества контента.

Практические примеры

Патент не дает прямых примеров для SEO, но описывает сценарий применения в рекомендательных системах (например, YouTube).

Сценарий: Рекомендация следующего видео на YouTube

  1. Событие: Пользователь заканчивает смотреть видео о "Пайке микросхем" (Видео А).
  2. Входные данные для модели:
    • Context: Видео А ("Пайка микросхем").
    • User History: Пользователь ранее смотрел много видео о ретро-компьютерах.
    • Query (если применимо): Запрос, который привел к Видео А (например, "как паять SMD компоненты").
  3. Работа модели: Модель вычисляет взаимодействия: (Context), (History), (Query), (Context ⊗ History), и т.д.
  4. Взвешивание: Вес (Context) ≥ Вес (Context ⊗ History).
  5. Результат (Надежность): Если история пользователя скудная (новый пользователь), модель все равно сможет дать релевантную рекомендацию, опираясь в основном на Context (Видео А) и Query, так как их веса гарантированно выше, чем у сложных взаимодействий. Если история богатая, модель учтет взаимодействие Context ⊗ History, но только если это значительно улучшит прогноз.

Вопросы и ответы

Что такое "Шаблоны признаков" (Feature Templates) в контексте этого патента?

Это способ организации входных данных в логические группы. Вместо того чтобы рассматривать сотни признаков по отдельности, система группирует их. В патенте приводятся примеры трех ключевых шаблонов для поиска и рекомендаций: "Запрос" (Query), "История пользователя" (User History) и "Контекст" (Context – текущая сессия).

Что такое "Тензорное произведение" (Tensor Product) и зачем оно нужно?

Тензорное произведение — это математическая операция, которая позволяет вычислить взаимодействия между различными шаблонами признаков. Например, она позволяет модели понять не только важность Запроса и Истории по отдельности, но и их совместное влияние (Запрос ⊗ История). Это необходимо для создания более точных и персонализированных прогнозов.

В чем заключается основная новизна этого патента?

Новизна заключается в способе обучения модели с использованием иерархических слоев (Layers) и применением строгого ограничения на веса. Вес более сложной комбинации признаков (например, Запрос ⊗ История) не может превышать вес более простой комбинации, которая в нее входит (например, Запрос). Это делает модель устойчивой к недостатку данных (sparsity).

Что означает "штраф за сложность" или иерархическое ограничение весов для SEO?

Это означает, что система спроектирована так, чтобы отдавать предпочтение фундаментальной релевантности. Соответствие контента запросу (простой признак) имеет больший или равный вес, чем сложные сигналы персонализации. Для SEO это подтверждает, что нельзя полагаться на персонализацию для компенсации слабой релевантности контента.

Решает ли этот патент проблему "холодного старта" (новых пользователей)?

Да, в значительной степени. Поскольку модель обучается быть устойчивой к разреженности данных (когда история пользователя отсутствует), она может эффективно ранжировать контент для новых пользователей, полагаясь на доступные данные, такие как Запрос и Контекст текущей сессии.

Применяется ли эта технология только в Google Поиске?

Нет. В патенте явно упоминаются "video search website" и "document search website". Эта техника машинного обучения универсальна и, вероятно, используется в различных продуктах Google, где важна персонализация и рекомендации, особенно в YouTube.

Описывает ли этот патент конкретные факторы ранжирования?

Нет. Патент описывает математический метод комбинирования и взвешивания факторов, а не сами факторы. Хотя он упоминает Запрос, Историю и Контекст как входные данные, он не детализирует, как именно они измеряются или какие элементы внутри них наиболее важны.

Как этот патент связан с E-E-A-T или качеством контента?

Прямой связи в тексте патента нет. E-E-A-T и сигналы качества контента, вероятно, являются частью входных признаков (например, в шаблоне Контекста или как общие признаки документа), которые затем обрабатываются этой моделью для прогнозирования релевантности. Модель определяет, как эти сигналы взаимодействуют с запросом и историей пользователя.

Стоит ли мне менять свою SEO-стратегию на основе этого патента?

Патент не требует изменения стратегии, но он укрепляет уверенность в том, что фундаментальная оптимизация под интент запроса является наиболее важной. Если ваша стратегия основана на создании высокорелевантного контента, этот патент подтверждает правильность такого подхода, так как базовая релевантность имеет приоритетный вес в описанной модели.

Является ли этот патент доказательством того, что Google активно использует историю просмотров для ранжирования?

Да, патент явно указывает "User History" (включая ранее просмотренные видео/документы и предыдущие запросы) как один из ключевых шаблонов признаков, используемых прогнозной моделью для определения релевантных результатов поиска. Это подтверждает использование истории пользователя в системах ранжирования и рекомендаций.

Похожие патенты

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования
Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.
  • US8688716B1
  • 2014-04-01
  • SERP

  • Поведенческие сигналы

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует вероятностное тематическое моделирование для ранжирования видео и медиаконтента с недостатком текста
Google применяет вероятностную модель для улучшения поиска медиаконтента, такого как видео, где текстовых данных мало. Система определяет скрытые темы (Domain Topics) запроса P(T|Q) и находит контент, релевантный этим темам P(R|T). Это позволяет ранжировать видео, даже если оно не содержит ключевых слов из запроса, используя данные о кликах и базы знаний для установления связей.
  • US8620951B1
  • 2013-12-31
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google использует данные о закладках, сообществах и поведении пользователей для персонализации и контекстуализации поиска
Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые затем применяются для дополнения поисковых запросов (query augmentation) и переранжирования результатов (contextualization) с учетом личного контекста, интересов сообщества и недавней активности пользователя.
  • US7031961B2
  • 2006-04-18
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Популярные патенты

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR
Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.
  • US10922326B2
  • 2021-02-16
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google использует данные о наведении курсора (Hover Data) для ранжирования изображений и борьбы с кликбейтными миниатюрами
Google использует данные о взаимодействии пользователя с миниатюрами в поиске по картинкам (наведение курсора) как сигнал интереса. Для редких запросов эти сигналы получают больший вес, дополняя недостаток данных о кликах. Система также вычисляет соотношение кликов к наведениям (Click-to-Hover Ratio), чтобы идентифицировать и понижать в выдаче «магниты кликов» — привлекательные, но нерелевантные изображения, которые собирают много наведений, но мало кликов.
  • US8819004B1
  • 2014-08-26
  • Поведенческие сигналы

  • Мультимедиа

  • SERP

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.
  • US7953720B1
  • 2011-05-31
  • Knowledge Graph

  • EEAT и качество

  • Семантика и интент

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов
Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.
  • US20190278836A1
  • 2019-09-12
  • Семантика и интент

  • Персонализация

  • EEAT и качество

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

seohardcore