SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google решает проблему «холодного старта» при запуске специализированного поиска (например, Google Shopping) на новых рынках

CREATING MODEL OR LIST TO IDENTIFY QUERIES (Создание модели или списка для идентификации запросов)
  • US8538946B1
  • Google LLC
  • 2012-07-18
  • 2013-09-17
  • Мультиязычность
  • Семантика и интент
  • Google Shopping
  • Local SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google решает проблему отсутствия статистики при запуске специализированного поиска (Товары, Новости и т.д.) в новой стране. Система переводит локальные запросы на язык зрелого рынка (например, английский), оценивает их с помощью существующих моделей и использует эти оценки для обучения новых локальных моделей. Это позволяет быстро определять интент пользователя без исторических данных.

Описание

Какую проблему решает

Патент решает проблему «холодного старта» (cold start problem) при запуске специализированной поисковой системы (например, Google Shopping, Google News) в новом регионе или на новом языке. Проблема заключается в отсутствии исторических данных (статистики кликов, логов запросов), необходимых для обучения моделей машинного обучения. Без этих моделей система не может точно определить, какие запросы в основном веб-поиске должны активировать (триггерить) показ результатов из специализированной вертикали.

Что запатентовано

Запатентована система и методы для быстрого создания (бутстрэппинга) моделей классификации запросов для нового рынка. Основной метод заключается в использовании существующих моделей из зрелого рынка путем перевода запросов с нового языка на язык зрелого рынка. Полученные оценки используются как обучающие данные для создания новой локальной модели. Альтернативный метод включает создание списков специализированных терминов путем сравнения частотности строк в специализированном индексе и индексе веб-поиска.

Как это работает

Система использует два основных подхода:

  1. Перенос обучения через перевод (Transfer Learning via Translation): Запросы из нового рынка (Язык 1) переводятся на язык зрелого рынка (Язык 2). Существующая модель (на Языке 2) оценивает переведенные запросы. Эти оценки привязываются к исходным запросам (на Языке 1) для создания обучающих данных. На основе этих данных создается новая модель для Языка 1.
  2. Создание списков через сравнение индексов: Система сравнивает частоту строк (unigrams, bigrams, trigrams) в индексе специализированного поиска и индексе веб-поиска. Строки, которые часто встречаются в специализированном индексе, но редко в веб-индексе, идентифицируются как индикаторы специализированного интента и добавляются в список триггеров.

Актуальность для SEO

Средняя. Проблема «холодного старта» актуальна при любом расширении сервисов. Описанные методы (перенос обучения через машинный перевод и анализ частотности) являются стандартными техниками в ML и Information Retrieval. Хотя современные подходы могут использовать более продвинутые кросс-лингвальные модели (например, MUM), которые не требуют явного перевода, базовая логика, описанная в патенте, остается релевантной для бутстрэппинга систем.

Важность для SEO

Влияние на SEO минимальное (3/10). Это инфраструктурный патент, описывающий внутренние процессы Google для запуска специализированных вертикалей на новых рынках. Он не описывает факторы ранжирования. Патент полезен для понимания того, как Google технически реализует классификацию интента запроса и определяет, когда показывать специализированные результаты (например, блок Shopping), но не дает прямых рекомендаций по оптимизации.

Детальный разбор

Термины и определения

CTR Model (Модель Коэффициента Кликабельности)
Модель, предсказывающая вероятность клика по блоку специализированных результатов, когда он показан в выдаче веб-поиска по данному запросу.
Feature (Признак)
Извлеченные из запроса данные, используемые моделями для предсказаний. В патенте упоминаются отдельные термины (unigrams), биграммы (bigrams) и триграммы (trigrams).
SCTR Model (Specialized Search Click-Through Ratio Model)
Модель, предсказывающая вероятность клика по результатам, когда запрос введен непосредственно в специализированную поисковую систему.
Specialized Search Engine (Специализированная поисковая система)
Система, ориентированная на конкретный тип информации (например, товары, изображения, новости). Использует специализированный индекс (Specialized Index).
SPR Model (Search Probability Ratio Model)
Модель, оценивающая соотношение вероятности того, что запрос будет отправлен в специализированный поиск, к вероятности того, что он будет отправлен в веб-поиск. Высокий SPR указывает на сильный специализированный интент.
Training Data (Обучающие данные)
Набор данных, используемый для создания или обновления моделей. Включает запросы и соответствующие им известные значения (например, SPR, CTR).
Strings (Строки)
Последовательности символов (униграммы, биграммы, триграммы), извлеченные из индексов. Используются в методе создания списка триггеров.

Ключевые утверждения (Анализ Claims)

Патент описывает два независимых метода для решения проблемы «холодного старта».

Метод 1: Создание модели через перенос обучения (Claim 1, Независимый пункт)

Описывает процесс создания новой модели (second model) для нового рынка (Язык 1) с использованием существующей модели (first model) из зрелого рынка (Язык 2).

  1. Получение набора запросов из первого веб-поиска (Язык 1).
  2. Перевод этих запросов с Языка 1 на Язык 2, связанный с первой специализированной поисковой системой.
  3. Использование первой модели (связанной с Языком 2) для определения значений (values) для переведенных запросов. Значение отражает вероятность того, что запрос относится к специализированному типу.
  4. Создание обучающих данных путем сопоставления исходных запросов (Язык 1) и полученных значений.
  5. Создание правил для второй модели на основе этих обучающих данных.
  6. Использование второй модели для предсказания того, является ли новый запрос (на Языке 1) специализированным, и предоставление соответствующих результатов из второй специализированной поисковой системы.

Метод 2: Создание списка через сравнение индексов (Claim 10, Независимый пункт)

Описывает процесс создания списка специализированных запросов путем анализа частотности терминов в индексах.

  1. Получение первых строк (first strings) из первого индекса (специализированный поиск).
  2. Сортировка первых строк по частоте встречаемости (frequencies) в первом индексе и создание первого списка.
  3. Получение вторых строк из второго индекса (веб-поиск).
  4. Сортировка вторых строк по частоте встречаемости во втором индексе и создание второго списка.
  5. Идентификация строк, которые присутствуют в первом списке И отсутствуют во втором списке.
  6. Создание специализированного списка строк на основе идентифицированных строк.
  7. Использование этого списка для определения того, является ли новый запрос специализированным (если он содержит строки из списка).

Где и как применяется

Изобретение применяется на этапе понимания запроса для классификации интента и принятия решения о запуске специализированного поиска (Triggering).

QUNDERSTANDING – Понимание Запросов
Это основная область применения патента. Система должна классифицировать интент запроса (например, является ли он коммерческим) в условиях отсутствия исторических данных для данного региона/языка. Описанные методы (создание моделей и списков) используются для выполнения этой классификации.

INDEXING – Индексирование и извлечение признаков
Метод 2 напрямую зависит от данных, собранных на этом этапе, анализируя частотность строк в Specialized Index и Web Search Index.

METASEARCH – Метапоиск и Смешивание
Результаты работы системы (предсказание специализированного интента) используются на этапе Метапоиска для того, чтобы запросить результаты у соответствующей специализированной вертикали и интегрировать их в основную выдачу (Blending).

Входные данные (для генерации):

  • Для Метода 1: Логи запросов из веб-поиска на новом рынке; Существующие модели (SPR, CTR, SCTR) из зрелого рынка; Система машинного перевода (Language Translation System).
  • Для Метода 2: Индекс специализированного поиска и Индекс веб-поиска (строки и их частоты).

Выходные данные (результат генерации):

  • Для Метода 1: Новые модели (SPR, CTR, SCTR), обученные для языка нового рынка.
  • Для Метода 2: Список строк (whitelist), указывающих на специализированный интент.

На что влияет

  • Конкретные типы контента и Вертикали: Влияет на видимость контента в специализированных вертикалях поиска (Products/Shopping, Images, News и т.д.) при их запуске на новых рынках.
  • Специфические запросы: Влияет на классификацию запросов с выраженным специализированным интентом (например, коммерческие запросы в случае Product Search).
  • Языковые и географические ограничения: Механизм напрямую предназначен для преодоления этих ограничений путем переноса знаний между разными языками и регионами.

Когда применяется

  • Триггеры активации: Алгоритмы активируются при запуске новой специализированной поисковой системы в новом регионе или на новом языке, где отсутствует достаточный объем исторических данных (cold start).
  • Временные рамки: Методы используются как временное решение (bootstrapping). Метод 2 (списки) может использоваться до сбора статистики или создания моделей. Метод 1 создает первоначальные модели, которые затем обновляются по мере накопления реальных локальных данных.

Пошаговый алгоритм

Алгоритм А: Создание Модели через Перевод (Бутстрэппинг)

  1. Сбор данных: Получение большого количества частотных запросов из веб-поисковой системы нового рынка (например, Google.ru).
  2. Перевод: Перевод этих запросов на язык зрелого рынка, где уже существует специализированный поиск (например, на английский).
  3. Оценка (Scoring): Использование существующих моделей (SPR, CTR, SCTR) зрелого рынка для определения значений (оценок) для переведенных запросов. Каждое значение отражает вероятность того, что запрос является специализированным.
  4. Создание обучающих данных: Сопоставление исходных запросов (на русском) с полученными значениями из зрелой модели.
  5. Обучение новой модели: Использование созданных обучающих данных для генерации новой модели (например, SPR Model для русского языка). Это включает извлечение признаков (Features) из запросов и создание взвешенных правил (weighted rules) с помощью алгоритмов машинного обучения (например, логистической регрессии).
  6. Повторение: Процесс повторяется для создания разных типов моделей (SPR, CTR, SCTR).

Алгоритм Б: Создание Списка через Сравнение Индексов

  1. Извлечение данных из Спец. Индекса: Получение строк (терминов, биграмм) из индекса специализированной поисковой системы.
  2. Сортировка Спец. Индекса: Сортировка строк по частоте встречаемости. Удаление стоп-слов (нормализация). Создание Первого списка частотных строк.
  3. Извлечение данных из Веб-Индекса: Получение строк из индекса веб-поисковой системы.
  4. Сортировка Веб-Индекса: Сортировка строк по частоте встречаемости. Нормализация. Создание Второго списка частотных строк.
  5. Сравнение и Фильтрация: Идентификация строк, которые присутствуют в Первом списке, но отсутствуют во Втором списке.
  6. Создание Списка Интента: Формирование итогового списка строк, которые с высокой вероятностью указывают на специализированный интент.

Какие данные и как использует

Данные на входе

Патент фокусируется на данных, необходимых для классификации интента в условиях «холодного старта».

  • Поведенческие факторы: Используются логи запросов (queries received by a web search engine) для выбора кандидатов для обучения (Метод 1). Также используются данные из зрелых рынков, инкапсулированные в моделях SPR, CTR, SCTR (которые сами основаны на логах запросов и кликах).
  • Контентные/Индексные факторы: В Методе 2 используются строки (strings) и их частоты (frequencies) из специализированного индекса и индекса веб-поиска.
  • Лингвистические данные: Данные, используемые Language Translation System для переноса запросов между языками (Метод 1).

Какие метрики используются и как они считаются

Система использует три ключевые метрики для оценки интента запроса:

  • SPR (Search Probability Ratio): Отношение вероятности того, что запрос будет задан специализированной поисковой системе, к вероятности того, что он будет задан веб-поисковой системе. Показывает, насколько запрос специфичен для данной вертикали.

    SPR=P(Query∣Specialized)P(Query∣Web)SPR = \frac{P(Query|Specialized)}{P(Query|Web)}

  • CTR (Click-Through Ratio): Отношение количества кликов по специализированному блоку результатов к общему количеству показов этого блока в веб-поиске по данному запросу. Показывает релевантность блока для пользователя.
  • SCTR (Specialized Search Click-Through Ratio): Отношение количества кликов по результатам к общему количеству запросов, заданных непосредственно в специализированной поисковой системе. Показывает полезность результатов внутри вертикали.

Методы вычислений и анализа:

  • Машинное обучение: Для создания моделей используются алгоритмы машинного обучения. В патенте упоминается логистическая регрессия с градиентным подъемом (logistic regression algorithm with a gradient ascent approach) для создания взвешенных правил на основе признаков (Features).
  • Статистические методы: В Методе 2 используется анализ частотности (frequencies) и сравнение множеств.

Выводы

Этот патент носит преимущественно инфраструктурный характер и описывает внутренние инженерные решения Google для масштабирования специализированных поисковых сервисов. Он не дает прямых рекомендаций для SEO-оптимизации.

  1. Решение проблемы «холодного старта»: Основная ценность изобретения — возможность быстро запустить специализированный поиск (например, Shopping) в новой стране без исторических данных, используя знания, накопленные в других регионах.
  2. Кросс-лингвальный перенос обучения: Патент демонстрирует применение машинного перевода как моста для переноса Training Data между языками. Это позволяет использовать оценки из зрелых моделей для бутстрэппинга новых.
  3. Важность моделей интента (Triggering): Подчеркивается роль специализированных моделей (SPR, CTR, SCTR) в определении того, когда следует активировать ту или иную поисковую вертикаль. Интент определяется через строго моделируемые метрики.
  4. Альтернативный метод через индексы: Использование разницы в частотности терминов между специализированным и веб-индексами является эффективным методом для выявления терминов, специфичных для вертикали (например, брендов, артикулов), когда поведенческих данных нет.
  5. Минимальное влияние на SEO-стратегию: Патент не описывает факторы ранжирования. Он описывает, как Google определяет, *показывать ли* специализированные результаты, а не *как их ранжировать*.

Практика

Патент описывает внутренние процессы Google без прямых рекомендаций для SEO. Практическое применение для SEO-специалистов ограничено улучшением понимания механизмов классификации интента.

Best practices (это мы делаем)

  • Понимание классификации интента: Необходимо понимать, что классификация интента (например, определение того, является ли запрос продуктовым) основана на сложных моделях (SPR, CTR, SCTR), а не только на совпадении ключевых слов.
  • Оптимизация данных в специализированных индексах (Критично для Метода 2): Для E-commerce и контентных проектов, работающих с вертикалями (например, Новости, Товары), крайне важно предоставлять полные и точные данные в соответствующие индексы (например, через Merchant Center). Метод 2 предполагает, что термины из этого индекса (бренды, названия товаров, сущности) могут использоваться для идентификации специализированного интента, особенно на ранних стадиях запуска сервиса в регионе.
  • Использование специализированной лексики: Использование точных названий товаров, брендов и специфических характеристик помогает системе классифицировать контент как специализированный, так как эти термины чаще встречаются в Specialized Index, чем в общем вебе.

Worst practices (это делать не надо)

Патент не делает какие-либо существующие SEO-тактики неэффективными или опасными, так как не описывает механизмы борьбы с манипуляциями.

Стратегическое значение

Стратегическое значение патента заключается в демонстрации того, как Google технологически подходит к масштабированию своих продуктов на международном уровне. Это подтверждает, что Google стремится к автоматизированной, основанной на данных классификации интента во всех регионах. Для SEO это означает, что паттерны классификации интента, наблюдаемые на зрелых рынках (например, в США), вероятно, будут быстро воспроизведены и на новых рынках благодаря механизмам переноса обучения.

Практические примеры

Сценарий: Запуск Google Shopping в России (Иллюстрация Метода 1)

  1. Ситуация: Google запускает Google Shopping в России. У них нет исторических данных о том, какие русскоязычные запросы являются продуктовыми.
  2. Сбор запросов: Система берет миллион популярных запросов из Google.ru, например, «купить кроссовки найк».
  3. Перевод: Запрос переводится на английский: «buy nike sneakers».
  4. Оценка в США: Английский запрос оценивается с помощью существующей американской модели SPR. Модель возвращает высокое значение, так как это явный продуктовый запрос в США.
  5. Создание обучающих данных: Система создает пару: (Исходный запрос: «купить кроссовки найк», Целевое значение SPR: Высокое).
  6. Обучение модели для России: Накопив миллионы таких пар, Google обучает новую модель SPR для русского языка, которая учится ассоциировать русские термины («купить», «кроссовки») с высоким SPR.
  7. Результат: Google Shopping быстро начинает корректно отображаться по продуктовым запросам в России без необходимости ждать месяцы для сбора локальной статистики.

Вопросы и ответы

Что такое проблема «холодного старта» (cold start problem), которую решает этот патент?

Это ситуация, когда запускается новый сервис (например, Google Shopping) в новом регионе или на новом языке. У системы нет исторических данных о поведении пользователей в этом регионе, поэтому она не знает, какие запросы должны активировать этот сервис. Патент предлагает методы для создания первоначальных моделей классификации интента без этих данных.

Как Google определяет, является ли запрос продуктовым на совершенно новом рынке?

Используются два основных метода. Первый: переводят локальный запрос на язык зрелого рынка (например, английский), оценивают его с помощью существующей модели и используют эту оценку для обучения новой локальной модели. Второй метод: они смотрят, какие термины часто встречаются в их продуктовом индексе, но редко в общем веб-индексе, и используют их как индикаторы продуктового интента.

Какие модели упоминаются в патенте для классификации интента?

Упоминаются три типа моделей. SPR Model (Search Probability Ratio) оценивает вероятность того, что запрос предназначен для специализированного поиска. CTR Model оценивает кликабельность специализированного блока в веб-выдаче. SCTR Model оценивает кликабельность результатов внутри самого специализированного поиска.

Описывает ли этот патент факторы ранжирования для Google Shopping или других вертикалей?

Нет. Патент сфокусирован исключительно на классификации интента запроса и триггеринге — то есть на решении, *активировать ли* специализированный поиск для данного запроса. Он не описывает, как ранжируются результаты внутри этого специализированного поиска.

Как работает метод, основанный на переводе запросов (Метод 1)?

Система берет запросы из нового рынка, переводит их на язык зрелого рынка, использует существующие модели зрелого рынка для их оценки, а затем использует эти оценки как Training Data для создания новой модели, работающей непосредственно с языком нового рынка. Это пример переноса обучения (Transfer Learning).

Как работает метод сравнения индексов (Метод 2)?

Система сравнивает частоту терминов в специализированном индексе (например, продуктовом) и общем веб-индексе. Если термин очень популярен в специализированном индексе, но редко встречается в веб-индексе (например, конкретный артикул товара или узкий бренд), система помечает его как индикатор специализированного интента и добавляет в список триггеров.

Актуальны ли эти методы сейчас, учитывая развитие нейросетей (например, MUM)?

Базовые принципы актуальны. Перенос обучения между языками критически важен. Хотя современные системы (как MUM) могут использовать более сложные методы, которые не требуют явного перевода, идея использования данных из одного языка для улучшения моделей на другом языке остается фундаментальной.

Как этот патент влияет на мою SEO-стратегию?

Влияние на стратегии ранжирования минимально. Однако, если вы работаете с E-commerce, важно убедиться, что ваши продуктовые фиды (которые формируют специализированный индекс) максимально полные и точные. Согласно Методу 2, данные из этих фидов могут использоваться для идентификации продуктового интента, что увеличит видимость в вертикальном поиске.

Что такое SPR (Search Probability Ratio) и почему это важно?

SPR — это отношение вероятности ввода запроса в специализированный поиск к вероятности его ввода в общий веб-поиск. Это ключевая метрика для определения силы специализированного интента. Google использует модели SPR, чтобы решить, показывать ли, например, блок Shopping по данному запросу.

Что происходит после фазы «холодного старта»?

После того как система накопит достаточное количество локальной статистики (логов запросов и кликов), она переобучает модели, используя уже местные данные. Это позволяет со временем отказаться от "бутстрэппинговых" моделей, созданных с помощью перевода или сравнения индексов, и перейти к более точным локальным моделям.

Похожие патенты

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент
Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.
  • US8874558B1
  • 2014-10-28
  • EEAT и качество

  • Свежесть контента

  • Индексация

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google переносит данные о поведении пользователей из основного веб-поиска для улучшения ранжирования в вертикальных поисках (Книги, Товары)
Google использует механизм для решения проблемы «холодного старта» в специализированных или новых поисковых вертикалях. Система идентифицирует один и тот же объект (например, товар или книгу по уникальному идентификатору) в разных корпусах. Затем она заимствует данные о релевантности (клики, время просмотра) из высокопосещаемого общего веб-поиска для корректировки ранжирования в вертикальном поиске, пока не накопит достаточно собственных данных.
  • US8396865B1
  • 2013-03-12
  • Поведенческие сигналы

  • Google Shopping

  • SERP

Как Google определяет многоязычных пользователей и показывает им результаты на языке, отличном от языка запроса
Google использует механизм для идентификации пользователей, владеющих несколькими языками, анализируя язык текущего запроса, местоположение пользователя и историю его активности. Если пользователь находится в регионе с доминирующим языком (L2), но ищет на другом языке (L1), и система подтверждает владение обоими, Google переводит запрос на L2 и ищет контент на обоих языках. Это позволяет показывать наиболее релевантные результаты, даже если их язык отличается от языка запроса.
  • US20230325421A1
  • 2023-10-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче
Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.
  • US8756218B1
  • 2014-06-17
  • Семантика и интент

  • SERP

Популярные патенты

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей
Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.
  • US10110701B2
  • 2018-10-23
  • Knowledge Graph

  • Поведенческие сигналы

  • Персонализация

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank
Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.
  • US7565630B1
  • 2009-07-21
  • Персонализация

  • SERP

  • Ссылки

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)
Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.
  • US8825646B1
  • 2014-09-02
  • Ссылки

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования
Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.
  • US8862572B2
  • 2014-10-14
  • Поведенческие сигналы

  • Ссылки

seohardcore