SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

METHODS, SYSTEMS, AND MEDIA FOR PROVIDING A MEDIA SEARCH ENGINE (Методы, системы и медиа для обеспечения медиа-поисковой системы)
  • US9063984B1
  • Google LLC
  • 2013-03-15
  • 2015-06-23
  • Семантика и интент
  • Мультимедиа
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

Описание

Какую проблему решает

Патент решает проблему неэффективности поиска в специализированных базах данных (например, каталогах фильмов или товаров), когда пользователь вводит описательный или неструктурированный запрос (unstructured query). Специализированные базы часто индексируют только структурированные метаданные (название, автор) и не содержат подробных описаний (деталей сюжета, тем). Прямой поиск по описательному запросу (например, “фильм про девочку-снайпера”) в такой базе часто не дает результатов. Изобретение улучшает качество поиска, используя богатые описания, доступные в общем веб-индексе, для идентификации конкретных сущностей, которые ищет пользователь.

Что запатентовано

Запатентована система двухэтапного поиска для специализированных вертикалей. Система использует основной веб-индекс (first corpus или corpus of web resources) для интерпретации описательного запроса и идентификации релевантных сущностей (media entities). Затем она использует эти идентифицированные сущности для выполнения точного поиска во второй, специализированной базе данных (second corpus или corpus of media assets), содержащей целевой контент.

Как это работает

Механизм работает следующим образом:

  • Этап 1 (Веб-поиск): Система получает описательный запрос и выполняет поиск в общем корпусе веб-ресурсов. Определяются топовые результаты на основе стандартной оценки релевантности (relevancy score).
  • Этап 2 (Извлечение сущностей): Система анализирует контент топовых веб-страниц для извлечения keyword information и contextual information, определяя упоминаемые там сущности (например, названия фильмов).
  • Этап 3 (Оценка сущностей): Каждой сущности присваивается Topic Score, основанный на частоте её появления или описания в топовых веб-результатах. Выбираются сущности с наивысшими оценками.
  • Этап 4 (Специализированный поиск): Система генерирует новый запрос, используя выбранные сущности, и выполняет поиск во втором корпусе (медиа-базе).
  • Этап 5 (Ранжирование и выдача): Найденные медиа-активы ранжируются (например, на основе Media Quality Score) и представляются пользователю.

Актуальность для SEO

Высокая. Распознавание сущностей (Entity Recognition) и использование данных из общего веб-индекса для улучшения специализированных вертикалей (Товары, Видео, Локальный поиск) являются фундаментом современного поиска. Описанный механизм критически важен для интерпретации неоднозначных, разговорных или описательных запросов, что особенно актуально в эпоху голосового поиска и поиска на устройствах типа Smart TV.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (7/10). Хотя он не описывает ранжирование веб-страниц напрямую, он раскрывает механизм, как Google использует контент веб-сайтов для понимания и идентификации сущностей в специализированных поисках. Это подчеркивает критическую роль веб-контента в определении сущностей. Чтобы сущность (продукт, фильм, бренд) была корректно распознана системами Google, она должна быть четко, подробно и авторитетно описана на сайтах, которые высоко ранжируются в основном веб-индексе.

Детальный разбор

Термины и определения

Corpus of Web Resources (First Corpus) (Корпус веб-ресурсов / Первый корпус)
Основной индекс поисковой системы, содержащий коллекцию разнородных ресурсов (HTML-документы, изображения и т.д.). Используется на первом этапе для интерпретации запроса.
Corpus of Media Assets (Second Corpus) (Корпус медиа-активов / Второй корпус)
Специализированная база данных, содержащая целевой контент (например, фильмы, телепрограммы). Используется на втором этапе поиска.
Entity Table (Таблица сущностей)
Структура данных, которая связывает идентификаторы веб-ресурсов (например, URL) с конкретными сущностями (media entities), упоминаемыми или описываемыми на этих ресурсах.
Media Asset (Медиа-актив)
Единица целевого контента, которую ищет пользователь (например, фильм, эпизод сериала).
Media Entity (Медиа-сущность)
Структурированный идентификатор или характеристика медиа-актива (например, название фильма, имя актера, режиссер, номер эпизода), извлеченный из веб-ресурсов.
Media Quality Score (Оценка качества медиа)
Метрика для финального ранжирования найденных медиа-активов. Может включать качество видео/аудио (разрешение, битрейт), популярность (click rate) и доступность контента.
Relevancy Score (Оценка релевантности)
Стандартная оценка, присваиваемая веб-результатам поисковой системой на первом этапе, указывающая на степень соответствия документа исходному запросу.
Topic Score / Entity Score (Тематическая оценка / Оценка сущности)
Оценка, присваиваемая извлеченной media entity. Основана на частоте её появления (occurrence) или описания в подмножестве топовых веб-результатов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод двухэтапного поиска для медиаконтента.

  1. Система получает медиа-запрос.
  2. Идентифицируются результаты веб-поиска из Первого корпуса, каждый с relevancy score.
  3. Из подмножества топовых веб-результатов (выбранных по relevancy score) извлекается ключевая (keyword information) и контекстная (contextual information) информация.
  4. На основе этой информации определяются media entities.
  5. Каждой media entity присваивается Topic Score на основе её встречаемости в веб-результатах.
  6. Выбирается одна или несколько media entities на основе Topic Score.
  7. Идентифицируются media assets из Второго корпуса на основе выбранных media entities.
  8. Подмножество media assets представляется пользователю.

Claim 2 (Зависимый от 1): Уточняет этап предобработки запроса.

Исходный медиа-запрос может быть переписан (rewriting) путем вставки одного или нескольких медиа-терминов (например, добавление слова "фильм" или "видео") перед выполнением поиска в Первом корпусе.

Claim 5 (Зависимый от 1): Описывает механизм извлечения сущностей.

Система использует Entity Table для определения media entities. Эта таблица связывает идентификатор веб-ресурса (например, URL из результатов поиска) с соответствующей media entity.

Claim 6 (Зависимый от 1): Детализирует финальное ранжирование.

Для каждого идентифицированного media asset определяется Quality Score (оценка качества), и результаты фильтруются (или ранжируются) на основе этой оценки.

Claim 7 (Зависимый от 1): Описывает механизм смешивания результатов (Blending).

Система может идентифицировать второй набор медиа-активов (например, из media data feed) и представить пользователю комбинированный набор, включающий результаты из Второго корпуса, веб-результаты из Первого корпуса и результаты из медиа-фида.

Где и как применяется

Изобретение охватывает несколько этапов поиска, интегрируя данные из разных индексов для улучшения специализированного поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит индексация как Первого корпуса (веб-страницы), так и Второго корпуса (медиа-активы). Также могут предварительно вычисляться Entity Tables, связывающие веб-страницы с сущностями, и собираться данные для Media Quality Scores.

QUNDERSTANDING – Понимание Запросов
Система получает исходный запрос. Может применяться модификация запроса (Claim 2), например, добавление классифицирующих терминов для улучшения релевантности результатов на следующем этапе.

RANKING – Ранжирование (Этап 1: Веб-поиск)
Выполняется поиск по Первому корпусу (Веб-индекс). Задача – найти веб-страницы, релевантные описательному запросу, и рассчитать их Relevancy Scores.

RERANKING / Feature Extraction (Промежуточный этап)
Это ядро изобретения. Топовые результаты Этапа 1 анализируются. Происходит извлечение Media Entities (с использованием Entity Table или анализа контента) и расчет Topic Scores. Это функционирует как извлечение признаков из результатов ранжирования для генерации нового, уточненного запроса.

RANKING – Ранжирование (Этап 2: Специализированный поиск)
Генерируется новый запрос на основе сущностей с высокими Topic Scores. Выполняется поиск по Второму корпусу (Медиа-база).

RERANKING – Переранжирование (Финальный этап)
К результатам Этапа 2 применяются Media Quality Scores для финальной сортировки и фильтрации.

METASEARCH – Метапоиск и Смешивание
Финальные результаты могут быть смешаны с результатами из других источников, включая исходные веб-результаты (Claim 7), формируя универсальную выдачу.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на описательные, тематические и разговорные запросы (например, поиск по сюжету, по характеристикам персонажа, по теме), где прямое название сущности не указано.
  • Конкретные типы контента и ниши: Влияет на поиск в специализированных вертикалях. Хотя патент фокусируется на медиа (фильмы, ТВ), механизм применим к поиску товаров (по характеристикам), локальному поиску (по типу услуги) или поиску людей.

Когда применяется

  • Триггеры активации: Механизм активируется, когда пользователь выполняет поиск в рамках специализированной системы (например, интерфейс Smart TV, раздел "Покупки" или "Видео").
  • Условия работы: Применяется для обработки неструктурированных или описательных запросов, для которых прямой поиск в специализированной базе данных может быть неэффективен из-за отсутствия описательных метаданных.

Пошаговый алгоритм

Процесс обработки запроса системой (на основе Process 500):

  1. Получение запроса: Система получает медиа-запрос (например, "little girl sniper").
  2. Модификация запроса (Опционально): Запрос может быть переписан с добавлением медиа-терминов (например, "movie").
  3. Поиск в Первом корпусе: Выполняется поиск в корпусе веб-ресурсов.
  4. Идентификация веб-результатов: Определяются веб-ресурсы, релевантные запросу, и их Relevancy Scores.
  5. Выборка топовых результатов: Выбирается подмножество веб-результатов на основе Relevancy Score (например, Топ-N).
  6. Извлечение сущностей: Из выбранного подмножества определяются Media Entities. Это может включать анализ ключевых слов и контекстной информации на страницах или использование Entity Table.
  7. Расчет Topic Score: Для каждой Media Entity рассчитывается Topic Score на основе частоты её встречаемости или описания в топовых веб-результатах (например, с использованием хэш-таблицы и подсчета).
  8. Выбор топовых сущностей: Выбираются одна или несколько Media Entities с наивысшими Topic Scores.
  9. Поиск во Втором корпусе: Генерируется новый запрос на основе выбранных сущностей и выполняется поиск в корпусе медиа-активов.
  10. Идентификация медиа-активов: Определяются Media Assets, соответствующие новому запросу.
  11. Расчет Media Quality Score (Опционально): Для каждого найденного актива определяется Media Quality Score (популярность, качество видео и т.д.).
  12. Ранжирование активов: Медиа-активы ранжируются на основе Media Quality Score и/или Topic Score.
  13. Выборка и представление: Выбирается подмножество лучших активов, которое представляется пользователю (возможно, в смеси с другими результатами).

Какие данные и как использует

Данные на входе

Система использует данные из двух различных источников (корпусов).

Из Первого корпуса (Веб-индекс):

  • Контентные факторы: Текст веб-страниц (keyword information и contextual information). Система анализирует, как сущности описываются на страницах, чтобы идентифицировать их.
  • Системные данные: Relevancy Scores, рассчитанные поисковой системой для веб-страниц в ответ на исходный запрос.

Из Второго корпуса (Специализированная база) и связанных систем:

  • Структурные факторы: Метаданные Media Assets (для сопоставления с Media Entities).
  • Поведенческие факторы: Популярность контента (например, click rate), используемая при расчете Media Quality Score. Также упоминается использование click-through rate результатов для обучения системы (learning techniques).
  • Мультимедиа и Технические факторы: Технические характеристики контента (разрешение, битрейт) и доступность (пропускная способность сервера), используемые в Media Quality Score.
  • Системные данные: Предварительно рассчитанные Entity Tables, связывающие веб-ресурсы с сущностями.

Какие метрики используются и как они считаются

  • Relevancy Score: Стандартная метрика ранжирования веб-поиска. Используется для выбора топовых веб-страниц, которые будут анализироваться для извлечения сущностей.
  • Topic Score (Entity Score): Рассчитывается путем подсчета количества топовых веб-результатов, в которых встречается или описывается конкретная сущность. Патент упоминает использование хэш-таблиц для агрегации этих данных (hash table и count value). Оценка может быть взвешена по Relevancy Score соответствующей веб-страницы.
  • Media Quality Score: Агрегированная метрика для финального ранжирования медиа-активов. Включает компоненты Q1 (качество видео), Q2 (качество аудио), Q3 (популярность) и Q4 (доступность).

Выводы

  1. Веб-индекс как источник знаний о сущностях: Патент демонстрирует, как Google использует основной веб-индекс в качестве обширного источника описательных знаний о сущностях, которых может не хватать в специализированных базах данных. Контент веб-сайтов напрямую влияет на то, как система интерпретирует описательные запросы.
  2. Критичность ранжирования в веб-поиске для вертикалей: Только те веб-страницы, которые достигли топа выдачи (высокий Relevancy Score) по исходному описательному запросу, используются для извлечения сущностей. Сайты, которые не ранжируются по этим запросам, не участвуют в процессе идентификации сущностей этим методом.
  3. Трансформация запроса через извлечение сущностей: Ключевым механизмом является преобразование неструктурированного текста запроса в структурированные идентификаторы сущностей (Media Entities) посредством анализа контента третьих сторон (веб-сайтов).
  4. Topic Score как мера уверенности: Topic Score выступает как мера уверенности системы в том, что данная сущность действительно релевантна исходному запросу. Чем чаще авторитетные (высоко ранжирующиеся) веб-страницы ассоциируют запрос с сущностью, тем выше оценка.
  5. Универсальность подхода: Хотя патент сфокусирован на медиаконтенте, описанный двухэтапный подход (Веб-поиск -> Извлечение сущностей -> Специализированный поиск) применим к любой вертикали (Товары, Локации, Персоналии).

Практика

Best practices (это мы делаем)

  • Создание комплексных описаний сущностей: Для сайтов, фокусирующихся на конкретных нишах (обзоры фильмов, каталоги товаров, базы знаний), критически важно предоставлять богатый, описательный контент. Включайте информацию, которую пользователи могут искать: темы, сюжеты, характеристики, сценарии использования, альтернативы.
  • Оптимизация под описательные и тематические запросы: Таргетируйте запросы, описывающие сущность, а не только её название. Например, оптимизируйте страницу о фильме не только под его название, но и под запросы, связанные с его сюжетом или ключевыми сценами. Это повышает Relevancy Score на первом этапе поиска.
  • Четкая ассоциация контента с сущностью: Убедитесь, что контент страницы недвусмысленно сфокусирован на конкретной сущности. Используйте структурированные данные (Schema.org), четкие заголовки и организацию контента. Это облегчает работу модуля извлечения сущностей и помогает в формировании точного Topic Score.
  • Построение Topical Authority: Становитесь авторитетным источником информации о сущностях в вашей нише. Высокое ранжирование в веб-поиске гарантирует, что ваша интерпретация и описание сущностей будут использоваться Google для ответов на запросы пользователей в специализированных вертикалях.

Worst practices (это делать не надо)

  • Тонкий контент и только метаданные: Создание страниц, содержащих только базовые спецификации или метаданные (например, списки актеров или технические характеристики товара) без содержательного описания. Такие страницы вряд ли будут ранжироваться по описательным запросам и не предоставят достаточной contextual information.
  • Неоднозначные упоминания сущностей: Создание контента, который хаотично упоминает множество сущностей без четкого фокуса. Это затрудняет идентификацию основной сущности страницы и может привести к низкому Topic Score для всех упомянутых сущностей.
  • Игнорирование информационного интента: Фокус исключительно на транзакционных запросах и игнорирование информационных и описательных запросов снижает видимость сайта на первом этапе механизма, описанного в патенте.

Стратегическое значение

Этот патент подтверждает стратегическую важность основного веб-индекса как "мозга" для всех остальных поисковых вертикалей Google. Он показывает, что видимость в специализированных продуктах Google (Товары, Видео, Карты) часто зависит от того, насколько хорошо и авторитетно сущность описана в вебе. Для SEO-стратегии это означает, что работа над контентом и Topical Authority в веб-поиске напрямую конвертируется в распознавание сущностей и трафик из специализированных вертикалей.

Практические примеры

Сценарий: Оптимизация сайта с обзорами техники для улучшения распознавания товаров (Применение вне медиа)

  1. Задача: Убедиться, что обзоры на сайте помогают Google идентифицировать товары по описательным запросам в Google Shopping.
  2. Действие (Анализ запросов): SEO-команда анализирует, как пользователи ищут товары не по названию (например, "ноутбук для дизайнера с лучшим экраном" вместо "Dell XPS 15").
  3. Действие (Контент): Создается подробный обзор Dell XPS 15, где явно и подробно описываются его преимущества для дизайнеров и характеристики экрана. Страница оптимизируется под выявленные описательные запросы.
  4. Результат (Работа механизма):
    • Пользователь ищет: "ноутбук для дизайнера с лучшим экраном".
    • Google (Этап 1) ищет в Веб-индексе. Сайт с обзором ранжируется высоко (высокий Relevancy Score).
    • Google (Этап 2) анализирует контент обзора и идентифицирует сущность "Dell XPS 15" как высокорелевантную (высокий Topic Score).
    • Google (Этап 3) ищет "Dell XPS 15" в базе товаров (Второй корпус) и показывает его пользователю в выдаче Google Shopping.

Вопросы и ответы

Какова роль веб-сайтов в механизме, описанном в этом патенте?

Веб-сайты играют критически важную роль. Они выступают в качестве Первого корпуса (Corpus of Web Resources), который содержит богатые описания, темы и контекст, отсутствующие в специализированных базах. Google анализирует контент топовых веб-сайтов, чтобы понять, о какой сущности идет речь в описательном запросе пользователя.

Влияет ли ранжирование моего сайта в веб-поиске на этот механизм?

Да, напрямую. Система анализирует только подмножество веб-результатов, выбранных на основе Relevancy Score (т.е. топовые результаты). Если ваш сайт не ранжируется высоко по описательному запросу, его контент не будет использоваться для идентификации сущностей этим методом.

Что такое Topic Score и почему он важен?

Topic Score (или Оценка сущности) – это мера уверенности системы в том, что извлеченная сущность соответствует исходному запросу. Он рассчитывается на основе того, как часто эта сущность упоминается или описывается в топовых веб-результатах. Только сущности с высоким Topic Score используются для финального поиска в специализированной базе данных.

Применим ли этот патент только к поиску фильмов и ТВ?

Нет. Хотя в патенте в качестве примеров используются Media Entities и Media Assets, описанный механизм является универсальным. Он может применяться для поиска товаров (поиск по характеристикам), локальных бизнесов (поиск по услугам), персоналий и любых других сущностей, где требуется интерпретация описательных запросов.

Как я могу оптимизировать свой контент, чтобы помочь Google лучше извлекать сущности с моих страниц?

Необходимо создавать подробный, авторитетный контент, который отвечает на описательные запросы пользователей. Контент должен быть четко сфокусирован на конкретной сущности, чтобы система могла легко её идентифицировать. Использование структурированных данных также помогает недвусмысленно указать основную сущность страницы.

Что такое Entity Table, упоминаемая в патенте?

Entity Table – это структура данных, которая заранее связывает веб-ресурсы (URL) с конкретными сущностями. Вместо анализа контента в реальном времени, система может просто выполнить поиск в этой таблице, чтобы узнать, какие сущности связаны с топовыми результатами веб-поиска. Это предполагает, что Google постоянно анализирует веб-страницы для построения таких связей на этапе индексирования.

Что означает модификация запроса (Claim 2) для SEO?

Это означает, что система может автоматически добавлять классифицирующие термины (например, "фильм", "товар", "рецепт") к исходному запросу перед выполнением веб-поиска. Это подчеркивает важность использования четких классификаторов и терминов, определяющих тип контента или сущности на ваших страницах, чтобы соответствовать этим модифицированным запросам.

Что такое Media Quality Score и могут ли SEO-специалисты на него влиять?

Media Quality Score используется для финального ранжирования найденных активов. Он включает техническое качество (разрешение, битрейт), доступность и популярность (click rate). SEO-специалисты могут косвенно влиять на компонент популярности, работая над привлекательностью сниппетов и общей репутацией контента или бренда.

Означает ли этот патент, что Google смешивает веб-результаты и медиа-результаты?

Да, Claim 7 прямо указывает на возможность смешивания (blending). Система может предоставить пользователю комбинированную выдачу, включающую как найденные медиа-активы (из Второго корпуса), так и исходные веб-результаты (из Первого корпуса), а также результаты из других источников (например, медиа-фидов).

Какое стратегическое направление в SEO подтверждает этот патент?

Патент подтверждает стратегию построения Topical Authority и фокус на Entity-based SEO. Он показывает, что становление авторитетным источником, который подробно и точно описывает сущности в своей нише, критически важно для обеспечения видимости не только в веб-поиске, но и во всех специализированных вертикалях Google.

Похожие патенты

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

Как Google классифицирует запросы о медиа (фильмы, книги, музыка), используя данные из разных вертикалей поиска и поведенческие сигналы
Google использует многофакторную модель для определения, относится ли запрос к медиа-контенту (фильмам, книгам, музыке). Система анализирует результаты товарного поиска, предлагаемые подсказки (candidate queries), частоту запроса в специализированных вертикалях (Search Probability Ratio) и наличие специфичных ключевых слов. Это позволяет точнее определить интент пользователя и показать релевантные специализированные блоки или товарные предложения.
  • US8768910B1
  • 2014-07-01
  • Семантика и интент

  • Поведенческие сигналы

  • Мультимедиа

Как Google использует популярность сущностей в Веб-поиске для ранжирования результатов в Вертикальном поиске (Музыка, Книги, Товары)
Google улучшает ранжирование в специализированных поисковых вертикалях (например, Музыка, Книги, Товары), где данных для оценки контента недостаточно (Sparse Corpora). Система использует сигналы из основного Веб-поиска (популярность запросов, CTR веб-страниц), чтобы определить авторитетность и популярность сущностей (песен, книг, товаров) и скорректировать их позиции в вертикальной выдаче.
  • US9779140B2
  • 2017-10-03
  • Поведенческие сигналы

  • SERP

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи
Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.
  • US8407239B2
  • 2013-03-26
  • Семантика и интент

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала
Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.
  • US9098551B1
  • 2015-08-04
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Популярные патенты

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток
Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.
  • US9465871B1
  • 2016-10-11
  • Антиспам

  • SERP

  • Ссылки

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса
Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.
  • US10366422B2
  • 2019-07-30
  • Поведенческие сигналы

  • Local SEO

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования
Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.
  • US7783644B1
  • 2010-08-24
  • Поведенческие сигналы

  • Индексация

  • Семантика и интент

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
  • US9092529B1
  • 2015-07-28
  • Поведенческие сигналы

  • Персонализация

  • EEAT и качество

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов
Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.
  • US7231399B1
  • 2007-06-12
  • Поведенческие сигналы

Как Google использует время взаимодействия пользователя с сайтом (Dwell Time) для расчета оценки качества всего сайта
Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.
  • US9195944B1
  • 2015-11-24
  • Поведенческие сигналы

  • Индексация

  • SERP

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.
  • US9015152B1
  • 2015-04-21
  • Семантика и интент

  • Поведенческие сигналы

  • Local SEO

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

seohardcore