Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

METHOD AND SYSTEM FOR RANKING CONTENT BY CLICK COUNT AND OTHER WEB POPULARITY SIGNALS (Метод и система ранжирования контента по количеству кликов и другим сигналам веб-популярности)

US9098551B1
Google LLC
2012-10-26
2015-08-04

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

Какую проблему решает

Патент решает проблему оценки популярности контентных сущностей (content entities) — таких как телепрограммы, фильмы, книги, игры — особенно в ситуациях, когда у системы мало или совсем нет данных о поведении пользователей (проблема «холодного старта» в рекомендательных системах). Прямой сбор данных о популярности такого контента дорог и сложен. Изобретение предлагает метод использования существующих веб-сигналов (поисковых логов, логов веб-серверов) в качестве надежного суррогата или прокси для оценки популярности этих сущностей.

Что запатентовано

Запатентована система для ранжирования контентных сущностей путем вывода их рейтинга популярности (popularity ranking) на основе популярности связанных с ними эталонных веб-страниц (reference web pages) и поисковых запросов. Система идентифицирует авторитетные веб-страницы, точно описывающие сущность, и измеряет взаимодействие пользователей с этими страницами (посещения) и связанными запросами (объем поиска). Эти веб-сигналы агрегируются для создания оценки популярности самой сущности.

Как это работает

Ключевой механизм работает следующим образом:

Идентификация эталонов: Система проводит автоматический текстовый анализ (textual analysis) на заранее определенных авторитетных веб-сайтах для поиска эталонных веб-страниц, которые содержат точное описание сущностей (например, страница фильма на IMDb).
Идентификация запросов: Определяются поисковые запросы, которые приводят пользователей на эти эталонные страницы (например, на основе click-through rate).
Сопоставление: Эталонные страницы и запросы сопоставляются с конкретными контентными сущностями путем сравнения метаданных сущности с контентом страницы.
Измерение популярности: Система анализирует логи поиска и/или веб-серверов для определения количества посещений эталонных страниц (User Visit Ranking) и объема связанных поисковых запросов (Search Query Ranking) за определенный период времени.
Вывод рейтинга: Эти показатели агрегируются (с возможным взвешиванием и нормализацией) для вывода общего рейтинга популярности сущности.

Актуальность для SEO

Высокая. Понимание сущностей (Entity Understanding) и оценка их популярности и авторитетности являются фундаментом для современных поисковых и рекомендательных систем (например, Панели Знаний, Google Discover). Использование прокси-сигналов на основе реального поведения пользователей (поисковый интерес и трафик) для ранжирования сущностей остается крайне актуальным методом.

Важность для SEO

Патент имеет высокое значение для стратегий, связанных с SEO для сущностей (Entity SEO) и управлением репутацией. Он демонстрирует конкретный механизм, как Google может ранжировать сущности (бренды, продукты, людей) не на основе их собственного контента, а на основе того, насколько они популярны в поиске и как часто посещаются авторитетные сторонние страницы о них (например, Википедия). Это подчеркивает критическую важность управления присутствием сущности на авторитетных ресурсах и стимулирования поискового интереса.

Термины и определения

Content Entity (Контентная сущность): Объект, популярность которого оценивается. Примеры включают фильмы, телешоу, книги, электронные игры, знаменитостей, видео- или аудиоклипы.
Reference Web Page (Эталонная веб-страница, RWP): Веб-страница, контент которой предоставляет точное описание конкретной контентной сущности. Идентифицируется на заранее определенных веб-сайтах с помощью текстового анализа.
Textual Analysis (Текстовый анализ): Автоматизированный процесс анализа контента веб-страниц для определения того, содержит ли страница необходимый контент для объективного описания сущности. Часто ищет предопределенные текстовые шаблоны (например, поля «Название», «Год», «Режиссер» рядом друг с другом).
Popularity Ranking (Рейтинг популярности): Итоговая оценка популярности контентной сущности, выведенная на основе взаимодействия пользователей с связанными эталонными веб-страницами и поисковыми запросами.
Search Log Database (База данных логов поиска): Хранилище данных о поисковой активности пользователей, включая отправленные запросы и клики по результатам поиска.
Similarity Score (Оценка схожести): Метрика, определяющая степень соответствия между метаданными контентной сущности и контентом эталонной веб-страницы. Используется для сопоставления страниц с сущностями.
User Visit Ranking (Рейтинг посещений пользователей): Показатель популярности эталонной веб-страницы, основанный на количестве посещений пользователями за определенный интервал времени.
Search Query Ranking (Рейтинг поисковых запросов): Показатель популярности, основанный на количестве связанных поисковых запросов, отправленных в поисковую систему за определенный интервал времени.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования контентных сущностей.

Выполнение автоматизированного текстового анализа на предопределенных веб-сайтах для идентификации эталонных веб-страниц (RWP). RWP определяется как страница, точно описывающая сущность. Также определяются связанные поисковые запросы (SQ).
Для конкретной контентной сущности (CE):
- Идентификация подмножества RWP и соответствующих SQ на основе сравнения контента RWP и терминов SQ.
- Вывод (inferring) рейтинга популярности для CE на основе логов сервера и/или поиска, фиксирующих взаимодействие пользователей с этим подмножеством RWP и SQ.
В ответ на поисковый запрос пользователя, выбор подмножества CE для отображения в соответствии с их рейтингами популярности.

Claim 6 (Зависимый от 1): Детализирует процесс сопоставления (Matching) сущности с эталонными страницами.

Сравнение метаданных CE с контентной информацией RWP и терминами связанных запросов.
Определение оценки схожести (similarity score) для каждой RWP на основе этого сравнения.
Выбор RWP в качестве идентифицированного подмножества, если их оценки схожести превышают предопределенный порог.

Claim 7 (Зависимый от 1): Детализирует процесс вывода рейтинга популярности.

Для каждой RWP в идентифицированном подмножестве:
- Определение User Visit Ranking на основе количества посещений RWP за предопределенный интервал времени.
- Определение Search Query Ranking на основе количества соответствующих SQ, отправленных в поисковую систему за тот же интервал времени.
Агрегирование User Visit Rankings и Search Query Rankings всех RWP в взвешенный рейтинг популярности для соответствующей CE.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на расчете статических (не зависящих от запроса) сигналов популярности для сущностей.

CRAWLING & INDEXING – Сканирование, Индексирование и извлечение признаков
На этих этапах происходит сбор и анализ данных, необходимых для работы системы:

Сканирование предопределенных авторитетных веб-сайтов.
Применение текстового анализа для идентификации потенциальных эталонных веб-страниц и извлечения из них структурированной информации (например, название, год выпуска).
Обработка логов поиска (Search Log Database) и логов веб-серверов для определения количества посещений (User Visit Histories) для RWP и определения click-through rate для поисковых запросов, ведущих на RWP.

QUNDERSTANDING – Понимание Запросов (Глобальное)
Система анализирует общий объем поисковых запросов (Search Query Ranking), связанных с сущностями, для оценки их популярности.

RANKING – Ранжирование (Сущностей)
Основное применение патента происходит на этапе ранжирования контентных сущностей (например, при ответе на запрос «популярные фильмы» или при формировании рекомендаций).

Система сопоставляет RWP и SQ с контентными сущностями (используя Similarity Score).
Система рассчитывает и агрегирует User Visit Ranking и Search Query Ranking для вывода итогового Popularity Ranking для сущности.
Этот Popularity Ranking используется как ключевой фактор для сортировки результатов при поиске или просмотре сущностей.

Входные данные:

Контент с предопределенных авторитетных веб-сайтов.
Search Log Database (запросы и клики).
Логи веб-серверов или данные аналитики (для фиксации прямых посещений RWP).
База данных контентных сущностей с их метаданными.

Выходные данные:

Popularity Ranking (Рейтинг популярности) для каждой контентной сущности.

На что влияет

Конкретные типы контента: В первую очередь влияет на ранжирование сущностей, которые не являются веб-страницами, но активно обсуждаются и ищутся в интернете: фильмы, ТВ-шоу, книги, игры, знаменитости, продукты.
Специфические запросы: Влияет на запросы, направленные на поиск или рекомендации сущностей (например, «лучшие сериалы 2025», «популярные книги о SEO»).
Ниши и тематики: Наибольшее влияние в медиа, развлечениях, издательском деле и электронной коммерции (для ранжирования продуктов по популярности).

Когда применяется

Временные рамки: Алгоритм применяется непрерывно. В патенте подчеркивается важность измерения популярности в различных временных интервалах (последний час, день, неделя, месяц, год), чтобы учитывать как краткосрочные тренды, так и долгосрочную популярность.
Триггеры активации: Расчет популярности происходит регулярно на основе обновленных логов. Применение рейтинга происходит при каждом запросе пользователя на поиск или рекомендацию контентных сущностей.

Пошаговый алгоритм

Процесс можно разделить на три основные фазы: Идентификация, Сопоставление и Ранжирование.

Фаза 1: Идентификация эталонных страниц и запросов (Офлайн/Периодически)

Выбор источников: Определение списка предопределенных веб-сайтов (например, Википедия, IMDb, официальные сайты).
Текстовый анализ: Автоматический анализ страниц на этих сайтах для поиска предопределенных текстовых шаблонов, указывающих на описание сущности.
Извлечение информации: Извлечение ключевых данных (название, год и т.д.) из найденных шаблонов.
Анализ логов поиска: Анализ Search Log Database для определения поисковых запросов, которые приводят к кликам на идентифицированные эталонные страницы.
Фильтрация запросов: Выбор запросов, у которых click-through rate на эталонную страницу превышает предопределенный порог (например, 3 клика на 10 000 показов).
(Опционально) Ручная проверка: Ручной обзор результатов для устранения ложных срабатываний.

Фаза 2: Сопоставление сущностей (Офлайн/Периодически)

Сравнение данных: Сравнение метаданных контентной сущности (из базы данных) с информацией, извлеченной из эталонной веб-страницы, и терминами связанных поисковых запросов.
Расчет оценки схожести: Вычисление Similarity Score для каждой пары (Сущность, Эталонная страница).
Применение порога: Сопоставление считается действительным, если Similarity Score превышает предопределенный порог.

Фаза 3: Расчет рейтинга популярности (Офлайн/Периодически)

Определение временного интервала: Выбор периода для анализа (например, последняя неделя).
Расчет User Visit Ranking: Для каждой сопоставленной эталонной страницы подсчитывается количество посещений пользователями за этот интервал (используя логи поиска и/или логи сервера).
Расчет Search Query Ranking: Для каждого сопоставленного поискового запроса подсчитывается объем запросов за этот интервал.
Нормализация (Опционально): Нормализация рейтингов в рамках каждого веб-сайта, чтобы избежать перекоса в сторону более крупных сайтов.
Агрегация и взвешивание: Агрегирование User Visit Rankings и Search Query Rankings всех связанных страниц и запросов в единый взвешенный Popularity Ranking для сущности. Более свежим данным может придаваться больший вес.

Какие данные и как использует

Данные на входе

Контентные факторы: Содержимое эталонных веб-страниц. Система ищет специфические текстовые шаблоны и извлекает данные (название, год, режиссер, актеры, сюжет, кассовые сборы и т.д.).
Поведенческие факторы: Критически важные данные. Используются логи поиска (Search Log Database) и логи веб-серверов. Учитываются:
- Количество кликов (click count) из результатов поиска на эталонные страницы.
- Click-through rate (CTR) для определения релевантности запросов.
- Количество посещений (User Visit Histories) эталонных страниц (включая прямые посещения, фиксируемые, например, через Javascript-сниппеты аналитики).
- Объем поисковых запросов, связанных с сущностью.
Временные факторы: Все поведенческие факторы измеряются в рамках предопределенных временных интервалов (час, день, неделя и т.д.) для учета динамики популярности.
Структурные факторы (Неявные): Система полагается на наличие предопределенных текстовых шаблонов на страницах, что подразумевает определенную структуру контента на эталонных сайтах.

Какие метрики используются и как они считаются

Click-Through Rate (CTR): Используется для валидации поисковых запросов. Запрос считается связанным с эталонной страницей, если CTR по нему на эту страницу превышает порог.
Similarity Score: Оценка соответствия между метаданными сущности и контентом страницы. Рассчитывается на основе сравнения полей (например, совпадение названия важнее совпадения актера).
User Visit Ranking: Основан на количестве посещений эталонной страницы за интервал времени.
Search Query Ranking: Основан на объеме связанных поисковых запросов за интервал времени.
Weighted Popularity Ranking: Агрегированная итоговая метрика. Рассчитывается путем объединения User Visit Ranking и Search Query Ranking. Может включать нормализацию (например, нормализация рейтингов внутри каждого сайта перед агрегацией) и взвешивание (например, придание большего веса недавним данным).

Ранжирование сущностей через прокси: Патент описывает конкретный механизм, позволяющий Google ранжировать не-веб объекты (сущности) по популярности, используя веб-активность как прокси-сигнал. Это фундаментальный аспект Entity SEO.
Популярность и трафик как прямые сигналы ранжирования: Объем поисковых запросов (Search Query Ranking) и трафик на связанные страницы (User Visit Ranking) являются прямыми компонентами расчета Popularity Ranking сущности. Это подтверждает, что реальный интерес пользователей и «шум» вокруг сущности влияют на её ранжирование.
Критическая роль авторитетных сайтов (Reference Sites): Система полагается на «предопределенные веб-сайты» (Википедия, IMDb, официальные сайты) как на источники истины и точки измерения популярности. Присутствие и точность информации на этих сайтах критичны для корректного сопоставления и измерения.
Важность CTR для определения релевантности запросов: Патент подтверждает использование click-through rate для определения того, какие запросы действительно связаны с конкретной страницей (и, следовательно, с сущностью).
Структурированное представление информации: Система использует автоматический текстовый анализ для поиска «предопределенных текстовых шаблонов». Это подчеркивает важность четкого и последовательного представления информации о сущностях на веб-страницах, что облегчает извлечение данных.
Чувствительность ко времени: Популярность измеряется в различных временных интервалах, что позволяет системе быстро реагировать на тренды и отличать их от долгосрочной популярности.

Best practices (это мы делаем)

Хотя патент описывает ранжирование контентных сущностей (например, в рекомендательной системе), он дает критически важные инсайты для SEO-стратегий, направленных на продвижение брендов, продуктов или людей как сущностей.

Управление присутствием на эталонных сайтах: Необходимо обеспечить наличие, полноту и точность информации о сущности на авторитетных «предопределенных веб-сайтах» (Википедия, отраслевые базы данных, крупные новостные порталы). Трафик на эти страницы напрямую влияет на User Visit Ranking сущности.
Обеспечение консистентности данных (Consistency): Метаданные сущности должны быть последовательными на всех платформах. Это критично для модуля сопоставления (Matching module), чтобы он мог точно связать эталонные страницы с сущностью, используя Similarity Score.
Стимулирование поискового интереса (Search Volume): Маркетинговые и PR-активности должны быть направлены на увеличение объема брендовых и связанных с продуктом запросов. Это напрямую увеличивает Search Query Ranking, компонент итогового рейтинга популярности.
Оптимизация структуры контента на официальном сайте: Официальный сайт также может выступать в роли эталонной веб-страницы. Информация должна быть представлена в четком, структурированном виде (используя «текстовые шаблоны», которые легко распознаются), чтобы облегчить текстовый анализ и извлечение данных.
Стимулирование трафика на эталонные страницы: Поощрение пользователей посещать авторитетные страницы о вашем бренде или продукте (например, ссылки на подробные обзоры на авторитетных ресурсах) может положительно влиять на Popularity Ranking.

Worst practices (это делать не надо)

Игнорирование сторонних авторитетных сайтов: Фокусироваться только на собственном сайте и игнорировать присутствие сущности в Википедии или отраслевых базах данных. Это лишает систему возможности измерять популярность через эти прокси.
Непоследовательная информация: Публикация противоречивых данных о сущности (разные даты выпуска, характеристики) на разных платформах. Это снижает Similarity Score и может помешать корректному сопоставлению эталонных страниц с сущностью.
Попытки манипуляции популярностью через накрутки: Система использует реальные логи поисковых систем и серверов. Искусственная накрутка трафика или запросов, вероятно, будет отфильтрована системами Google по борьбе со спамом и не даст устойчивого результата в расчете Popularity Ranking.

Стратегическое значение

Патент подтверждает стратегическую важность управления сущностями (Entity Management) в современном SEO. Популярность сущности является измеримым и используемым в ранжировании фактором. Для SEO-специалистов это означает, что работа не ограничивается оптимизацией сайта; она включает в себя управление всем цифровым присутствием бренда или продукта, а также влияние на реальный интерес пользователей (поисковый спрос и трафик на сторонние ресурсы).

Практические примеры

Сценарий: Повышение видимости нового продукта (Сущности)

Цель: Увеличить Popularity Ranking нового продукта «Смарт-часы X1» для улучшения его позиций в рекомендациях и поиске по продуктам.

Создание эталонов (До запуска): Обеспечить создание подробных страниц продукта на официальном сайте и крупных ритейлерах. Убедиться, что информация структурирована и консистентна (четкие поля: Название, Характеристики, Дата выпуска).
Стимулирование Search Query Ranking (PR-активность): Запустить маркетинговую кампанию, стимулирующую пользователей искать «обзор Смарт-часы X1» и «дата выхода Смарт-часы X1». Это увеличит объем связанных запросов.
Стимулирование User Visit Ranking (Работа с обзорами): Предоставить продукт авторитетным технологическим изданиям (Reference Sites). После публикации обзоров активно распространять ссылки на них через социальные сети и рассылки, стимулируя трафик на эти эталонные страницы.
Мониторинг: Отслеживать трафик на официальную страницу и страницы ритейлеров, а также объем поисковых запросов по продукту.
Ожидаемый результат: Система Google фиксирует высокий объем запросов (высокий Search Query Ranking) и высокий трафик на авторитетные страницы о продукте (высокий User Visit Ranking). В результате Popularity Ranking сущности «Смарт-часы X1» увеличивается.

Означает ли этот патент, что трафик на сайт является фактором ранжирования?

Патент описывает использование трафика (User Visit Ranking) как фактора ранжирования для контентных сущностей (например, фильмов, книг, брендов), а не для ранжирования веб-страниц в основном веб-поиске. Трафик измеряется на эталонных веб-страницах (например, в Википедии) и используется как прокси-сигнал популярности самой сущности. Хотя это не подтверждает использование трафика в основном веб-индексе, это показывает, что Google измеряет и использует трафик как сигнал популярности в своих системах ранжирования.

Что такое «эталонная веб-страница» (Reference Web Page) и как она определяется?

Это веб-страница на заранее определенном авторитетном сайте, которая точно и объективно описывает контентную сущность. Она идентифицируется с помощью автоматического текстового анализа, который ищет предопределенные текстовые шаблоны. Например, страница на IMDb, содержащая поля «Название», «Год», «Режиссер» и «Актеры» в непосредственной близости друг от друга, вероятно, будет идентифицирована как эталонная страница для фильма.

Какие сайты могут считаться «предопределенными веб-сайтами»?

Патент не приводит конкретного списка, но упоминает сайты, которые считаются объективными поставщиками информации: официальные сайты вещателей или сетей, агрегаторы контента (например, YouTube), сайты ТВ-гидов, социальные сети, а также сайты, которые хорошо зарекомендовали себя (подразумеваются Википедия, IMDb и подобные базы данных). Выбор зависит от типа контентной сущности.

Как система связывает поисковый запрос с эталонной страницей?

Система анализирует логи поиска и определяет, какие запросы приводят к кликам на данную эталонную страницу. Запрос считается связанным, если его click-through rate (CTR) на эту страницу превышает предопределенный порог. Это гарантирует, что учитываются только те запросы, которые действительно релевантны контенту страницы.

Как Google убеждается, что эталонная страница действительно соответствует сущности?

Используется модуль сопоставления (Matching Module). Он сравнивает метаданные сущности (из базы данных Google) с информацией, извлеченной из эталонной страницы с помощью текстового анализа. Рассчитывается оценка схожести (Similarity Score). Если эта оценка превышает порог, сопоставление считается действительным. Патент также упоминает возможность ручного контроля качества этого процесса.

Влияет ли популярность в социальных сетях на этот рейтинг?

Да, если активность в социальных сетях приводит к увеличению объема поисковых запросов (влияние на Search Query Ranking) или к увеличению трафика на эталонные веб-страницы (влияние на User Visit Ranking). Патент также упоминает, что эталонные веб-страницы могут включать официальные или неофициальные страницы в социальных сетях, посвященные сущности.

Как учитывается свежесть популярности?

Патент специально оговаривает, что измерения популярности (клики, посещения, запросы) проводятся в различных временных интервалах: последний час, день, неделю, месяц, год. Это позволяет системе учитывать как краткосрочные всплески интереса (тренды), так и долгосрочную популярность. При агрегации итогового рейтинга более свежим данным может придаваться больший вес.

Что важнее для рейтинга: трафик на страницы или объем поисковых запросов?

Патент не указывает конкретные веса, но описывает, что итоговый Weighted Popularity Ranking является агрегацией обоих показателей: User Visit Ranking (трафик) и Search Query Ranking (объем запросов). Оптимальная стратегия должна быть направлена на увеличение обоих показателей.

Как этот патент влияет на SEO для обычных сайтов?

Прямого влияния на ранжирование в веб-индексе этот патент не оказывает. Однако он дает важное понимание того, как Google работает с сущностями. Если ваш сайт продвигает бренд, продукт или личность (сущность), то повышение Popularity Ranking этой сущности (через PR, маркетинг, управление репутацией) может привести к её более высокому ранжированию в Панелях Знаний, каруселях и рекомендательных блоках, что косвенно увеличит видимость и трафик.

Как нормализуются данные о популярности с разных сайтов?

Патент предлагает нормализовать рейтинги внутри каждого веб-сайта перед их агрегацией. Например, если Сущность А связана со страницей P1 (Рейтинг R1), а Сущность Б — со страницей P3 (Рейтинг R3), и обе страницы находятся на сайте W1, то нормализованный вклад сайта W1 в рейтинг Сущности А будет $R 1 Похожие патентыКак Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом. US11036743B2 2021-06-15 Knowledge Graph Семантика и интент Поведенческие сигналыКак Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске. US20150161127A1 2015-06-11 Семантика и интент EEAT и качество SERPКак Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске. US8799107B1 2014-08-05 EEAT и качество SERP Поведенческие сигналыКак Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента) Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных. US9063984B1 2015-06-23 Семантика и интент Мультимедиа ИндексацияКак Google использует Граф Сущностей для определения главных тем страницы и генерации релевантных рекомендаций контента Патент Google описывает систему анализа веб-страницы для выявления ее главных тем («Центральных Сущностей») с помощью глобального Графа Сущностей, основанного на совместной встречаемости терминов. Система отфильтровывает периферийные и неоднозначные темы, генерирует на основе главных тем поисковые запросы и предлагает пользователю категоризированный дополнительный контент (новости, видео, товары). US20160026727A1 2016-01-28 Семантика и интент Knowledge Graph МультимедиаПопулярные патенты Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response. US12353458B2 2025-07-08 Ссылки Семантика и интент SERP Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов. US7769751B1 2010-08-03 Поведенческие сигналы Антиспам SERP Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title) Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума. US7590628B2 2009-09-15 Семантика и интент Структура сайта Ссылки Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN. US7783639B1 2010-08-24 Ссылки Антиспам EEAT и качество Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра. US8392435B1 2013-03-05 Персонализация Поведенческие сигналы SERP Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя). US8645393B1 2014-02-04 Персонализация Семантика и интент SERP Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search). US8498984B1 2013-07-30 SERP Поведенческие сигналы Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра. US9098511B1 2015-08-04 Поведенческие сигналы Мультимедиа SERP Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce. US7089237B2 2006-08-08 Поведенческие сигналы Персонализация SERP Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах. US7840407B2 2010-11-23 Поведенческие сигналы Семантика и интент Структура сайтаseohardcore$