Как Google определяет и ранжирует самые важные факты о сущностях, анализируя поисковые запросы пользователей

IDENTIFYING AND RANKING ATTRIBUTES OF ENTITIES (Идентификация и ранжирование атрибутов сущностей)

US9047278B1
Google LLC
2012-11-09
2015-06-02

Google анализирует логи запросов, чтобы понять, какую информацию пользователи чаще всего ищут о конкретных сущностях (например, «высота» для здания или «альбомы» для музыканта). Система комбинирует данные по конкретной сущности с данными по её типу, чтобы определить и ранжировать наиболее востребованные атрибуты. Эти атрибуты затем используются для формирования блоков с фактами (например, Knowledge Panel) в ответ на запросы, даже если пользователь не спрашивал об этих фактах напрямую.

Какую проблему решает

Патент решает задачу определения того, какие типы информации (атрибуты) наиболее востребованы пользователями при поиске информации о различных сущностях. Система должна учитывать, что интерес пользователей варьируется в зависимости от типа сущности (например, для машин важен пробег, для зданий — высота). Цель — автоматически идентифицировать и ранжировать наиболее часто запрашиваемые факты для конкретной сущности, чтобы затем превентивно предоставлять эту информацию в результатах поиска (например, в блоках знаний/Knowledge Panel).

Что запатентовано

Запатентована система для анализа логов поисковых запросов с целью идентификации и ранжирования атрибутов сущностей. Система разделяет запросы на часть, описывающую сущность (Entity-descriptive portion), и суффикс (Suffix), указывающий на желаемый атрибут. Она рассчитывает частотность суффиксов как на уровне конкретной сущности (Entity-level count), так и на уровне типа сущности (Type-level count). Затем эти два показателя комбинируются для создания итоговой оценки (Score) и ранжирования атрибутов по их важности для пользователей.

Как это работает

Система анализирует Query Data (логи запросов) и подсчитывает частоту запросов. Каждый запрос разбивается на идентификатор сущности и суффикс (например, в «new york weather» «new york» — сущность, «weather» — суффикс). Система учитывает неоднозначность (например, «phoenix» может быть городом или группой) и распределяет частоту запроса между возможными сущностями на основе вероятностных оценок. Подсчитывается частота суффиксов для каждой отдельной сущности. Затем сущности группируются по типам (например, «Музыкант», «Город»), и частота суффиксов агрегируется на уровне типа. Финальная оценка атрибута для конкретной сущности вычисляется путем интерполяции её индивидуальной частоты и частоты для её типа. Это позволяет выявить важные атрибуты даже для малоизвестных сущностей, опираясь на данные по типу.

Актуальность для SEO

Высокая. Понимание сущностей и их атрибутов является ядром современного поиска (Entity SEO) и основой для функционирования Knowledge Graph и формирования информационных панелей (Knowledge Panels). Описанный механизм напрямую связан с тем, как Google определяет, какие именно факты показывать пользователю о той или иной сущности. Это критически важно для управления представлением бренда или персоны в поиске.

Важность для SEO

Патент имеет критическое значение (9/10) для стратегий, связанных с Entity SEO и оптимизацией под Knowledge Graph. Он раскрывает механизм, с помощью которого Google определяет, какие атрибуты сущности являются наиболее важными с точки зрения пользовательского спроса. Понимание этого механизма позволяет SEO-специалистам сфокусироваться на создании и структурировании контента, который отвечает на эти ключевые фактические запросы, и оптимизировать данные для попадания в информационные панели.

Термины и определения

Attribute (Атрибут): Тип информации или факт о сущности, интересующий пользователя (например, «высота», «возраст», «население»).
Entity (Сущность): Объект поискового запроса. Человек, место, вещь или идея.
Entity-descriptive portion (Часть, описывающая сущность): Часть запроса, которая идентифицирует сущность (например, «new york» в запросе «new york weather»).
Entity-level count (Частота на уровне сущности): Оценочное количество запросов, которые включают определенный суффикс и относятся к конкретной сущности.
Entity Type / Type (Тип сущности): Категория или класс, к которому принадлежит сущность (например, «Музыкант», «Город», «Здание»).
Factual Attribute (Фактический атрибут): Атрибут, связанный с объективным, общепринятым фактом.
Notable Type / Dominant Entity Type (Значимый/Доминантный тип): Основной или наиболее релевантный тип сущности, если у неё их несколько.
Partial Query Count (Частичная частота запроса): Доля от общей частоты запроса, отнесенная к конкретной сущности, если запрос неоднозначен.
Query Data (Данные запросов): Логи поисковых запросов, используемые для анализа.
Query-to-Entity Map (Карта соответствия запросов сущностям): База данных, которая связывает запросы с сущностями и предоставляет вероятностные оценки (Probability Scores) этой связи.
Score (Оценка): Итоговая оценка важности суффикса (атрибута) для конкретной сущности, рассчитанная на основе Entity-level count и Type-level count.
Suffix (Суффикс): Часть запроса, которая указывает на желаемый атрибут сущности (например, «weather» в запросе «new york weather»). Может находиться до или после Entity-descriptive portion.
Type-level count (Частота на уровне типа): Оценочное количество запросов, которые включают определенный суффикс и относятся к любой сущности определенного типа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод анализа запросов для ранжирования атрибутов.

Система идентифицирует запросы в Query Data.
В каждом запросе определяется Entity-descriptive portion и Suffix.
Определяется общая частота (Query Counts) для каждого запроса.
Для неоднозначных запросов общая частота распределяется между несколькими сущностями путем присвоения каждой сущности Partial Query Count (оценка того, сколько раз запрос относился именно к этой сущности).
На основе Partial Query Counts оценивается Entity-level count — сколько раз конкретный суффикс использовался с конкретной (первой) сущностью.
Определяется тип этой сущности.
Определяется Type-level count — сколько раз этот суффикс использовался с любой сущностью данного типа.
Суффиксу присваивается итоговая Score для первой сущности на основе комбинации Entity-level count и Type-level count.

Claim 4 (Зависимый от 3, который зависит от 2 и 1): Описывает применение результатов анализа для ответов на запросы.

Система получает пользовательский запрос (который может не содержать конкретный суффикс).
Определяется, что вероятность того, что запрос относится к первой сущности, превышает порог.
В ответ на это система получает доступ к данным, идентифицирующим Factual Attributes, которые были ранее обозначены как часто запрашиваемые факты об этой сущности (на основе высокого ранга соответствующих суффиксов).
Система предоставляет информацию об этих фактических атрибутах в ответ на запрос, даже если пользователь не запрашивал их явно.

Claim 8 (Зависимый от 1): Детализирует механизм распределения частоты запроса (шаг 4 из Claim 1).

Распределение Query Count между несколькими сущностями происходит путем получения Probability Score для каждой сущности, указывающего на вероятность того, что запрос относится именно к ней. Partial Query Counts назначаются на основе этих вероятностных оценок.

Claim 10 (Зависимый от 1): Детализирует механизм расчета итоговой оценки (шаг 8 из Claim 1).

Итоговая Score определяется как комбинация значения, основанного на Entity-level count, и значения, основанного на Type-level count, причем вклад последнего ограничен максимальным значением (константой).

Claim 15 (Зависимый от 14, который зависит от 1): Описывает использование доминантного типа.

Если сущность принадлежит к нескольким типам, определяется их ранг и выбирается доминантный тип (Dominant Entity Type). Итоговая Score рассчитывается на основе Entity-level count и Type-level count именно для этого доминантного типа.

Где и как применяется

Изобретение охватывает процессы, происходящие преимущественно офлайн (анализ логов и генерация данных), и процессы, происходящие в реальном времени (ответ на запрос).

INDEXING – Индексирование и извлечение признаков / QUNDERSTANDING – Понимание Запросов (Офлайн-процессы)
Основная часть работы алгоритма происходит здесь. Это не стандартное индексирование контента, а скорее индексирование и анализ поведения пользователей (логов запросов) для построения базы знаний о сущностях.

Анализ логов: Система обрабатывает огромные массивы Query Data для извлечения паттернов.
Идентификация сущностей и атрибутов: Построение и использование Query-to-Entity Map и классификация сущностей по типам (Type Map).
Расчет метрик: Вычисление Entity-level counts и Type-level counts.
Ранжирование атрибутов: Расчет итоговых Scores и определение наиболее важных атрибутов для каждой сущности.
Хранение данных: Сохранение результатов анализа (ранжированных атрибутов) для последующего использования поисковой системой.

QUNDERSTANDING – Понимание Запросов (Онлайн)
Во время обработки запроса система должна определить, к какой сущности он относится.

Система использует Query-to-Entity Map для определения вероятности того, что запрос относится к конкретной сущности.

METASEARCH – Метапоиск и Смешивание / RANKING – Ранжирование
На этапе формирования выдачи система использует предварительно рассчитанные данные о важных атрибутах.

Если запрос с высокой вероятностью относится к сущности, система извлекает список её наиболее важных атрибутов (frequently requested facts).
Эта информация используется для формирования специальных блоков выдачи (например, Knowledge Panel), которые смешиваются с органическими результатами.

Входные данные:

Query Data (логи запросов).
Query-to-Entity Map (связи запросов и сущностей, вероятности).
Type Map (типы сущностей).
Входные данные от асессоров (для фильтрации фактических атрибутов).

Выходные данные:

Ранжированный список атрибутов (суффиксов) для каждой сущности с итоговыми Scores.
Набор атрибутов, обозначенных как frequently requested facts для сущностей.
Информационные блоки (например, Knowledge Panel) в поисковой выдаче.

На что влияет

Конкретные типы контента: В первую очередь влияет на представление фактической информации о сущностях (Knowledge Panels, блоки ответов).
Специфические запросы: Наиболее заметно влияние на запросы, которые явно или неявно относятся к известным сущностям (брендовые, навигационные, информационные запросы о персонах, местах, компаниях и т.д.).
Конкретные ниши или тематики: Влияет на все ниши, где присутствуют четко определенные сущности (медиа, спорт, политика, бизнес, локальный поиск, история и т.д.).

Когда применяется

Офлайн-процесс (Анализ и Ранжирование Атрибутов):

Применяется периодически для обработки накопленных логов запросов (например, за неделю, месяц, квартал).
Триггер активации: Наличие новых Query Data.

Онлайн-процесс (Предоставление Фактов):

Применяется в реальном времени при обработке пользовательского запроса.
Триггер активации: Когда система определяет, что вероятность (likelihood) того, что запрос относится к конкретной сущности, превышает установленный порог (например, 60%, 70%, 80%).
Условие применения: Для данной сущности должны быть предварительно определены frequently requested facts.

Пошаговый алгоритм

Процесс анализа логов запросов и ранжирования атрибутов.

Сбор и подготовка данных: Система получает доступ к Query Data (логам запросов).
Идентификация запросов и подсчет частоты: Определяются уникальные запросы и подсчитывается количество их повторений (Query Counts).
Разделение запросов: Каждый запрос обрабатывается для выделения Entity-descriptive portion (используя Query-to-Entity Map) и Suffix (оставшаяся часть запроса).
Анализ на уровне сущностей (Entity-Level Analysis):
- Определение вероятностей: Для каждого запроса из Query-to-Entity Map извлекаются идентификаторы возможных сущностей и вероятностные оценки (Probability Scores) того, что запрос относится к ним.
- Распределение частоты: Общая частота запроса (Query Count) распределяется между этими сущностями пропорционально вероятностям, формируя Partial Query Counts.
- Расчет Entity-Level Count: Для каждой сущности суммируются Partial Query Counts для всех запросов, содержащих определенный суффикс.
Анализ на уровне типов (Type-Level Analysis):
- Определение типов: Для каждой сущности определяются её типы (используя Type Map). Может быть выбран доминантный тип (Notable Type).
- Расчет Type-Level Count: Для каждого типа суммируются Entity-level counts определенного суффикса по всем сущностям, принадлежащим к этому типу.
Фильтрация атрибутов:
- Отбор кандидатов: Для каждого типа выбирается набор суффиксов с наивысшими Type-level counts (например, Топ-1000).
- Оценка фактичности: Система получает входные данные от панели асессоров (human raters), которые оценивают, представляет ли суффикс запрос на объективный, общепринятый факт для данного типа сущности.
- Применение фильтра: Суффиксы, не удовлетворяющие критериям фактичности (рейтинг ниже порога), удаляются.
Расчет оценок и ранжирование (Scoring & Ranking):
- Расчет итоговой оценки (Score): Для каждой сущности и каждого прошедшего фильтрацию суффикса рассчитывается итоговая оценка путем линейной интерполяции Entity-level count и Type-level count. Вклад Type-level count масштабируется и ограничивается константой.
- Ранжирование: Суффиксы ранжируются на основе итоговой оценки для каждой сущности.
Определение часто запрашиваемых фактов: Суффиксы, занявшие верхние позиции в ранжированном списке, сопоставляются с фактическими атрибутами (Factual Attributes), и эти атрибуты обозначаются как frequently requested facts для данной сущности.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Логи запросов (Query Data) являются основным источником данных. Анализируется частота запросов (Query Counts) и состав запросов (термины).
Системные данные (Knowledge Graph):
- Query-to-Entity Map: Данные для распознавания сущностей в запросах и оценки вероятностей (Probability Scores).
- Type Map: Данные о классификации сущностей по типам.
Пользовательские факторы (Асессоры): Входные данные от human raters, используемые для оценки того, являются ли атрибуты объективными фактами.

Какие метрики используются и как они считаются

Entity-level count (C_e): Оценка частоты суффикса для сущности. Рассчитывается путем суммирования Partial Query Counts (Query Count * Probability Score) для данного суффикса и сущности.
Type-level count (C_t): Оценка частоты суффикса для типа. Рассчитывается путем суммирования Entity-level counts (C_e) для данного суффикса по всем сущностям данного типа.
Scaling Factor (a): Коэффициент масштабирования для Type-level count. Может рассчитываться на основе максимального Type-level count (C_MAX) для данного типа и константы (b).
Формула: $a = min(1.0, b/C_{MAX})$
Score (S_e): Итоговая оценка важности суффикса для сущности. Рассчитывается как линейная интерполяция C_e и C_t, с ограничением вклада C_t константой (b).
Формула: $S_e = C_e + min(a \cdot C_t, b)$

Важность атрибутов определяется спросом пользователей: Патент демонстрирует, что Google определяет ключевые атрибуты сущности не на основе внутренней логики или мнения экспертов, а путем прямого анализа того, что ищут пользователи (анализ суффиксов в логах запросов).
Обработка неоднозначности сущностей: Система имеет сложный механизм для работы с омонимами (например, «Ягуар» как животное и как автомобиль). Частота запросов распределяется между сущностями на основе вероятностей (Probability Scores), что позволяет точно определить востребованность атрибутов для каждой из них.
Комбинирование данных сущности и типа (Сглаживание): Ключевым элементом является интерполяция данных конкретной сущности (Entity-level) и данных её типа (Type-level). Это позволяет системе определять важные атрибуты даже для «длинного хвоста» сущностей, по которым мало статистики. Если о маленьком городе мало ищут, система предположит, что пользователям интересны те же атрибуты, что и для всех городов (население, погода).
Ограничение влияния типа: Чтобы данные по типу не перекрывали специфику популярной сущности, вклад Type-level count в итоговую оценку математически ограничивается константой (b).
Фокус на фактах и роль асессоров: Система целенаправленно фильтрует результаты, оставляя только те атрибуты, которые представляют собой объективные факты. Для этого используются оценки асессоров, которые проверяют наиболее популярные атрибуты на фактичность.
Превентивное предоставление информации: Цель всего процесса — определить frequently requested facts, чтобы показывать их пользователю (например, в Knowledge Panel), даже если его запрос не содержал прямого указания на эти атрибуты.

Best practices (это мы делаем)

Исследование интентов для сущности и её типа: Необходимо анализировать, какие атрибуты пользователи ищут для вашей сущности (бренда, продукта, персоны) и для сущностей аналогичного типа. Это позволит понять, какие факты Google, скорее всего, сочтет наиболее важными (frequently requested facts).
Создание контента под ключевые атрибуты: Обеспечьте наличие на сайте качественного, фактического контента, отвечающего на вопросы о ключевых атрибутах вашей сущности. Если анализ показывает, что пользователи часто ищут «[Ваш бренд] + отзывы» или «[Ваш продукт] + характеристики», убедитесь, что эта информация легко доступна и оптимизирована.
Структурирование данных (Schema.org): Используйте микроразметку для четкого указания значений ключевых атрибутов. Это помогает поисковым системам извлекать факты для заполнения информационных панелей, которые формируются на основе механизма, описанного в патенте.
Оптимизация под Entity SEO: Работайте над тем, чтобы ваша сущность была однозначно идентифицирована Google и корректно классифицирована по типу. Это гарантирует, что система будет использовать релевантные Type-level data при ранжировании ваших атрибутов.
Мониторинг Knowledge Panel: Отслеживайте, какие атрибуты Google показывает в информационной панели для вашей сущности и сущностей конкурентов. Это прямое отражение работы данного алгоритма.

Worst practices (это делать не надо)

Игнорирование типа сущности: Оптимизация сущности без учета её типа неэффективна. Система использует данные по типу для сглаживания, поэтому важно соответствовать общим паттернам пользовательского интереса в категории.
Фокус на нефактических атрибутах: Продвижение субъективной или быстро устаревающей информации в качестве ключевых атрибутов менее эффективно, так как система фильтрует атрибуты, не являющиеся объективными фактами (с помощью асессоров).
Предоставление противоречивой информации: Распространение разных значений для одного и того же фактического атрибута в разных источниках может затруднить его верификацию и попадание в Knowledge Panel.

Стратегическое значение

Этот патент подчеркивает переход Google от простого ранжирования веб-страниц к предоставлению прямых ответов и структурированной информации о сущностях. Стратегическое значение заключается в понимании того, что представление сущности в поиске (особенно в Knowledge Panel) напрямую управляется пользовательским спросом. SEO-стратегия должна включать управление фактической информацией о сущности, гарантируя, что наиболее востребованные атрибуты точно представлены в Knowledge Graph.

Практические примеры

Сценарий: Оптимизация представления нового жилого комплекса (Сущность типа «Здание»/«Жилой комплекс»)

Анализ спроса (Имитация работы алгоритма): SEO-специалист анализирует популярные суффиксы для других ЖК: «планировки», «цены», «срок сдачи», «застройщик», «адрес», «фото». Это аналог Type-level data.
Анализ текущего спроса: Специалист изучает запросы по названию нового ЖК. Например, пользователи чаще ищут «[Название ЖК] срок сдачи». Это аналог Entity-level data.
Определение приоритетов: Система Google скомбинирует эти данные. Даже если по новому ЖК мало запросов, атрибуты «планировки» и «цены» получат высокий Score за счет данных по типу. «Срок сдачи» получит высокий Score за счет прямых запросов.
Действия SEO: Убедиться, что на официальном сайте есть четкая, структурированная информация (в тексте и Schema.org) по этим ключевым атрибутам: точный срок сдачи, актуальные цены, доступные планировки.
Ожидаемый результат: При запросе «[Название ЖК]» Google с большей вероятностью сформирует информационную панель, включающую именно эти ключевые факты, так как они были идентифицированы как frequently requested facts.

Как система определяет тип сущности?

Система использует Type Map — базу данных, которая хранит информацию о классификации сущностей. Эта информация, вероятно, является частью Knowledge Graph. Если сущность имеет несколько типов, патент описывает возможность определения доминантного или значимого типа (Notable Type/Dominant Entity Type), который будет использоваться для расчета Type-level count.

Что такое суффикс (Suffix) в контексте этого патента?

Суффикс — это часть поискового запроса, которая указывает на интересующий пользователя атрибут сущности. Например, в запросе «высота Эйфелевой башни», «высота» является суффиксом. Важно понимать, что суффикс не обязательно находится в конце запроса; это любая часть запроса, не являющаяся идентификатором самой сущности (Entity-descriptive portion).

Как система обрабатывает неоднозначные запросы, например, «Ягуар» (машина или животное)?

Система использует Query-to-Entity Map для получения вероятностных оценок (Probability Scores) для каждой возможной сущности. Например, запрос «скорость ягуара» может иметь вероятность 80% для машины и 20% для животного. Общая частота этого запроса будет распределена пропорционально: 80% частоты добавится к Entity-level count суффикса «скорость» для сущности «Ягуар (автомобиль)», а 20% — для сущности «Ягуар (животное)».

Почему система смешивает данные по сущности и по типу? Разве не достаточно данных по самой сущности?

Смешивание необходимо для сглаживания данных и обеспечения качественных результатов для сущностей «длинного хвоста», по которым мало статистики. Если о конкретной сущности ищут редко, система не сможет надежно определить важные атрибуты, опираясь только на Entity-level count. В этом случае система использует Type-level count, чтобы предположить, что пользователям интересны те же атрибуты, что и для других сущностей этого типа.

Как именно ограничивается влияние данных по типу (Type-level count)?

Влияние ограничивается с помощью формулы расчета итоговой оценки: $S_e = C_e + min(a \cdot C_t, b)$ . Здесь 'b' — это эмпирически подобранная константа (например, 100), которая является максимально допустимым вкладом от Type-level count. Это гарантирует, что для популярных сущностей ранжирование будет определяться в основном их собственными данными (C_e).

Какова роль асессоров (human raters) в этом процессе?

Асессоры используются для фильтрации атрибутов и обеспечения того, чтобы система фокусировалась на объективных фактах. Система отбирает наиболее популярные суффиксы для определенного типа сущности и просит асессоров оценить, являются ли они фактическими (например, «альбомы» для музыканта — факт, а «лучшая песня» — мнение). Суффиксы, не прошедшие этот фильтр, исключаются из списка frequently requested facts.

Как этот патент связан с Knowledge Panel (Сеть знаний/Панель знаний)?

Этот патент описывает механизм, который определяет, какое содержимое должно быть в Knowledge Panel. Анализ логов позволяет выявить наиболее важные атрибуты для сущности, и именно эти атрибуты затем отображаются в панели. Патент напрямую объясняет, почему для одних сущностей показывается один набор фактов, а для других — другой.

Могу ли я повлиять на то, какие атрибуты Google считает важными для моей сущности (бренда)?

Да, косвенно. Поскольку система опирается на логи запросов, PR и маркетинговые активности, которые стимулируют пользователей искать определенные атрибуты вашего бренда (например, если вы активно продвигаете экологичность, и пользователи начинают искать «[Ваш бренд] экологический рейтинг»), могут повысить Entity-level count для этих атрибутов. Также важно обеспечить четкое присутствие этих фактов на вашем сайте и в структурированных данных.

Что делать, если Google неправильно определил тип моей сущности?

Это критическая проблема в контексте данного патента. Если тип определен неверно, система будет использовать нерелевантные Type-level data для ранжирования атрибутов, что приведет к неправильному набору frequently requested facts. Необходимо работать над исправлением типа в Knowledge Graph, предоставляя четкие сигналы о природе вашей деятельности через официальный сайт, микроразметку и авторитетные внешние источники (например, Википедия, отраслевые каталоги).

Влияет ли этот механизм на ранжирование органических результатов (синих ссылок)?

Патент не описывает прямого влияния на ранжирование органических результатов. Он фокусируется на идентификации важных атрибутов для формирования блоков с фактами (Knowledge Panel). Однако понимание того, какие атрибуты система считает ключевыми для сущности, позволяет лучше оптимизировать контент страниц под эти интенты, что может косвенно улучшить органическое ранжирование по соответствующим запросам.

Как Google использует анализ окончаний запросов (суффиксов) для улучшения работы Автокомплита, игнорируя начало запроса

Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.

US8417718B1
2013-04-09

Как Google использует известность (Prominence) и историю запросов для ранжирования географических объектов в поисковых подсказках Карт

Google использует алгоритм для определения того, какой географический объект (например, бизнес или город) показать в поисковых подсказках (Autocomplete), когда пользователь начинает вводить запрос в Картах. Система рассчитывает рейтинг, анализируя, насколько известен объект (Prominence Score) и как часто пользователи выбирали этот объект в прошлом при вводе похожих запросов (Query Logs). Это позволяет устранить неоднозначность и предложить наиболее релевантный вариант.

US8515973B1
2013-08-20

Local SEO
Поведенческие сигналы

Как Google использует сущности, шаблоны и Knowledge Graph для уточнения смысла поисковых подсказок (Autocomplete)

Google анализирует поисковые подсказки, чтобы определить, ссылаются ли они на конкретные сущности или являются неоднозначными. Для уточнения смысла система добавляет семантические описания (например, «britney spears - Singer»). Эти описания генерируются на основе данных из Knowledge Graph, анализа авторитетных документов (например, Wikipedia) или предопределенных шаблонов для типов сущностей (например, «Movie [year]»). Это помогает пользователю выбрать правильный интент и может приводить к скрытому переписыванию запроса системой.

US20160217181A1
2016-07-28

Семантика и интент
Knowledge Graph
EEAT и качество

Как Google ранжирует сущности в Knowledge Graph, используя адаптивные веса для метрик вклада, известности и наград

Google использует систему для ранжирования сущностей, извлеченных из Knowledge Graph. Система рассчитывает четыре ключевые метрики: связанность, значимость типа, вклад и награды. Затем она применяет весовые коэффициенты, которые адаптируются в зависимости от типа сущности (например, «Фильм» или «Человек»), чтобы определить итоговый рейтинг. Это влияет на то, какие сущности будут показаны в каруселях, панелях знаний и других функциях поиска, связанных с сущностями.

US10235423B2
2019-03-19

Knowledge Graph
Семантика и интент
SERP

Как Google изучает свойства и атрибуты сущностей, анализируя логи поисковых запросов пользователей

Google использует автоматизированный метод для построения базы знаний о сущностях (Entity) и их атрибутах (Attribute). Система анализирует миллионы поисковых запросов, выявляя лингвистические паттерны (например, «столица Франции»). Это позволяет понять, какие атрибуты важны для разных типов сущностей (например, «население» для города, «побочные эффекты» для лекарства), и сформировать структурированное знание об объектах реального мира.

US8005842B1
2011-08-23

Knowledge Graph
Семантика и интент

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

US9767157B2
2017-09-19

Семантика и интент
Техническое SEO
EEAT и качество

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам

Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.

US8788477B1
2014-07-22

Поведенческие сигналы
EEAT и качество
SERP

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента

Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.

US11238116B2
2022-02-01

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP