Как Google изучает свойства и атрибуты сущностей, анализируя логи поисковых запросов пользователей

INFERRING ATTRIBUTES FROM SEARCH QUERIES (Вывод атрибутов из поисковых запросов)

US8005842B1
Google LLC
2007-05-18
2011-08-23

Google использует автоматизированный метод для построения базы знаний о сущностях (Entity) и их атрибутах (Attribute). Система анализирует миллионы поисковых запросов, выявляя лингвистические паттерны (например, «столица Франции»). Это позволяет понять, какие атрибуты важны для разных типов сущностей (например, «население» для города, «побочные эффекты» для лекарства), и сформировать структурированное знание об объектах реального мира.

Какую проблему решает

Патент решает задачу масштабного и автоматизированного построения онтологий и баз знаний о сущностях реального мира (Entities) и их свойствах (Attributes). Ручное перечисление атрибутов для огромного количества сущностей является трудоемким и плохо масштабируемым. Изобретение позволяет автоматически выявлять эти атрибуты и их относительную важность, используя неструктурированные данные из логов поисковых запросов.

Что запатентовано

Запатентована система, которая автоматически выводит (infer) атрибуты сущностей путем анализа коллекции поисковых запросов (Search Query Logs). Система использует лингвистические паттерны (Extract Patterns) для идентификации связей между сущностями и их атрибутами в тексте запросов. Полученные данные проходят многоступенчатую очистку (Refining) для удаления шума и повышения точности, после чего атрибуты оцениваются (Scoring) и ассоциируются с соответствующими сущностями или категориями.

Как это работает

Система работает в несколько этапов:

Сбор данных: Получение логов поисковых запросов.
Извлечение (Inference): Применение Extract Patterns (например, «A of E» или «E's A») к запросам для выявления пар Сущность-Атрибут (например, из запроса «столица Франции» извлекается E=Франция, A=столица).
Агрегация: Атрибуты конкретных экземпляров (Instances) агрегируются на уровень категорий (Categories) (например, «столица» становится атрибутом категории «Страна»).
Очистка (Refining): Удаление шума путем фильтрации Proper Name Attributes (частей имен собственных) и Generic Attributes (слишком общих терминов). Также происходит объединение семантически связанных атрибутов (синонимов).
Оценка (Scoring): Атрибуты ранжируются по важности для категории, используя взвешенную частоту встречаемости и учитывая надежность паттерна извлечения (предпочтение отдается полным предложениям).
Вывод: Формирование базы знаний, связывающей категории с их ключевыми атрибутами.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальный механизм, лежащий в основе автоматического наполнения Knowledge Graph и понимания Google структуры реального мира (Entity Understanding). Способность автоматически определять, какие атрибуты важны для различных типов сущностей, является центральной для современного семантического поиска, E-E-A-T и ответов на фактические запросы.

Важность для SEO

Патент имеет критическое значение (9/10) для понимания принципов построения SEO-стратегии на основе сущностей (Entity-Based SEO). Он демонстрирует, как Google определяет ключевые атрибуты, которые должны быть раскрыты для достижения Topical Authority. Если контент сайта не покрывает атрибуты, которые Google считает важными для целевых сущностей (основываясь на анализе поискового спроса), сайт будет испытывать трудности с ранжированием.

Термины и определения

Attribute (Атрибут): Свойство, особенность или характеристика сущности. Например, «население» для города или «производитель» для продукта.
Category (Категория): Тип сущности, объединяющий экземпляры (Instances) с общими атрибутами. Например, «Страны» или «Лекарства».
Entity (Сущность): Объект реального мира. Может быть как конкретным экземпляром (Instance), так и категорией (Category).
Extract Pattern (Паттерн извлечения): Лингвистический шаблон, используемый для идентификации сущностей (E) и атрибутов (A) в тексте запроса. Примеры: "what is the A of E", "E's A".
Generic Attributes (Общие атрибуты): Атрибуты, которые применимы к слишком большому количеству разных сущностей и поэтому не несут полезной информации для характеризации конкретной категории (например, «картинка», «история», «значение»).
Instance (Экземпляр): Конкретная сущность, принадлежащая к категории. Например, «Франция» является экземпляром категории «Страны».
Proper Name Attributes (Атрибуты-имена собственные): Термины, ошибочно извлеченные как атрибуты, но являющиеся частью имени собственного. Например, «Battle» в «Battle of Midway». Идентифицируются с помощью анализа капитализации во внешних источниках.
Search Query Logs (Логи поисковых запросов): Коллекция запросов, введенных пользователями в поисковую систему. Основной источник данных для анализа.
Smoothing Factor (Сглаживающий фактор): Компонент формулы оценки (Scoring), используемый для предотвращения завышения оценки редких атрибутов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод извлечения и обработки атрибутов.

Система получает описание коллекции поисковых запросов.
Из текста отдельных запросов выводятся (inferring) атрибуты сущностей с использованием сопоставления текстовых паттернов извлечения (text extract patterns).
Извлеченные атрибуты очищаются (refining), формируя очищенный набор атрибутов (refined attribute set).
Устанавливаются ассоциации между очищенными атрибутами и идентификаторами сущностей.
Процесс ассоциации включает взвешивание (weighting) и оценку (scoring) атрибутов на основе этого взвешивания.
Структуры данных с этими ассоциациями делаются доступными.

Claim 2, 3, 4 (Зависимые от 1): Детализируют процесс очистки (Refining).

(Claim 2): Очистка включает идентификацию и удаление Proper Name Attributes.
(Claim 3): Очистка включает идентификацию и удаление Generic Attributes.
(Claim 4): Очистка включает идентификацию семантически связанных атрибутов и объединение их счетчиков (number count).

Claim 9 (Независимый пункт): Описывает метод с фокусом на извлечение атрибутов для Категорий.

Система получает коллекцию поисковых запросов.
Текст запросов анализируется для идентификации экземпляров сущностей (instance entities) и их атрибутов с использованием extract patterns.
Идентифицированные экземпляры и атрибуты очищаются (refining).
Очищенные атрибуты ассоциируются с категориями (Categories), к которым принадлежат эти экземпляры.
Атрибуты оцениваются (scoring) для каждой категории. Оценка включает взвешивание каждого атрибута на основе характеристик (trait) поискового запроса, в котором он появился.
Ассоциации атрибутов и категорий делаются доступными.

Claim 19 (Зависимый): Детализирует процесс взвешивания (Weighting).

Взвешивание атрибутов подразумевает присвоение более высокого веса тем атрибутам, которые появились в запросе, соответствующем полнотекстовому, естественно-языковому паттерну извлечения (whole sentence, natural language extract pattern). Более высокий вес увеличивает итоговую оценку (score).

Где и как применяется

Изобретение описывает офлайн-процесс построения базы знаний, который затрагивает несколько этапов поисковой архитектуры.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает Search Query Logs — сырые данные о поведении пользователей, которые являются основным источником для анализа в данном патенте.

INDEXING – Индексирование и извлечение признаков (Построение Базы Знаний)
Основное применение патента. Это процесс создания структурированной базы знаний (аналог Knowledge Graph).

Анализ логов: Обработка миллионов запросов.
Извлечение атрибутов: Применение Extract Patterns для выявления пар (Entity, Attribute).
Очистка и Оценка: Фильтрация шума (Generic, Proper Names) и расчет Scores для атрибутов.
Хранение: Сохранение ассоциаций в базе знаний.

QUNDERSTANDING – Понимание Запросов
Созданная база знаний используется на этом этапе для интерпретации интента. Система может идентифицировать запросы, запрашивающие фактическую информацию (keyword-based queries that request factual information), путем сравнения текста запроса с известными ассоциациями Сущность-Атрибут (например, распознать запрос "altitude Helsinki" как поиск значения атрибута "altitude" для сущности "Helsinki").

METASEARCH – Метапоиск и Смешивание
База знаний используется для обогащения поисковой выдачи. В ответ на запрос, называющий сущность, поисковая система может дополнить результаты компиляцией фактов (compilation of facts) об этой сущности, используя известные атрибуты (например, отображение Панели Знаний).

Входные данные:

Search Query Logs (текст запросов и их частота).
Набор Extract Patterns.
(Опционально) Предопределенные Categories и примеры их Instances.
Внешние источники данных (словари, энциклопедии) для проверки капитализации при очистке.

Выходные данные:

Структурированная база знаний, содержащая Entities (или Categories) и ассоциированные с ними ранжированные списки Attributes.

На что влияет

Типы контента и Сущности: Влияет на все типы контента, которые описывают именованные сущности (Named Entities) — персоны, организации, места, продукты, медицинские препараты и т.д. Система строит понимание того, какие характеристики важны для каждой из них.
Специфические запросы: Наибольшее влияние оказывается на информационные и фактические запросы, где пользователи ищут конкретные атрибуты сущностей.
Ниши и тематики: Влияет на все ниши, но особенно важно в YMYL (медицина, финансы) и E-commerce, где точное понимание атрибутов сущностей (лекарств, компаний, продуктов) критически важно для качества поиска.

Когда применяется

Условия работы алгоритма: Алгоритм применяется в офлайн-режиме для периодического анализа накопленных логов запросов и обновления базы знаний.
Триггеры активации: Наличие достаточного объема Search Query Logs для статистически значимого анализа.
Временные рамки: Процесс выполняется периодически для учета изменений в языке и интересах пользователей.

Пошаговый алгоритм

Процесс: Автоматическое построение базы атрибутов сущностей

Получение данных: Система получает описание коллекции поисковых запросов (Search Query Logs), включая текст и частоту.
Извлечение кандидатов (Inference): К логам применяются Extract Patterns (например, "the A of E", "E's A"). Идентифицируются пары (Instance, Attribute) и подсчитывается их частота.
Назначение категорий (Assignment): Извлеченные атрибуты назначаются категориям, к которым принадлежат соответствующие экземпляры. Например, (Helsinki, mayor) -> (Category:City, mayor).
Очистка Атрибутов (Refining) - Этап 1 (Proper Names): Система идентифицирует и удаляет Proper Name Attributes. Для этого используется проверка капитализации атрибутов во внешних надежных источниках (например, если атрибут капитализирован более 50% времени в определенном паттерне).
Очистка Атрибутов (Refining) - Этап 2 (Generic Attributes): Система идентифицирует и удаляет Generic Attributes. Атрибут считается общим, если он ассоциирован со слишком большим количеством разных сущностей/категорий (например, более 30%).
Очистка Атрибутов (Refining) - Этап 3 (Merging): Система идентифицирует семантически связанные атрибуты (синонимы, опечатки) с помощью тезауруса или метрик схожести. Их счетчики частоты объединяются.
Оценка Атрибутов (Scoring): Для каждой пары (Category, Attribute) рассчитывается оценка релевантности.
1. Взвешивание (Weighting): Частота атрибута взвешивается. Атрибуты, извлеченные с помощью более надежных паттернов (например, полных предложений на естественном языке), получают больший вес.
2. Расчет оценки: Используется формула (например, Equation 1), которая учитывает взвешенную частоту атрибута в категории, общую частоту атрибута и категории, и включает Smoothing Factor.
Ассоциация и Хранение: Очищенные и оцененные атрибуты ассоциируются с соответствующими категориями и сохраняются в базе знаний.
Предоставление доступа: База знаний делается доступной для других компонентов поисковой системы.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Основной источник): Search Query Logs. Анализируется текст запросов и их частота (frequency of submission). Это данные о том, как пользователи формулируют свои информационные потребности.
Контентные факторы (Вспомогательные): Внешние источники (например, Интернет, энциклопедии) используются на этапе очистки для получения надежной информации о капитализации (case information) терминов, чтобы отличить обычные атрибуты от имен собственных.

Какие метрики используются и как они считаются

Частота (Frequency): Количество появлений атрибута в ассоциации с сущностью/категорией в логах запросов.
Взвешенная частота (Weighted Frequency): Частота, скорректированная с учетом надежности паттерна извлечения. Патент утверждает (Claim 19), что полнотекстовые, естественно-языковые паттерны весят больше.
Score(C, A) (Оценка Атрибута для Категории): Метрика релевантности атрибута (A) для категории (C). Патент приводит пример формулы (Equation 1):

Автоматическое построение онтологий из спроса: Патент описывает фундаментальный механизм, позволяющий Google автоматически строить и обновлять свое понимание мира (Knowledge Graph), основываясь непосредственно на том, как пользователи ищут информацию. Поисковый спрос определяет онтологию.
Атрибуты — ключ к пониманию сущностей: Система учится, какие атрибуты являются определяющими для разных типов сущностей. Например, что для категории «Город» важны «население» и «мэр», а для «Лекарства» — «побочные эффекты» и «дозировка».
Важность очистки данных (Refining): Процесс извлечения из логов запросов генерирует много шума. Ключевыми для качества являются этапы фильтрации Generic Attributes и Proper Name Attributes, а также объединение синонимов. Это гарантирует точность (Precision) базы знаний.
Взвешивание по качеству источника (Scoring): Не все запросы одинаково полезны. Система придает больший вес атрибутам, извлеченным из четко сформулированных, естественно-языковых запросов (Claim 19), считая их более надежными индикаторами связи между сущностью и атрибутом.
Применение в поиске: Созданная база знаний используется не только для отображения фактов (Knowledge Panels), но и для лучшего понимания запросов (Query Understanding) — система может распознать фактический интент даже в коротких запросах.

Best practices (это мы делаем)

Исследование атрибутов сущностей (Entity Attribute Research): Необходимо проводить глубокий анализ того, какие атрибуты пользователи ищут в связи с целевыми сущностями. Используйте Google Suggest, блоки "People Also Ask" (PAA), а также анализ Knowledge Panels. Этот патент подтверждает, что спрос формирует базу знаний Google.
Построение Topical Authority через покрытие атрибутов: Стратегия контента должна быть направлена на полное покрытие всех ключевых атрибутов сущностей в вашей нише (Entity Completeness). Если вы продвигаете сайт о лекарствах, необходимо раскрыть атрибуты, которые Google ассоциирует с этой категорией («побочные эффекты», «дозировка», «взаимодействие»).
Использование четких лингвистических конструкций и структуры: Структурируйте контент так, чтобы поисковым системам было легко извлечь атрибуты и их значения. Используйте конструкции, схожие с Extract Patterns (например, «Столицей [Страны] является...», «Население [Города] составляет...»). Используйте таблицы, списки и заголовки для структурирования фактической информации.
Применение структурированных данных (Schema.org): Используйте разметку для явного определения ключевых атрибутов сущности на странице. Это помогает поисковым системам сопоставить контент с атрибутами, хранящимися в их базах знаний.

Worst practices (это делать не надо)

Игнорирование сущностной структуры контента: Создание контента, ориентированного только на ключевые слова без учета лежащих в их основе сущностей и их атрибутов. Google стремится понять структуру темы, а не просто найти совпадения по ключевым словам.
Неполное раскрытие темы (Thin Content): Создание страниц, которые упоминают сущность, но не раскрывают ее ключевые атрибуты, которые пользователи активно ищут. Если Google знает, что для сущности X важны атрибуты A, B и C, страница только про A будет считаться неполной.
Фокус на общих, а не специфичных атрибутах: Тратить усилия на описание Generic Attributes (например, «история компании», «значение термина») вместо специфичных атрибутов, которые уникальны для данной категории и имеют высокий Score в системе Google.

Стратегическое значение

Этот патент является одним из краеугольных камней Entity-Based SEO и семантического поиска Google. Он подчеркивает переход от анализа контента страниц к пониманию объектов реального мира, которые этот контент описывает. Стратегически важно понимать, что Google строит свою собственную карту реальности, основываясь на коллективном поведении пользователей. Долгосрочная SEO-стратегия должна заключаться в том, чтобы стать лучшим источником информации о ключевых атрибутах сущностей в своей нише, максимально соответствуя этой карте.

Практические примеры

Сценарий: Оптимизация страницы медицинского препарата (YMYL)

Целевая сущность: Препарат "Ибупрофен" (Категория: Лекарство).
Анализ атрибутов (на основе патента): Система Google, проанализировав миллионы запросов, определила, что для категории «Лекарства» ключевыми атрибутами являются: «побочные эффекты» (side effects), «дозировка» (dosage), «взаимодействие» (interactions), «стоимость» (cost).
Действия SEO-специалиста:
- Убедиться, что на странице присутствуют разделы, посвященные каждому из этих атрибутов.
- Использовать четкую структуру (например, заголовки H2 для каждого атрибута) и таблицы для дозировок.
- Использовать явные формулировки: «Побочные эффекты Ибупрофена включают...», «Рекомендуемая дозировка составляет...».
- Внедрить разметку Schema.org (Drug), заполнив соответствующие поля.
Ожидаемый результат: Google легче идентифицирует страницу как авторитетный источник информации о сущности «Ибупрофен», так как она покрывает атрибуты, признанные важными на основе анализа пользовательского спроса. Это способствует повышению Topical Authority и E-E-A-T.

Какова связь этого патента с Knowledge Graph?

Этот патент описывает один из ключевых механизмов автоматического наполнения Knowledge Graph. Knowledge Graph состоит из сущностей и связей (атрибутов) между ними. Данный патент объясняет, как Google в автоматическом режиме и в огромном масштабе определяет, какие именно атрибуты следует ассоциировать с той или иной сущностью или категорией, используя логи поисковых запросов как источник данных.

Как система определяет, какие атрибуты важны для конкретной сущности?

Важность определяется через процесс оценки (Scoring). Он учитывает, как часто пользователи спрашивают об этом атрибуте в связи с сущностью (частота в логах), и насколько четко сформулированы эти запросы. Атрибуты, которые часто встречаются в полных вопросительных предложениях (Claim 19), получают больший вес. Также используются статистические методы (формула Score), чтобы выявить атрибуты, специфичные именно для этой сущности, а не общие для всех.

Что такое Generic Attributes и почему они удаляются?

Generic Attributes — это слишком общие термины, такие как «картинка», «история», «определение». Они удаляются, потому что не несут полезной информации для характеризации конкретной сущности. Например, запрос «картинка Франции» не означает, что «картинка» является важным атрибутом сущности «Франция». Система фильтрует их, если они ассоциированы со слишком большим процентом всех сущностей (например, >30%).

Что такое Proper Name Attributes и как система их определяет?

Это термины, которые ошибочно извлечены как атрибуты, но на самом деле являются частью имени собственного (например, «Battle» из «Battle of Midway»). Чтобы их определить, система проверяет капитализацию этих терминов в надежных внешних источниках (а не в запросах, где часто бывают ошибки). Если термин часто пишется с заглавной буквы (например, >50% случаев), он считается именем собственным и удаляется из списка атрибутов.

Как SEO-специалист может использовать этот патент для улучшения Topical Authority?

Topical Authority достигается путем полного покрытия темы. Этот патент показывает, что «полное покрытие» с точки зрения Google означает раскрытие всех ключевых атрибутов связанных сущностей. SEO-специалист должен определить эти атрибуты (через анализ спроса и SERP) и гарантировать, что контент сайта подробно отвечает на вопросы, связанные с каждым из них. Это сигнализирует Google, что сайт является экспертным источником.

Влияет ли структура моего контента на извлечение атрибутов?

Да, хотя этот патент фокусируется на извлечении атрибутов из *запросов*, созданная база знаний затем используется для анализа *контента* страниц и извлечения значений этих атрибутов (Fact Extraction). Использование четкой структуры (заголовки, списки, таблицы) и ясных формулировок (например, «Население [Города] составляет...») значительно облегчает Google сопоставление вашего контента с известными атрибутами.

Отдает ли система предпочтение определенным типам запросов при извлечении атрибутов?

Да. Патент явно указывает (Claim 19), что атрибуты, извлеченные из полных, естественно-языковых запросов (whole sentence, natural language extract patterns), получают больший вес при оценке (Scoring). Это означает, что запросы вида «Какова высота Эйфелевой башни?» являются более надежным сигналом, чем «высота Эйфелева башня».

Может ли этот механизм обновляться со временем?

Да. Поскольку система работает на основе анализа свежих логов поисковых запросов, она адаптируется к изменениям в языке и интересах пользователей. Если пользователи начинают часто спрашивать о новом атрибуте сущности (например, «углеродный след» для компаний), система автоматически выявит этот атрибут, оценит его важность и добавит в базу знаний.

Описывает ли этот патент извлечение ответов (значений атрибутов)?

Нет, этот патент фокусируется на выявлении самих атрибутов (свойств), а не на поиске их значений. Например, система определяет, что "население" является важным атрибутом для "Парижа", но она не занимается поиском числа "2.1 миллиона". Извлечение значений (Fact Extraction) — это задача других систем.

Как этот патент связан с E-E-A-T?

E-E-A-T требует демонстрации опыта и авторитетности. В контексте контента это означает глубокое и всестороннее освещение темы. Этот патент предоставляет механизм, с помощью которого Google определяет, что именно означает «всестороннее освещение» для любой заданной сущности. Соответствие контента ключевым атрибутам сущности является сильным сигналом экспертности и авторитетности.

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя

Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.

US8843466B1
2014-09-23

Семантика и интент
Knowledge Graph
Индексация

Как Google определяет сущности (например, болезни) по их атрибутам (например, симптомам), анализируя результаты поиска и аннотации индекса

Google использует систему для ответа на запросы, которые перечисляют атрибуты (например, симптомы), но ищут сущность (например, болезнь). Система определяет связь между ними, используя несколько методов: предварительное аннотирование индекса связями сущностей, анализ частоты упоминания сущностей в топе выдачи или генерацию комбинированных запросов. Также система предлагает дополнительные атрибуты для уточнения.

US8856099B1
2014-10-07

Индексация
Семантика и интент
SERP

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей

Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.

US9396263B1
2016-07-19

Семантика и интент
EEAT и качество

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы

Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.

US8392435B1
2013-03-05

Персонализация
Поведенческие сигналы
SERP

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»

Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.

US9275147B2
2016-03-01

Семантика и интент
Поведенческие сигналы
Персонализация