Как Google создает, управляет и использует Репозиторий Фактов (Fact Repository) для поиска по сущностям

SUPPORT FOR OBJECT SEARCH (Поддержка поиска по объектам)

US7454398B2
Google LLC
2006-02-17
2008-11-18

Патент описывает архитектуру Google для создания и использования Репозитория Фактов. Система извлекает факты из интернета, связывает их с объектами (сущностями), очищает и нормализует данные. В ответ на запрос система находит релевантные факты и возвращает их в формате структурированного фида (например, XML/RSS). Это foundational-технология для поиска по сущностям и формирования Графа Знаний.

Какую проблему решает

Патент решает задачу организации и предоставления доступа к огромному количеству фактической информации, разбросанной по интернету в различных форматах. Он предлагает способ перехода от традиционного поиска по документам (веб-страницам) к поиску по объектам (сущностям) и связанным с ними фактам. Это позволяет системе напрямую отвечать на запросы фактической информацией, а не только ссылками.

Что запатентовано

Запатентована система и метод для создания, управления и запроса к Репозиторию Фактов (Fact Repository). Система хранит факты, каждый из которых связан с определенным объектом (Object) и состоит из пары атрибут-значение. Ключевым элементом является механизм обслуживания запросов: система принимает поисковый запрос, находит соответствующие факты в репозитории и возвращает эти факты (и, опционально, другие факты того же объекта) запрашивающей стороне в формате структурированного фида (например, XML, Atom, RSS).

Как это работает

Система работает в двух основных режимах: Построение и Обслуживание.

Построение Репозитория: Импортеры (Importers) извлекают факты из веб-документов. Дворники (Janitors) очищают, нормализуют данные и объединяют дубликаты объектов и фактов. Данные хранятся в Fact Repository, где каждый факт привязан к Object ID.
Обслуживание Запросов: Object Requester (например, поисковая система или приложение) отправляет запрос. Service Engine ищет в индексе факты, соответствующие запросу. Система оценивает релевантность фактов и объектов, используя метрики качества. Найденные факты форматируются в XML-фид и возвращаются.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальную архитектуру того, что впоследствии стало известно как Граф Знаний (Knowledge Graph). Поиск, основанный на сущностях (Object Search), и хранение структурированных фактов являются центральными элементами современного поиска Google. Описанные процессы извлечения и нормализации напрямую влияют на то, как информация отображается в Knowledge Panels и других структурированных результатах.

Важность для SEO

Патент имеет фундаментальное значение (95/100). Он описывает инфраструктуру, которая лежит в основе Entity-First Indexing и Графа Знаний. Понимание того, как Google извлекает, хранит, нормализует и ранжирует факты об объектах, критически важно для любой современной SEO-стратегии. Это напрямую влияет на видимость бренда/сущности в Knowledge Panels, Rich Snippets и на способность сайта быть надежным источником фактов для Google.

Термины и определения

Annotation (Аннотация): Метаданные, связанные с фактом, которые идентифицируют определенную часть значения факта. Например, выделение даты (Date), числа (Number) или геолокации (GeoPt) в текстовом значении. Аннотации имеют начальный индекс и длину.
Attribute (Атрибут): Тип факта или свойство объекта. Например, "Дата рождения" или "Автор". Часть триплета Факт-Атрибут-Значение.
Build Engine (Движок построения): Компонент системы, отвечающий за построение и управление Fact Repository.
Fact (Факт): Единица информации в репозитории. Включает Object ID, Fact ID, Attribute и Value. Также может включать метрики (Metrics), источники (Sources) и ссылки на другие объекты (Links).
Fact Repository (Репозиторий фактов): База данных, хранящая фактическую информацию, извлеченную из множества документов. Основа для поиска по объектам.
Importer (Импортер): Программный модуль, который обрабатывает документы, извлекает из них факты и определяет объекты, с которыми эти факты связаны.
Janitor (Дворник/Санитар): Программный модуль, выполняющий обработку фактов после извлечения. Функции включают очистку данных, нормализацию атрибутов и значений, объединение дубликатов объектов (object merging) и дедупликацию фактов.
Metrics (Метрики): Показатели качества факта. Упоминаются Confidence level (уровень уверенности в корректности факта) и Importance level (важность факта для понимания объекта).
Name Fact (Именной факт): Специальный тип факта, который содержит имя объекта. Каждый объект должен иметь хотя бы один именной факт.
Object (Объект): Сущность (человек, место, организация и т.д.), описываемая набором фактов. В одной из реализаций объект физически не хранится, а определяется набором фактов с одинаковым Object ID.
Object Requester (Запрашивающая сторона): Клиент системы (браузер, приложение, поисковый движок), который отправляет запросы в Fact Repository.
Service Engine (Движок обслуживания): Интерфейс для запросов к Fact Repository. Обрабатывает запросы, оценивает (скорит) соответствующие объекты и возвращает результаты.
Value (Значение): Конкретное значение атрибута. Например, "22 февраля 1732 г.". Может быть текстом любого размера.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод запроса к репозиторию фактов.

Система хранит множество фактов в Fact Repository. Каждый факт связан с объектом и имеет атрибут и значение. Каждый объект имеет Name Fact.
Сервер получает поисковый запрос от клиента (Object Requester).
Сервер извлекает из репозитория как минимум один факт, соответствующий запросу.
Сервер отправляет атрибут и значение извлеченного факта обратно клиенту.
Клиент сохраняет полученный факт.

Claim 3 (Зависимый от 1): Уточняет механизм извлечения.

Извлечение факта из репозитория основывается на relevance score (оценке релевантности) этого факта по отношению к поисковому запросу.

Claim 6 (Зависимый от 1): Ключевой пункт, описывающий переход от поиска фактов к поиску объектов.

Система определяет Object ID, связанный с извлеченным фактом (из Claim 1).
Система отправляет клиенту другие факты, связанные с этим же Object ID.

Это означает, что даже если запрос совпал только с одним фактом, система возвращает набор фактов об объекте.

Claims 7, 8, 9 (Зависимые от 1): Уточняют формат передачи данных.

Отправка атрибута и значения факта осуществляется с использованием формата фида: Atom (Claim 7), RSS (Claim 8) или OpenSearch (Claim 9).

Claims 10-14 (Зависимые от 1): Описывают параметры поискового запроса.

Запрос может содержать параметры, контролирующие выдачу: строку запроса ("q" parameter), максимальное количество возвращаемых объектов, индекс первого возвращаемого объекта, максимальное количество фактов на объект и максимальное количество источников на факт.

Claim 15 (Зависимый от 1): Описывает передачу аннотаций.

Система также отправляет annotation (аннотацию), связанную с фактом. Аннотация содержит часть значения этого факта.

Где и как применяется

Этот патент описывает инфраструктуру, которая глубоко интегрирована в процессы индексирования и ранжирования, являясь основой для хранения и использования структурированных данных.

CRAWLING – Сканирование и Сбор данных
Импортеры (Importers) работают с данными, полученными на этом этапе. Они анализируют контент документов для извлечения фактов.

INDEXING – Индексирование и извлечение признаков
Основной этап для построения Fact Repository.

Извлечение фактов: Импортеры извлекают пары атрибут-значение и связывают их с объектами (присваивают Object ID).
Нормализация и Очистка: Дворники (Janitors) выполняют критически важные функции: нормализуют названия атрибутов (например, "Дата рождения" и "Родился" объединяются), нормализуют значения (например, форматы дат), объединяют дублирующиеся объекты (Object Merging) и удаляют избыточные факты.
Расчет метрик: Вычисляются метрики Confidence и Importance для каждого факта.
Индексирование: Содержимое фактов (атрибуты и значения) индексируется в Index для быстрого поиска.

QUNDERSTANDING – Понимание Запросов
Service Engine должен интерпретировать входящий запрос, чтобы определить, следует ли искать информацию в Fact Repository (например, если запрос является фактическим или связан с конкретным объектом).

RANKING – Ранжирование
Service Engine использует Index для поиска фактов и объектов, соответствующих запросу. Ранжирование объектов основано на комбинации оценок релевантности (relevance scores) отдельных фактов. Оценка факта учитывает TF-IDF, совпадение фраз, появление термина в Name Fact, а также метрики Confidence и Importance.

METASEARCH – Метапоиск и Смешивание
Результаты из Fact Repository предоставляются в виде XML-фида. На практике это позволяет поисковой системе (выступающей в роли Object Requester) получать структурированные данные для формирования специальных блоков выдачи, таких как Knowledge Panels или прямые ответы.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, содержащий фактическую информацию: биографии, каталоги продукции, справочные материалы, новостные статьи.
Специфические запросы: Влияет на запросы, связанные с известными объектами (сущностями), и на фактические запросы (например, "высота Эйфелевой башни").
Определенные форматы контента: Система лучше извлекает факты из структурированных и полуструктурированных данных (таблицы, списки), но также может работать с неструктурированным текстом.
Конкретные ниши или тематики: Влияет на все ниши, где присутствуют четко определенные объекты и факты, включая YMYL, где точность и достоверность фактов (Confidence) особенно важны.

Когда применяется

Триггеры активации: Активируется, когда Object Requester отправляет запрос в Fact Repository. Это может быть запрос на конкретный Object ID или поисковый запрос по ключевым словам.
Условия работы: Система применяется, если в репозитории существуют факты и объекты, релевантные запросу. Эффективность зависит от качества извлечения и нормализации данных.

Пошаговый алгоритм

Патент описывает два основных процесса: построение репозитория и обслуживание запросов.

Процесс А: Построение и Поддержка Репозитория (Офлайн)

Сбор данных: Получение документов (например, веб-страниц) из источников.
Извлечение фактов (Импортеры): Обработка документов для извлечения фактов (Атрибут-Значение) и идентификации связанных с ними объектов. Присвоение Object ID и Fact ID. Сбор источников (URL) для каждого факта.
Очистка и Нормализация (Дворники):
- Нормализация атрибутов (объединение синонимичных названий свойств).
- Нормализация значений (приведение к стандартному формату).
- Объединение объектов (Object Merging): идентификация и слияние дублирующихся объектов.
- Дедупликация фактов: удаление избыточных фактов для одного объекта.
Расчет Метрик и Аннотирование: Определение Confidence и Importance для каждого факта. Создание Annotations (даты, числа, геолокации).
Индексирование: Сохранение фактов в Fact Repository и обновление индекса для поиска по атрибутам и значениям.

Процесс Б: Обслуживание Запросов (Рантайм)

Получение запроса: Система получает запрос от Object Requester.
Парсинг запроса: Извлечение параметров запроса (например, максимальное количество фактов на объект).
Поиск в индексе: Service Engine ищет в индексе факты, соответствующие ключевым словам запроса.
Оценка и Ранжирование (Scoring):
- Вычисление relevance score для каждого совпавшего факта (используя TF-IDF, совпадение фраз и т.д.).
- Корректировка оценки факта на основе Confidence и Importance.
- Вычисление оценки объекта на основе комбинации оценок его фактов.
Извлечение результатов: Выбор наиболее релевантных объектов и их фактов. Если запрос совпал с фактом, извлекаются также и другие факты этого объекта (даже если они не совпадают с запросом).
Форматирование: Трансляция извлеченных фактов, Object ID, источников и аннотаций в запрошенный формат фида (например, XML Atom, RSS).
Ответ: Отправка структурированного фида обратно Object Requester.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст веб-страниц, из которого извлекаются значения фактов. Структура контента (таблицы, списки) может использоваться импортерами.
Технические факторы: URL документов используются как идентификаторы источников (Sources) для фактов.
Данные запроса: Ключевые слова запроса и параметры фильтрации/форматирования (max-results, max-facts, формат фида).

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для оценки фактов и объектов:

Confidence Level (Уровень уверенности): Метрика, указывающая на вероятность того, что факт корректен. (Расчет не детализирован в патенте).
Importance Level (Уровень важности): Метрика, указывающая на значимость факта для объекта по сравнению с другими фактами того же объекта. Используется для приоритизации фактов.
Relevance Score (Оценка релевантности факта): Оценка того, насколько факт соответствует запросу. Расчет основан на:
- Наличии терминов запроса в атрибуте, значении или источнике факта.
- Вес термина (упоминается использование модели на основе TF-IDF – редкие термины получают более высокий балл).
- Появление последовательных терминов запроса в факте (совпадение фраз).
- Появление терминов запроса в Name Fact.
Object Score (Оценка объекта): Ранжирование объекта представляет собой линейную комбинацию relevance scores его фактов, скорректированных на Confidence и Importance. Также учитывается процент фактов объекта, содержащих хотя бы один термин запроса.

Фундамент для Entity-First поиска: Патент описывает создание Fact Repository – базы данных объектов и фактов, что является основой для Графа Знаний. Это подтверждает переход Google от индексирования строк к индексированию сущностей (вещей).
Извлечение и Нормализация критичны: Роль Импортеров и особенно Дворников (Janitors) подчеркивает важность автоматической очистки, дедупликации и нормализации данных. Система стремится привести разрозненные данные из интернета к единому стандартизированному виду.
Объектный поиск (Object Retrieval): Ключевой механизм (Claims 6) заключается в том, что при совпадении запроса с одним фактом система возвращает не только этот факт, но и другие факты, связанные с тем же объектом. Это позволяет формировать полноценный ответ об объекте (например, Knowledge Panel).
Многофакторная оценка фактов: Факты оцениваются не только по релевантности запросу (TF-IDF, фразы), но и по независимым метрикам: Confidence (достоверность) и Importance (важность для объекта). Более важные и достоверные факты имеют приоритет.
Структурированный доступ к данным: Использование стандартизированных XML-фидов (Atom, RSS) для предоставления данных позволяет различным приложениям (включая саму поисковую систему Google) легко использовать факты из репозитория.

Best practices (это мы делаем)

Оптимизация под сущности (Entity Optimization): Необходимо обеспечить, чтобы ключевые сущности сайта (продукты, авторы, организация) были четко определены и описаны. Используйте согласованную информацию (Name, Address, Phone - NAP) на всех платформах, чтобы облегчить работу Дворников (Janitors) по нормализации и объединению объектов (Object Merging).
Использование структурированных данных (Schema.org): Активно внедряйте микроразметку. Это помогает Импортерам корректно извлекать факты (пары Атрибут-Значение) и повышает Confidence извлеченных данных.
Создание четких фактических утверждений: При описании объектов используйте ясные и недвусмысленные формулировки. Это облегчает извлечение фактов и создание Аннотаций (например, дат, чисел, геолокаций). Подача информации в таблицах и списках также упрощает извлечение.
Повышение авторитетности источника: Поскольку каждый факт имеет Sources и Confidence, важно становиться авторитетным источником информации. Чем чаще ваш сайт цитируется как источник достоверного факта, тем выше вероятность его использования системой.
Фокус на важных фактах: Определите, какие факты являются наиболее важными (Importance) для вашей сущности, и убедитесь, что они представлены наиболее полно и достоверно.

Worst practices (это делать не надо)

Предоставление противоречивой информации: Публикация разных фактов об одной и той же сущности на разных страницах или платформах затрудняет нормализацию. Это может привести к ошибкам в Fact Repository или снижению Confidence в данных.
Игнорирование структурирования контента: Подача всей информации сплошным текстом без четкой структуры (заголовков, списков, таблиц, микроразметки) снижает эффективность работы Импортеров.
Манипуляция фактами и спам в микроразметке: Попытки предоставить ложные факты будут бороться с метрикой Confidence. Если система определит расхождения с более авторитетными источниками, факты будут проигнорированы.

Стратегическое значение

Этот патент является одним из самых важных для понимания эволюции Google в сторону семантического поиска. Стратегическое значение заключается в осознании того, что Google строит собственную базу знаний о мире (Fact Repository) и использует ее для прямого ответа на запросы. Долгосрочная SEO-стратегия должна быть направлена на то, чтобы стать надежным поставщиком данных для этого репозитория и обеспечить корректное представление своих сущностей внутри него. Работа над E-E-A-T напрямую связана с повышением Confidence в фактах, извлеченных с вашего сайта.

Практические примеры

Сценарий: Оптимизация карточки компании для Fact Repository

Цель: Обеспечить корректное извлечение и высокую достоверность (Confidence) фактов о компании для использования в Knowledge Panel.

Консолидация данных (Помощь Janitors): Убедиться, что название компании, адрес, телефон (NAP), логотип и имена руководителей абсолютно одинаковы на сайте, в Google Business Profile, в каталогах и социальных сетях. Это облегчает Object Merging.
Структурирование фактов (Помощь Importers): На странице "О нас" использовать микроразметку Organization, указав все ключевые атрибуты (name, address, founder, foundingDate, sameAs). Для ключевых фактов использовать формат, удобный для создания Аннотаций (например, стандартизированный формат даты).
Подтверждение фактов (Повышение Confidence): Ссылаться на авторитетные внешние источники (например, СМИ, отраслевые отчеты), которые подтверждают ключевые факты о компании.
Ожидаемый результат: Импортеры корректно извлекают факты. Дворники успешно связывают информацию из разных источников с единым Object ID компании. Факты получают высокий Confidence и используются в ответ на запросы о компании (отображаются в Knowledge Panel).

Что такое "Fact Repository" в контексте этого патента и как он связан с Графом Знаний (Knowledge Graph)?

Fact Repository — это база данных, описанная в патенте, для хранения фактической информации, извлеченной из интернета. Каждый факт представлен как триплет (Объект-Атрибут-Значение). Этот репозиторий является прямым предшественником или ранней реализацией Графа Знаний Google, предоставляя инфраструктуру для хранения, управления и запроса структурированных данных о сущностях.

Какова роль "Дворников" (Janitors) и как SEO-специалист может облегчить им работу?

Janitors отвечают за очистку данных, нормализацию (приведение к единому формату) и объединение дубликатов фактов и объектов. SEO-специалисты могут помочь, предоставляя абсолютно согласованную информацию (например, NAP компании) на всех платформах и используя стандартные форматы данных (например, ISO для дат). Это повышает вероятность того, что система корректно объединит информацию о вашей сущности.

Что означают метрики "Confidence" и "Importance" для факта?

Confidence (Уверенность) — это оценка вероятности того, что факт является корректным, основанная, вероятно, на авторитетности и согласованности источников. Importance (Важность) — это оценка того, насколько данный факт важен для понимания сущности (например, "Дата рождения" важнее, чем "Любимый цвет"). Обе метрики используются при ранжировании фактов и объектов в ответ на запрос.

Патент описывает возврат результатов в виде XML-фида (RSS/Atom). Как это связано с тем, что я вижу в поисковой выдаче?

Система поиска Google сама выступает в роли Object Requester. Она запрашивает данные у Fact Repository, получает структурированный XML-фид и затем использует эти данные для рендеринга элементов поисковой выдачи. Например, Knowledge Panel формируется на основе данных, полученных из этого фида.

Что означает "Object Search" в этом патенте?

Это ключевая концепция, описанная в Claim 6. Она означает, что даже если запрос пользователя совпадает только с одним конкретным фактом, система идентифицирует объект, которому принадлежит этот факт, и возвращает также другие связанные факты об этом объекте. Это переход от поиска документов или отдельных фактов к возврату полноценного профиля сущности.

Как система ранжирует объекты и факты?

Факты ранжируются на основе Relevance Score (учитывая TF-IDF, совпадение фраз), скорректированного на Confidence и Importance. Объекты ранжируются на основе линейной комбинации оценок их отдельных фактов. Факты, в которых запрос совпадает с именем объекта (Name Fact), получают дополнительное повышение.

Какое значение имеют "Аннотации" (Annotations) и как они используются?

Аннотации позволяют системе "понимать" структуру значения факта. Например, в предложении "Он родился в 1990 году" аннотация выделит "1990" как дату. Это позволяет использовать эти данные для дальнейшей обработки, фильтрации или специфического отображения (например, построения таймлайна или карты).

Влияет ли микроразметка Schema.org на процессы, описанные в этом патенте?

Да, напрямую. Микроразметка является одним из основных способов помочь Импортерам (Importers) корректно извлекать факты и атрибуты. Предоставление данных в структурированном формате значительно повышает вероятность их попадания в Fact Repository и увеличивает метрику Confidence для этих фактов.

Как этот патент влияет на локальное SEO?

Он имеет огромное значение, так как локальные бизнесы являются объектами (сущностями) с четкими фактами (адрес, телефон, часы работы). Аннотации GeoPt (геолокация) используются для связи фактов с местоположением. Согласованность NAP критична для того, чтобы Janitors корректно объединили информацию о локальном бизнесе из разных источников.

Что делать, если в Fact Repository (Графе Знаний) содержатся неверные данные о моей компании?

Необходимо работать над повышением Confidence правильных фактов. Убедитесь, что правильная информация четко указана на вашем сайте с использованием микроразметки, обновите данные в авторитетных источниках (Google Business Profile, Википедия, отраслевые каталоги). Со временем Janitors должны обработать новую информацию и скорректировать данные в репозитории, отдав предпочтение фактам с более высоким Confidence.

Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)

Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.

US7774328B2
2010-08-10

Knowledge Graph
Семантика и интент
SERP

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует атрибуты и метки от владельцев контента для структурирования данных и динамической фильтрации результатов поиска (Google Base)

Патент описывает систему (исторически Google Base), позволяющую владельцам загружать структурированные данные и определять собственные атрибуты (пары имя/значение) и метки. Google индексирует эту информацию и использует наиболее популярные атрибуты для создания динамических фильтров в результатах поиска, позволяя пользователям уточнять запросы. Система также автоматически определяет и продвигает популярные пользовательские атрибуты в статус "основных" для улучшения структуры данных.

US20130339338A1
2013-12-19

Индексация
SERP

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google генерирует сниппеты для фактических ответов, требуя близости вопроса и ответа в тексте источника

Патент Google описывает систему ответа на фактические запросы (Fact Query Engine). Для подтверждения факта, извлеченного из Fact Repository (аналог Knowledge Graph), система генерирует сниппеты из исходных веб-документов. Ключевое требование: сниппет должен содержать как термины из запроса пользователя, так и термины ответа, причем система предпочитает фрагменты, где они расположены близко друг к другу (Proximity).

US7587387B2
2009-09-08

Семантика и интент
Knowledge Graph
SERP

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента

Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.

US9268880B2
2016-02-23

Персонализация
Семантика и интент
Мультимедиа

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google генерирует интерактивные и иерархические Sitelinks на основе структуры и популярности разделов сайта

Google анализирует навигационную иерархию сайта (DOM), популярность ссылок и глубину разделов для создания интерактивного представления ресурса (расширенных Sitelinks) в SERP. Это позволяет пользователям просматривать ключевые категории и вложенные ссылки через интерфейс вкладок, не покидая страницу результатов поиска.

US9348846B2
2016-05-24

Структура сайта
SERP
Ссылки

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента

Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.

US8799107B1
2014-08-05

EEAT и качество
SERP
Поведенческие сигналы

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO