Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен

ENTITY NORMALIZATION VIA NAME NORMALIZATION (Нормализация сущностей через нормализацию имен)

US8700568B2
Google LLC
2006-03-31
2014-04-15

Knowledge Graph

Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.

Какую проблему решает

Патент решает проблему идентификации и объединения дублирующихся объектов (duplicate objects), представляющих одну и ту же реальную сущность, в большой и гетерогенной коллекции данных (например, в Fact Repository или Knowledge Graph). Проблема усугубляется тем, что сущности могут иметь разные названия, неполные или противоречивые атрибуты, а также тем, что традиционные методы дедупликации (например, по ISBN для книг) не работают для разнородных данных. Изобретение направлено на повышение точности и полноты базы знаний и снижение вычислительных затрат на ее обработку.

Что запатентовано

Запатентована система и метод для разрешения сущностей (Entity Normalization), который использует агрессивную нормализацию имен в качестве первого шага для эффективной группировки потенциальных дубликатов. Суть изобретения заключается в двухэтапном подходе: сначала система стандартизирует имена и группирует объекты с одинаковыми нормализованными именами (Bucketing), а затем применяет механизм сравнения (Matcher) к парам объектов внутри этих групп, используя другие атрибуты для подтверждения идентичности.

Как это работает

Система работает следующим образом:

Нормализация имен: Для каждого объекта система обрабатывает его имя, применяя набор правил: удаление стоп-слов, социальных и почетных титулов (Mr., President), инициалов, знаков препинания, приведение к нижнему регистру и сортировка слов по алфавиту.
Генерация сигнатуры и группировка: На основе нормализованного имени создается сигнатура (Signature). Объекты с одинаковыми сигнатурами группируются в 'корзины' (Buckets).
Сравнение (Matching): Внутри каждой 'корзины' система попарно сравнивает объекты. Решение о том, являются ли объекты дубликатами, принимается на основе схожести их атрибутов (фактов), исключая само имя (которое уже совпало на этапе группировки).
Идентификация дубликатов: Объекты, признанные идентичными, помечаются как дубликаты и могут быть объединены (merged).

Актуальность для SEO

Критически высокая. Разрешение сущностей (Entity Resolution) является фундаментальной задачей для поддержания качества и точности Google Knowledge Graph. Описанные механизмы нормализации и дедупликации лежат в основе того, как Google понимает сущности (бренды, людей, продукты) и консолидирует информацию о них из разных источников в интернете. Этот процесс постоянно используется и развивается.

Важность для SEO

Патент имеет критическое значение (9/10) для SEO, особенно в контексте Entity SEO и оптимизации под Knowledge Graph. Он раскрывает конкретные механизмы, которые Google использует для идентификации и консолидации сущностей. Понимание этого процесса позволяет SEO-специалистам понять, почему необходима абсолютная консистентность данных (NAP, Schema.org) и как наличие уникальных, подтверждаемых фактов помогает Google правильно идентифицировать и выделять сущность.

Термины и определения

Attribute (Атрибут): Тип информации, связанной с объектом (например, 'Date of Birth', 'Address', 'Name').
Bucket (Корзина): Группа объектов, имеющих одинаковую сигнатуру. Используется для оптимизации процесса сравнения.
Duplicate Objects (Дублирующиеся объекты): Объекты в базе данных, которые представляют одну и ту же сущность реального мира, но имеют разные Object ID.
Entity Normalization (Нормализация сущностей): Процесс идентификации и объединения дублирующихся объектов. Также известен как Entity Resolution.
Fact (Факт): Единица информации об объекте, состоящая из атрибута и значения (например, Attribute='Date of Birth', Value='1960').
Fact Repository (Репозиторий фактов): База данных, хранящая факты, извлеченные из множества документов. Эквивалент Knowledge Graph.
Importer (Импортер): Компонент системы, который извлекает факты из документов (например, веб-страниц) и добавляет их в Fact Repository.
Janitor (Уборщик): Компонент системы, выполняющий обработку фактов: очистку данных, нормализацию, объединение объектов (object merging). Описанный в патенте алгоритм реализуется именно в Janitor.
Matcher (Механизм сравнения): Модуль или функция, применяемая к паре объектов для определения, являются ли они дубликатами. Сравнение основано на схожести их фактов.
Name Fact (Факт имени): Специальный тип факта, который передает имя сущности.
Normalization Rules (Правила нормализации): Набор правил, применяемых к значению имени для его стандартизации (например, удаление стоп-слов, сортировка).
Normalizer (Нормализатор): Модуль, применяющий Normalization Rules к именам объектов.
Object (Объект): Представление сущности реального мира в базе данных, определяемое набором связанных фактов.
Signature (Сигнатура): Идентификатор, генерируемый для объекта, обычно на основе его нормализованного имени. Используется для группировки объектов в Buckets.
Value (Значение): Конкретное содержание факта (например, '1960' для атрибута 'Date of Birth').

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации дубликатов объектов, созданных на основе фактов, извлеченных из веб-документов.

Система извлекает факты из веб-документов и ассоциирует их с объектами.
Для каждого объекта нормализуется значение его Name Fact.
Объекты группируются в Buckets в соответствии с их нормализованными именами.
К паре объектов внутри одной Bucket применяется Matcher для определения, являются ли они дубликатами.

Ключевой аспект: группировка основана на имени, а финальное сравнение (Matcher) учитывает другие факты (в патенте указано, что один из объектов пары имеет факт, не являющийся общим для пары, что подразумевает сравнение по совокупности фактов).

Claim 2, 3, 4, 5 (Зависимые): Детализируют процесс нормализации имен.

Нормализация включает применение группы правил (Claim 2).
Конкретные правила включают удаление социальных титулов (Mr., Mrs.) и почетных званий (President, Senator) (Claim 3).
Другие правила включают удаление однобуквенных слов (инициалов), знаков препинания, стоп-слов и приведение к нижнему регистру (Claim 4).
Также включает сортировку слов в имени по алфавиту (Claim 5).

Это указывает на очень агрессивную стратегию нормализации, направленную на приведение самых разных вариантов написания имени к единому стандарту.

Claim 6 (Зависимый): Детализирует процесс группировки.

Генерируется Signature на основе нормализованного имени. Сигнатуры для дубликатов должны быть идентичны, даже если исходные факты различаются.
Объект помещается в Bucket, идентифицируемую этой сигнатурой.

Это подтверждает, что нормализация имени является ключевым механизмом для предварительной кластеризации потенциальных дубликатов.

Claim 7, 8 (Зависимые): Детализируют работу Matcher.

Для общих фактов (фактов с одинаковым атрибутом) у пары объектов определяется схожесть их значений с использованием меры схожеosti (similarity measure) (Claim 7).
Решение о дублировании принимается на основе этой схожести, в частности, на основе количества общих фактов со схожими значениями по сравнению с общим количеством фактов (Claim 8).

Это подчеркивает, что хотя имя используется для группировки, окончательное решение об идентичности сущностей принимается на основе других подтверждающих фактов.

Где и как применяется

Изобретение применяется на этапе построения и поддержания базы знаний (Knowledge Graph), используя данные, извлеченные из интернета.

CRAWLING – Сканирование и Сбор данных
Система собирает веб-документы (web documents), которые служат источником для извлечения фактов.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента, связанный с построением Knowledge Graph.

Извлечение фактов (Importers): Система извлекает факты из документов и ассоциирует их с объектами (сущностями). На этом этапе создается множество потенциально дублирующихся объектов.
Обработка и нормализация (Janitors): Компонент Janitor выполняет процесс Entity Normalization, описанный в патенте. Он анализирует созданные объекты, нормализует их имена, группирует и применяет Matcher для выявления и объединения дубликатов.

Результатом этого этапа является очищенный и консолидированный Fact Repository (Knowledge Graph), где каждая сущность реального мира представлена одним уникальным объектом.

RANKING / METASEARCH
Хотя патент напрямую не описывает ранжирование, результаты его работы (консолидированный Knowledge Graph) активно используются на этих этапах для формирования Knowledge Panels, обогащения сниппетов и понимания связи между сущностями, что влияет на ранжирование.

Входные данные:

Набор объектов, каждый из которых имеет набор фактов (Attribute/Value), включая Name Fact.
Факты извлечены из веб-документов.

Выходные данные:

Идентификация пар или групп дублирующихся объектов.
(Опционально) Объединенные объекты (merged objects), консолидирующие факты из дубликатов.

На что влияет

Конкретные типы контента: Наибольшее влияние оказывается на контент, описывающий именованные сущности (Named Entities) – людей, организации, места, продукты, произведения искусства и т.д.
Специфические запросы: Влияет на запросы, связанные с сущностями, для которых Google формирует Knowledge Panels или другие блоки, основанные на Knowledge Graph.
Конкретные ниши или тематики: Влияет на все ниши, но особенно критично в тематиках с большим количеством схожих названий (например, названия компаний, имена людей) или там, где одна сущность имеет много вариантов именования (например, исторические личности, географические объекты).

Когда применяется

При каких условиях работает алгоритм: Алгоритм применяется в процессе обработки данных (data processing) после того, как факты были извлечены Importers и перед тем, как они будут использованы для ответов на запросы пользователей. Это часть процесса построения и обновления индекса/базы знаний.
Временные рамки: Процесс выполняется периодически или непрерывно (офлайн или в пакетном режиме) по мере поступления новых данных в систему для поддержания чистоты Fact Repository.

Пошаговый алгоритм

Процесс идентификации дублирующихся объектов (Entity Normalization):

Инициализация: Система начинает с набора объектов, извлеченных из различных источников.
Нормализация имен: Для каждого объекта система извлекает его имя (Name Fact) и применяет к нему Normalizer.
- Применяется набор правил нормализации: приведение к нижнему регистру, удаление стоп-слов, социальных/почетных титулов, однобуквенных слов (инициалов), знаков препинания.
- Слова в нормализованном имени сортируются по алфавиту.
Генерация сигнатуры: Для каждого объекта создается Signature на основе его нормализованного имени (например, путем удаления пробелов).
Группировка (Bucketing): Объекты группируются в Buckets. Объекты с одинаковой сигнатурой помещаются в одну 'корзину'. Объекты с пустой сигнатурой (например, если имя состояло только из стоп-слов) могут игнорироваться.
Применение Matcher (Внутригрупповое сравнение): Для каждой 'корзины' система выполняет попарное сравнение объектов.
- К каждой паре применяется Matcher.
- Matcher анализирует общие факты (Common Facts) – факты с одинаковыми атрибутами (кроме имени).
- Оценивается схожесть значений этих фактов (используя лексическую, числовую или строковую меру схожести).
Определение совпадения: Matcher принимает решение о совпадении на основе количества схожих и различающихся общих фактов (например, если схожих фактов больше, чем различающихся).
Идентификация дубликатов: Объекты, для которых Matcher определил совпадение, идентифицируются как дубликаты.
(Опционально) Объединение: Дублирующиеся объекты могут быть объединены в один консолидированный объект.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании атрибутов объектов для их нормализации.

Контентные факторы (Факты): Ключевые данные – это значения фактов, связанных с объектами.
- Name Fact Value: Значение имени объекта используется на этапе нормализации и генерации сигнатуры.
- Other Fact Values: Значения других атрибутов (например, дата рождения, адрес, телефон, дата смерти) используются на этапе сравнения (Matcher).
Структурные факторы (Внутренние): Система использует структуру данных 'Объект -> Факт (Атрибут, Значение)'.

Какие метрики используются и как они считаются

Патент не приводит конкретных формул, но описывает используемые метрики и методы:

Сигнатура (Signature): Вычисляется на основе нормализованного имени. Метод вычисления должен гарантировать, что потенциальные дубликаты получат одинаковую сигнатуру (например, удаление пробелов из нормализованного имени).
Меры схожести (Similarity Measures): Используются Matcher для сравнения значений фактов. Упоминаются:
- Лексическая схожесть (Lexical similarity): например, 'U.S.A.' и 'United States'.
- Близость значений (Proximate similarity): например, '176 pounds' и '176.1 pounds'.
- Метрики строкового сходства (String similarity measures): упоминаются Edit distance, Hamming Distance, Levenshtein Distance, Jaro Distance Metric, Dice's Coefficient, Jaccard Coefficient и другие.
Критерий совпадения (Matching Criteria): Метрика для принятия решения о дублировании. Один из примеров: объекты совпадают, если количество схожих общих фактов превышает количество различающихся общих фактов.

Фундаментальность Entity Resolution: Патент описывает ключевой процесс построения Knowledge Graph – разрешение сущностей. Точность идентификации сущностей критически важна для Google.
Агрессивная нормализация имен: Google применяет очень агрессивные методы для стандартизации имен (включая удаление титулов, инициалов и алфавитную сортировку слов). Это делается для того, чтобы максимизировать вероятность нахождения всех вариантов написания имени одной и той же сущности.
Имя – это ключ группировки, а не идентификации: Нормализованное имя (Signature) используется только для эффективной группировки потенциальных дубликатов (Bucketing). Оно не используется для принятия финального решения об идентичности.
Атрибуты (Факты) – ключ к идентификации: Финальное решение об объединении сущностей принимает Matcher на основе схожести других фактов (адрес, дата рождения, телефон и т.д.). Наличие консистентных и подтверждаемых фактов является решающим фактором.
Обработка гетерогенных данных: Описанный метод позволяет обрабатывать объекты разных типов (люди, компании, места) с помощью универсального подхода, не требуя специфичных для типа идентификаторов (таких как ISBN или SSN).

Best practices (это мы делаем)

Обеспечение абсолютной консистентности NAP/NUL: Необходимо обеспечить полное совпадение названия (Name), адреса (Address), телефона (Phone) или URL (Uniform Resource Locator) во всех источниках (сайт, Schema-разметка, каталоги, социальные сети). Это критически важно для того, чтобы Matcher мог подтвердить идентичность сущности.
Использование структурированных данных (Schema.org): Активно используйте разметку Organization, Person, Product, LocalBusiness. Используйте свойство sameAs для связи с авторитетными источниками (Wikipedia, Wikidata, официальные реестры). Это предоставляет Matcher четкие и однозначные факты для сравнения.
Насыщение сущности уникальными фактами: Чем больше уникальных и проверяемых фактов связано с сущностью, тем легче Google отличить ее от других сущностей с похожими именами. Указывайте даты основания, ключевых сотрудников, уникальные идентификаторы (если применимо), награды.
Мониторинг Knowledge Panel: Регулярно проверяйте панель знаний на предмет точности данных и потенциального смешивания с другими сущностями. При обнаружении ошибок используйте механизм обратной связи.
Стандартизация вариантов имени: Хотя Google и проводит нормализацию, лучше превентивно использовать наиболее распространенное и официальное имя в качестве основного. В разметке Schema.org можно указать альтернативные названия через alternateName.

Worst practices (это делать не надо)

Неконсистентное именование: Использование разных вариантов названия компании или имени человека в разных источниках без явной связи между ними. Это может привести к тому, что Google создаст несколько отдельных, слабых сущностей вместо одной сильной.
Противоречивые данные в разных источниках: Публикация разных адресов, телефонов или дат основания в разных каталогах или на разных страницах сайта. Это увеличивает количество 'различающихся общих фактов', что может помешать Matcher объединить объекты.
Игнорирование структурированных данных: Полагаться только на неструктурированный текст для передачи информации о сущности. Это затрудняет извлечение фактов и повышает вероятность ошибок при нормализации.
Создание 'искусственных' фактов: Попытка манипулировать Knowledge Graph путем публикации ложных фактов. Система использует меры схожести и, вероятно, проверяет факты по множеству источников, что делает такие манипуляции неэффективными.

Стратегическое значение

Патент подтверждает стратегическую важность Entity SEO. Понимание того, как Google видит и консолидирует сущности, является основой для построения авторитетности и видимости в современном поиске. Стратегия должна быть направлена на создание четкого, консистентного и взаимосвязанного цифрового следа для ключевых сущностей (бренд, авторы, продукты). Этот патент показывает, что Google технически оснащен для решения сложных задач по дедупликации, и успех зависит от качества и согласованности данных, предоставляемых вебмастерами и SEO-специалистами.

Практические примеры

Сценарий: Консолидация бренда с несколькими вариантами написания

Компания работает под брендом 'Acme Dynamics', но её часто называют 'Acme' или 'Acme Dyn. Corp.'.

Проблема: Google может видеть это как три разные сущности или не может уверенно связать упоминания 'Acme' с основным брендом.
Применение патента (Как работает Google):
- Нормализация: Все три имени могут быть нормализованы до 'acme dynamics corp' (если Corp есть в базе синонимов) или 'acme dynamics'.
- Группировка: Объекты, созданные из разных источников с этими именами, попадают в одну Bucket.
- Сравнение: Matcher сравнивает адреса, телефоны, URL сайтов, указанные в источниках.
Действия SEO: Обеспечить, чтобы во всех источниках, где используются альтернативные названия ('Acme', 'Acme Dyn. Corp.'), присутствовали те же самые контактные данные (NAP) и ссылка на основной сайт (URL), что и в источниках с основным названием 'Acme Dynamics'. Использовать Schema.org на главном сайте, перечислив все варианты в alternateName и указав основные факты (Address, Phone).
Результат: Matcher видит высокое сходство фактов (идентичные NAP/URL) и уверенно объединяет все варианты в одну сильную сущность 'Acme Dynamics'.

Как Google решает, какие именно правила нормализации применять к имени?

Патент перечисляет множество возможных правил (удаление титулов, стоп-слов, сортировка и т.д.). Конкретный набор и порядок применения правил, вероятно, определяется системой динамически и может зависеть от языка и контекста. Важно понимать, что система стремится к максимально агрессивной нормализации, чтобы найти как можно больше потенциальных совпадений на этапе группировки.

Что такое 'алфавитная сортировка' слов в имени и зачем она нужна?

Это одно из правил нормализации, при котором слова в имени сортируются по алфавиту. Например, 'Henry, John' и 'John Henry' после удаления запятой и сортировки станут 'Henry John'. Это позволяет системе стандартизировать имена независимо от того, указано ли сначала имя или фамилия, что особенно полезно при обработке данных из разных культурных и языковых источников.

Если две разные компании имеют одинаковое название, как Google их различает?

В этом случае обе компании пройдут этап нормализации и попадут в одну 'корзину' (Bucket), так как их сигнатуры совпадут. Однако на этапе сравнения (Matcher) система проанализирует другие факты: адреса, телефоны, URL сайтов, сферу деятельности. Если эти факты различаются, Matcher определит, что это разные сущности, и не будет их объединять.

Насколько важна консистентность NAP (Name, Address, Phone) в свете этого патента?

Консистентность NAP критически важна. Поскольку имя используется для предварительной группировки, именно совпадение адреса и телефона (а также URL сайта) является основным сигналом для Matcher при принятии решения об объединении сущностей. Несоответствия в NAP могут привести к тому, что Google не сможет консолидировать информацию о вашем бренде.

Как этот патент связан с Schema.org разметкой?

Разметка Schema.org является одним из основных источников данных для Fact Repository. Предоставляя четкие и структурированные факты через Schema.org, вы напрямую 'кормите' Matcher данными, необходимыми для правильной идентификации и дедупликации вашей сущности. Это значительно повышает шансы на корректное формирование Knowledge Graph.

Что произойдет, если у сущности нет имени или оно состоит только из стоп-слов?

Патент указывает, что если нормализованное имя пустое, система может сгенерировать пустую сигнатуру (null signature). Объекты с пустой сигнатурой обычно не помещаются в 'корзины' и, следовательно, не участвуют в процессе сравнения и объединения. Это означает, что такие сущности будет крайне сложно идентифицировать и консолидировать.

Может ли система ошибочно объединить две разные сущности?

Да, это возможно, особенно если у сущностей совпадают нормализованные имена и есть значительное пересечение в других фактах (например, два человека с одинаковым именем родились в один день, но в разные годы). Чтобы минимизировать этот риск, необходимо насыщать свои сущности максимальным количеством уникальных и проверяемых фактов, которые помогут Matcher их различить.

Как обрабатываются инициалы в именах людей?

Патент явно упоминает правило удаления однобуквенных слов (single-letter-word removal rule). Это означает, что инициалы (например, 'W.' в 'John W. Henry') скорее всего будут удалены на этапе нормализации имени. Поэтому не стоит полагаться на инициалы для дифференциации сущностей; лучше использовать полные имена.

Что важнее для объединения: количество совпадающих фактов или их качество?

Патент предполагает, что важен баланс. Упоминается критерий, основанный на сравнении количества схожих и различающихся общих фактов. Однако логично предположить, что разные атрибуты могут иметь разный вес (например, совпадение уникального идентификатора или адреса может быть важнее совпадения примерного года основания).

Как обрабатываются титулы, такие как 'Dr.' или 'President'?

Патент явно указывает на использование правил удаления социальных (social-titles removal) и почетных (honorific-titles removal) титулов. Титулы удаляются на этапе нормализации, чтобы стандартизировать имя. Например, 'President Joe Biden' и 'Joe Biden' будут нормализованы до одного и того же значения.

Как Google объединяет разрозненные данные о сущностях (Entity Resolution) с помощью хеширования и нечеткого сравнения

Google использует этот механизм для определения того, относятся ли разные записи данных к одной и той же сущности (Entity Resolution). Система находит потенциальные совпадения через общие идентификаторы (например, телефон или email), а затем применяет нечеткое сравнение строк (Fuzzy Matching) и анализ конфликтов, чтобы объединить записи. Это критически важно для Knowledge Graph и Local SEO.

US8832041B1
2014-09-09

Knowledge Graph
Local SEO

Как Google использует структурированные данные для борьбы с дублированием страниц с одинаковыми сущностями (например, фасеты и сортировки)

Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.

US20140280084A1
2014-09-18

Семантика и интент
SERP
Индексация

Как Google распознает, согласовывает и упорядочивает сериализованный контент (книги, фильмы) из разрозненных источников

Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.

US9244919B2
2016-01-26

Knowledge Graph
Семантика и интент
Индексация

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google ранжирует сущности в Knowledge Graph, используя адаптивные веса для метрик вклада, известности и наград

Google использует систему для ранжирования сущностей, извлеченных из Knowledge Graph. Система рассчитывает четыре ключевые метрики: связанность, значимость типа, вклад и награды. Затем она применяет весовые коэффициенты, которые адаптируются в зависимости от типа сущности (например, «Фильм» или «Человек»), чтобы определить итоговый рейтинг. Это влияет на то, какие сущности будут показаны в каруселях, панелях знаний и других функциях поиска, связанных с сущностями.

US10235423B2
2019-03-19

Knowledge Graph
Семантика и интент
SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга

Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.

US11409812B1
2022-08-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента

Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.

US8799107B1
2014-08-05

EEAT и качество
SERP
Поведенческие сигналы

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество