Как Google объединяет разрозненные данные о сущностях (Entity Resolution) с помощью хеширования и нечеткого сравнения

IDENTIFYING DUPLICATE ENTRIES (Идентификация дублирующихся записей)

US8832041B1
Google LLC
2011-09-16
2014-09-09

Google использует этот механизм для определения того, относятся ли разные записи данных к одной и той же сущности (Entity Resolution). Система находит потенциальные совпадения через общие идентификаторы (например, телефон или email), а затем применяет нечеткое сравнение строк (Fuzzy Matching) и анализ конфликтов, чтобы объединить записи. Это критически важно для Knowledge Graph и Local SEO.

Какую проблему решает

Патент решает фундаментальную проблему управления данными: дедупликацию и разрешение сущностей (Entity Resolution). Задача состоит в том, чтобы автоматически определить, когда две разные записи в базе данных (например, извлеченные из разных источников в интернете), содержащие частичную или немного отличающуюся информацию, на самом деле относятся к одному и тому же объекту реального мира (человеку, компании, месту). Это необходимо для повышения качества данных и построения точных баз знаний.

Что запатентовано

Запатентован метод для идентификации дублирующихся записей (Duplicate Entries). Система использует двухэтапный подход: (1) эффективное выявление кандидатов на совпадение путем хеширования значений полей и поиска коллизий (совпадающих хешей); (2) детальный анализ конфликтов (Conflict Detection) с применением правил типизации полей и алгоритмов нечеткого сравнения строк (Fuzzy Matching), чтобы подтвердить возможность объединения записей.

Как это работает

Ключевой механизм работает следующим образом:

Хеширование: Все непустые значения полей (например, телефоны, email, адреса) хешируются.
Обнаружение коллизий: Система ищет совпадения хешей между разными записями. Коллизия указывает на наличие общего идентичного значения (анкоря).
Анализ конфликтов: Если коллизия найдена, система проверяет остальные поля на конфликты. Конфликт возникает, если данные несовместимы (например, два совершенно разных имени).
Нечеткое сравнение: Для полей, требующих уникальности (например, Имя), используются алгоритмы (Hamming Distance, Sequence Alignment), чтобы определить, являются ли различия незначительными (опечатки, аббревиатуры) или критическими.
Решение: Если коллизия есть, а неразрешимых конфликтов нет, записи помечаются как дубликаты и могут быть объединены.

Актуальность для SEO

Высокая. Хотя патент подан в 2011 году, разрешение сущностей (Entity Resolution) остается критически важной задачей для Google. Построение и поддержка Knowledge Graph, обработка данных локального поиска (Local Search) и идентификация авторов (E-E-A-T) напрямую зависят от способности системы точно объединять разрозненную информацию из множества источников, используя подобные техники.

Важность для SEO

Патент имеет высокое значение для SEO (7/10), особенно в контексте Entity-based SEO, Local SEO и E-E-A-T. Он не описывает алгоритмы ранжирования, но раскрывает инфраструктурные механизмы, которые Google использует для сверки и объединения данных о сущностях. Понимание этих механизмов подчеркивает критическую важность консистентности данных (например, NAP) и использования структурированных данных (Schema.org) для обеспечения корректного формирования профиля сущности в Knowledge Graph.

Термины и определения

Collision (Коллизия): Ситуация, когда два значения поля из разных записей имеют одинаковое Hash Value. Это указывает на точное совпадение значения и является триггером для проверки на дублирование.
Conflict (Конфликт): Ситуация, когда значения полей в двух записях различны и несовместимы, что препятствует их объединению (например, два совершенно разных имени для одной сущности).
Duplicate Entries (Дублирующиеся записи): Две или более записей, которые система идентифицировала как относящиеся к одной и той же сущности.
Entry (Запись): Единица данных в наборе (например, профиль компании, контакт), состоящая из набора значений полей.
Field Type (Тип поля): Категория данных в записи (например, Имя, Телефон, Адрес). Определяет правила обработки и допустимость множественных значений.
Field Value (Значение поля): Конкретные данные в поле (например, «Джон Смит»). Алгоритм фокусируется на непустых значениях (Non-blank Field Values).
Hamming Distance (Расстояние Хэмминга): Метрика сравнения строк, измеряющая количество позиций, в которых символы двух строк различаются. Используется для обнаружения опечаток.
Hash Value (Хеш-значение): Числовое представление значения поля, используемое для быстрого поиска точных совпадений.
Needleman-Wunsch Algorithm (Алгоритм Нидлмана-Вунша): Алгоритм для вычисления глобального выравнивания последовательностей (Sequence Alignment). Используется для измерения степени схожести строк разной длины (например, сокращенных и полных имен).
Sequence Alignment (Выравнивание последовательностей): Мера схожести двух строк. Используется для нечеткого сравнения (Fuzzy Matching).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации дубликатов.

Система получает набор записей (set of entries).
Вычисляются хеш-значения (hash value) для непустых полей.
Обнаруживается коллизия: хеш-значение поля в первой записи соответствует хеш-значению поля во второй записи.
Определяется отсутствие конфликтов между всеми непустыми полями первой и второй записей. Механизм определения отсутствия конфликта включает:
- Идентификацию типа поля (Field Type), который не может содержать несколько разных значений для одной записи (например, Имя).
- Вычисление выравнивания последовательностей (Sequence Alignment) между значениями этого типа поля в первой и второй записях.
- Определение того, что конфликт отсутствует, если вычисленное выравнивание превышает пороговое значение (sequence alignment threshold), то есть значения достаточно похожи.
Если коллизия найдена и конфликтов нет, система предоставляет индикацию, что записи являются дубликатами.

Claim 10 (Зависимый): Детализирует условие отсутствия конфликта, когда значения полей различны.

Если записи имеют разные значения для определенного типа поля, конфликт отсутствует, если система определяет, что этот тип поля допускает наличие нескольких значений в одной записи (например, несколько телефонных номеров или email-адресов).

Claim 11 (Зависимый): Детализирует альтернативный метод определения отсутствия конфликта с использованием $\text{Hamming Distance}$ .

Вычисляется расстояние Хэмминга между значениями полей. Если расстояние меньше порогового значения (Hamming distance threshold), конфликт отсутствует (например, при наличии опечаток).

Claim 12 (Зависимый): Уточняет, что для расчета Sequence Alignment может использоваться алгоритм $\text{Needleman-Wunsch}$ .

Claim 25 (Зависимый): Вводит специальное правило для обработки конфликтов.

Система проверяет, что поле не содержит подстроки «&» или «and» только в одной из двух сравниваемых записей. Это направлено на предотвращение ошибочного слияния индивидуальных и групповых записей (например, «Jenny Baker» и «Tom & Jenny Baker»).

Где и как применяется

Изобретение применяется на этапе обработки и структурирования данных, критически важном для построения базы знаний.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Когда поисковая система извлекает данные о сущностях (Entity Extraction) из веб-страниц, она должна выполнить процесс разрешения сущностей (Entity Resolution). Описанный механизм используется для:

Дедупликации: Определения того, что информация, извлеченная из разных источников (например, разных каталогов или сайтов), относится к одной и той же сущности (компании, автору).
Связывания с базой знаний: Сопоставления новой информации с уже существующими записями в Knowledge Graph.

Входные данные:

Набор структурированных или полуструктурированных записей (set of entries).
Правила для Field Types (допустимость множественных значений).
Пороговые значения для алгоритмов нечеткого сравнения.

Выходные данные:

Идентификация дублирующихся записей.
Объединенные канонические записи (single entry) о сущности.

На что влияет

Конкретные типы контента и Сущности: Наибольшее влияние оказывается на обработку данных о сущностях (Entities) — компаниях (Local SEO), людях (E-E-A-T, авторы), продуктах (E-commerce).
Конкретные ниши или тематики: Критично для локального бизнеса, где консистентность NAP-данных (Name, Address, Phone) необходима для видимости, а также для любых ниш, где важна точная идентификация авторов и организаций.
Структурированные данные: Эффективность работы алгоритма повышается при наличии четко определенных типов полей (например, через Schema.org).

Когда применяется

Условия работы алгоритма: Применяется при обработке больших наборов данных для их очистки и консолидации (например, при обновлении Knowledge Graph).
Триггеры активации: Процесс детального сравнения двух записей (анализ конфликтов) активируется только при обнаружении коллизии (Collision) — когда две разные записи имеют как минимум одно идентичное значение ключевого поля (анкоря), например, одинаковый телефон, email или URL.

Пошаговый алгоритм

Получение данных: Система получает набор записей для анализа (например, данные о бизнесах, извлеченные из разных сайтов).
Хеширование значений: Для всех непустых значений полей (non-blank field values) вычисляются Hash Values.
Обнаружение коллизий (Collision Detection): Система ищет совпадения хеш-значений между полями разных записей. Нахождение коллизии идентифицирует пару как потенциальный дубликат и запускает следующий этап.
Анализ конфликтов (Conflict Detection): Для пары потенциальных дубликатов система проверяет все остальные поля на наличие конфликтов. Проверка включает несколько стратегий:
- Проверка допустимости множественных значений: Если значения полей различаются (например, разные адреса), проверяется, допускает ли Field Type множественные значения. Если да, конфликта нет.
- Нечеткое сравнение (Fuzzy Matching): Если Field Type требует уникальности (например, Имя), система вычисляет метрики схожести:
  - $\text{Hamming Distance}$ (для оценки опечаток).
  - $\text{Sequence Alignment}$ (например, по алгоритму $\text{Needleman-Wunsch}$ ).
- Проверка порогов: Метрики схожести сравниваются с порогами (Thresholds). Если схожесть достаточна, конфликт игнорируется.
- Применение специальных правил: Проверка исключений, например, наличия «&» или «and» только в одной из записей (Claim 25).
Идентификация дубликатов: Если коллизия найдена и неразрешимые конфликты отсутствуют, записи помечаются как дубликаты.
Объединение (Опционально): Дублирующиеся записи могут быть автоматически объединены в одну каноническую запись.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке структурированных или полуструктурированных данных.

Структурные факторы: Система требует данные, представленные в виде записей с полями (Field Types) и значениями (Field Values). Это могут быть данные из баз данных, микроразметки Schema.org, каталогов.
Контентные факторы (Значения Полей): Конкретные строковые или числовые значения полей (Имена, Адреса, Телефоны, Email, Идентификаторы). Эти данные используются как для хеширования (поиск точных совпадений), так и для анализа схожести (нечеткое сравнение).

Какие метрики используются и как они считаются

Hash Value: Вычисляется для быстрого выявления точных совпадений (коллизий).
Hamming Distance: Измеряет количество различий в символах между двумя строками. Используется для оценки схожести при небольших расхождениях (опечатках).
- Порог: Hamming Distance Threshold. Если расстояние меньше порога, строки считаются похожими.
Sequence Alignment (Выравнивание последовательности): Измеряет глобальное выравнивание двух строк, часто с помощью алгоритма $\text{Needleman-Wunsch}$ $Needleman-Wunsch$ . Позволяет оценить схожесть при более сложных вариациях (сокращения, аббревиатуры).
- Порог: Sequence Alignment Threshold. Если оценка выравнивания выше порога, строки считаются похожими.
Правила Типов Полей (Field Type Rules): Предопределенные правила, указывающие, может ли данный тип поля иметь несколько значений для одной сущности.

Entity Resolution как комбинация точности и гибкости: Процесс разрешения сущностей требует баланса. Хеширование обеспечивает эффективность и точность поиска (через коллизии), в то время как анализ конфликтов с использованием нечеткого сравнения обеспечивает гибкость обработки реальных данных.
Точные совпадения как необходимый триггер: Алгоритм требует наличия хотя бы одного точно совпадающего поля (коллизии хешей) для инициации проверки. Это подчеркивает важность уникальных идентификаторов (Email, Телефон, GTIN) как анкорей для связывания данных.
Интеллектуальное разрешение конфликтов (Fuzzy Matching): Ядро изобретения — способность системы игнорировать незначительные различия. Использование $\text{Hamming Distance}$ и $\text{Sequence Alignment}$ позволяет обрабатывать опечатки, сокращения и вариации в форматировании.
Важность типизации данных (Field Types): Успешность объединения зависит от правил, привязанных к типу поля. Система различает поля, допускающие множественные значения (Телефоны), и поля с уникальным значением (Основное Имя).
Защита от ложных слияний: Наличие специальных правил (например, обработка символа «&» в Claim 25) указывает на то, что система настроена на высокую точность и предотвращение ошибочного объединения разных сущностей.

Best practices (это мы делаем)

Обеспечение абсолютной консистентности NAP (Local SEO): Критически важно использовать идентичные данные (Name, Address, Phone) во всех точках присутствия (сайт, Google Business Profile, каталоги). Точные совпадения (хеш-коллизии) являются основным триггером для запуска процесса объединения данных (Entity Resolution).
Использование сильных уникальных идентификаторов: Всегда включайте уникальные идентификаторы (Email, ИНН/ОГРН, GTIN для товаров, @id и sameAs в Schema.org). Это обеспечивает надежные точки привязки для Collision Detection и гарантирует, что Google точно сопоставит записи.
Стандартизация форматирования данных: Используйте полные и стандартизированные форматы для адресов, телефонов и имен авторов. Хотя система устойчива к небольшим вариациям благодаря Sequence Alignment, стандартизация снижает риск ошибок интерпретации и повышает уверенность системы.
Четкое разделение сущностей: Убедитесь, что разные сущности (например, разные филиалы или разные авторы) имеют уникальные контактные данные. Использование общего телефона для разных филиалов может привести к некорректному слиянию данных, если система не сможет четко различить их по другим атрибутам.

Worst practices (это делать не надо)

Использование вариативных данных для одной локации: Использование разных вариантов адреса или названия для одного и того же филиала в разных источниках. Это может привести к тому, что алгоритмы нечеткого сравнения не достигнут порога схожести, и система классифицирует данные как конфликтующие.
Частое изменение ключевых идентификаторов: Регулярное изменение основных телефонных номеров, email или URL усложняет процесс Entity Resolution, так как теряются стабильные анкоря для хеш-коллизий.
Создание «групповых» записей для индивидуумов: Не используйте символы «&» или «and» в именах авторов или названиях брендов, если речь идет об одной сущности. Патент явно указывает (Claim 25), что это может быть интерпретировано как признак разных сущностей (индивидуум против группы) и заблокировать слияние.

Стратегическое значение

Патент подтверждает фундаментальную важность разрешения сущностей (Entity Resolution) для построения Knowledge Graph. В эру Entity-based SEO предоставление Google четких, непротиворечивых и легко сопоставимых данных является ключом к авторитетности и видимости. Долгосрочная стратегия должна включать управление цифровым следом бренда (Digital Footprint Management), гарантируя, что все упоминания во всех источниках могут быть корректно объединены Google в единый, авторитетный профиль сущности.

Практические примеры

Сценарий: Разрешение сущности локального бизнеса (Entity Resolution в Local SEO)

Данные на входе: Google обрабатывает две записи из разных каталогов.
- Запись А: «Ромашка ООО», ул. Ленина 10, +7(495)555-1212.
- Запись Б: «ООО Ромашка Плюс», Ленина 10, +7(495)555-1212.
Хеширование и Коллизия: Система вычисляет хеши для телефонных номеров. Хеши совпадают (коллизия). Это запускает анализ конфликтов.
Анализ конфликтов (Адрес): Адреса совпадают (или имеют очень высокое выравнивание). Конфликта нет.
Анализ конфликтов (Имя): Система видит разные названия. Тип поля «Имя» требует уникальности. Система применяет алгоритм $\text{Needleman-Wunsch}$ к «Ромашка ООО» и «ООО Ромашка Плюс».
Результат: Алгоритм показывает высокое выравнивание последовательности (Sequence Alignment), превышающее порог. Конфликт не обнаружен.
Итог: Google идентифицирует записи как дубликаты и объединяет их в одну сущность, консолидируя сигналы ранжирования с обоих источников.

Как этот патент связан с Knowledge Graph и разрешением сущностей (Entity Resolution)?

Этот патент описывает технологию, которая является фундаментальной для построения Knowledge Graph. Когда Google находит информацию о сущности (компании, человеке) из разных источников, он использует эти механизмы (хеширование, анализ конфликтов, нечеткое сравнение), чтобы понять, что все эти фрагменты данных относятся к одному и тому же объекту, и объединить их в единую запись. Это и есть процесс Entity Resolution.

Насколько важна консистентность NAP (Имя, Адрес, Телефон) в Local SEO в контексте этого патента?

Критически важна. Патент показывает, что процесс объединения запускается при обнаружении точного совпадения (Collision) хотя бы одного поля (например, телефона). Затем система проверяет схожесть Имени и Адреса. Если данные сильно различаются и не проходят пороги нечеткого сравнения, Google может посчитать их конфликтующими, что помешает корректному объединению сигналов ранжирования.

Может ли Google объединить две записи, если в них нет ни одного точно совпадающего поля?

Согласно описанному механизму (Claim 1), нет. Алгоритм требует наличия коллизии хешей (точного совпадения значения поля) как триггера для запуска детального анализа конфликтов. Если все поля отличаются, система не будет рассматривать эти записи как потенциальные дубликаты в рамках данного патента.

Как Google обрабатывает опечатки или небольшие вариации в названиях и адресах?

Система использует техники нечеткого сравнения (Fuzzy Matching). Если система обнаружила совпадение по другому полю (например, телефону), она анализирует различия в названиях с помощью $\text{Hamming Distance}$ (для опечаток) или $\text{Sequence Alignment}$ (для вариаций). Если схожесть высока (превышает порог), различия игнорируются, и записи объединяются.

Что такое алгоритм Нидлмана-Вунша (Needleman-Wunsch) и зачем он нужен?

Это алгоритм для вычисления глобального выравнивания последовательностей (Sequence Alignment). Он позволяет измерять схожесть строк разной длины, учитывая вставки и удаления символов. В контексте SEO он используется для сопоставления сложных вариаций, например, названий компаний с разными приставками («ООО Ромашка» vs «Ромашка Плюс») или имен авторов («Бен Смит» vs «Бенджамин Смит»).

Если у компании несколько телефонных номеров или адресов, вызовет ли это конфликт при индексации?

Нет. Патент явно учитывает (Claim 10), что система знает, какие типы полей (Field Types) допускают множественные значения. Наличие разных телефонных номеров или дополнительных адресов в двух записях не считается конфликтом, если ключевые идентификаторы (например, Имя) совпадают или достаточно схожи.

Что произойдет, если два разных бизнеса используют один и тот же номер телефона (например, общий офис)?

Система обнаружит коллизию по номеру телефона. Затем она проанализирует конфликты в Именах и Адресах. Если названия сильно различаются (схожесть ниже порога Sequence Alignment), система определит наличие конфликта и не будет объединять эти записи, признав их разными сущностями, несмотря на общий телефон.

Как система обрабатывает названия, содержащие «и» или «&»?

Патент включает специальное правило (Claim 25). Если одна запись содержит «&» или «and», а другая нет, система распознает это как потенциальный конфликт. Это сделано для предотвращения ошибочного слияния записи об одном человеке или компании с записью о группе (например, «Иванов» и «Иванов и Петров»).

Как использование микроразметки Schema.org связано с этим патентом?

Schema.org предоставляет данные в идеальном для этого алгоритма формате: структурированном виде с четкими типами полей (Field Types) и значениями (Field Values). Это значительно упрощает для Google извлечение, хеширование и сравнение данных, повышая точность разрешения сущностей (Entity Resolution).

Влияет ли этот патент на ранжирование веб-страниц?

Прямого влияния на алгоритмы ранжирования патент не оказывает. Однако он критически важен для процесса понимания контента и авторитетности. Корректное разрешение сущностей позволяет Google агрегировать сигналы авторитетности (ссылки, упоминания, E-E-A-T) вокруг канонической записи в Knowledge Graph, что косвенно влияет на ранжирование контента, связанного с этой сущностью.

Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен

Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.

US8700568B2
2014-04-15

Knowledge Graph

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google использует базу данных сущностей (Knowledge Graph) для формирования прямых ответов на вопросы о фактах

Google использует систему для идентификации запросов, направленных на получение фактов о конкретной сущности (Entity-Triggering Questions). Система анализирует топовые результаты поиска, определяет, какие сущности чаще всего ассоциируются с этими документами, и выбирает наиболее релевантную сущность. Затем система извлекает запрошенный атрибут (например, адрес, дату рождения) из своей базы данных сущностей или находит лучший сниппет, содержащий этот факт, чтобы предоставить прямой ответ пользователю.

US9081814B1
2015-07-14

Knowledge Graph
Семантика и интент
SERP

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

US8577897B2
2013-11-05

SERP
Семантика и интент
EEAT и качество

Как Google связывает локальные бизнес-данные (адреса и телефоны) с веб-сайтами для показа в результатах поиска

Google использует систему для интеграции локальной информации (адреса, телефоны) непосредственно в основную поисковую выдачу. Система сопоставляет структурированные данные о бизнесе из локальной базы данных с соответствующими URL в веб-индексе, разрешая конфликты и неоднозначности. Это позволяет показывать контактную информацию и ссылки на карты прямо в сниппете результата поиска.

US7624101B2
2009-11-24

Local SEO
Индексация
SERP

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента

Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.

US8412699B1
2013-04-02

Свежесть контента
Поведенческие сигналы
SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа