Как Google использует окружающие слова для исправления опечаток в названиях брендов, продуктов и именах людей в запросах

GENERATING CONTEXT-BASED SPELL CORRECTIONS OF ENTITY NAMES (Генерация контекстно-зависимых исправлений орфографии имен сущностей)

US8402032B1
Google LLC
2011-03-24
2013-03-19

Google создает базу данных, связывающую имена сущностей (бренды, люди, продукты) со словами, которые часто появляются рядом с ними (контекст). Когда пользователь допускает опечатку в имени, Google использует другие слова в этом запросе как контекстные подсказки, чтобы найти наиболее вероятную подразумеваемую сущность, учитывая её популярность, силу связи с контекстом и вероятность конкретной опечатки.

Какую проблему решает

Патент решает проблему неэффективности традиционных систем проверки орфографии при обработке запросов, содержащих опечатки в именах сущностей (Entity Names) — например, именах людей, названиях компаний, брендов или продуктов. Традиционные системы полагаются на словари, в которых часто отсутствуют имена собственные, особенно менее известные. Это приводит к тому, что система не может исправить опечатку и возвращает нерелевантные результаты.

Что запатентовано

Запатентована система для исправления орфографии имен сущностей, основанная на контексте. Система создает и использует Context-Entity Name Index, который хранит статистические связи между сущностями и словами, которые появляются рядом с ними в текстах (Context Terms). При получении запроса с опечаткой система использует другие слова в запросе как контекст, чтобы найти наиболее вероятную правильную форму написания сущности.

Как это работает

Система работает в двух режимах: офлайн и онлайн.

Офлайн: Система анализирует большой корпус текстов (веб-документы, логи запросов) для создания индекса. Она идентифицирует name-context pairs и вычисляет Context Consistency Measure ( $P(c|e)$ – вероятность контекста при наличии сущности). Также вычисляется общая популярность сущности (Popularity Measurement, $P(e)$ ).

Онлайн: При получении запроса система разделяет его на предполагаемое имя сущности (e') и контекстные термины (c). Она ищет в индексе кандидатов (e), которые ассоциированы с этим контекстом. Кандидаты оцениваются по формуле, учитывающей $P(e)$ , $P(c|e)$ и вероятность того, что e' является опечаткой для e (Mistyping Probability, $P(e'|e)$ ). Лучший кандидат используется для исправления запроса.

Актуальность для SEO

Высокая. Понимание сущностей и контекста является фундаментом современного семантического поиска (Knowledge Graph, BERT, MUM). Хотя методы распознавания сущностей эволюционировали, базовая проблема исправления опечаток в именах собственных, особенно для менее известных сущностей (Long Tail Entities), остается актуальной. Описанный механизм контекстного анализа для уточнения намерений пользователя критически важен.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в области брендового поиска (Branded Search) и управления репутацией (ORM/SERM). Он напрямую влияет на то, как Google интерпретирует запросы, связанные с конкретными брендами, продуктами или персоналиями. Если контекстные ассоциации вокруг сущности слабые или размытые, Google может неверно исправлять опечатки в ее названии, уводя трафик. Это подчеркивает важность создания четких и последовательных контекстных сигналов вокруг ключевых сущностей.

Термины и определения

Context Consistency Measure (P(c|e)) (Мера согласованности контекста): Оценка вероятности того, что контекстный термин 'c' появится в тексте, при условии, что в этом тексте присутствует имя сущности 'e'. Ключевая метрика для определения силы связи между сущностью и контекстом.
Context Term (Контекстный термин): Слово или фраза, появляющиеся в тексте рядом с именем сущности. В контексте обработки запроса — это слова в запросе, не являющиеся именем сущности.
Context-Entity Name Index (Индекс контекста и имен сущностей): Структура данных (индекс), хранящая name-context pairs и связанные с ними метрики (Context Consistency Measure, Popularity Measurement). Позволяет быстро находить сущности по заданному контексту.
Entity Name (Имя сущности): Один или несколько терминов, используемых для обозначения сущности (человек, бизнес, организация, продукт, бренд и т.д.).
Fingerprint Buckets (Бакеты отпечатков): Механизм для группировки схожих источников текста (например, на основе хеша контента или URL). Используется для обнаружения дублированного контента и предотвращения искусственного завышения оценок (Claims 14, 15).
Mistyping Probability (P(e'|e)) (Вероятность опечатки): Оценка вероятности того, что пользователь, введя имя 'e'', на самом деле имел в виду имя 'e'. Может рассчитываться на основе расстояния редактирования (Edit Distance, Bucket Distance) или анализа логов запросов (как часто пользователи исправляют 'e'' на 'e').
Name-Context Pair (Пара имя-контекст): Структура данных, связывающая Entity Name и Context Term, которые встретились вместе в исходном тексте.
Popularity Measurement (P(e)) (Мера популярности): Оценка вероятности появления имени сущности 'e' в тексте. Отражает общую частотность или известность сущности (Claim 7).
Window of Text (Окно текста): Область текста, ассоциированная с именем сущности, из которой извлекаются контекстные термины. Может включать заданное количество слов до и после имени, заголовок документа (Title), анкорный текст (Anchor Text) ссылок или даже текст предыдущих запросов пользователя в рамках сессии (Claim 6).

Ключевые утверждения (Анализ Claims)

Патент описывает как офлайн-процесс создания индекса, так и онлайн-процесс его использования для исправления запросов.

Claim 1, 20 (Независимые пункты): Описывают офлайн-процесс генерации индекса контекста и сущностей.

Система получает тексты из множества источников (Text Sources).
Из текстов извлекаются множественные name-context pairs.
Для каждой уникальной пары вычисляется Context Consistency Measure ( $P(c|e)$ ). Эта мера оценивает вероятность того, что если имя сущности появляется в тексте, то и контекстный термин также появится в этом тексте.
Система сохраняет данные (context-entity name data) в виде поисковой структуры (индекса).

Claim 11 (Зависимый от 1): Детализирует процесс фильтрации данных в индексе.

Система генерирует оценку (score) для каждой name-context pair.
Пары, чья оценка ниже определенного порога, исключаются из индекса.

Claim 12 (Зависимый от 11): Определяет, как рассчитывается оценка для фильтрации.

Оценка для пары рассчитывается на основе $P(c|e)$ этой пары и средней меры согласованности для данного контекстного термина со всеми сущностями. Это позволяет выделить пары, где связь значительно сильнее средней (т.е. контекст специфичен для сущности).

Claim 14 и 15 (Зависимые от 11): Описывают механизм корректировки оценок для борьбы со спамом или дублированным контентом (Anti-Spam/Anti-Duplication).

Если пара имя-контекст извлечена из нескольких источников, система анализирует схожесть этих источников (используя Fingerprint Buckets, Claim 15). Если распределение источников сильно искажено (skewed from a normal distribution), что указывает на дублирование контента, оценка этой пары дисконтируется (понижается). Это предотвращает искусственное завышение оценок из-за многократного повторения одного и того же текста.

Где и как применяется

Изобретение применяется на двух ключевых этапах поисковой архитектуры.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит офлайн-обработка данных для построения Context-Entity Name Index. Система анализирует текстовые источники (веб-документы, логи запросов), извлекает сущности, определяет их контекст (Window of Text) и рассчитывает ключевые метрики: $P(c|e)$ и $P(e)$ . Также на этом этапе могут рассчитываться данные для $P(e'|e)$ на основе анализа логов исправлений запросов пользователями.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения изобретения в реальном времени. Когда пользователь вводит запрос, система (Spell Correction Engine) использует описанный механизм для анализа запроса, определения потенциальной сущности и контекста, и использования Context-Entity Name Index для поиска и оценки вероятных правильных написаний (Query Rewriting).

Входные данные (Онлайн):

Исходный запрос пользователя.
Данные текущей поисковой сессии пользователя (для дополнительного контекста).
Context-Entity Name Index.
Данные о вероятностях опечаток (Mistyping Probability).

Выходные данные (Онлайн):

Исправленный запрос (для автоматического использования поиском).
ИЛИ Предложение по исправлению запроса (например, блок "Did you mean?").
ИЛИ Список возможных вариантов исправления.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на запросы, содержащие имена сущностей (брендовые запросы, персональные запросы, названия продуктов). Особенно критично для сущностей, которые не являются общеизвестными и отсутствуют в стандартных словарях.
Конкретные ниши: Влияет на все ниши, но особенно заметно в локальном поиске (поиск конкретных специалистов или местных бизнесов по имени/названию), электронной коммерции (поиск нишевых брендов или моделей) и контентных проектах (поиск авторов, экспертов).

Когда применяется

Триггеры активации: Алгоритм активируется, когда система идентифицирует в запросе потенциальное имя сущности (часто определяемое как редкий термин или последовательность терминов, похожая на имя) в сочетании с другими контекстными словами.
Условия работы и Исключения: Применяется, когда стандартные методы проверки орфографии не дают уверенного результата. Патент также упоминает, что система может не активироваться, если исходное имя сущности уже достаточно популярно (высокий $P(e)$ ) или если связь между исходным именем и контекстом уже достаточно сильна (высокий Relation Score).

Пошаговый алгоритм

Процесс А: Офлайн-генерация индекса (Index Generation)

Сбор данных: Получение текстов из источников (веб-документы, логи запросов).
Извлечение пар: Идентификация имен сущностей (e) в текстах. Для каждой сущности определяется Window of Text (окружающие слова, заголовки, анкоры, предыдущие запросы сессии). Из этого окна извлекаются контекстные термины (c), формируя name-context pairs.
Расчет согласованности контекста: Для каждой уникальной пары (e, c) вычисляется Context Consistency Measure $P(c|e)$ .
Расчет популярности: Для каждой сущности 'e' вычисляется Popularity Measurement $P(e)$ .
Фильтрация и оценка пар: Расчет оценки (score) для каждой пары, чтобы отфильтровать слабые связи. Оценка учитывает $P(c|e)$ в сравнении со средней согласованностью для этого контекста.
Детектирование дубликатов: Анализ источников пар с помощью Fingerprint Buckets. Если пара часто встречается в схожем контенте (спам, шаблоны), ее оценка дисконтируется (понижается).
Хранение: Сохранение обработанных данных в Context-Entity Name Index.

Процесс Б: Онлайн-исправление запроса (Spell Correction)

Получение запроса.
Идентификация компонентов: Запрос разделяется на предполагаемое имя сущности (e', возможно с опечаткой) и контекстные термины (c).
Генерация кандидатов: Система ищет кандидатов на исправление (e) в Context-Entity Name Index. Поиск осуществляется по контекстным терминам (c) и/или частям имени e'.
Фильтрация кандидатов (Опционально): Кандидаты могут фильтроваться по степени отличия от исходного имени e' (например, используя Edit Distance или Bucket Distance).
Оценка кандидатов: Для каждого кандидата 'e' рассчитывается итоговая оценка. Приблизительная формула: $P(e) \times P(c|e) \times P(e'|e)$ .
Выбор и ответ: Выбирается кандидат с наивысшей оценкой. Система использует его для генерации ответа (автоматическое исправление запроса, предложение "Did you mean?" и т.д.).

Какие данные и как использует

Данные на входе

Контентные факторы: Текст веб-документов. Система анализирует текст, окружающий имена сущностей (Window of Text).
Структурные факторы: Упоминается использование заголовков документов (Title) как части Window of Text (Claim 6).
Ссылочные факторы: Упоминается возможность использования анкорного текста (Anchor Text) ссылок, ведущих на документ или из него, как части Window of Text.
Поведенческие факторы (Логи запросов): Query Logs и Query Sessions используются многократно:
1. Как источник текстов для построения индекса (анализ того, какие сущности и контексты пользователи вводят вместе) (Claim 4).
2. Для расчета Mistyping Probability $P(e'|e)$ путем анализа того, как часто пользователи исправляют одно написание на другое в рамках сессии.
3. Для определения связанных имен (Related Names/Nicknames) на основе последовательных уточнений запросов (Claim 17).
Технические факторы: URL или домены документов используются в процессе дисконтирования оценок для обнаружения дублированного контента (с помощью Fingerprint Buckets) (Claim 15).
Пользовательские факторы: История поиска пользователя в текущей сессии может использоваться как дополнительный контекст (Window of Text) при исправлении текущего запроса.

Какие метрики используются и как они считаются

Система использует три ключевые метрики для оценки кандидатов на исправление:

Context Consistency Measure $P(c|e)$ : Оценивает, насколько хорошо контекст запроса соответствует кандидату. Рассчитывается офлайн. Пример формулы: (Количество раз, когда 'c' появляется в окнах для 'e') / (Общее количество терминов в окнах для 'e').
Popularity Measurement $P(e)$ : Оценивает общую вероятность кандидата. Рассчитывается офлайн. Пример формулы: (Количество встреч сущности 'e') / (Общее количество встреч всех сущностей).
Mistyping Probability $P(e'|e)$ : Оценивает вероятность того, что исходное написание e' является опечаткой для кандидата e.

Итоговая оценка (Score): Итоговая оценка кандидата 'e' при запросе с именем 'e'' и контекстом 'c' аппроксимируется как произведение этих трех метрик:

$\text{Score} \approx P(e) \times P(c|e) \times P(e'|e)$

Контекст определяет сущность для целей исправления: Ключевой вывод патента заключается в том, что слова, окружающие имя сущности (в запросе и в индексе), являются определяющими для её идентификации, особенно когда имя написано с ошибкой. Система полагается на Context Consistency Measure как на основной сигнал релевантности.
Триангуляция сигналов (Трехфакторная модель): Эффективное исправление достигается за счет комбинации трех факторов: насколько хорошо контекст подходит к сущности ( $P(c|e)$ ), насколько популярна сущность в целом ( $P(e)$ ) и насколько вероятно, что исходное написание было опечаткой для данного кандидата ( $P(e'|e)$ ).
Важность "Окна Текста" и Структурных Элементов: Определение Window of Text критически важно. Оно включает не только близлежащие слова на странице, но явно упоминает заголовки (Titles) и анкорные тексты (Anchor Texts), подтверждая их роль в формировании контекста сущности.
Защита от манипуляций (Anti-Spam): Патент включает конкретные механизмы (Fingerprint Buckets) для предотвращения искусственного завышения оценок путем дисконтирования данных, полученных из дублированного или шаблонного контента (boilerplate content).
Зависимость от поведения пользователей: Система активно обучается на поведении пользователей, используя логи запросов как для построения индекса контекста, так и для определения вероятностей опечаток, связанных имен (синонимов/псевдонимов) и использования истории сессии как контекста.

Best practices (это мы делаем)

Создание сильных контекстных ассоциаций (Co-occurrence): Необходимо активно управлять контекстом вокруг ключевых сущностей (названия бренда, продуктов, имена экспертов). Убедитесь, что эти сущности постоянно упоминаются вместе с релевантными дескрипторами (например, "[Бренд] + [Категория продукта]" или "[Имя] + [Должность/Специализация]") как на сайте, так и на внешних ресурсах. Это увеличивает Context Consistency Measure $P(c|e)$ .
Оптимизация заголовков и анкоров: Поскольку патент явно указывает, что заголовки (Titles) и анкорные тексты (Anchor Text) являются частью Window of Text, их следует оптимизировать для укрепления связи между сущностью и ее контекстом. Входящие ссылки и внутренняя перелинковка должны использовать релевантный контекст.
Повышение популярности сущности (P(e)): Работайте над увеличением количества качественных упоминаний сущности в интернете (Digital PR, контент-маркетинг). Чем выше Popularity Measurement $P(e)$ , тем выше вероятность, что система предложит вашу сущность в качестве исправления при опечатке.
Консистентность NAP для локального SEO: Для локального бизнеса критически важно обеспечить единообразное упоминание названия компании (Name) вместе с элементами адреса (Address, Phone). Это создает сильную контекстную связь с локацией, помогая корректно обрабатывать локальные запросы с опечатками.

Worst practices (это делать не надо)

Изоляция сущностей: Размещение названия бренда или имени человека без окружающего релевантного контекста. Это затрудняет формирование name-context pairs.
Размытие контекста: Использование названия бренда в слишком широком или нерелевантном контексте может ослабить сильные тематические ассоциации, снижая $P(c|e)$ для целевых терминов.
Манипуляции через дублированный контент: Попытки искусственно завысить $P(c|e)$ путем тиражирования одинаковых текстов (boilerplate content) на разных сайтах или страницах. Патент явно описывает механизм (Fingerprint Buckets) для дисконтирования оценок, полученных из схожих источников.

Стратегическое значение

Патент подтверждает стратегическую важность управления семантическим окружением сущностей (Entity Context Management). Для SEO это означает, что работа над брендом должна включать не только наращивание упоминаний, но и контроль за тем, в каком контексте эти упоминания происходят. Система демонстрирует, как Google использует статистический анализ совместной встречаемости (co-occurrence) для разрешения неоднозначностей и понимания намерений пользователя, что является базовым принципом семантического поиска и перехода к Entity-Oriented Search.

Практические примеры

Сценарий: Оптимизация контекста для локального специалиста

Цель: Гарантировать, что при опечатках в фамилии доктора Google правильно идентифицирует его, используя контекст специализации и города.

Анализ сущности и контекста: Сущность (e) — "Dr. William Jones". Ключевой контекст (c) — {"Doctor", "Sparta", "Wisconsin"}. Частая опечатка (e') — "Will Jonis".
Действия по оптимизации (Усиление P(c|e)):
- На странице профиля доктора убедиться, что его имя находится в непосредственной близости от контекстных терминов в основном контенте.
- Включить эти термины в Title страницы.
- При получении ссылок (например, из локальных каталогов) стараться, чтобы анкорный текст или околоссылочный текст включал эти контекстные термины.
Результат: Когда пользователь вводит запрос "doctor will jonis sparta wisconsin", система использует контекст для поиска кандидатов. "William Jones" получит высокую оценку благодаря сильному $P(c|e)$ и высокой вероятности опечатки $P(e'|e)$ (Jonis -> Jones), и будет предложен в качестве исправления.

Как этот патент влияет на стратегию брендового SEO (Branded Search)?

Он критически важен. Патент показывает, что Google полагается на контекст вокруг вашего бренда, чтобы отличить его от похожих названий и правильно исправлять опечатки. Для защиты брендового трафика необходимо убедиться, что ваш бренд постоянно упоминается вместе с ключевыми дескрипторами (категория продукта, сфера деятельности). Это укрепляет Context Consistency Measure и гарантирует, что при опечатках пользователи все равно найдут вас.

Что такое "Window of Text" и почему это важно для SEO?

Window of Text — это область текста, которую Google анализирует для определения контекста сущности. Патент указывает, что это могут быть слова непосредственно до и после имени, заголовок (Title) документа, анкорный текст (Anchor Text) ссылок и даже предыдущие запросы пользователя в сессии. Для SEO это означает, что оптимизация этих элементов напрямую влияет на то, как Google понимает и классифицирует ваши ключевые сущности (бренд, продукты, экспертов).

Как рассчитывается Context Consistency Measure P(c|e)?

Это оценка вероятности увидеть контекстное слово 'c' при наличии сущности 'e'. Упрощенно, это частота, с которой слово 'c' появляется в Window of Text сущности 'e', деленная на общее количество слов в этих окнах. Для SEO-специалиста это означает, что чем чаще релевантное слово появляется рядом с вашим брендом в качественных источниках, тем сильнее связь.

Влияет ли популярность бренда на вероятность его правильного исправления?

Да, напрямую. Одним из трех компонентов формулы оценки является Popularity Measurement $P(e)$ . Более популярные (часто упоминаемые в интернете или запрашиваемые) сущности имеют больше шансов быть выбранными в качестве исправления, при прочих равных условиях. Это подчеркивает важность Digital PR и наращивания качественных упоминаний бренда.

Что такое Mistyping Probability P(e'|e) и как Google её определяет?

Это вероятность того, что пользователь допустил конкретную опечатку (ввел e', имея в виду e). Google определяет это двумя основными способами: анализируя логи запросов (как часто пользователи сами исправляют e' на e в рамках одной сессии) и вычисляя расстояние редактирования (Edit Distance или Bucket Distance — насколько сильно отличаются два написания по буквам). SEO-специалист напрямую не влияет на эту метрику.

Есть ли в патенте механизмы защиты от спама и манипуляций контекстом?

Да. Патент специально описывает механизм дисконтирования (понижения) оценок для name-context pairs, которые были извлечены из схожих источников (Claims 14, 15). Если система видит, что одна и та же пара многократно повторяется в дублированном или шаблонном контенте (определяется через Fingerprint Buckets), вклад этих повторений в общую оценку снижается.

Учитывает ли система синонимы или псевдонимы (nicknames)?

Да. Патент описывает механизм определения связанных имен (Related Names) (Claim 17), например, путем анализа последовательных запросов пользователей (когда пользователь меняет "Joe" на "Joseph"). Эти связанные имена могут использоваться при поиске кандидатов в индексе, расширяя охват системы и улучшая точность идентификации сущностей.

Что делать, если Google неправильно исправляет название моего бренда?

Это указывает на то, что у другой сущности (куда ведет исправление) более сильная комбинация популярности $P(e)$ и согласованности контекста $P(c|e)$ для данного запроса. Необходимо срочно усилить контекстные сигналы вокруг вашего бренда на вашем сайте, в заголовках, анкорах и внешних упоминаниях, чтобы перевесить оценку конкурента.

Использует ли Google историю поиска пользователя для исправления опечаток в именах?

Да. Патент явно указывает, что Window of Text может включать текст из предыдущих запросов, отправленных пользователем в рамках той же сессии. Это позволяет системе использовать недавний контекст пользователя для более точного исправления текущего запроса, даже если сам текущий запрос содержит мало информации.

Применяется ли этот механизм только к именам людей?

Нет. В патенте указано, что сущность (Entity) может быть человеком, бизнесом, организацией, продуктом, брендом, командой, произведением искусства или музыкальным произведением. Механизм универсален для любых названий, которые могут отсутствовать в стандартных словарях и требуют контекста для идентификации.

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам

Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.

US8868587B1
2014-10-21

Семантика и интент

Как Google определяет, ищет ли пользователь информацию НА сайте сущности (бренда/издателя) или О ней, и переписывает запрос

Google использует систему для распознавания сущностей (например, брендов, новостных изданий) в поисковых запросах. Система оценивает, является ли название сущности общеупотребительным словом. Если название уникально (например, «MSNBC»), запрос автоматически переписывается для поиска только на сайте этой сущности. Если название общеупотребительно (например, «Time»), выполняется обычный поиск, но предлагается ссылка для ограничения поиска сайтом этой сущности.

US7536382B2
2009-05-19

Семантика и интент

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google оптимизирует проверку орфографии в длинных запросах, приоритизируя исправление наиболее вероятных ошибок

Google использует систему для эффективной проверки орфографии в длинных запросах, чтобы избежать задержек (latency). Вместо детальной проверки каждого слова система быстро оценивает вероятность ошибки для всех терминов, используя языковые и N-граммные модели. Затем она выбирает только ограниченное подмножество наиболее подозрительных терминов для ресурсоемкой коррекции, обеспечивая баланс скорости и точности.

US9317606B1
2016-04-19

Как Google исправляет грамматически некорректные запросы пользователей, изучающих язык, предлагая альтернативы

Патент описывает систему, преимущественно для голосовых ассистентов, которая определяет, что пользователь сформулировал запрос грамматически некорректно («плохо сформированная фраза») на неродном для него языке. Вместо выполнения команды система предлагает корректный вариант («хорошо сформированную фразу»), используя для этого предварительно рассчитанные векторные представления (embeddings) и анализ языковой компетентности пользователя.

US12019999B2
2024-06-25

Семантика и интент
Мультиязычность

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов

Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).

US8060405B1
2011-11-15

Антиспам
Ссылки
SERP

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP