SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам

DETERMINING CORRECTION OF QUERIES WITH POTENTIALLY INACCURATE TERMS (Определение коррекции запросов с потенциально неточными терминами)
  • US8868587B1
  • Google LLC
  • 2012-05-29
  • 2014-10-21
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.

Описание

Какую проблему решает

Патент решает проблему неэффективности традиционных методов коррекции запросов (основанных на истории логов или словарях) при обработке сложных случаев. К ним относятся уникальные запросы, редкие запросы (long-tail queries), запросы с опечатками, которые трудно исправить (например, омофоны), и запросы типа "класс-экземпляр" (class-instance queries), где пользователи путают взаимозаменяемые понятия (например, бренды или телеканалы).

Что запатентовано

Запатентована система коррекции запросов, которая идентифицирует потенциально неточный термин (potentially inaccurate term) и генерирует "производные запросы" (derivative queries) без этого термина. Система анализирует ресурсы, найденные по этим производным запросам, чтобы определить подходящий термин для замены. Ключевая особенность — коррекция определяется на основе контента найденных ресурсов, а не на основе анализа результатов исходного (ошибочного) запроса.

Как это работает

Механизм работает в несколько этапов:

  • Идентификация проблемы: Система определяет, что запрос содержит потенциально неточный термин. Триггером служит низкое качество результатов исходного запроса (Resource Quality Measure).
  • Анализ неточности: Определяется тип ошибки: Типографическая (опечатка) или Понятийная (ошибка класса).
  • Генерация производных запросов:
    • Для опечаток: Неточный термин удаляется.
    • Для ошибок класса: Неточный термин заменяется другими терминами того же класса.
  • Поиск и анализ: Производные запросы отправляются в поиск.
  • Выбор коррекции:
    • Для опечаток: Из заголовков, анкоров и URL найденных ресурсов извлекаются кандидаты, выбирается наиболее похожий на исходный термин.
    • Для ошибок класса: Выбирается тот вариант замены, который дал наивысшее качество результатов поиска.
  • Применение: Генерируется исправленный запрос (corrected query), который используется для финального поиска или предлагается пользователю.

Актуальность для SEO

Высокая. Понимание запросов, особенно сложных, редких и содержащих ошибки, является центральной задачей поисковых систем. Способность использовать контекст оставшихся слов для исправления ошибок остается критически важной для обеспечения качества поиска, особенно с ростом голосового ввода и разнообразия пользовательских формулировок. Один из изобретателей, Trystan Upstill, является ключевым инженером в области понимания запросов Google.

Важность для SEO

Патент имеет высокое значение (8/10) для понимания механизмов обработки запросов Google. Он демонстрирует, как система использует контекст, предоставляемый точными терминами в запросе, для исправления неточных. Это подчеркивает критическую важность использования четких, общепринятых формулировок, фраз (n-грамм) и терминологии в ключевых элементах документа (Title, Anchors, URL), поскольку именно эти элементы используются для генерации и валидации терминов на замену.

Детальный разбор

Термины и определения

Class of Related Terms (Класс связанных терминов)
Набор терминов, которые часто путают пользователи (commonly confused terms). Например, названия телеканалов (NBC, ABC, CBS) или омофоны.
Corrected Query (Исправленный запрос)
Запрос, в котором потенциально неточный термин заменен на исправленный термин (Corrected Term), найденный системой.
Derivative Query (Производный запрос)
Запрос, созданный на основе исходного путем удаления Potentially Inaccurate Term (при типографической ошибке) или путем его замены на другой термин из того же класса (при ошибке класса).
Inaccuracy Criterion (Критерий неточности)
Условие, указывающее, что термин в контексте запроса является потенциально неточным. Основные типы: Typographic Error Criterion и Class Criterion.
Potentially Inaccurate Term (Потенциально неточный термин)
Термин в исходном запросе, который система идентифицирует как ошибочный (опечатка или понятийная ошибка).
Resource Quality Measure (Мера качества ресурсов)
Метрика, оценивающая качество набора ресурсов, найденных в ответ на запрос. Может основываться на количестве результатов, их поисковых оценках (search scores) или авторитетности.
Synonym Quality Measure (Мера качества синонимов)
Метрика, оценивающая качество и силу синонимических связей термина. Наличие сильных синонимов указывает на то, что термин, вероятно, не является опечаткой.
Usage Quality Measure (Мера качества использования)
Метрика, оценивающая, насколько активно синонимы термина используются в корпусе ресурсов. Учитывает контекст (n-граммы, фразы) и важность вхождений (заголовки, анкоры, URL).

Ключевые утверждения (Анализ Claims)

Патент описывает два основных сценария коррекции: исправление типографических ошибок и исправление ошибок класса (понятийных ошибок).

Claim 1 (Независимый пункт): Описывает общий фреймворк.

  1. Система получает исходный запрос.
  2. Определяется, что термин запроса соответствует Inaccuracy Criterion. Это определение основано, по крайней мере частично, на том, что Resource Quality Measure результатов исходного запроса НЕ достигает порогового значения (т.е. выдача низкого качества).
  3. В ответ на это:
    • Термин помечается как Potentially Inaccurate Term.
    • Генерируются Derivative Queries, которые НЕ включают этот термин.
    • Производные запросы выполняются, система получает наборы ресурсов.
    • Определяется Corrected Term на основе этих наборов ресурсов. Критически важно: этот выбор происходит независимо от результатов исходного запроса.
    • Генерируется Corrected Query путем замены неточного термина.
    • Выполняется поисковая операция с использованием Corrected Query.

Сценарий 1: Типографические ошибки (Claims 2-9)

Claim 2, 3, 4: Детализируют критерий неточности как "типографически некорректный" термин. Производный запрос генерируется путем удаления неточного термина (Claim 2). Термин считается некорректным, если:

  1. Synonym Quality Measure НЕ достигает порога (Claim 3).
  2. Usage Quality Measure (качество использования синонимов термина в контексте ресурсов) также низкая (Claim 4).

Claim 5: Уточняет, что Usage Quality Measure основана на использовании синонимов в биграммах (bigram usage), заголовках (title usage) и анкорном тексте (anchor usage).

Claim 6: Описывает процесс выбора исправления.

  1. Кандидаты генерируются из терминов, найденных в ресурсах по производному запросу.
  2. Для каждого кандидата определяется мера схожести (similarity measure) с неточным термином.
  3. Выбирается кандидат с наивысшей схожестью.

Claim 7, 8, 9: Уточняют источники кандидатов: заголовки ресурсов (title terms), анкорный текст (anchor terms), термины в URL (uniform resource locator terms), а также предложения запросов (term suggestions), совпадающие по основе (term stem) с неточным термином.

Сценарий 2: Ошибки класса (Claims 10-11)

Claim 10: Детализирует критерий неточности как принадлежность термина к Class of Related Terms.

  1. Система выбирает другие термины из этого класса как кандидатов.
  2. Derivative Queries генерируются путем замены неточного термина на каждого из этих кандидатов.

Claim 11: Описывает процесс выбора исправления.

  1. Для каждого производного запроса определяется Resource Quality Measure.
  2. Выбирается кандидат из того производного запроса, который показал наивысшее качество результатов.

Где и как применяется

Изобретение применяется на ранних этапах обработки запроса, но использует данные всего поискового стека.

INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует контент, который позже будет использоваться для генерации кандидатов на замену: заголовки, анкорный текст, текст в URL, а также вычисляет частотность n-грамм (включая биграммы). Также рассчитываются метрики авторитетности ресурсов, которые могут использоваться в Resource Quality Measure.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Это механизм коррекции и переписывания запроса (Query Correction Subsystem).

  1. Анализ исходного запроса: Оценка качества ожидаемой выдачи и проверка наличия потенциальных неточностей.
  2. Генерация и выполнение производных запросов: Взаимодействие с поисковым индексом для получения результатов по измененным запросам.
  3. Анализ результатов и выбор коррекции: Извлечение кандидатов из результатов и выбор лучшего варианта замены.
  4. Переписывание запроса: Формирование Corrected Query.

RANKING / METASEARCH / RERANKING
Исправленный запрос поступает на этап ранжирования. В некоторых реализациях (Claim 12) результаты исправленного запроса могут смешиваться (blending) с результатами исходного запроса, что происходит на этапе METASEARCH или RERANKING.

Входные данные:

  • Исходный запрос пользователя.
  • Данные из индекса (ресурсы, их контент, оценки качества).
  • Данные о синонимах и их силе.
  • Данные о частотности использования терминов и n-грамм.
  • Предопределенные Class of Related Terms.
  • Данные для генерации предложений запросов (Query Suggestions).

Выходные данные:

  • Corrected Query (исправленный запрос).
  • Результаты поиска по исправленному запросу или предложение по его использованию (query suggestion).

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на редкие (long-tail), уникальные запросы и запросы, содержащие омофоны или часто путаемые термины (бренды, названия организаций, имена собственные).
  • Конкретные ниши: Ниши, где часто встречаются сложные названия, аббревиатуры или взаимозаменяемые понятия (например, телевидение, фармацевтика, технологии).

Когда применяется

Алгоритм активируется при выполнении нескольких условий:

  • Триггер активации: Resource Quality Measure для исходного запроса не достигает порогового значения. Это означает, что система не уверена в качестве или релевантности выдачи по запросу в его текущем виде.
  • Условие применения (Типографические ошибки): Если качество ресурсов низкое, система проверяет Synonym Quality Measure и Usage Quality Measure для терминов. Если обе эти меры также низкие, термин считается потенциально неточным.
  • Условие применения (Ошибки класса): Если качество ресурсов низкое И термин принадлежит к предопределенному Class of Related Terms.

Пошаговый алгоритм

Общий процесс обработки запроса

  1. Получение запроса: Система получает исходный запрос.
  2. Предварительная оценка качества: Оценивается Resource Quality Measure для исходного запроса.
  3. Проверка триггера: Если качество выше порога, выполняется стандартный поиск. Если ниже порога, активируется механизм коррекции.
  4. Определение типа неточности: Система проверяет наличие типографических ошибок и ошибок класса.

Сценарий А: Обработка типографической ошибки

  1. Валидация неточности: Проверяется, что Synonym Quality Measure и Usage Quality Measure термина низкие.
  2. Генерация производного запроса: Неточный термин удаляется из запроса.
  3. Выполнение поиска: Производный запрос отправляется в поиск.
  4. Сбор кандидатов: Из результатов поиска извлекаются кандидаты на замену. Источники: Заголовки, Анкоры, URL найденных ресурсов, а также Query Suggestions, основанные на основе (stem) неточного термина.
  5. Оценка кандидатов: Вычисляется Similarity Measure между кандидатами и исходным неточным термином (учитывая edit distance, фонетическое сходство, использование в биграммах).
  6. Выбор коррекции: Выбирается кандидат с наивысшей схожестью.

Сценарий Б: Обработка ошибки класса

  1. Идентификация класса: Определяется, что неточный термин принадлежит к Class of Related Terms.
  2. Выбор кандидатов: Другие члены этого класса выбираются как кандидаты на замену.
  3. Генерация производных запросов: Создаются запросы путем подстановки каждого кандидата вместо неточного термина.
  4. Выполнение поиска: Все производные запросы отправляются в поиск.
  5. Оценка качества: Для каждого набора результатов вычисляется Resource Quality Measure.
  6. Выбор коррекции: Выбирается кандидат из того производного запроса, который дал наивысшее качество результатов.

Завершение процесса

  1. Формирование исправленного запроса: Создается Corrected Query.
  2. (Опционально) Верификация: Проверяется, что исправленный запрос улучшает качество выдачи (соответствует verification criterion).
  3. Выполнение поисковой операции: Использование исправленного запроса для ранжирования или в качестве предложения пользователю.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные, извлеченные на этапе индексирования и доступные через различные сервисы.

  • Контентные факторы: Заголовки (Title Terms) ресурсов. Это ключевой источник кандидатов на замену.
  • Структурные факторы: Использование терминов в биграммах (Bigram Usage) и других n-граммах в тексте ресурсов.
  • Ссылочные факторы: Анкорный текст (Anchor Terms) входящих ссылок. Это также важный источник кандидатов.
  • Технические факторы: Термины в URL (Resource Locator Terms).
  • Поведенческие факторы: Данные для генерации предложений запросов (Term Suggestions), основанные на истории поисковых сессий (Query Logs).
  • Лингвистические данные: Данные о синонимах (для расчета Synonym Quality Measure), данные для стемминга (term stem), данные для оценки фонетического сходства и расстояния редактирования (edit distance).
  • Системные данные: Предопределенные Class of Related Terms. Оценки качества/авторитетности ресурсов (для расчета Resource Quality Measure).

Какие метрики используются и как они считаются

  • Resource Quality Measure: Агрегированная оценка качества набора результатов. Учитывает поисковые оценки (IR scores) и/или авторитетность топовых ресурсов. Используется как триггер для активации алгоритма и для выбора лучшей коррекции при ошибках класса.
  • Synonym Quality Measure: Оценка силы синонимических связей термина. Используется для фильтрации: если синонимы сильные, термин считается точным.
  • Usage Quality Measure: Оценка частоты и важности использования термина (или его синонимов) в корпусе. Рассчитывается на основе:
    • Bigram usage (частота в биграммах).
    • Title usage (частота в заголовках).
    • Anchor usage (частота в анкорах).
    Используется для фильтрации: если использование активное, термин считается точным (например, новое слово).
  • Similarity Measure: Оценка схожести между кандидатом на замену и исходным неточным термином. Используется при исправлении опечаток. Может включать:
    • Edit distance (расстояние редактирования).
    • Phonetic similarity (фонетическое сходство).
    • Совпадение биграмм (если замена кандидата создает частотную биграмму).

Выводы

  1. Контекстно-зависимая коррекция: Google может использовать точные термины в запросе как контекст для исправления неточного термина. Вместо того чтобы пытаться исправить ошибку изолированно, система ищет замену в ресурсах, релевантных остальной части запроса.
  2. Независимость от исходных результатов: Ключевая инновация заключается в том, что коррекция ищется на основе результатов Derivative Queries, игнорируя результаты исходного (ошибочного) запроса. Это позволяет находить исправления даже тогда, когда исходный запрос дает мусорную выдачу.
  3. Два distinct подхода к ошибкам: Патент четко разделяет типографические ошибки (опечатки) и понятийные ошибки (ошибки класса).
    • Опечатки исправляются поиском похожих терминов (Similarity Measure) в контексте запроса.
    • Ошибки класса исправляются путем тестирования альтернатив и выбора той, которая дает наилучшие результаты (Resource Quality Measure).
  4. Важность ключевых элементов документа: Заголовки (Titles), Анкоры (Anchors) и URL являются основными источниками для генерации кандидатов на замену при исправлении опечаток.
  5. Роль N-грамм (Фраз): Использование биграмм (Bigram Usage) явно упоминается как фактор для валидации точности термина и для оценки кандидатов на замену. Наличие общепринятых фраз помогает системе подтвердить коррекцию.
  6. Многоуровневая фильтрация качества: Система использует несколько уровней оценки качества (Resource, Synonym, Usage Quality Measures), чтобы избежать излишней коррекции и распознавать намеренное использование редких или новых слов.

Практика

Best practices (это мы делаем)

  • Оптимизация ключевых элементов (Title, Anchors, URL): Убедитесь, что заголовки страниц и анкорный текст входящих ссылок содержат четкие, правильные и релевантные термины. Эти элементы напрямую используются системой для поиска исправлений. Если пользователь допустит опечатку в одном слове запроса, ваш Title может стать источником правильного термина.
  • Использование общепринятых фраз (N-граммы): Создавайте контент, который использует естественные и распространенные фразы (биграммы). Патент указывает, что совпадение биграмм повышает уверенность в коррекции. Например, использование "Atlanta Falcons" повышает уверенность по сравнению с использованием этих слов по отдельности.
  • Построение авторитетности (для ошибок класса): Для тематик, где пользователи часто путают понятия (бренды, модели, локации), критически важно стать наиболее авторитетным источником для правильной комбинации терминов. При исправлении ошибок класса Google выберет ту замену, которая ведет к результатам с наивысшим Resource Quality Measure.
  • Сигнализация правильной терминологии: Если в вашей нише есть термины, которые часто пишут неправильно или путают (омофоны), последовательно используйте правильный вариант в важных зонах документа (заголовки, выделенный текст). Это увеличивает вероятность того, что ваш ресурс будет использован как источник коррекции.

Worst practices (это делать не надо)

  • Неестественные формулировки в Title и Anchors: Использование переоптимизированных, неестественных или "кривых" формулировок в заголовках и анкорах может снизить вероятность того, что система извлечет из них правильные термины для коррекции запросов пользователей.
  • Игнорирование общепринятых фраз: Попытки ранжироваться по отдельным ключевым словам без учета их естественного фразового окружения (n-грамм) снижают способность контента участвовать в процессе контекстной коррекции запросов.
  • Создание двусмысленности в контенте: Если контент смешивает понятия из одного класса (например, обсуждает программы разных телеканалов без четкого указания принадлежности), это может запутать систему при попытке исправить ошибку класса в запросе пользователя.

Стратегическое значение

Этот патент подтверждает стратегию Google, направленную на глубокое понимание контекста запроса и использование самого веб-корпуса как источника лингвистических данных. Для SEO это означает переход от изолированной оптимизации под ключевые слова к обеспечению того, чтобы контент соответствовал общепринятым языковым паттернам и являлся авторитетным ответом на комбинацию терминов. Стратегия должна фокусироваться на ясности, точности терминологии и построении Topical Authority, чтобы система идентифицировала ресурс как источник высококачественного контента (High Resource Quality Measure).

Практические примеры

Сценарий 1: Исправление типографической ошибки (Опечатка в названии)

  1. Исходный запрос: [Schedule Pro Football Atlanta Flacuns]
  2. Проблема: Система видит низкий Resource Quality Measure. Термин "Flacuns" имеет низкие Synonym и Usage Quality Measures.
  3. Действие системы: Генерируется производный запрос: [Schedule Pro Football Atlanta].
  4. Анализ результатов: В результатах поиска по производному запросу система находит ресурсы, в заголовках и анкорах которых часто встречается термин "Falcons".
  5. Выбор коррекции: "Falcons" имеет высокую схожесть (малое edit distance) с "Flacuns" и формирует частотную биграмму "Atlanta Falcons".
  6. Результат для SEO: Сайт, у которого в Title есть "Atlanta Falcons Schedule", будет найден и использован как источник коррекции, получив трафик по исходному ошибочному запросу.

Сценарий 2: Исправление ошибки класса (Перепутанный телеканал)

  1. Исходный запрос: [program schedule the voice AMC]
  2. Проблема: Низкий Resource Quality Measure. Термин "AMC" принадлежит к классу "Телеканалы".
  3. Действие системы: Генерируются производные запросы с подстановкой других каналов: [program schedule the voice CBS], [...NBC], [...ABC].
  4. Анализ результатов: Система оценивает Resource Quality Measure для каждого варианта. Запрос с "NBC" дает наилучшие, наиболее авторитетные результаты.
  5. Выбор коррекции: Выбирается "NBC".
  6. Результат для SEO: Официальный сайт шоу на NBC или авторитетный сайт с телепрограммой, который показал наивысшее качество по запросу [...NBC], получит показ по исходному запросу, даже если пользователь искал AMC.

Вопросы и ответы

Что такое "Производный запрос" (Derivative Query) в контексте этого патента?

Это модифицированная версия исходного запроса, используемая для поиска исправления. Если система подозревает опечатку, производный запрос создается путем удаления неточного термина. Если система подозревает понятийную ошибку (ошибку класса), она создает несколько производных запросов, подставляя вместо неточного термина альтернативы из того же класса.

Как система решает, нужно ли вообще исправлять запрос?

Основным триггером является низкая "Мера качества ресурсов" (Resource Quality Measure) для исходного запроса. Если Google видит, что по запросу пользователя выдача получается низкокачественной, нерелевантной или её недостаточно, он активирует механизм поиска потенциально неточных терминов.

Откуда Google берет варианты для замены при исправлении опечаток?

Источники кандидатов четко определены: это термины, найденные в Заголовках (Titles), Анкорном тексте (Anchors) и URL ресурсов, которые были найдены по производному запросу (т.е. по запросу без опечатки). Также используются данные из системы Query Suggestions, основанные на частичном совпадении (stem) с неточным термином.

Что это значит для оптимизации Title и Анкоров?

Это критически важно. Ваши Titles и анкоры входящих ссылок буквально служат словарем для системы коррекции Google. Использование четких, правильных и релевантных формулировок в этих элементах помогает Google понять, как правильно интерпретировать и исправлять запросы пользователей, ведущие на ваш сайт.

Как система отличает опечатку от редкого, но правильного слова?

Для этого используются две метрики: Synonym Quality Measure и Usage Quality Measure. Если у слова есть сильные синонимы ИЛИ оно активно используется в вебе (в заголовках, анкорах, частотных биграммах), система посчитает его правильным, даже если оно редкое. Опечаткой слово считается только если обе эти метрики низкие.

Что такое "Ошибка класса" и как она исправляется?

Это ситуация, когда пользователь использует правильное слово, но оно неверно в данном контексте, и принадлежит к классу часто путаемых терминов (например, путает модель товара или название бренда). Система исправляет это путем перебора других терминов из этого класса и выбора того варианта, который дает наилучшее качество поисковой выдачи (Resource Quality Measure).

Как использование биграмм (фраз из двух слов) влияет на коррекцию?

Биграммы используются для валидации. Если замена термина создает частотную биграмму, которая активно используется в вебе (Bigram Usage), это значительно повышает уверенность системы в правильности коррекции. Это подчеркивает важность использования естественных фраз в контенте.

Может ли этот механизм помочь мне ранжироваться по запросам с опечатками?

Да, напрямую. Если пользователь допускает опечатку, а остальная часть запроса релевантна вашему контенту, система может найти ваш сайт по производному запросу. Если в вашем Title или анкорах содержится правильный термин, система использует его для коррекции и покажет ваш сайт пользователю.

Влияет ли этот патент на ранжирование напрямую?

Это патент не о ранжировании, а о понимании и переписывании запроса (Query Understanding). Однако он оказывает огромное косвенное влияние: если запрос не понят или не исправлен правильно, релевантный контент не будет найден и, следовательно, не будет ранжироваться. Правильная коррекция запроса — это первый шаг к ранжированию.

Что важнее при исправлении ошибок класса: релевантность или авторитетность?

Для выбора лучшей замены используется Resource Quality Measure. Эта метрика может включать как релевантность (IR scores), так и авторитетность ресурсов. Чтобы выиграть в сценарии исправления ошибки класса, ваш сайт должен быть признан источником наивысшего качества для правильной комбинации терминов.

Похожие патенты

Как Google использует контекст поисковой сессии для исправления ошибок и уточнения запросов пользователя
Google использует механизм для интеллектуального исправления ошибок в запросах (опечаток или неверно употребленных слов), опираясь на контекст текущей поисковой сессии. Вместо стандартного исправления по словарю, система анализирует предыдущие запросы пользователя, чтобы понять его намерение, и предлагает вариант исправления, который соответствует теме поиска.
  • US7953746B1
  • 2011-05-31
  • Семантика и интент

  • Персонализация

Как Google улучшает результаты поиска, подбирая похожие "идеальные" запросы из логов и структурированных данных
Google идентифицирует запросы, которые стабильно показывают высокое вовлечение пользователей (CTR, долгие клики), и генерирует синтетические запросы из структурированных данных (например, частотного анкорного текста). Когда пользователь вводит похожий, но потенциально плохо сформулированный запрос, Google использует эти "аугментирующие запросы" для предоставления более качественных и релевантных результатов.
  • US9128945B1
  • 2015-09-08
  • SERP

  • Поведенческие сигналы

  • EEAT и качество

Как Google исправляет грамматически некорректные запросы пользователей, изучающих язык, предлагая альтернативы
Патент описывает систему, преимущественно для голосовых ассистентов, которая определяет, что пользователь сформулировал запрос грамматически некорректно («плохо сформированная фраза») на неродном для него языке. Вместо выполнения команды система предлагает корректный вариант («хорошо сформированную фразу»), используя для этого предварительно рассчитанные векторные представления (embeddings) и анализ языковой компетентности пользователя.
  • US12019999B2
  • 2024-06-25
  • Семантика и интент

  • Мультиязычность

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google оптимизирует проверку орфографии в длинных запросах, приоритизируя исправление наиболее вероятных ошибок
Google использует систему для эффективной проверки орфографии в длинных запросах, чтобы избежать задержек (latency). Вместо детальной проверки каждого слова система быстро оценивает вероятность ошибки для всех терминов, используя языковые и N-граммные модели. Затем она выбирает только ограниченное подмножество наиболее подозрительных терминов для ресурсоемкой коррекции, обеспечивая баланс скорости и точности.
  • US9317606B1
  • 2016-04-19

Популярные патенты

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов
Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).
  • US9244977B2
  • 2016-01-26
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи
Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).
  • US8972391B1
  • 2015-03-03
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

seohardcore