SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

IDENTIFYING A SYNONYM WITH N-GRAM AGREEMENT FOR A QUERY PHRASE (Идентификация синонима с N-граммным согласованием для поисковой фразы)
  • US7925498B1
  • Google LLC
  • 2006-12-29
  • 2011-04-12
  • Семантика и интент
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

Описание

Какую проблему решает

Патент решает проблему ограничений систем, которые анализируют только замены отдельных слов (униграмм) в фиксированном контексте. Такие системы испытывают трудности, когда несколько слов должны меняться одновременно из-за правил грамматического согласования (например, род, число). Поскольку пользователи редко делают неграмматические замены (меняя только одно слово, когда требуется изменить два), система может упустить важные синонимические связи, опираясь только на данные о переключении отдельных слов.

Что запатентовано

Запатентована система для идентификации N-gram Agreement Synonyms (синонимов с N-граммным согласованием). Это многословные фразы, где каждое компонентное слово является лексическим или семантическим синонимом соответствующего слова в исходной фразе. Цель изобретения — использовать подтвержденные многословные замены для улучшения (усиления) базовых правил синонимии для отдельных слов (униграмм).

Как это работает

Система анализирует логи пользовательских сессий (Switching Data) для выявления кандидатов в многословные синонимы (например, [page jaune] → [pages jaunes]). Затем она сравнивает компоненты исходной фразы и фразы-синонима. Если каждый компонент лексически или семантически совпадает (используя стемминг, edit-distance и т.д.), синоним валидируется как N-gram Agreement Synonym. Эта валидация используется для усиления уверенности (confidence score) в соответствующих униграммных синонимических связях (например, [page] → [pages] и [jaune] → [jaunes]), даже если эти униграммы редко встречаются по отдельности в данном контексте.

Актуальность для SEO

Высокая. Понимание запросов и обработка лингвистических вариаций (стемминг, плюрализация, грамматическое согласование) остаются фундаментальными компонентами современных поисковых систем, особенно в мультиязычном поиске. Хотя современные NLP-модели (BERT, MUM) могут неявно учитывать эти концепции, явное сопоставление синонимов и лексический анализ по-прежнему актуальны для обеспечения полноты поиска (Recall).

Важность для SEO

Патент имеет значительное влияние (75/100). Он детально объясняет механизмы, с помощью которых Google обрабатывает стемминг, плюрализацию, аббревиатуры и грамматические вариации. Это критически важно для международного SEO и понимания того, как Google связывает близкие термины. Патент подчеркивает, что система выходит за рамки точного совпадения ключевых слов, фокусируясь на семантической эквивалентности.

Детальный разбор

Термины и определения

N-gram Agreement Synonym (Синоним с N-граммным согласованием)
Многословная фраза-синоним, в которой каждое слово (N-грамма) является лексическим или семантическим синонимом соответствующего слова в исходной поисковой фразе. Часто отражает грамматическое согласование (например, по числу или роду).
Lexical Synonym (Лексический синоним)
Слово, которое имеет сильную лексическую связь с исходным словом. Определяется через стемминг, псевдостемминг, редакционное расстояние, аббревиатуры, акронимы или обработку пунктуации/пробелов/диакритики.
Unigram (Униграмма)
Отдельное слово или токен (1-грамма).
Switching Data (Данные о переключении)
Данные из логов пользовательских запросов, показывающие, как пользователи изменяют свои запросы последовательно в течение короткого периода времени (сессии). Используются для выявления потенциальных синонимов.
Pseudostemming (Псевдостемминг)
Более агрессивная техника стемминга, описанная в патенте. Определяет лексическую схожесть на основе длины общего префикса и редакционного расстояния (edit distance) между оставшимися частями слов.
Edit Distance (Редакционное расстояние)
Метрика для измерения различия между двумя строками (например, минимальное количество операций вставки, удаления или замены символов).
Pseudo-Drop (Псевдо-дроп)
Ситуация (также описанная в патенте), когда синоним для многословной фразы теряет информацию, содержащуюся в исходной фразе. Например, [jackson ms] → [mississippi], где теряется концепция "jackson".

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации синонима с N-граммным согласованием.

  1. Система получает фразу-кандидат в синонимы для исходной поисковой фразы.
  2. Система определяет, является ли каждый терм в исходной фразе лексическим синонимом (lexical synonym) или имеет общее значение (shares meaning) с соответствующим термом во фразе-кандидате.
  3. Если это верно для всех термов, система идентифицирует кандидата как N-gram Agreement Synonym.
  4. Система использует этот идентифицированный синоним для улучшения общих карт синонимов (synonym mappings).

Claim 2 (Зависимый от 1): Уточняет механизм улучшения карт синонимов.

Улучшение включает использование N-gram Agreement Synonym для добавления и/или изменения карт синонимов и/или контекстных данных для униграммных (однословных) поисковых термов, найденных в исходной фразе. Это ключевой момент: многословное согласование используется для валидации и усиления (bolstering) однословных правил, которые могли быть пропущены иначе.

Claims 3-5 (Зависимые): Определяют, как устанавливается лексическая синонимия.

Это делается путем лексического сравнения. Конкретные методы включают проверку общего стема (common stem), удаление пунктуации/пробелов, использование техник edit-distance, pseudostemming (проверка общего префикса), использование лингвистических правил (род/число), идентификацию аббревиатур и др.

Claim 6 (Зависимый): Указывает на возможность семантического сравнения.

Определение общего значения может включать семантическое сравнение (semantically comparing) термов.

Claim 10 (Зависимый): Описывает источник кандидатов.

Кандидаты генерируются путем сбора switching data из предыдущих запросов, которые показывают, как пользователи меняли термы или фразы при модификации запросов.

Где и как применяется

Изобретение применяется в основном на этапе понимания запросов и является частью инфраструктуры обработки естественного языка Google.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. Система анализирует логи запросов (офлайн) для генерации и валидации карт синонимов. Этот процесс улучшает способность системы интерпретировать и расширять входящие пользовательские запросы (онлайн) путем добавления грамматических и лексических вариаций.

RANKING – Ранжирование (L1 Retrieval/Отбор кандидатов)
Улучшенные карты синонимов используются на начальном этапе ранжирования для обеспечения того, чтобы документы, использующие лексические или семантические вариации (например, множественное число вместо единственного), были включены в набор кандидатов. Это увеличивает полноту (Recall).

Взаимодействие компонентов:

  • Офлайн-анализ логов: Анализирует Switching Data для выявления шаблонов изменения запросов.
  • Генератор синонимов: Предлагает кандидатов на основе данных о переключении.
  • Лексический и Семантический Анализаторы: Используют стеммеры, расчет edit distance и другие инструменты для сравнения компонентов фраз.
  • Synonym Mappings Database: Хранилище валидированных правил синонимии, которое обновляется по результатам анализа.

На что влияет

  • Языковые ограничения: Наибольшее влияние оказывается на языки с сильными правилами грамматического согласования (например, французский, испанский, немецкий, русский), где род и число влияют на прилагательные и артикли, примыкающие к существительным.
  • Специфические запросы: Влияет на запросы, где часто используются множественные числа, вариации рода, аббревиатуры, акронимы или составные слова (компаунды).

Когда применяется

  • Условия работы (Офлайн): Алгоритм применяется во время периодического анализа логов запросов для обновления базы данных синонимов. Он активируется, когда обнаруживаются многословные замены в Switching Data, особенно если данных для отдельных униграмм недостаточно.
  • Условия работы (Онлайн): Результаты работы алгоритма (улучшенные карты синонимов) применяются при обработке входящих запросов пользователей.

Пошаговый алгоритм

Процесс выполняется офлайн для генерации и улучшения карт синонимов.

  1. Генерация N-граммных кандидатов: Во время поиска синонимов для униграмм система также конструирует многословные фразы (N-граммы), объединяя униграмму с соседними словами из контекста.
  2. Извлечение данных о синонимах: Для каждой N-граммы извлекаются данные о кандидатах в синонимы на основе Switching Data.
  3. Анализ компонентов (Сравнение): Для каждого кандидата в синонимы система определяет, являются ли его компоненты лексическими или семантическими синонимами соответствующих компонентов исходной фразы. Например, для [A B] → [A' B'] проверяются пары (A, A') и (B, B').
  4. Применение техник анализа: Сравнение включает применение стемминга, псевдостемминга, расчета edit distance, обработки аббревиатур/акронимов и т.д.
  5. Валидация N-граммного согласования: Если все компоненты соответствуют, кандидат помечается как N-gram Agreement Synonym.
  6. Улучшение карт синонимов (Bolstering): Идентифицированный синоним используется для улучшения карт синонимов. Система увеличивает confidence score или создает правила для базовых униграммных связей (A→A', B→B'), используя доказательства, полученные на уровне N-граммы.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Критически важные данные. Используются логи пользовательских запросов и Switching Data, которые показывают последовательность запросов пользователя и модификации фраз в рамках одной сессии.
  • Лингвистические данные: Текст самих запросов, а также данные, используемые инструментами лексического анализа (например, правила стемминга для конкретных языков).

Какие метрики используются и как они считаются

Патент описывает несколько ключевых методов и метрик для определения лексической схожести:

  • Stemming и Gender/Number Stemming: Использование стандартных стеммеров (Ловинс, Портер) и лингвистических правил.
  • Edit Distance (Редакционное расстояние): Расчет количества изменений символов. Используется для выявления опечаток, аббревиатур (после удаления гласных) и акронимов. Устанавливаются пороги (например, 0.25 от максимальной длины).
  • Pseudostemming (Псевдостемминг): Агрессивный метод, который проверяет два условия:
    1. Соотношение длины общего префикса к максимальной длине строки должно превышать порог (например, 0.5).
    2. Редакционное расстояние между оставшимися частями слов должно быть меньше определенной доли от максимальной длины (например, 0.4).
  • Decompounding/Compounding: Удаление пунктуации и пробелов из термов и сравнение результатов для выявления составных слов (например, "wood stock" и "woodstock").
  • Нормализация: Удаление диакритических знаков.
  • Confidence Scores: Метрики уверенности в синонимичности. Патент указывает, что для лексических синонимов требования к другим сигналам (например, общности результатов поиска) могут быть снижены, так как лексическая связь сама по себе является сильным сигналом.

Выводы

  1. Автоматическое изучение лингвистических правил: Google активно анализирует многословные замены в поведении пользователей (Switching Data), чтобы автоматически изучать и применять правила грамматического согласования (род, число) для разных языков.
  2. Валидация униграмм через N-граммы: Основная инновация патента — использование доказательств многословных замен для валидации и усиления (bolstering) отношений между отдельными словами (униграммами). Это критично, когда грамматические правила мешают наблюдению за независимыми изменениями слов.
  3. Лексическая схожесть как фундаментальный сигнал: Лексическая схожесть (определяемая через агрессивные техники, такие как pseudostemming и edit distance) является очень сильным сигналом синонимичности, который может перевешивать другие сигналы.
  4. Фокус на полноте (Recall) и точности (Precision): Механизм направлен на улучшение полноты поиска, гарантируя, что грамматические вариации не помешают найти релевантные документы. Одновременно, требование покомпонентного совпадения обеспечивает сохранение точности.
  5. Семантическое расширение: Помимо лексического анализа, система также учитывает семантическое сравнение компонентов, позволяя распознавать фразовые синонимы, не имеющие общих корней (например, [fast car] → [quick auto]).

Практика

Best practices (это мы делаем)

  • Фокус на естественном языке и грамматической корректности: Используйте правильную грамматику и орфографию. Система изучает лингвистические правила, анализируя правильные грамматические переключения, которые совершают пользователи. Грамотный контент лучше соответствует этим изученным шаблонам.
  • Комплексный охват терминологии: Включайте в контент естественные вариации ключевых концепций, включая аббревиатуры, акронимы и различные грамматические формы. Не стоит чрезмерно беспокоиться об оптимизации под каждую вариацию (например, единственное и множественное число), так как Google имеет механизмы для их соединения.
  • Мультиязычное SEO: При работе с языками, имеющими сильное грамматическое согласование (немецкий, французский, русский), этот патент подтверждает, что Google стремится понять вариации рода, числа и падежа. Обеспечьте качественный перевод и локализацию, фокусируясь на естественности фраз, а не на точном совпадении словоформ.

Worst practices (это делать не надо)

  • Keyword Stuffing вариаций: Перечисление всех возможных грамматических форм ключевого слова в попытке охватить все варианты (например, "продажа автомобиля, автомобили в продаже, продаем автомобиль"). Это не нужно, ухудшает качество контента и игнорирует способность Google к лексическому анализу.
  • Ориентация на неграмматические запросы: Создание контента с ошибками в согласовании слов. Система разработана исходя из предположения, что пользователи обычно ищут грамматически правильно и исправляют ошибки согласования одновременно.
  • Создание отдельных страниц для микро-вариаций: Создание отдельных страниц для вариантов написания с дефисом и без, или с аббревиатурой и полной формой. Патент явно указывает на обработку таких различий как лексических вариантов (Decompounding), что может привести к каннибализации.

Стратегическое значение

Патент подтверждает высокий уровень сложности, с которым Google подходит к пониманию языка, выходя за рамки простого сопоставления ключевых слов. Он демонстрирует механизмы, лежащие в основе семантического поиска: использование контекста, анализ поведения пользователей (Switching Data) и глубокий лексический и семантический анализ для определения синонимии. Стратегически это означает, что фокус на создании авторитетного контента, охватывающего тему во всей полноте её естественной терминологии, является приоритетным.

Практические примеры

Сценарий 1: Мультиязычное согласование (Французский язык)

  1. Ситуация: Сайт оптимизируется под запросы "желтая страница" (ед.ч.) и "желтые страницы" (мн.ч.).
  2. Запросы: [page jaune] и [pages jaunes].
  3. Механизм Google: Пользователи часто переключаются между этими фразами. Система N-граммного согласования анализирует:
    • (page, pages) – лексические синонимы (стемминг).
    • (jaune, jaunes) – лексические синонимы (стемминг).
  4. Результат: Подтверждается N-gram Agreement Synonym. Система усиливает индивидуальные правила для униграмм.
  5. Действие SEO: Создавать контент, естественно использующий обе корректные формы. Нет необходимости использовать некорректные варианты типа [pages jaune].

Сценарий 2: Обработка аббревиатур (Английский язык)

  1. Ситуация: Сайт медицинской тематики использует термин "hours" и аббревиатуру "hrs".
  2. Механизм Google: Система применяет технику анализа аббревиатур: удаляет гласные из обоих слов. "hours" → "hrs".
  3. Результат: Система определяет их как лексические синонимы с минимальным редакционным расстоянием.
  4. Действие SEO: Использовать оба термина в контенте естественным образом. Google поймет их эквивалентность при обработке запросов.

Вопросы и ответы

Что такое "N-gram Agreement" (N-граммное согласование) простыми словами?

Это грамматические правила языка, которые требуют, чтобы соседние слова во фразе согласовывались между собой по роду, числу или падежу. Например, в русском языке: "новый дом" и "новые дома". При изменении числа существительного меняется и форма прилагательного. Google учитывает это при поиске синонимов.

Какую проблему решает этот патент для Google?

Он решает проблему пропуска синонимов из-за грамматики. Пользователи редко вводят грамматически неправильные запросы (например, "новые дом"). Они меняют всю фразу сразу. Из-за этого стандартный анализ мог не понять, что "новый" и "новые" — это варианты одного слова в данном контексте. Патент описывает, как распознать эту связь, анализируя замену всей фразы.

Что значит, что система "усиливает" (bolster) правила для униграмм?

Это ключевой момент. Если система видит сильное доказательство синонимии на уровне целой фразы (N-граммы), но слабое доказательство для отдельных слов (униграмм), она использует фразовое доказательство для повышения уверенности в правилах для отдельных слов. Это позволяет системе выучить синонимы, которые редко меняются по отдельности.

Что такое "лексический синоним" согласно патенту?

Это не синоним в традиционном смысле, а скорее лексическая вариация слова. Сюда входят разные грамматические формы (стемминг), небольшие различия в написании (edit distance), различия в пунктуации или пробелах (например, "wifi" и "wi-fi"), аббревиатуры и акронимы.

Что такое "Псевдостемминг" (Pseudostemming) и чем он отличается от обычного стемминга?

Псевдостемминг — это более агрессивная техника, описанная в патенте. Вместо использования строгих лингвистических правил для поиска корня, он основывается на длине общего префикса и редакционном расстоянии между окончаниями слов. Это позволяет выявить больше лексических связей, чем консервативные стеммеры.

Должен ли я оптимизировать контент под множественное и единственное число ключевых слов?

Нет, этот патент является сильным аргументом против такой практики. Механизм N-gram Agreement и техники лексического анализа специально разработаны для автоматического распознавания эквивалентности между разными грамматическими формами. Сосредоточьтесь на естественном использовании языка.

Откуда Google берет кандидатов в синонимы для анализа?

Основным источником, согласно патенту, являются Switching Data — данные из логов поисковых сессий, показывающие, как пользователи переформулируют свои запросы. Если многие пользователи меняют фразу А на фразу Б в рамках одной сессии, Б становится кандидатом в синонимы для А.

Учитывает ли система только лексическую схожесть или также семантическую?

Патент упоминает оба варианта. Система проверяет, является ли терм лексическим синонимом ИЛИ имеет общее значение (shares meaning) с соответствующим термом кандидата. Это позволяет идентифицировать синонимы, которые не имеют общего корня, например, если система определит семантическую близость в парах (fast, quick) и (car, auto) при анализе замены [fast car] на [quick auto].

Как этот патент влияет на SEO в русском языке?

Влияние велико, так как русский язык имеет сложное согласование по родам, числам и падежам. Этот механизм позволяет Google связывать разные формы одной и той же фразы (например, "купить билет на самолет" и "покупка билетов на самолеты"), понимая, что компоненты фраз являются лексическими или семантическими вариантами друг друга.

Что такое "Pseudo-Drop", упоминаемый в патенте?

Это ситуация, когда система предлагает синоним для фразы, который теряет часть информации исходной фразы. Например, если система заменит [jackson ms] (город Джексон, штат Миссисипи) на [mississippi], теряется специфика города "jackson". Патент описывает техники для обнаружения и предотвращения таких ситуаций, чтобы сохранить точность поиска.

Похожие патенты

Как Google использует сущности (Concepts) для определения точного контекста и генерации синонимов запроса
Google идентифицирует многословные фразы (Concepts) в запросе и рассматривает их как единое целое. Это позволяет системе понять точный контекст остальных слов в запросе и сгенерировать высокоточные синонимы (замены) на основе анализа поведения пользователей в логах запросов, минуя вычислительные ограничения стандартного N-граммного анализа.
  • US9104750B1
  • 2015-08-11
  • Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов
Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.
  • US9183297B1
  • 2015-11-10
  • Семантика и интент

Как Google использует анализ совместной встречаемости слов в запросах для оценки качества синонимов и контекстов
Google оценивает, является ли один термин хорошей заменой (синонимом) для другого, анализируя, какие другие слова часто появляются рядом с ними в поисковых запросах. Система строит векторы частот совместной встречаемости для обоих терминов и сравнивает их. Высокое сходство векторов подтверждает качество замены. Этот же механизм используется для определения того, добавляет ли конкретный контекст значимое семантическое значение к правилу замены.
  • US8504562B1
  • 2013-08-06
  • Семантика и интент

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса
Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.
  • US8682907B1
  • 2014-03-25
  • Семантика и интент

Популярные патенты

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями
Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.
  • US20110295842A1
  • 2011-12-01
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)
Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.
  • US10073911B2
  • 2018-09-11
  • Индексация

  • Краулинг

  • Ссылки

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов
Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.
  • US20190278836A1
  • 2019-09-12
  • Семантика и интент

  • Персонализация

  • EEAT и качество

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

seohardcore