SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ совместной встречаемости слов в запросах для оценки качества синонимов и контекстов

EVALUATION OF SUBSTITUTE TERMS (Оценка заменяющих терминов)
  • US8504562B1
  • Google LLC
  • 2012-04-03
  • 2013-08-06
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google оценивает, является ли один термин хорошей заменой (синонимом) для другого, анализируя, какие другие слова часто появляются рядом с ними в поисковых запросах. Система строит векторы частот совместной встречаемости для обоих терминов и сравнивает их. Высокое сходство векторов подтверждает качество замены. Этот же механизм используется для определения того, добавляет ли конкретный контекст значимое семантическое значение к правилу замены.

Описание

Какую проблему решает

Патент решает две ключевые задачи в области понимания запросов (Query Understanding):

  1. Оценка качества заменяющих терминов (синонимов): Определение степени уверенности в том, что Термин Б является подходящей заменой для Термина А при переписывании запроса. Это позволяет избежать некорректных замен (например, "warrant" вместо "warranty").
  2. Оценка полезности контекстов для правил замены: Определение того, добавляет ли конкретный контекст (соседние слова в запросе) значимое семантическое уточнение к правилу замены, или же он является шумом (например, артикль "the"). Это позволяет системе фокусироваться на значимых контекстах и повышает точность переписывания запросов.

Что запатентовано

Запатентована система и метод для оценки заменяющих терминов и контекстов на основе анализа частот совместной встречаемости (co-occurrence frequencies) слов в логах поисковых запросов. Суть изобретения заключается в применении моделей векторного пространства (Vector Space Models) для количественной оценки семантического сходства. Система сравнивает векторы совместной встречаемости исходного термина и термина-кандидата для оценки синонимичности, а также сравнивает векторы термина в общем и термина в специфическом контексте для оценки значимости этого контекста.

Как это работает

Система работает на основе принципов дистрибутивной семантики (значение слова определяется его окружением):

  • Оценка синонимов: Для двух терминов (например, "frenchopen" и "french open") система строит векторы, элементами которых являются частоты, с которыми другие слова встречаются рядом с ними в запросах. Затем вычисляется сходство этих векторов (например, Cosine Similarity). Если векторы почти идентичны, термины считаются хорошими заменами.
  • Оценка контекстов: Для правила замены с контекстом (например, sheer→sheet, если рядом есть music) система сравнивает вектор термина в этом контексте ("sheer music") с вектором термина в общем ("sheer"). Вычисляется вектор разницы (Delta Vector). Если наибольшая разница приходится на семантически важные слова (например, "instrument", "lessons"), контекст признается хорошим. Если разница приходится на неважные слова (стоп-слова), контекст признается плохим и добавляется в Stop List.

Актуальность для SEO

Высокая. Описанные методы, основанные на дистрибутивной семантике и анализе совместной встречаемости в логах запросов, являются фундаментальными для систем понимания естественного языка (NLU). Хотя современные нейросетевые модели (например, Трансформеры, BERT) используют более сложные механизмы для создания векторных представлений (embeddings), базовый принцип оценки семантического сходства через сравнение контекстов остается критически важным для задач переписывания запросов, распознавания синонимов и понимания интента.

Важность для SEO

Патент имеет высокое значение для SEO, так как он раскрывает механизмы, лежащие в основе того, как Google определяет синонимичность и контекстуальное значение терминов. Это напрямую влияет на стратегию подбора ключевых слов и создание контента. Понимание того, что Google определяет значение слов на основе их фактического использования в запросах (co-occurrence), а не на основе словарей, подчеркивает важность анализа реального языкового окружения терминов в вашей нише для обеспечения максимальной семантической релевантности.

Детальный разбор

Термины и определения

Candidate Substitute Term (Кандидат на заменяющий термин)
Термин, который оценивается системой на предмет того, является ли он подходящей заменой (синонимом) для исходного термина в поисковом запросе.
Co-occurrence Frequency (Частота совместной встречаемости)
Метрика, показывающая, как часто определенный термин появляется в поисковых запросах, содержащих другой целевой термин.
Context (Контекст)
Условие для применения правила замены. Обычно это одно или несколько других слов, которые должны присутствовать в запросе рядом с исходным термином (слева или справа).
Cosine Similarity (Косинусное сходство)
Мера сходства между двумя ненулевыми векторами, используемая для сравнения векторов совместной встречаемости. Значение близкое к 1 указывает на высокое сходство.
Delta Vector (Вектор разницы)
Вектор, полученный путем вычитания одного вектора совместной встречаемости из другого. Используется для оценки значимости контекста.
Inverse Document Frequency (IDF) (Обратная частота документа)
Мера того, насколько информация о слове важна. Используется в патенте как один из способов оценки важности (Importance) терминов при анализе Delta Vector.
Query Logs Database (База данных логов запросов)
Хранилище ранее выполненных поисковых запросов, используемое для расчета статистики совместной встречаемости.
Stop List (Стоп-лист)
Список контекстов, которые были идентифицированы как "плохие" (не добавляющие значимого семантического значения). Система игнорирует правила замены с этими контекстами.
Substitute Term / Synonym (Заменяющий термин / Синоним)
Термин, используемый для переписывания исходного запроса с целью улучшения результатов поиска.
Substitution Rule (Правило замены)
Правило, определяющее, что один термин может быть заменен другим, часто с указанием необходимого контекста (например, dog→pet (:food)).
Vector Engine (Векторный движок)
Компонент системы, отвечающий за генерацию и сравнение векторов совместной встречаемости для оценки синонимов и контекстов.

Ключевые утверждения (Анализ Claims)

Примечание: Предоставленный текст патента содержит Claims 1-30, которые фокусируются исключительно на Механизме 1 (Оценка заменяющих терминов). Они не охватывают Механизм 2 (Оценка контекстов), который подробно описан в Description.

Claim 1 (Независимый пункт): Описывает основной метод оценки кандидата на замену.

  1. Выбирается первый термин и кандидат на замену.
  2. Определяется первая частота совместной встречаемости (first co-occurrence frequency) для слов, которые появляются в прошлых запросах вместе с первым термином.
  3. Генерируется первый вектор для первого термина на основе этих частот.
  4. Определяется вторая частота совместной встречаемости для слов, которые появляются в прошлых запросах вместе с кандидатом.
  5. Генерируется второй вектор для кандидата на основе этих частот.
  6. Первый и второй векторы сравниваются.
  7. Оценивается ассоциация (scoring an association) между первым термином и кандидатом на основе этого сравнения.

Claim 2 и 3 (Зависимые): Уточняют структуру векторов. Векторы содержат элементы, соответствующие терминам, которые встречались совместно ЛИБО с первым термином, ЛИБО с кандидатом. Каждому элементу присваивается соответствующая частота совместной встречаемости.

Claim 4 (Зависимый): Элементы, соответствующие одному и тому же слову, находятся на одной и той же позиции в обоих векторах (обеспечивает возможность сравнения).

Claim 5 (Зависимый): Элементы в векторе, соответствующие словам, которые не встречались совместно с целевым термином, имеют нулевое значение.

Claim 6 и 7 (Зависимые): Сравнение векторов включает вычисление оценки сходства (vector similarity score). Эта оценка может быть основана на косинусном сходстве (cosine similarity).

Claim 8 (Зависимый): Оценка ассоциации используется для корректировки оценки уверенности (confidence score) правила замены (substitution rule).

Где и как применяется

Изобретение является ключевой частью этапа понимания запросов и подготовки данных для ранжирования.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Система Substitute Term Engine и Vector Engine работают здесь для анализа и переписывания запросов.

  1. Офлайн-анализ: Система анализирует Query Logs Database для расчета статистики совместной встречаемости. Она оценивает потенциальные синонимы (Механизм 1) и оценивает контексты (Механизм 2), генерируя Substitution Rules Database и Stop List.
  2. Онлайн-переписывание: Query Reviser Engine получает исходный запрос и использует данные из Substitute Term Engine (правила замены с высокими confidence scores и валидными контекстами) для генерации пересмотренных запросов (Revised Queries).

INDEXING – Индексирование и извлечение признаков
Хотя патент напрямую не описывает индексирование, данные о совместной встречаемости и правила замены могут храниться в структурах, созданных на этом этапе для быстрого доступа на этапе QUnderstanding.

RANKING – Ранжирование
Search Engine получает как исходный запрос, так и пересмотренные запросы (All Queries) и использует их для поиска и ранжирования документов в Index Database.

Входные данные:

  • Логи прошлых поисковых запросов (Query Logs Database).
  • Исходный термин и термин-кандидат на замену (для Механизма 1).
  • Исходный термин и контекстный термин (для Механизма 2).

Выходные данные:

  • Оценка ассоциации (Similarity Score) между терминами.
  • Скорректированные оценки уверенности (Confidence Scores) для правил замены.
  • Стоп-лист (Stop List) плохих контекстов.
  • База данных правил замены (Substitution Rules Database).

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, запросы с опечатками, а также запросы, где используются разные варианты написания (например, слитное/раздельное). Система помогает понять, когда два разных написания означают одно и то же (например, "french open" и "frenchopen"), а когда похожее написание имеет другое значение (например, "warrant" и "warranty").
  • Понимание синонимов: Влияет на все типы контента и тематики, определяя, как широко Google интерпретирует запрос пользователя, включая синонимы и близкие варианты.
  • Контекстуальное понимание: Позволяет системе различать значение термина в зависимости от окружающих слов (например, разница между "ship wreck" и "ship package").

Когда применяется

  • Триггеры активации (Механизм 1): Активируется при оценке потенциальных правил замены. Может применяться к выходу других процессов, например, процесса "break and join" (разделения и объединения слов).
  • Триггеры активации (Механизм 2): Активируется при оценке правил замены, содержащих специфический контекст, чтобы определить, следует ли сохранить этот контекст или игнорировать его.
  • Временные рамки: Расчет статистики, оценка синонимов и контекстов выполняются преимущественно офлайн, путем периодической обработки логов запросов. Применение правил замены происходит онлайн при получении запроса пользователя.

Пошаговый алгоритм

Алгоритм 1: Оценка заменяющего термина (Синонима)

  1. Выбор кандидатов: Система выбирает первый термин и кандидат на заменяющий термин.
  2. Сбор данных для первого термина: Для каждого слова, которое встречалось в прошлых запросах вместе с первым термином, определяется частота совместной встречаемости.
  3. Генерация первого вектора: Создается вектор, где каждый элемент соответствует слову из окружения, а значение элемента — его частоте совместной встречаемости с первым термином.
  4. Сбор данных для кандидата: Аналогично определяются частоты совместной встречаемости для слов, встречавшихся вместе с термином-кандидатом.
  5. Генерация второго вектора: Создается вектор для термина-кандидата. (Важно: оба вектора имеют одинаковую размерность и порядок элементов).
  6. Сравнение векторов: Вычисляется мера сходства между первым и вторым вектором (например, Cosine Similarity).
  7. Оценка ассоциации: На основе меры сходства система оценивает ассоциацию. Если сходство превышает порог, кандидат считается хорошей заменой. Эта оценка может использоваться для корректировки Confidence Score соответствующего правила замены.

Алгоритм 2: Оценка контекста для правила замены

  1. Выбор контекста: Система выбирает первый термин и второй термин, который выступает в роли контекста (например, первый термин "sheer", контекст "music").
  2. Генерация вектора общего использования: Создается вектор совместной встречаемости для первого термина во всех запросах (Вектор А).
  3. Генерация вектора контекстного использования: Создается вектор совместной встречаемости для первого термина, но только в тех запросах, где он соседствует со вторым термином (контекстом) (Вектор Б).
  4. Вычисление разницы: Генерируется Delta Vector путем вычитания Вектора А из Вектора Б.
  5. Сортировка разницы: Delta Vector сортируется по значениям элементов (от наибольшей разницы к наименьшей).
  6. Оценка важности терминов: Система анализирует Топ-N терминов с наибольшей разницей. Для каждого из этих терминов вычисляется мера важности (Importance). Патент предлагает использовать IDF или специальную метрику важности imp(x).
  7. Вычисление оценки контекста: Вычисляется итоговая оценка контекста, например, путем взвешивания значений из Delta Vector на меру важности соответствующих терминов.
  8. Принятие решения: Если итоговая оценка не удовлетворяет порогу, контекст признается "плохим" (незначимым) и добавляется в Stop List.

Какие данные и как использует

Данные на входе

  • Поведенческие факторы: Критически важные данные. Система полностью полагается на анализ Query Logs Database (журналов прошлых поисковых запросов) для вычисления статистики совместной встречаемости терминов.

Информация о контентных, технических, ссылочных, временных, структурных, мультимедиа, географических или пользовательских факторах в данном патенте отсутствует. Система фокусируется исключительно на тексте запросов из логов.

Какие метрики используются и как они считаются

  • Co-occurrence Frequency: Частота, с которой Термин X появляется в запросах, содержащих Термин Y.
  • Vector Similarity Score (Cosine Similarity): Мера сходства векторов. Формула для векторов A и B длины n:

similarity=A⋅B

Выводы

  1. Дистрибутивная семантика как основа NLU: Патент подтверждает, что Google определяет значение слов и их взаимозаменяемость не по словарям или тезаурусам, а по тому, как пользователи фактически используют эти слова в запросах. Значение термина определяется его окружением (словами, которые встречаются рядом).
  2. Количественная оценка синонимичности: Система использует строгий математический подход (Vector Space Models и Cosine Similarity) для оценки того, являются ли два термина синонимами. Если контексты использования сильно различаются, термины не будут считаться заменами, даже если они похожи по написанию.
  3. Контекст определяет правила замены: Система активно ищет контексты, которые изменяют значение слова (например, "ship" + "package" vs "ship" + "wreck"). Правила замены применяются с учетом этих контекстов для повышения точности.
  4. Фильтрация незначимых контекстов: Google активно борется с шумом в данных. Механизм оценки контекстов (Механизм 2) позволяет отсеивать контексты, которые не несут дополнительной семантической нагрузки (например, артикли или общие слова). Это повышает эффективность и точность системы понимания запросов.
  5. Зависимость от пользовательских данных: Эффективность системы напрямую зависит от объема и качества данных в Query Logs. Понимание языка системой эволюционирует по мере того, как меняется поведение пользователей.

Практика

Best practices (это мы делаем)

  • Анализ реального контекста использования терминов (Distributional Analysis): При исследовании ключевых слов анализируйте не только частотность, но и то, какие слова окружают ваш целевой термин в реальных запросах и в контенте ранжирующихся страниц. Это поможет понять, как Google видит семантический контекст этого термина.
  • Использование естественных синонимов и вариаций: Обогащайте контент синонимами и близкими по смыслу фразами, которые естественно используются в вашей нише. Патент подтверждает, что если Google видит схожие паттерны совместной встречаемости для вашего термина и его синонима, он будет считать их взаимозаменяемыми.
  • Создание четкого контекста для неоднозначных терминов: Если вы используете термины с несколькими значениями (например, "Ягуар" как животное или как автомобиль), убедитесь, что окружающий контент содержит достаточное количество контекстуальных подсказок (co-occurring terms), чтобы помочь системе правильно интерпретировать значение (например, "двигатель", "скорость" или "джунгли", "хищник").
  • Оптимизация под слитные/раздельные написания: Для терминов, которые могут писаться слитно или раздельно (например, "frenchopen"/"french open" или "вебмастер"/"веб мастер"), используйте оба варианта или тот вариант, который имеет более сильные и релевантные паттерны совместной встречаемости в вашей целевой аудитории. Система способна распознать их эквивалентность.

Worst practices (это делать не надо)

  • Использование искусственных или редких синонимов: Попытка оптимизировать контент под синонимы, которые редко используются в реальных запросах или имеют совершенно другой контекст использования, не принесет пользы. Google не распознает их как релевантные замены, так как их векторы совместной встречаемости будут сильно отличаться.
  • Игнорирование контекста ключевого слова: Фокусировка только на точном вхождении ключевого слова без учета его семантического окружения. Если контекст использования термина на вашей странице не соответствует контексту, который Google ожидает увидеть (на основе анализа Query Logs), релевантность будет низкой.
  • Keyword Stuffing и неестественное окружение: Насыщение текста ключевыми словами в неестественных сочетаниях нарушает нормальные паттерны совместной встречаемости, что может затруднить для системы понимание реального смысла контента.

Стратегическое значение

Этот патент подчеркивает стратегический переход от буквального сопоставления ключевых слов к глубокому семантическому пониманию языка на основе пользовательских данных. Для SEO это означает, что стратегии, основанные на понимании интента и создании контента, который отражает естественное использование языка в целевой нише, будут наиболее эффективными. Построение Topical Authority требует покрытия не только основных терминов, но и всего спектра связанных с ними контекстов и совместно встречающихся слов, которые определяют семантическое пространство темы.

Практические примеры

Сценарий 1: Определение синонимичности для E-commerce

  • Задача: Определить, считает ли Google термины "кроссовки" и "сникеры" взаимозаменяемыми.
  • Действие (на основе патента): Проанализировать (используя инструменты анализа семантики или ручной анализ выдачи), какие слова часто встречаются с термином "кроссовки" (например, "купить", "мужские", "беговые", "Nike") и какие с термином "сникеры" (например, "модные", "лимитированные", "Jordan").
  • Интерпретация: Если наборы совместно встречающихся слов сильно пересекаются, Google, вероятно, считает их хорошими заменами (Механизм 1). Если наборы сильно различаются, Google видит их как разные сущности или интенты. Контентная стратегия должна учитывать эти нюансы.

Сценарий 2: Уточнение контекста для информационного сайта

  • Задача: Написать статью о термине "Apple", фокусируясь на компании, а не на фрукте.
  • Действие (на основе патента): Насытить текст словами, которые имеют высокую частоту совместной встречаемости с "Apple" именно в контексте компании (например, "iPhone", "MacBook", "iOS", "Тим Кук", "презентация").
  • Ожидаемый результат: Система сравнивает контекст использования термина на странице с известными ей паттернами. Наличие сильных контекстуальных сигналов (Механизм 2) поможет Google правильно классифицировать контент и повысить его релевантность для запросов о компании.

Вопросы и ответы

Как именно система определяет, что два слова являются синонимами?

Система не использует словари. Вместо этого она анализирует логи поисковых запросов и вычисляет частоту совместной встречаемости (co-occurrence frequency) для каждого слова. Если два разных слова постоянно появляются в окружении одних и тех же других слов (например, "frenchopen" и "french open" оба встречаются с "tennis", "championship"), система строит для них очень похожие векторы. Высокое косинусное сходство (Cosine Similarity) этих векторов указывает на то, что слова являются хорошими заменами друг для друга.

Что такое "плохой контекст" (bad context) и зачем Google его фильтрует?

"Плохой контекст" — это слово или фраза рядом с ключевым термином, которые не добавляют значимого семантического уточнения. Например, правило замены "ship→boat", когда рядом стоит артикль "the". Патент описывает механизм для идентификации таких контекстов путем сравнения использования термина в этом контексте и в общем (с помощью Delta Vector). Google фильтрует их для повышения эффективности и точности системы переписывания запросов, позволяя фокусироваться только на тех контекстах, которые действительно меняют смысл (например, "ship" + "wreck").

Как SEO-специалист может использовать знание о совместной встречаемости на практике?

Это знание критично для создания семантически релевантного контента. Необходимо анализировать, какие слова и фразы часто окружают ваши целевые ключевые слова в реальных запросах и топовом контенте. Включение этих совместно встречающихся слов в ваш контент помогает сформировать четкий контекст, соответствующий ожиданиям поисковой системы, и улучшает понимание темы страницы.

Влияет ли этот патент на обработку опечаток или разного написания слов?

Да, напрямую. Патент приводит пример "frenchopen" и "french open". Система способна определить, что это одно и то же, потому что они имеют практически идентичные векторы совместной встречаемости. Тот же механизм применяется для валидации распространенных опечаток или альтернативных написаний как корректных замен для исходного термина.

Как система определяет "важность" (Importance) слова при оценке контекста?

Патент предлагает несколько методов для оценки важности терминов, которые сильнее всего связаны с определенным контекстом. Один из ключевых методов — использование обратной частоты документа (IDF). Слова с высоким IDF (более редкие и специфичные) считаются более важными, чем слова с низким IDF (общие слова). Если контекст в основном ассоциируется с важными словами, он признается хорошим.

Заменяют ли современные модели типа BERT описанный механизм?

Современные модели, такие как BERT, также основаны на принципах дистрибутивной семантики, но используют более сложные архитектуры для создания векторных представлений (embeddings). Описанный в патенте механизм является более ранним и прямолинейным подходом к использованию совместной встречаемости. Хотя методы генерации векторов эволюционировали, фундаментальная идея оценки сходства через сравнение контекстов использования остается актуальной.

Что произойдет, если я буду использовать синоним, который Google не считает хорошей заменой?

Если вы используете синоним, чей вектор совместной встречаемости сильно отличается от вектора основного термина (как в примере "warrant" и "warranty"), Google не будет считать ваш контент высокорелевантным для запросов, содержащих основной термин. Это приведет к снижению позиций по этим запросам, так как система не видит сильной семантической связи.

Как этот патент помогает бороться с неоднозначностью (полисемией)?

Патент помогает разрешать неоднозначность, анализируя контекст. Например, для слова "ягуар" система увидит два разных набора совместно встречающихся слов: один связан с автомобилями ("скорость", "двигатель"), другой — с животными ("хищник", "джунгли"). Это позволяет системе генерировать разные правила замены в зависимости от контекста, обеспечивая более точное понимание запроса.

Где происходит основная работа этого алгоритма: онлайн или офлайн?

Основная вычислительная работа — анализ логов запросов, расчет частот совместной встречаемости, сравнение векторов и оценка правил замены — происходит офлайн. Это позволяет заранее сформировать базу данных правил замены и стоп-лист контекстов. Онлайн, при получении запроса пользователя, система быстро применяет эти заранее рассчитанные правила для переписывания запроса.

Стоит ли использовать редкие или устаревшие синонимы в контенте?

В большинстве случаев нет. Поскольку система полагается на актуальные логи запросов, редкие или устаревшие синонимы не будут иметь достаточной статистики совместной встречаемости или их контекст использования будет сильно отличаться от современного. Лучше сосредоточиться на тех синонимах и вариациях, которые активно используются вашей целевой аудиторией в настоящее время.

Похожие патенты

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса
Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.
  • US8682907B1
  • 2014-03-25
  • Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google использует поведение пользователей и анализ SERP для определения контекстно-зависимых синонимов
Google анализирует логи запросов, чтобы понять, как пользователи переформулируют свои запросы в рамках одной сессии. Система выявляет слова, которые пользователи заменяют друг на друга в одинаковых контекстах, и валидирует их, проверяя, возвращают ли оба варианта запроса схожие результаты поиска. Эти контекстные синонимы затем используются для автоматического расширения или изменения запросов пользователей.
  • US7636714B1
  • 2009-12-22
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google встраивает синонимы и контекст непосредственно в поисковый индекс на этапе индексирования
Google использует механизм для повышения релевантности поиска путем определения синонимов на основе контекста документа во время индексирования. Система встраивает эти синонимы, включая сложные многословные замены (N-to-M), непосредственно в инвертированный индекс. Это позволяет поисковой системе находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету.
  • US9037591B1
  • 2015-05-19
  • Индексация

  • Семантика и интент

Популярные патенты

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
  • US9569432B1
  • 2017-02-14
  • SERP

  • Поведенческие сигналы

  • Персонализация

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений
Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.
  • US20200159765A1
  • 2020-05-21
  • Семантика и интент

  • Мультимедиа

  • Персонализация

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования
Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.
  • US8862572B2
  • 2014-10-14
  • Поведенческие сигналы

  • Ссылки

Как Google позволяет пользователям "углубиться" в контент установленного мобильного приложения прямо из веб-выдачи
Google использует этот механизм для интеграции контента из нативных приложений в веб-поиск. Если приложение установлено у пользователя и система определяет высокую релевантность его контента запросу, в выдачу добавляется специальный элемент (например, "Больше результатов из приложения X"). Клик по этому элементу запускает новый поиск, показывая множество deep links только из этого приложения, не покидая интерфейс поиска.
  • US10579687B2
  • 2020-03-03
  • SERP

  • Семантика и интент

  • Ссылки

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

seohardcore