SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует Information Gain для автоматического определения значимых фраз и построения семантических связей между ними

PHRASE IDENTIFICATION IN AN INFORMATION RETRIEVAL SYSTEM (Идентификация фраз в системе поиска информации)
  • US7580921B2
  • Google LLC
  • 2004-07-26
  • 2009-08-25
  • Семантика и интент
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.

Описание

Какую проблему решает

Патент решает фундаментальную проблему перехода от индексирования отдельных слов к индексированию концепций, которые часто выражаются многословными фразами. Он предлагает вычислительно эффективный метод для автоматической идентификации семантически значимых и статистически предсказательных фраз (Good Phrases) в огромном корпусе, избегая необходимости анализировать все возможные комбинации слов. Это улучшает понимание тематики документов и повышает релевантность поиска.

Что запатентовано

Запатентована система и метод для автоматической идентификации «хороших» фраз на основе статистических данных об их использовании и совместной встречаемости. Суть изобретения заключается в применении показателя Information Gain (прирост информации) для определения того, насколько одна фраза предсказывает появление другой. Фразы без достаточной предсказательной силы отсеиваются. Система также идентифицирует сильно связанные фразы (Related Phrases) и формирует из них тематические кластеры.

Как это работает

Система работает в несколько этапов:

  • Сбор статистики: Документы сканируются для сбора статистики частотности и совместной встречаемости (co-occurrence). Особое внимание уделяется «интересным вхождениям» (Interesting/Distinguished Instances) – например, в анкорном тексте или выделенном форматированием.
  • Классификация: Фразы классифицируются как «хорошие», если они превышают пороги частотности или количества интересных вхождений.
  • Расчет Information Gain: Вычисляется Information Gain (IG) — отношение фактической частоты совместной встречаемости двух фраз к ожидаемой.
  • Очистка (Pruning): Удаляются фразы, которые не предсказывают другие фразы (IG ниже низкого порога), а также «неполные фразы» (Incomplete Phrases), предсказывающие только свои расширения.
  • Выявление связей: Фразы с очень высоким IG помечаются как связанные (Related Phrases) и объединяются в кластеры.

Актуальность для SEO

Критически высокая. Этот патент описывает фундаментальные механизмы, позволившие Google перейти от лексического поиска к семантическому пониманию контента и тематическому моделированию. Хотя современные системы используют нейросетевые методы, концепции автоматического распознавания фраз (концепций) и построения связей на основе совместной встречаемости (фундаментом чего является Information Gain) остаются центральными для построения стратегий Topical Authority в 2025 году.

Важность для SEO

Патент имеет критическое значение (10/10) для SEO. Он демонстрирует, что Google оценивает контент не по плотности ключевых слов, а по наличию и сочетанию статистически значимых фраз, формирующих тематический кластер. Для успешного ранжирования необходимо использовать естественный язык и набор связанных фраз (Related Phrases), которые статистически часто встречаются вместе при обсуждении темы. Это основа для построения Тематического Авторитета.

Детальный разбор

Термины и определения

Good Phrase (Хорошая/Значимая фраза)
Последовательность слов (включая отдельные слова), которая встречается достаточно часто и/или имеет достаточное количество «интересных вхождений», а также обладает предсказательной силой (Information Gain) по отношению к другим фразам.
Interesting Instance / Distinguished Instance (Интересное/Выделенное вхождение)
Вхождение фразы, выделенное грамматическими или форматными маркерами (например, жирный шрифт, подчеркивание, анкорный текст гиперссылки, кавычки). Является сигналом значимости фразы.
Information Gain (I(j,k)) (Прирост информации)
Ключевая метрика патента. Показывает, во сколько раз фактическая частота совместной встречаемости двух фраз (A(j,k)) превышает ожидаемую (E(j,k)). Используется для определения предсказательной силы и связанности фраз.
Related Phrases (Связанные фразы)
Две хорошие фразы, у которых Information Gain превышает очень высокий порог (например, 100). Указывает на сильную семантическую связь.
Cluster (Кластер)
Набор Related Phrases, в котором каждая фраза имеет высокий Information Gain по отношению хотя бы к одной другой фразе в наборе. Представляет собой тему или концепт.
Incomplete Phrase (Неполная фраза)
Фраза, которая предсказывает только свои расширения (Phrase Extensions) и ничего более (например, «Президент Соединенных»).
Phrase Extension (Расширение фразы)
Более длинная фраза, начинающаяся с неполной фразы (например, «Президент Соединенных Штатов»).
Phrase Window (Окно фразы)
Скользящее окно (например, 4-5 слов), используемое для извлечения кандидатов во фразы из текста.
Secondary Window (Вторичное окно)
Более широкое окно (например, +/- 30 слов) вокруг текущей фразы, используемое для подсчета статистики совместной встречаемости (co-occurrence).
Co-occurrence Matrix (Матрица совместной встречаемости)
Структура данных, хранящая статистику совместного появления пар хороших фраз в пределах Secondary Window.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации фраз в коллекции документов.

  1. Сбор возможных фраз из документов.
  2. Классификация фраз на хорошие (good) или плохие (bad) на основе частоты встречаемости.
  3. Вычисление Information Gain (IG) для пары хороших фраз (gⱼ, gₖ) как функции фактической и ожидаемой частоты совместной встречаемости.
  4. Выборочное сохранение в качестве «значимых фраз» (valid phrases) только тех хороших фраз, которые предсказывают появление хотя бы одной другой хорошей фразы (IG > первый порог).
  5. Идентификация «связанных фраз» (Related Phrases), если IG > второй (более высокий и строгий) порог.
  6. Сохранение значимых и связанных фраз.

Ядро изобретения — это многоступенчатый статистический фильтр для автоматического выявления семантически значимых единиц (фраз) и их сильных взаимосвязей, где Information Gain является ключевой метрикой для определения как значимости, так и связанности.

Claim 6 и 7 (Зависимые от 1): Уточняют критерии классификации Good Phrase.

Фраза классифицируется как хорошая, если она соответствует порогам по общему количеству документов И общему количеству вхождений (Claim 6), ИЛИ если она имеет минимальное количество «выделенных вхождений» (distinguished instances) (Claim 7). Это показывает, что система использует как общую частотность, так и сигналы выделения (например, анкорный текст) для определения важности фразы.

Claim 9 (Зависимый от 1): Определяет формулу Information Gain.

IG (I(j,k)) рассчитывается как A(j,k)/E(j,k)A(j,k)/E(j,k)A(j,k)/E(j,k), где A(j,k) — фактическая частота совместной встречаемости, а E(j,k) — ожидаемая частота.

Claim 12 и 13 (Зависимые от 1): Описывают обработку неполных фраз.

Система удаляет Incomplete Phrases из списка хороших фраз. Неполная фраза определяется как та, которая предсказывает только свои собственные расширения (Phrase Extensions).

Claim 17 (Зависимый от 1): Описывает процесс идентификации кластеров.

Для фразы gₓ и набора ее связанных фраз R, кластер формируется из gₓ и тех фраз из R, которые имеют ненулевой (взаимный) Information Gain по отношению друг к другу внутри набора R. Это обеспечивает тематическую целостность кластера.

Где и как применяется

Изобретение является ключевым компонентом процесса индексирования и подготовки данных для ранжирования.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает сырой контент (текст и разметку), который будет использоваться для идентификации фраз.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс можно разделить на две части:

  1. Идентификация фраз (Phrase Identification): Офлайн-процесс анализа корпуса для генерации списка Good Phrases, расчета Information Gain, идентификации Related Phrases и формирования Clusters. Этот процесс создает базу данных фраз (Phrase Data).
  2. Индексирование документов (Phrase-Based Indexing): Процесс анализа отдельных документов для определения присутствующих в них хороших фраз и сохранения этой информации в основном Индексе.

QUNDERSTANDING – Понимание Запросов
Система использует базу идентифицированных фраз для распознавания концепций в запросе пользователя. Также используется список Incomplete Phrases для предложения пользователю полных вариантов запроса (Phrase Extensions) или автоматического расширения запроса.

RANKING – Ранжирование
На этапе ранжирования система использует данные, сгенерированные во время индексации. Наличие в документе как самой фразы из запроса, так и ее Related Phrases используется как сильный сигнал релевантности и тематического соответствия.

На что влияет

  • Все типы контента и запросов: Алгоритм является фундаментальным и влияет на обработку любого текстового контента и всех типов запросов. Он определяет, как система понимает тематику контента.
  • Тематическое моделирование (Topical Authority): Влияет на способность системы определять основные и второстепенные темы документа через анализ кластеров связанных фраз. Документы, содержащие множество Related Phrases, будут считаться более авторитетными.
  • Анкорный текст и структура контента: Механизм Interesting Instances напрямую влияет на оценку значимости фраз в анкорном тексте и структурных элементах документа (заголовки, выделения).

Когда применяется

  • Триггеры активации: Процесс идентификации фраз активируется периодически при обработке новых или обновленных документов в корпусе (во время краулинга и индексации). Обработка ведется партициями (например, по 1 млн документов).
  • Пороговые значения: Алгоритм критически зависит от нескольких порогов:
    • Пороги частотности: Для классификации фразы как «хорошей» (например, >10 документов и >20 вхождений, ИЛИ >5 Interesting Instances).
    • Порог предсказания (IG Threshold 1): Низкий порог Information Gain (например, 1.1–1.7) для определения, обладает ли фраза предсказательной силой (используется для Pruning).
    • Порог связанности (IG Threshold 2): Высокий порог Information Gain (например, 100) для определения сильной связи между фразами (Related Phrases).

Пошаговый алгоритм

Процесс А: Идентификация фраз и сбор статистики (Во время сканирования корпуса)

  1. Сбор данных: Система сканирует документы по частям (партициями).
  2. Извлечение кандидатов: Для каждого документа текст обходится с помощью Phrase Window (например, 5 слов) для извлечения всех возможных последовательностей слов (кандидатов во фразы).
  3. Сбор статистики вхождений: Для каждого кандидата (Possible Phrase) обновляются счетчики: P(p) – количество документов, S(p) – общее количество вхождений, M(p) – количество Interesting Instances.
  4. Сбор статистики совместной встречаемости: Одновременно используется Secondary Window (например, +/- 30 слов) для обновления Co-occurrence Matrix. Подсчитывается, как часто пары фраз встречаются рядом.

Процесс Б: Классификация и Очистка (После обработки партиции)

  1. Классификация фраз: Кандидаты классифицируются как Good Phrases, если они превышают пороги частотности (P(p), S(p)) или M(p).
  2. Расчет Information Gain: Для всех пар Good Phrases (gⱼ, gₖ) вычисляется Information Gain (IG). IG=ActualCo−occurrenceRate/ExpectedCo−occurrenceRateIG = Actual Co-occurrence Rate / Expected Co-occurrence RateIG=ActualCo−occurrenceRate/ExpectedCo−occurrenceRate.
  3. Очистка по предсказательной силе (Pruning): Если фраза не предсказывает никакие другие фразы (IG ниже Порога 1, например 1.5), она удаляется из списка Good Phrases.
  4. Идентификация связанных фраз: Если IG превышает Порог 2 (например, 100), фразы помечаются как Related Phrases.
  5. Обработка неполных фраз: Система проверяет, предсказывает ли фраза только свои расширения (Phrase Extensions). Если да, она перемещается в список Incomplete Phrases.
  6. Кластеризация: Группы сильно связанных фраз объединяются в Clusters на основе их взаимного IG.

Какие данные и как использует

Данные на входе

Система фокусируется на статистическом анализе текста и структуры документа.

  • Контентные факторы: Текст документа. Система анализирует последовательности слов (n-граммы).
  • Структурные/Технические факторы (HTML): Используются для идентификации Interesting Instances. Учитываются HTML-теги (например, теги выделения bold, underline), грамматические маркеры (кавычки). Также теги разметки и знаки препинания могут использоваться для определения границ Phrase Window.
  • Ссылочные факторы: Анкорный текст (Anchor text) явно указан как один из ключевых типов Interesting Instances.

Какие метрики используются и как они считаются

  • P(p) – Частота документов: Количество документов, в которых появляется фраза.
  • S(p) – Общая частота: Общее количество вхождений фразы в корпусе.
  • M(p) – Частота интересных вхождений: Количество Interesting Instances фразы.
  • Co-occurrence Counts (Счетчики совместной встречаемости R(j,k), D(j,k), C(j,k)): Подсчет совместных появлений пар фраз в пределах Secondary Window, с учетом их выделенности.
  • E(g) – Expected Value (Ожидаемая частота): Процент документов, которые, как ожидается, будут содержать фразу g (P(g)/Total Documents T).
  • E(j,k) – Expected Co-occurrence Rate: Ожидаемая частота совместной встречаемости, если бы фразы были не связаны: E(gj)∗E(gk)E(g_j) * E(g_k)E(gj​)∗E(gk​).
  • A(j,k) – Actual Co-occurrence Rate: Фактическая частота совместной встречаемости (R(j,k) / T).
  • I(j,k) (Information Gain): Мера предсказательной силы: A(j,k)/E(j,k)A(j,k)/E(j,k)A(j,k)/E(j,k).

Выводы

  1. Автоматизация семантического анализа: Патент описывает механизм, позволяющий Google автоматически, без ручного вмешательства, выявлять значимые концепции (фразы) и их взаимосвязи на основе статистического анализа огромного корпуса текстов.
  2. Information Gain как мера семантической связи: Information Gain является центральной метрикой. Она используется для фильтрации незначимых фраз (низкий IG) и для количественной оценки силы связи между значимыми фразами (высокий IG).
  3. Многоуровневая оценка значимости: Система использует многоуровневый подход: сначала оценивается частота и выделение (Interesting Instances), затем общая предсказательная сила (низкий порог IG), и, наконец, сильная связанность (высокий порог IG).
  4. Важность контекста и структуры: Система явно учитывает структурные элементы документа (анкорный текст, форматирование) как сильные сигналы для идентификации значимых фраз. Совместная встречаемость анализируется в локальном контексте (Secondary Window).
  5. Основа тематического моделирования (Topical Authority): Идентификация Related Phrases и Clusters позволяет системе строить тематические модели, понимая, какие концепции статистически вероятно обсуждаются вместе. Это является основой для оценки Тематического Авторитета.
  6. Отделение префиксов от концепций: Механизм идентификации Incomplete Phrases позволяет отделить начала фраз от законченных концепций, улучшая точность индексации и понимание запросов.

Практика

Best practices (это мы делаем)

  • Фокус на фразах и концепциях, а не на отдельных словах: Оптимизируйте контент под естественные, устоявшиеся фразы. Анализируйте не просто ключевые слова, а сочетания фраз, которые часто используются вместе в авторитетных источниках по вашей теме.
  • Развитие Topical Authority через кластеры связанных фраз: Для доминирования в нише необходимо покрыть весь кластер Related Phrases. Если основная тема «Australian Shepherd», необходимо также использовать фразы, имеющие высокий Information Gain с ней (например, «blue merle», «agility training», «herding dogs»). Это сигнализирует системе о глубине проработки темы.
  • Использование значимых фраз в анкорном тексте: Патент явно указывает, что анкорный текст является Interesting Instance. Используйте точные, релевантные фразы во внутренней перелинковке и при построении внешних ссылок.
  • Структурирование и выделение ключевых концепций: Используйте форматирование (жирный шрифт) и структурные элементы (заголовки, списки) для выделения ключевых фраз. Это может увеличить счетчик Interesting Instances (M(p)) и подчеркнуть важность концепции.
  • Обеспечение близости связанных концепций: Размещайте семантически связанные фразы близко друг к другу в тексте (в пределах Secondary Window, т.е. в одном абзаце или разделе), чтобы система могла эффективно зафиксировать их совместную встречаемость.

Worst practices (это делать не надо)

  • Keyword Stuffing и неестественные сочетания слов: Попытки манипулировать ранжированием путем повторения ключевых слов неэффективны. Система ищет статистически подтвержденные связи (Information Gain), а не просто высокую плотность терминов.
  • Игнорирование семантического окружения: Написание текстов только по основному запросу без использования Related Phrases. Если система не видит связанных фраз, которые она ожидает увидеть на основе высокого IG, релевантность документа будет оценена ниже.
  • Использование общих фраз в качестве ключевых: Фокусировка на фразах, не имеющих предсказательной силы (например, идиомы или общие утверждения), не поможет ранжированию, так как они будут отфильтрованы системой.

Стратегическое значение

Этот патент является одним из foundational-патентов для современного SEO. Он знаменует переход от анализа отдельных ключевых слов к анализу фраз и их статистических взаимосвязей как основы для понимания контента. Стратегически, это подтверждает необходимость построения Тематического Авторитета путем глубокого и всестороннего освещения темы, используя весь спектр связанных концепций (Related Phrases). Работа над SEO должна вестись на уровне тем и кластеров, а не изолированных запросов.

Практические примеры

Сценарий: Оптимизация статьи о породе собак «Австралийская овчарка» (Australian Shepherd)

  1. Анализ (Имитация работы Google): Система Google определила, что фраза «Australian Shepherd» является Good Phrase. Она также определила Related Phrases с высоким Information Gain: «Aussie», «blue merle», «red merle», «tricolor», «agility training».
  2. Действия SEO-специалиста (НЕПРАВИЛЬНО): Написать статью, многократно повторяющую «Australian Shepherd», но не упоминающую окрасы («blue merle») или виды активности («agility training»). Система не увидит ожидаемых связанных фраз.
  3. Действия SEO-специалиста (ПРАВИЛЬНО): Написать комплексную статью, естественно включающую основную фразу и большинство ее Related Phrases. Использовать «blue merle Australian Shepherd» в подзаголовке (H2) и «agility training tips» в качестве анкорного текста для внутренней ссылки.
  4. Результат (ПРАВИЛЬНО): Вхождения в H2 и анкорном тексте засчитываются как Interesting Instances. Наличие связанных фраз подтверждает тематическую релевантность кластеру. Документ получает более высокие позиции.

Вопросы и ответы

Что такое «Information Gain» в контексте этого патента и почему это важно для SEO?

Information Gain (IG) — это статистическая мера, которая показывает, насколько чаще две фразы встречаются вместе по сравнению со случайным ожиданием. Если IG=100, то наличие первой фразы увеличивает вероятность появления второй в 100 раз. Для SEO это критически важно, так как показывает, какие фразы Google считает семантически связанными. Использование этих связанных фраз в контенте необходимо для подтверждения тематической релевантности.

Чем «Good Phrase» отличается от обычного ключевого слова?

Good Phrase — это фраза, прошедшая многоступенчатую валидацию. Она должна быть достаточно частотной или часто использоваться в выделенных местах (Interesting Instances). Но главное — она должна обладать предсказательной силой: ее присутствие должно статистически увеличивать вероятность появления других конкретных фраз (умеренный IG). Обычное ключевое слово не обязательно обладает такой предсказательной силой.

Что такое «Related Phrases» и чем они отличаются от синонимов?

Related Phrases — это две Good Phrases, которые имеют экстремально высокий Information Gain (>100) друг относительно друга. Они не обязательно являются синонимами, но они тематически тесно связаны и почти всегда обсуждаются вместе. Например, «Эйфелева башня» и «Париж» — это связанные фразы, но не синонимы. Использование Related Phrases в контенте подтверждает тематику для системы.

Как этот патент связан с концепцией Тематического Авторитета (Topical Authority)?

Патент напрямую закладывает основу для Topical Authority. Он описывает механизм создания Clusters — групп сильно связанных фраз. Сайт или документ, который полно и качественно покрывает большинство фраз внутри определенного тематического кластера, будет рассматриваться как авторитетный источник по данной теме. Для достижения Topical Authority необходимо охватить весь кластер.

Что такое «Interesting Instances» (или Distinguished Instances) и как это влияет на оптимизацию страницы?

Это вхождение фразы, выделенное форматированием (жирный шрифт, курсив) или структурной ролью (анкорный текст). Патент указывает, что такие вхождения являются сильным сигналом для классификации фразы как Good Phrase. При оптимизации важно использовать целевые фразы в этих структурных элементах, чтобы подчеркнуть их значимость.

Что происходит с «Неполными фразами» (Incomplete Phrases)?

Incomplete Phrases — это фразы, которые предсказывают только свои расширения (например, «Президент Соединенных»). Они удаляются из основного списка Good Phrases, но сохраняются отдельно. Система может использовать их для автодополнения поисковых запросов или автоматического переписывания запроса пользователя на более полную формулировку.

Фильтрует ли эта система идиомы и общие разговорные выражения?

Да, механизм прунинга на основе Information Gain эффективно отфильтровывает идиомы. Хотя такие фразы могут быть частотными, они появляются в самых разных контекстах и не предсказывают появление других *конкретных* фраз с высоким IG. Следовательно, они удаляются из списка Good Phrases и не используются для индексации концепций.

Как использовать концепцию «Secondary Window» при создании контента?

Secondary Window (например, +/- 30 слов) — это контекстное окно, в котором система ищет совместную встречаемость фраз. Это означает, что связанные концепции должны появляться в непосредственной близости друг от друга (в одном или соседних предложениях). При создании контента следите за тем, чтобы семантически связанные идеи были логически сгруппированы в тексте.

Актуален ли этот патент, учитывая развитие нейронных сетей (BERT, MUM)?

Патент крайне актуален стратегически. Хотя современные модели (BERT, MUM) используют более сложные методы для понимания контекста, базовые принципы — идентификация значимых единиц (фраз/сущностей) и анализ их взаимосвязей и совместной встречаемости — остаются фундаментальными. Этот патент заложил статистическую основу для семантического поиска.

Влияет ли этот механизм на оценку ссылок?

Да, очень сильно. Анкорный текст считается Interesting Instance. Это повышает значимость анкорного текста для идентификации фраз и понимания тематики как ссылающейся, так и целевой страницы. Использование релевантных фраз в анкорах критически важно для передачи тематического веса.

Похожие патенты

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи
Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
  • US7426507B1
  • 2008-09-16
  • Индексация

  • SERP

  • Семантика и интент

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Популярные патенты

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)
Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.
  • US9165040B1
  • 2015-10-20
  • Ссылки

  • EEAT и качество

  • Антиспам

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google интегрирует персональный и социальный контент (Email, посты друзей, календарь) в универсальную поисковую выдачу
Google использует этот механизм для глубокой персонализации поиска, интегрируя релевантный контент из личных источников пользователя (Gmail, Drive, Calendar) и от его социальных связей. Система индексирует этот контент с разрешения пользователя, ранжирует его с учетом социальных сигналов (Affinity) и адаптивно отображает в SERP, смешивая с публичными результатами.
  • US20150310100A1
  • 2015-10-29
  • Персонализация

  • Индексация

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует интерактивные визуальные цитаты для генерации и уточнения ответов в мультимодальном поиске (SGE/Lens)
Google использует механизм для улучшения точности ответов, генерируемых LLM в ответ на мультимодальные запросы (изображение + текст). Система находит визуально похожие изображения, извлекает текст из их источников и генерирует ответ. Этот ответ сопровождается «визуальными цитатами» (исходными изображениями). Если пользователь видит, что цитата визуально не соответствует запросу, он может её отклонить. Система удалит текст этого источника и перегенерирует ответ, повышая его точность.
  • US20240378237A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей
Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.
  • US8442965B2
  • 2013-05-14
  • Мультиязычность

  • Поведенческие сигналы

seohardcore