SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи

AUTOMATIC TAXONOMY GENERATION IN SEARCH RESULTS USING PHRASES (Автоматическое генерирование таксономии в результатах поиска с использованием фраз)
  • US7426507B1
  • Google LLC
  • 2004-07-26
  • 2008-09-16
  • Индексация
  • SERP
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

Описание

Какую проблему решает

Патент решает фундаментальную проблему традиционных поисковых систем, которые индексируют по словам, а не по концепциям (выраженным фразами), и представляют результаты в виде длинного, неорганизованного списка. Это затрудняет навигацию и ограничивает разнообразие (Diversity) выдачи, так как пользователи редко просматривают результаты за пределами первых страниц. Изобретение направлено на автоматическую организацию SERP в тематические кластеры (таксономию), чтобы представить пользователю обзор различных аспектов темы.

Что запатентовано

Запатентована система информационного поиска, которая использует фразы для индексации, ранжирования и, в частности, для автоматического создания таксономии результатов поиска. Ядром является использование статистической меры Information Gain (Прирост информации) для определения силы связи между фразами. Система анализирует набор результатов поиска и использует наиболее часто встречающиеся связанные фразы (Related Phrases) в качестве заголовков динамических кластеров.

Как это работает

Система опирается на предварительно обработанные данные индекса:

  • Индексирование: Система идентифицирует "хорошие фразы" и вычисляет Information Gain между ними, определяя Related Phrases. Документы индексируются с помощью Related Phrase Bit Vector (RPBV), указывающего, какие связанные фразы присутствуют в документе.
  • Обработка запроса: Система находит релевантные документы и ранжирует их.
  • Генерация таксономии: Система анализирует RPBV найденных документов, чтобы подсчитать, какие Related Phrases встречаются чаще всего.
  • Кластеризация: Наиболее частые связанные фразы становятся заголовками кластеров. Результаты группируются под ними для представления пользователю (фиксированным или пропорциональным количеством).

Актуальность для SEO

Высокая. Изобретатель, Anna Patterson, сыграла ключевую роль в развитии семантического поиска Google. Принципы, изложенные в патенте (фразы как концепции, Information Gain как мера связи, кластеризация выдачи), являются фундаментальными. Хотя конкретные реализации могли эволюционировать (например, к нейросетевым эмбеддингам), базовая логика анализа связей между концепциями и организации SERP остается крайне актуальной.

Важность для SEO

Патент имеет критическое значение (9/10) для понимания основ современного SEO. Он демонстрирует механизмы, позволяющие Google понимать концепции и их взаимосвязи, а не просто совпадение ключевых слов. Стратегии построения тематического авторитета (Topical Authority) путем естественного использования кластеров связанных фраз напрямую вытекают из этого патента. Игнорирование семантического контекста и связанных концепций снижает релевантность контента.

Детальный разбор

Термины и определения

Этот патент описывает комплексную систему фразового поиска и кластеризации. Для понимания механизма необходимо разобрать ключевые термины.

Good Phrase (Хорошая фраза)
Фраза (включая отдельные слова), которая встречается с достаточной частотой и/или в "интересных контекстах" (Interesting Instances), и которая предсказывает появление хотя бы одной другой фразы, не являющейся ее расширением.
Information Gain (I(j,k)) (Прирост информации)
Ключевая метрика. Мера того, насколько сильно присутствие фразы Gj предсказывает присутствие фразы Gk. Рассчитывается как отношение фактической частоты совместного появления (A) к ожидаемой частоте (E). I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k)/E(j,k)I(j,k)=A(j,k)/E(j,k).
Related Phrase (Связанная фраза)
Фраза Gk, которая имеет очень высокий Information Gain по отношению к фразе Gj (например, порог > 100). Указывает на сильную семантическую связь.
Cluster (Кластер)
Набор связанных фраз. В контексте выдачи — группа документов, объединенных общей Related Phrase.
Interesting Instance (Интересный контекст)
Появление фразы, выделенное маркерами форматирования (например, жирный шрифт, анкорный текст гиперссылки, заголовок).
Related Phrase Bit Vector (RPBV, Битовый вектор связанных фраз)
Структура данных в индексе для пары (Фраза, Документ). Указывает, какие из связанных фраз данной фразы также присутствуют в этом документе. Битовые позиции упорядочены по убыванию Information Gain.
Incomplete Phrase (Неполная фраза) и Phrase Extension (Расширение фразы)
Фраза, которая предсказывает только свои расширения (например, "Президент" -> "Президент США"). Используется для автодополнения запросов.

Ключевые утверждения (Анализ Claims)

Патент US7426507B1 фокусируется на генерации таксономии (кластеризации) результатов поиска.

Claim 1 (Независимый пункт): Описывает основной метод представления документов.

  1. Получение документов в ответ на запрос, содержащий фразу (query phrase).
  2. Определение связанных фраз (Related Phrases). Связь определяется, если Information Gain (IG) превышает порог. IG рассчитывается как функция фактической (A(j,k)) и ожидаемой (E(j,k)) частоты совместного появления.
  3. Определение множества кластеров. Каждый кластер ассоциирован с одной из связанных фраз и использует ее как название.
  4. Представление документов: для каждого кластера показывается некоторое количество документов, содержащих его связанную фразу, вместе с названием кластера.

Ядро изобретения — использование статистически значимых (на основе Information Gain) связанных фраз для автоматической кластеризации (создания таксономии) поисковой выдачи.

Claim 2 (Зависимый от 1): Уточняет порядок кластеров.

Кластеры упорядочиваются по убыванию количества документов в них. Наиболее крупные (популярные) тематические группы показываются первыми.

Claim 3 и 4 (Зависимые от 1): Уточняют способ выборки документов.

  • Claim 3: Представление фиксированного количества документов из каждого кластера.
  • Claim 4: Представление количества документов пропорционально размеру кластера.

Это обеспечивает репрезентативную выборку результатов из разных тематических групп.

Claim 5 (Зависимый от 1): Уточняет техническую реализацию.

Определение связанных фраз включает изучение Related Phrase Bit Vector (RPBV). Это показывает, что система использует предварительно рассчитанные данные для быстрого определения состава кластеров.

Claim 14 (Зависимый): Детализирует механизм подсчета документов в кластере.

Подсчет осуществляется путем доступа к RPBV. Счетчик увеличивается, если и только если в векторе установлен бит в позиции, соответствующей связанной фразе кластера. Это подчеркивает эффективность реализации.

Claim 15 (Зависимый): Добавляет этап обработки запроса.

Система может идентифицировать неполную фразу (Incomplete Phrase) в запросе и заменить ее расширением (Phrase Extension) до начала поиска. Это интегрирует механизм переписывания запросов в общую систему.

Где и как применяется

Изобретение требует инфраструктуры, затрагивающей индексирование, но основной процесс генерации таксономии применяется на финальных этапах.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит вся предварительная работа:

  • Идентификация Good Phrases.
  • Расчет Information Gain и идентификация Related Phrases.
  • Создание и сохранение Related Phrase Bit Vectors (RPBV) для каждой фразы в каждом документе.

RANKING – Ранжирование
Система формирует первичный набор результатов, используя фразы и RPBV для расчета оценок релевантности.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения генерации таксономии (Presentation System).

  • Анализ результатов: Система получает ранжированный список.
  • Подсчет связанных фраз: Используя RPBV документов в выдаче, система быстро подсчитывает, как часто каждая Related Phrase (Qr) встречается во всем наборе результатов.
  • Генерация Таксономии: Наиболее частые Qr выбираются в качестве заголовков кластеров.
  • Организация выдачи: Результаты перегруппировываются под заголовками кластеров.

Входные данные:

  • Ранжированный набор результатов поиска.
  • Фразы запроса (Qp) и их связанные фразы (Qr).
  • Related Phrase Bit Vectors (RPBV) для документов в результатах.

Выходные данные:

  • Модифицированный набор результатов поиска, организованный в виде тематических кластеров.

На что влияет

  • Специфические запросы: Наибольшее влияние на широкие или неоднозначные информационные запросы, где существует множество подтем или различных аспектов темы (например, "Ягуар" или "Австралийская овчарка").
  • Организация SERP: Влияет на структуру выдачи, обеспечивая разнообразие (Diversity) и тематическую навигацию.

Когда применяется

  • Условия применения: Применяется после основного ранжирования, на этапе представления результатов.
  • Триггеры активации: Активируется, если для фраз запроса существуют Related Phrases и в результатах поиска наблюдается достаточное разнообразие этих фраз для формирования значимых кластеров.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка данных (Индексирование)

  1. Идентификация фраз: Сбор статистики по частоте и совместной встречаемости. Классификация фраз на Good Phrases.
  2. Расчет Information Gain: Для каждой пары хороших фраз вычисляется IG.
  3. Определение Related Phrases: Если IG превышает высокий порог (например, 100), фразы помечаются как связанные и сортируются по IG.
  4. Индексирование документов: Для каждой фразы в документе создается Related Phrase Bit Vector (RPBV). Бит устанавливается, если соответствующая связанная фраза также присутствует в документе. Вектор сохраняется в индексе.

Процесс Б: Генерация таксономии при запросе (Presentation)

  1. Получение данных: Система получает запрос (Qp) и список релевантных документов.
  2. Идентификация связанных фраз (Qr): Извлекается список Related Phrases (Qr) для Qp.
  3. Подсчет частотности Qr: Система итерирует по документам в результатах. Для каждой Qr подсчитывается количество документов, содержащих ее, путем анализа RPBV.
  4. Формирование кластеров: Qr сортируются по частоте встречаемости. Топ-N фраз становятся названиями кластеров.
  5. Сортировка кластеров: Кластеры упорядочиваются по популярности (количеству документов).
  6. Выборка документов: Из каждого кластера выбирается количество документов (фиксированное или пропорциональное) для представления.
  7. Отображение: Результаты представляются сгруппированными под названиями кластеров.

Какие данные и как использует

Данные на входе

Система генерации таксономии полагается на предварительно вычисленные данные.

  • Системные данные (Индекс):
    • Good Phrase List: Список значимых фраз.
    • Co-occurrence Matrix данные и Information Gain значения: Статистика совместного появления и рассчитанные значения IG, определяющие связанные фразы.
    • Related Phrase Bit Vectors (RPBV): Хранятся в постинг-листах. Критически важны для быстрого подсчета частоты кластеров.
  • Контентные и Технические факторы (на этапе индексации): Текст документа и маркеры выделения (Interesting Instances – анкорный текст, заголовки, выделенный шрифт) используются для идентификации Good Phrases и сбора статистики.

Какие метрики используются и как они считаются

  • Information Gain (I(j,k)): Основная метрика для определения связи. Формула: I(j,k)=A(j,k)/E(j,k)I(j,k) = A(j,k)/E(j,k)I(j,k)=A(j,k)/E(j,k) (A=фактическая, E=ожидаемая частота).
  • Пороги Information Gain:
    • Порог для определения Good Phrase (например, > 1.5).
    • Высокий порог для определения Related Phrase (например, > 100).
  • Метрики частоты фраз (P(p), S(p), M(p)): Используются для идентификации Good Phrases на этапе индексации.
  • Частота кластера (Cluster Frequency): Количество документов в результатах поиска, содержащих определенную связанную фразу. Используется для выбора и ранжирования кластеров.

Выводы

  1. Переход от ключевых слов к концепциям (фразам): Патент закладывает фундамент для фразовой индексации. Google анализирует устойчивые фразы (Good Phrases), которые представляют семантические концепции, а не изолированные слова.
  2. Information Gain как мера семантической связи: Ключом к пониманию тематических связей является не просто совместное появление, а статистическая предсказательная сила одной фразы по отношению к другой (Information Gain). Это data-driven подход к семантике.
  3. Автоматическая таксономия для разнообразия (Diversity): Цель кластеризации выдачи — улучшить пользовательский опыт, показав различные аспекты темы. Таксономия генерируется динамически на основе наиболее статистически значимых связанных фраз в найденном контенте.
  4. Важность совместной встречаемости (Co-occurrence) для SEO: Документы, которые естественным образом содержат кластеры связанных фраз, считаются тематически полными. Это критически важно для демонстрации релевантности.
  5. Эффективность реализации через Bit Vectors: Использование Related Phrase Bit Vectors (RPBV) в индексе позволяет выполнять сложную кластеризацию в реальном времени, сводя анализ контента к быстрым битовым операциям.

Практика

Best practices (это мы делаем)

  • Фокус на Topical Authority и семантическом охвате: Необходимо создавать контент, который покрывает не только основную фразу запроса, но и кластер связанных фраз (Related Phrases), которые имеют высокий Information Gain. Это сигнализирует о глубине проработки темы и помогает системе правильно классифицировать контент.
  • Исследование кластеров фраз: Анализируйте совместную встречаемость терминов в контенте конкурентов из ТОПа и изучайте, как Google организует выдачу. Это позволит понять, какие фразы формируют тематический кластер и какие концепции Google считает наиболее связанными.
  • Использование фраз в "Интересных контекстах": Поскольку система учитывает Interesting Instances при идентификации Good Phrases, важно использовать ключевые и связанные фразы в заголовках, выделенном тексте и анкорном тексте ссылок.
  • Оптимизация под конкретные подтемы (кластеры): При работе с широкими запросами создавайте контент, который четко выровнен под конкретную подтему (потенциальный кластер), чтобы гарантировать его представление в соответствующем тематическом блоке SERP.

Worst practices (это делать не надо)

  • Keyword Stuffing и изолированная оптимизация: Повторение одной и той же фразы без использования связанных концепций неэффективно. Система ищет наличие разнообразных Related Phrases, а не только высокую плотность основного ключа.
  • Создание тонкого контента (Thin Content): Страницы, которые поверхностно затрагивают тему и не содержат достаточного количества связанных фраз, будут проигрывать тематически полным документам.
  • Игнорирование семантического контекста: Создание контента, который формально содержит ключевые слова, но не отражает реальных статистических связей между концепциями (игнорирует Information Gain).

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на понимание естественного языка и тематическое моделирование. Он предоставляет конкретную модель (основанную на Information Gain и фразах) того, как Google автоматически выявляет структуру знаний в нише. Долгосрочная SEO-стратегия должна быть направлена на построение Topical Authority путем полного охвата семантических кластеров, а не на оптимизацию под отдельные запросы.

Практические примеры

Сценарий: Организация выдачи и оптимизация статьи по теме "Australian Shepherd" (Австралийская овчарка)

  1. Запрос: "Australian Shepherd".
  2. Анализ (Предполагаемый): Система идентифицирует Related Phrases с высоким Information Gain: "Blue Merle" (голубой мерль), "Red Merle" (красный мерль), "Agility Training" (аджилити), "Herding Dogs" (пастушьи собаки).
  3. Генерация таксономии в SERP: Система анализирует ТОП-100 результатов и видит, что чаще всего встречаются "Blue Merle" и "Agility Training". Выдача может быть организована так:
    • Кластер 1: Blue Merle (50 документов)
    • Кластер 2: Agility Training (30 документов)
  4. Действия SEO (Оптимизация): Создается комплексное руководство. Специалист гарантирует, что статья включает не только основную фразу, но и естественно интегрирует все идентифицированные связанные фразы (окрасы, активность, сравнение пород).
  5. Ожидаемый результат: Статья демонстрирует высокую тематическую релевантность, так как содержит множество фраз из кластера. Это увеличивает ее шансы на высокое ранжирование и попадание в соответствующие тематические группы в SERP.

Вопросы и ответы

Что такое "Information Gain" в контексте этого патента и почему он важен для SEO?

Information Gain (Прирост информации) — это статистическая мера того, насколько сильнее связаны две фразы, чем ожидалось бы случайно. Если фраза А и фраза Б появляются вместе гораздо чаще, чем ожидалось, они имеют высокий Information Gain. Для SEO это критически важно, потому что Google использует этот показатель для определения тематической связи между концепциями и формирования кластеров. Использование фраз с высоким IG в контенте сигнализирует о глубоком раскрытии темы.

Как система определяет, какие фразы являются "хорошими" (Good Phrases)?

Система использует несколько критериев. Во-первых, это достаточная частота появления фразы в корпусе. Во-вторых, это количество "интересных контекстов" (Interesting Instances) — использование фразы в заголовках, анкорных текстах, выделенном шрифте. В-третьих, фраза должна обладать предсказательной силой (иметь достаточный Information Gain по отношению к другим фразам) и не быть "неполной".

Что такое "Related Phrase Bit Vector" (RPBV) и как он используется для кластеризации?

RPBV — это структура данных в индексе, которая для каждого документа быстро показывает, какие связанные фразы в нем присутствуют. При генерации таксономии система мгновенно сканирует эти векторы для всех найденных документов, чтобы подсчитать частоту связанных фраз. Это позволяет определить доминирующие темы (кластеры) в реальном времени без повторного анализа текста.

Как именно происходит генерация таксономии (кластеризация) выдачи?

После получения результатов поиска система определяет все связанные фразы (Qr) для фраз запроса. Затем она подсчитывает, как часто каждая Qr встречается в этих документах (используя RPBV). Наиболее частотные Qr становятся заголовками кластеров. Результаты группируются под этими заголовками, и кластеры сортируются по популярности (количеству документов).

Как этот патент связан с современными концепциями E-E-A-T и Topical Authority?

Патент предоставляет техническую основу для оценки Topical Authority. Авторитетный ресурс по теме естественным образом использует широкий спектр связанных фраз с высоким Information Gain. Система может количественно измерить этот охват. Чем полнее охват тематического кластера фраз, тем выше авторитетность документа по данной теме.

Как использовать концепцию Information Gain при разработке контент-стратегии?

Необходимо идентифицировать фразы, которые статистически часто появляются вместе с целевой темой. Вместо фокуса на синонимах, следует сосредоточиться на концепциях, которые дополняют или развивают тему (Related Phrases). Анализируйте совместную встречаемость в контенте ТОП-конкурентов. Включение этих концепций в ваш контент увеличивает его тематическую релевантность и полноту.

В чем основная цель этой автоматической генерации таксономии?

Основная цель — улучшить пользовательский опыт, обеспечив разнообразие (Diversity) в результатах поиска. Вместо показа 10 похожих результатов по доминирующей интерпретации запроса, система кластеризует выдачу, чтобы показать выборку результатов по разным подтемам, связанным с запросом.

Как система борется с манипуляцией ссылками (Link Bombing) согласно этому патенту (и связанным с ним патентам этой серии)?

Хотя этот конкретный патент фокусируется на таксономии, описанная им инфраструктура (в частности RPBV) используется для оценки ссылок. Система анализирует RPBV анкорной фразы в ссылающемся документе. Если ссылающийся документ тематически не связан с анкорным текстом (низкий RPBV), вес такой ссылки будет низким, что нейтрализует эффект Link Bombing.

Что такое "неполные фразы" (Incomplete Phrases) и как они используются?

Неполные фразы предсказывают только свои расширения (например, "Президент" -> "Президент США"). Они не используются для индексации как Good Phrases, но сохраняются. Как указано в Claim 15, система использует их для улучшения запросов: если пользователь вводит неполную фразу, система может автоматически использовать наиболее вероятное расширение для поиска.

Какова связь этого патента с современными алгоритмами, такими как BERT или MUM?

Этот патент заложил основу для понимания контекста через анализ совместной встречаемости и фраз. Современные модели (BERT, MUM) делают это гораздо сложнее, используя векторные представления (embeddings) для определения семантической близости. Однако конечная цель схожа: понять связи между концепциями (фразами/сущностями) и организовать информацию тематически.

Похожие патенты

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google использует Information Gain для автоматического определения значимых фраз и построения семантических связей между ними
Google использует статистический метод для автоматического определения «значимых» фраз в корпусе документов. Система анализирует частоту употребления, форматирование (например, анкорный текст) и совместную встречаемость фраз. Используя метрику Information Gain, система выявляет фразы, которые предсказывают появление других фраз, формируя семантические кластеры. Это позволяет поисковой системе понимать контент на уровне концепций, а не отдельных слов.
  • US7580921B2
  • 2009-08-25
  • Семантика и интент

  • Индексация

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных
Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.
  • US9652462B2
  • 2017-05-16
  • Мультимедиа

  • SERP

  • Семантика и интент

Популярные патенты

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google в Autocomplete динамически выбирает между показом общих категорий и конкретных подсказок в зависимости от «завершенности запроса»
Google анализирует «меру завершенности запроса» (Measure of Query Completeness) по мере ввода текста пользователем. Если намерение неясно и существует много вариантов продолжения (низкая завершенность, высокая энтропия), система предлагает общие категории (например, «Регионы», «Бизнесы»). Если намерение становится ясным (высокая завершенность, низкая энтропия), система переключается на конкретные подсказки или сущности.
  • US9275147B2
  • 2016-03-01
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи
Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.
  • US9178848B1
  • 2015-11-03
  • Local SEO

  • SERP

  • Ссылки

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.
  • US9098582B1
  • 2015-08-04
  • Ссылки

  • Мультиязычность

  • Семантика и интент

Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента
Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).
  • US8095876B1
  • 2012-01-10
  • EEAT и качество

  • Техническое SEO

  • Ссылки

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce
Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.
  • US7089237B2
  • 2006-08-08
  • Поведенческие сигналы

  • Персонализация

  • SERP

seohardcore