SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google определяет главные темы сайта ("Top Phrases") и позволяет вебмастерам уточнять их для улучшения индексации

INTEGRATING EXTERNAL RELATED PHRASE INFORMATION INTO A PHRASE-BASED INDEXING INFORMATION RETRIEVAL SYSTEM (Интеграция внешней информации о связанных фразах в систему информационного поиска на основе фраз)
  • US8117223B2
  • Google LLC
  • 2007-09-07
  • 2012-02-14
  • Индексация
  • Семантика и интент
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему фразовой индексации для определения "Топ Фраз" сайта на основе анализа совместного употребления связанных словосочетаний. Патент описывает механизм, позволяющий вебмастерам корректировать эти Топ Фразы. Система интегрирует эту обратную связь, обновляя семантические связи между фразами в индексе и улучшая понимание контента сайта.

Описание

Какую проблему решает

Патент решает задачу повышения точности автоматического определения тематической релевантности веб-сайта (его "Top Phrases"). Он также направлен на обогащение общих семантических знаний системы путем сбора и интеграции надежной внешней обратной связи от администраторов сайтов (вебмастеров) относительно тем, которые они считают наиболее репрезентативными для своего контента.

Что запатентовано

Запатентована система, которая автоматически определяет "Top Phrases" (Топ Фразы) для веб-сайта на основе совместного употребления связанных фраз (Related Phrases). Ключевым элементом изобретения является механизм, позволяющий администраторам просматривать и заменять эти фразы. Основное новшество – это логика интеграции, которая обновляет базовую базу данных фраз (связанные фразы, списки соответствия) на основе этого внешнего ввода, обрабатывая новые фразы так, как если бы они присутствовали на сайте и имели соответствующие семантические связи.

Как это работает

Система работает в несколько этапов:

  • Определение Топ Фраз: Для каждой страницы сайта рассчитывается "Importance Score" (оценка важности) фраз на основе частоты встречаемости их связанных фраз (Related Phrases) на этой же странице. Эти оценки агрегируются по всему сайту для определения общих "Top Phrases".
  • Обратная связь: Администратору сайта предоставляется интерфейс для просмотра и замены Топ Фраз.
  • Интеграция: Когда администратор заменяет старую фразу (TP_old) новой (TP_new), система обновляет индекс:
    • Сайт добавляется в список соответствия (Posting List) для TP_new.
    • TP_old и TP_new помечаются как связанные фразы друг для друга.
    • TP_new наследует счетчики общих связанных фраз от TP_old.
    • Усиливаются связи между TP_new и другими Топ Фразами сайта.
  • Защита от манипуляций: Система проверяет, есть ли у TP_old и TP_new общие связанные фразы. Если нет, замена может быть отклонена или пессимизирована.

Актуальность для SEO

Высокая. Тематическое моделирование, понимание авторитетности и фокуса сайта являются центральными элементами современного SEO. Этот патент, разработанный Анной Паттерсон (ключевой фигурой в разработке инфраструктуры индексации Google), описывает фундаментальный подход к пониманию контента через фразы. Хотя конкретный интерфейс может отличаться от описанного, концепция интеграции внешних сигналов (например, данных из Google Search Console) и сложный анализ фраз/сущностей остаются ядром работы Google.

Важность для SEO

Патент имеет значительное влияние на SEO-стратегию. Он демонстрирует, что Google моделирует темы не на основе отдельных ключевых слов, а на основе совместной встречаемости семантически связанных фраз. Это подтверждает критическую важность построения тематического авторитета (Topical Authority) через глубокую проработку контента и использование связанных понятий. Патент также раскрывает философию Google по поиску и интеграции внешней авторитетной информации для уточнения своего понимания контента.

Детальный разбор

Термины и определения

Aggregate Score (Агрегированная оценка)
Сумма оценок важности (Importance Scores) фразы по всем документам веб-сайта. Используется для определения Top Phrases сайта.
Good Phrase (Хорошая фраза)
Фраза (включая отдельные слова), которая встречается в корпусе достаточно часто и/или имеет выделенное оформление, и которая предсказывает появление других фраз.
Importance Score (Оценка важности)
Метрика, рассчитываемая для фразы в конкретном документе. Основана на суммарной частоте встречаемости связанных фраз (Related Phrases) этой фразы в том же документе.
Information Gain (IG, Прирост информации)
Статистическая мера, используемая для определения связи между фразами. Показывает, во сколько раз фактическая частота совместной встречаемости двух фраз превышает ожидаемую. I(j,k)=A(j,k)

Выводы

  1. Тематика сайта определяется через связанные фразы: Google использует совместную встречаемость семантически связанных фраз (Related Phrases), а не просто частоту ключевых слов, для определения главных тем сайта (Top Phrases). Чем больше связанных фраз используется в контенте, тем выше Importance Score основной фразы.
  2. Google стремится интегрировать авторитетную обратную связь: Система разработана для приема и глубокой интеграции внешних данных от администраторов сайтов. Это указывает на то, что Google ценит авторитетное мнение владельца контента о его тематике.
  3. Глубокая семантическая интеграция: Интеграция происходит не поверхностно. Когда вебмастер указывает новую Топ Фразу, Google обновляет семантический граф, явно связывая старую и новую фразы как родственные и позволяя новой фразе наследовать существующие связи. Система обрабатывает введенную пользователем фразу так, как если бы она физически присутствовала на сайте.
  4. Доверяй, но проверяй (Защита от спама): Google не принимает внешний ввод слепо. Ввод валидируется против существующих машинно-обученных связей. Если предложенная фраза семантически не связана с исходной (нет общих Related Phrases), она будет отклонена или пессимизирована. Это предотвращает манипуляции с целью ранжирования по нерелевантным популярным запросам.
  5. Тематическая целостность критична: Механизм расчета Top Phrases и логика интеграции подчеркивают важность тематической целостности сайта. Связи усиливаются, если новая Топ Фраза связана с другими существующими Топ Фразами сайта.

Практика

Best practices (это мы делаем)

  • Фокус на глубине темы и Topical Authority: Создавайте контент, который всесторонне раскрывает тему, используя естественные синонимы, связанные термины и сущности. Поскольку Importance Score рассчитывается на основе присутствия Related Phrases, необходимо обеспечить богатое семантическое окружение для основных тем.
  • Обеспечение тематической целостности сайта: Убедитесь, что различные разделы и страницы сайта семантически связаны и поддерживают общие главные темы. Алгоритм агрегирует оценки по всему сайту и усиливает связи между Топ Фразами.
  • Мониторинг восприятия сайта поисковой системой: Хотя прямой интерфейс для редактирования Top Phrases может быть недоступен публично, необходимо использовать доступные инструменты (например, отчеты в Google Search Console) как прокси для понимания того, какие темы Google считает главными для сайта. Если они расходятся с целями бизнеса, это сигнал к пересмотру контент-стратегии.
  • Использование четких и авторитетных терминов: При гипотетической возможности повлиять на Top Phrases (или при работе над контентом в целом), используйте терминологию, которая имеет сильные и релевантные семантические связи в вашей нише. Это повышает вероятность валидации системой (наличие общих Related Phrases).

Worst practices (это делать не надо)

  • Фокус на отдельных ключевых словах (Keyword Stuffing): Попытки оптимизации под отдельные высокочастотные запросы без создания семантического контекста (т.е. без Related Phrases) не позволят этим запросам стать Top Phrases сайта.
  • Создание разрозненного контента: Публикация контента на множество слабо связанных тем затруднит системе определение четких Top Phrases, так как Aggregate Scores будут размыты.
  • Игнорирование семантических связей: Использование терминов изолированно, без поддерживающих связанных понятий, снижает Importance Score этих терминов.
  • Попытки манипуляции тематикой (Topic Dilution/Manipulation): Стратегии, направленные на искусственное создание релевантности популярным, но не связанным с сайтом темам. Механизм защиты, требующий наличия общих Related Phrases, направлен против таких тактик и может привести к пессимизации.

Стратегическое значение

Этот патент подтверждает долгосрочную стратегию Google по переходу от анализа ключевых слов к сложному тематическому моделированию на основе отношений между фразами и сущностями. Он демонстрирует, как Google может автоматически определять "экспертность" или фокус сайта, анализируя глубину использования связанных концепций. Для SEO-специалистов это означает, что построение Topical Authority требует не просто наличия контента по теме, а демонстрации глубины знаний через использование широкого спектра связанных терминов и понятий.

Практические примеры

Сценарий: Уточнение тематики специализированного сайта о породе собак

Сайт: www.australianshepherds.com

  1. Автоматическое определение: Система анализирует сайт и определяет Top Phrases на основе частоты связанных фраз.
    Результат: "Agility training", "Blue merle", "Red merle", "Aussie", "Working dog".
  2. Анализ администратора: Администратор видит список и понимает, что "Working dog" (Рабочая собака) слишком общий термин и хочет заменить его на более релевантный для их аудитории.
  3. Ввод пользователя: Администратор предлагает замену: TP_old="Working dog", TP_new="Dog sports" (Кинологический спорт).
  4. Валидация системы: Система проверяет связанные фразы.
    • Related(Working dog) = {"herding", "protection", "guide dog"}
    • Related(Dog sports) = {"agility training", "flyball", "herding trials"}
    Результат: Есть общее понятие ("herding"). Замена валидна.
  5. Интеграция:
    • Сайт добавляется в Posting List для "Dog sports".
    • "Working dog" и "Dog sports" помечаются как связанные.
    • Счетчики для "herding" копируются из "Working dog" в "Dog sports".
    • Поскольку "Agility training" уже является Топ Фразой сайта И связана с "Dog sports", ее счетчик для "Dog sports" увеличивается.
  6. Итог: Сайт становится более релевантным для запросов, связанных с "Dog sports", и усиливается его авторитетность в теме "Agility training".

Вопросы и ответы

Что такое "Top Phrase" (Топ Фраза) в контексте этого патента?

Это фраза, которую система считает наиболее репрезентативной для всего веб-сайта. Она определяется не просто по частоте употребления, а по тому, насколько часто вместе с ней на страницах сайта встречаются её семантически связанные фразы (Related Phrases). Это показатель глубины и сфокусированности контента сайта на данной теме.

Как рассчитывается важность фразы (Importance Score)?

Importance Score рассчитывается для конкретной фразы на конкретной странице. Он равен сумме частот встречаемости всех её Related Phrases на этой же странице. Если фраза используется изолированно, без связанных понятий, её Importance Score будет низким, даже если сама фраза встречается часто.

Что это значит для контент-стратегии?

Это подчеркивает критическую важность Topical Authority и семантической глубины. Недостаточно просто упоминать ключевое слово; необходимо окружать его связанными терминами, сущностями и понятиями. Контент должен демонстрировать экспертность через использование богатого и релевантного тематического словаря.

Означает ли этот патент, что вебмастера могут напрямую редактировать темы своего сайта в Google?

Патент описывает техническую возможность и интерфейс для такого редактирования. Хотя точно такой интерфейс может быть недоступен публично или может быть частью внутренних инструментов Google, патент раскрывает философию Google: система стремится получить и интегрировать авторитетную обратную связь от владельцев контента для уточнения автоматических алгоритмов.

Как Google определяет, какие фразы являются связанными (Related Phrases)?

Связь определяется с помощью статистической меры Information Gain (Прирост информации). Если две фразы встречаются вместе значительно чаще, чем ожидалось бы при случайном распределении по всему корпусу документов, они считаются связанными. Этот расчет производится глобально, до анализа конкретного сайта.

Как система защищается от манипуляций, если вебмастер попытается указать популярную, но нерелевантную фразу?

Существует механизм валидации. Когда вебмастер предлагает замену, система проверяет, есть ли у исходной фразы и новой фразы общие Related Phrases. Если их нет (т.е. фразы семантически не связаны в глобальном индексе Google), система может отклонить замену или применить пессимизацию (decrement penalty) к новой фразе.

Что происходит в индексе, когда вебмастер заменяет фразу?

Происходит глубокая интеграция. Во-первых, старая и новая фразы явно помечаются как связанные друг с другом. Во-вторых, новая фраза наследует "вес" (счетчики) общих связанных фраз от старой фразы. В-третьих, сайт добавляется в индекс по новой фразе. Система буквально переписывает свое понимание сайта.

Влияет ли структура сайта на определение Топ Фраз?

Да. Патент упоминает возможность взвешивания Importance Scores в зависимости от положения документа в коллекции. Например, фразы на страницах, находящихся ближе к корню сайта (например, на главной или в основных категориях), могут получить больший вес при расчете агрегированной оценки (Aggregate Score).

Как этот патент связан с сущностями (Entities) и Графом Знаний (Knowledge Graph)?

Этот патент является предшественником или параллельной разработкой к системам, основанным на сущностях. "Хорошие фразы" (Good Phrases) часто являются репрезентацией сущностей. Механизмы определения связанных фраз через Information Gain и кластеризации фраз лежат в основе построения семантических связей, которые используются в современных системах для понимания отношений между сущностями.

Каков главный вывод для SEO-специалиста из этого патента?

Главный вывод – тематическая авторитетность строится на глубине и связности. Чтобы Google признал ваш сайт авторитетом (и определил правильные Top Phrases), необходимо последовательно использовать семантически связанные концепции по всему сайту. Изолированная оптимизация страниц под отдельные запросы неэффективна для построения сильного тематического профиля сайта.

Похожие патенты

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
  • US7702614B1
  • 2010-04-20
  • Индексация

  • Свежесть контента

  • Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент
Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.
  • US8874558B1
  • 2014-10-28
  • EEAT и качество

  • Свежесть контента

  • Индексация

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи
Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.
  • US7426507B1
  • 2008-09-16
  • Индексация

  • SERP

  • Семантика и интент

Как Google намеренно задерживает или искажает изменения в ранжировании для выявления SEO-манипуляций
Google использует механизм для борьбы со спамом, который вносит временные задержки и неожиданные колебания в ранжирование документа после изменения его факторов. Вместо немедленного применения нового рейтинга система использует "Функцию перехода ранга". Это делается для того, чтобы запутать спамеров и проанализировать их реакцию на неожиданные изменения (например, падение позиций вместо ожидаемого роста), выявляя таким образом манипуляции.
  • US8244722B1
  • 2012-08-14
  • Антиспам

  • SERP

  • Техническое SEO

Популярные патенты

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google использует историю запросов, сделанных на Картах, для ранжирования локальных результатов и рекламы
Google анализирует, что пользователи ищут, когда просматривают определенную географическую область на карте (Viewport). Эта агрегированная история запросов используется для определения популярности локальных бизнесов и контента в этом конкретном районе. Результаты, которые часто запрашивались в этой области, особенно недавно, получают значительное повышение в ранжировании.
  • US9129029B1
  • 2015-09-08
  • Local SEO

  • Поведенческие сигналы

  • Свежесть контента

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи
Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.
  • US6526440B1
  • 2003-02-25
  • Ссылки

  • Антиспам

  • SERP

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)
Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.
  • US8386495B1
  • 2013-02-26
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News
Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.
  • US8375073B1
  • 2013-02-12
  • EEAT и качество

  • SERP

  • Ссылки

seohardcore