SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google выявляет темы с недостаточным контентом ("content gaps") и стимулирует его создание

IDENTIFYING INADEQUATE SEARCH CONTENT (Выявление неадекватного поискового контента)
  • US7668823B2
  • Google LLC
  • 2007-04-03
  • 2010-02-23
  • EEAT и качество
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для анализа поисковой статистики, чтобы найти популярные темы, по которым мало качественных результатов ("underserved topics"). Система сравнивает спрос (объем запросов) с предложением (качеством существующего контента). Затем Google может передавать эту информацию создателям контента (издателям, пользователям), чтобы стимулировать создание нового контента, улучшая общее качество веб-корпуса и поисковой выдачи.

Описание

Какую проблему решает

Патент решает проблему разрыва между интересом пользователей (высокий объем поисковых запросов по теме) и доступностью высококачественного контента по этой теме (низкое качество корпуса темы). Он устраняет ситуацию, когда стандартные алгоритмы поиска возвращают мало результатов или только низкокачественные результаты по популярным запросам. Также патент адресует сложность, с которой сталкиваются создатели контента при попытке определить, какая информация действительно востребована пользователями.

Что запатентовано

Запатентована система и метод для оценки корпуса темы (topic corpus). Система анализирует статистику запросов (query statistics) для определения популярности темы и статистику темы (topic statistics), включающую агрегированный ранг и релевантность существующего контента. Путем сравнения спроса и предложения система выявляет "недостаточно обслуживаемые темы" (underserved topics) — темы, где качество контента не соответствует уровню спроса. Эта информация затем используется для стимулирования создания нового контента.

Как это работает

Система работает в несколько этапов:

  • Сбор статистики: Statistics Collection and Analysis Engine собирает данные из поисковой системы, включая запросы, результаты, оценки релевантности (IR score) и ранги узлов (Node Rank).
  • Группировка по темам: Поисковые запросы анализируются и группируются в темы (например, путем кластеризации или маппинга в таксономию).
  • Оценка качества корпуса: Для каждой темы вычисляется агрегированное качество корпуса (Topic Corpus Quality) на основе IR scores и Node Ranks документов в корпусе.
  • Сравнение спроса и предложения: Система сравнивает популярность темы (объем запросов) с качеством корпуса темы.
  • Идентификация пробелов: Если качество корпуса ниже порогового значения для данного уровня популярности, тема помечается как underserved.
  • Распространение информации: Topic Distribution Engine передает информацию об этих темах создателям контента (издателям, сайтам с пользовательским контентом) или предлагает пользователям, выполняющим поиск, создать контент.

Актуальность для SEO

Высокая. Выявление пробелов в контенте ("content gaps") остается фундаментальной задачей для поддержания качества поисковой экосистемы. Хотя конкретные реализации, описанные в патенте, могли эволюционировать в различные продукты и аналитические инструменты, базовая концепция анализа спроса и предложения критически важна. Участие ключевых фигур, таких как Hal Varian (главный экономист) и Matt Cutts (экс-глава отдела веб-спама), подчеркивает стратегическую важность этого направления.

Важность для SEO

Патент имеет значительное влияние на SEO, особенно в области контент-стратегии (8/10). Он предоставляет фреймворк для понимания того, как Google оценивает совокупность доступного контента по теме (Topic Corpus), а не только отдельные страницы. Это подчеркивает стратегическую важность выявления и заполнения пробелов в контенте (underserved topics) как основного метода SEO для захвата трафика в развивающихся или нишевых областях.

Детальный разбор

Термины и определения

Information Retrieval (IR) Score (Оценка информационного поиска)
Метрика, измеряющая релевантность документа (например, веб-страницы) поисковому запросу.
Node Rank (Ранг узла)
Метрика авторитетности документа, основанная на количестве и качестве ссылающихся на него узлов. Патент явно ссылается на U.S. Pat. No. 6,285,999 ("Method for Node Ranking in a Linked Database"), который описывает PageRank.
Statistics Collection and Analysis Engine (Система сбора и анализа статистики)
Компонент, который собирает статистику из поисковой системы, группирует запросы по темам, анализирует качество корпуса и выявляет недостаточно обслуживаемые темы.
Topic Corpus (Корпус темы)
Совокупность документов, которые идентифицируются как релевантные для группы связанных поисковых запросов (темы).
Topic Corpus Quality (Качество корпуса темы)
Агрегированная оценка качества контента в корпусе темы, обычно основанная на комбинации IR Scores и Node Ranks документов корпуса.
Topic Distribution Engine (Система распространения тем)
Компонент, который уведомляет создателей контента или пользователей о выявленных недостаточно обслуживаемых темах.
Underserved Queries (Недостаточно обслуживаемые запросы)
Запросы, для которых спрос на контент превышает предложение или качество контента в корпусе темы.
Underserved Topic Search Engine (Поисковая система по недостаточно обслуживаемым темам)
Отдельный сервис, предложенный в патенте, позволяющий издателям искать темы, нуждающиеся в дополнительном контенте.
Unserved Queries (Необслуживаемые запросы)
Запросы, для которых поисковая система не может найти релевантный контент.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основную систему выявления и распространения тем.

  1. Система сбора статистики генерирует статистику запросов (query statistics).
  2. Система анализа группирует запросы по темам и генерирует статистику тем (topic statistics). Эта статистика включает агрегированный ранг (aggregate rank) и агрегированную релевантность (aggregate relevance) корпуса темы (topic corpus).
  3. Компаратор вычисляет качество корпуса темы (topic corpus quality) и идентифицирует недостаточно обслуживаемую тему (underserved topic) на основе сравнения статистики темы и статистики запросов.
  4. Идентификация происходит, если качество корпуса темы ниже порогового качества (threshold quality).
  5. Система распространения тем (topic distribution engine) предоставляет данные для отображения этой недостаточно обслуживаемой темы.

Claim 15 (Независимый пункт): Описывает метод, фокусирующийся на действии по запросу нового контента.

  1. Определение статистики для первой темы, включая агрегированный ранг и релевантность корпуса темы.
  2. Определение того, что тема недостаточно обслуживается, если качество ее корпуса ниже порогового значения (на основе статистики темы и статистики запросов).
  3. Предоставление данных для отображения недостаточно обслуживаемой темы.
  4. Запрос дополнительного контента для включения в корпус темы на основании этого определения.

Claim 28 (Независимый пункт): Детализирует метод идентификации.

  1. Генерация статистики запросов.
  2. Группировка запросов по темам.
  3. Идентификация недостаточно обслуживаемой темы на основе функции статистики корпуса темы и статистики запросов.
  4. Процесс идентификации включает определение агрегированного ранга и релевантности корпуса первой темы и определение того, что тема недостаточно обслуживается, если качество корпуса ниже порогового значения.
  5. Предоставление данных для отображения недостаточно обслуживаемой темы.

Где и как применяется

Изобретение в основном применяется в офлайн-процессах анализа данных, но также имеет компоненты, работающие в реальном времени на этапах ранжирования и формирования выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе рассчитываются статические сигналы качества, такие как Node Rank (PageRank), которые хранятся для последующего использования при оценке качества корпуса.

RANKING – Ранжирование
Во время ранжирования для конкретных запросов генерируются оценки релевантности (IR Scores). Эти данные, наряду с запросами и результатами, записываются в логи поиска.

(Офлайн Анализ Данных / Data Pipeline)
Основное применение патента. Statistics Collection and Analysis Engine обрабатывает логи поиска офлайн:

  1. Агрегирует данные о запросах и их результатах.
  2. Группирует запросы в темы.
  3. Вычисляет агрегированные показатели качества (Topic Corpus Quality).
  4. Сравнивает качество с объемом спроса и идентифицирует underserved topics.

RERANKING / Формирование SERP
Патент описывает возможность применения в реальном времени. Если система определяет, что качество результатов поиска низкое, она может уведомить об этом пользователя и предоставить приглашение добавить контент.

Входные данные:

  • Логи поисковых запросов (тексты запросов, частота).
  • Результаты поиска для этих запросов.
  • Метрики релевантности (IR Scores) для пар запрос-документ.
  • Метрики авторитетности (Node Ranks) для документов.
  • Данные о поведении пользователей (клики, время просмотра результатов, уточнения запросов).
  • Географические, языковые и временные данные, связанные с запросами.

Выходные данные:

  • Список недостаточно обслуживаемых тем (underserved topics).
  • Индекс, указывающий степень недостаточности обслуживания (Degree Underserved).
  • Уведомления для издателей или пользователей о необходимости создания контента.

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на нишевые тематики, длиннохвостые запросы (long-tail) и новые, развивающиеся области, где контент скуден, но спрос растет. Меньшее влияние на насыщенные темы с высоким качеством контента. Патент также упоминает применимость к товарным нишам для выявления спроса на продукты.
  • Специфические запросы: Влияет на информационные запросы, где пользователи ищут знания или информацию, которая еще плохо представлена в интернете.
  • Типы контента: Стимулирует создание подробных статей, руководств и агрегированных страниц для заполнения выявленных пробелов.

Когда применяется

  • Офлайн-анализ: Система периодически анализирует логи поиска для обновления списка underserved topics.
  • Триггеры активации (в реальном времени): Когда пользователь выполняет поиск, и система определяет, что качество результатов низкое. Это может определяться сравнением качества с пороговым значением или сравнением с качеством результатов для запросов с аналогичной популярностью.
  • Распространение информации: Когда издатели взаимодействуют с интерфейсами для получения тем (например, Underserved Topic Search Engine) или получают уведомления от Topic Distribution Engine.

Пошаговый алгоритм

Процесс А: Идентификация недостаточно обслуживаемых тем (Офлайн)

  1. Сбор статистики поиска: Сбор данных о запросах, включая поисковые строки, результаты, IR Scores, Node Ranks, уточнения запросов и поведенческие данные (клики, время просмотра).
  2. Ассоциация запросов с темами: Группировка связанных запросов в темы. Это может достигаться путем кластеризации запросов на основе общих результатов, использования общей терминологии или маппинга в таксономию.
  3. Расчет качества корпуса темы: Для текущей темы извлекаются все связанные документы (Topic Corpus). Вычисляется агрегированное качество корпуса (Topic Corpus Quality) на основе IR Scores и Node Ranks этих документов.
  4. Оценка спроса на тему: Определение популярности темы на основе общего объема поисковых запросов, связанных с ней.
  5. Сравнение качества и спроса: Сравнение вычисленного качества корпуса с объемом поиска по теме. Сравнение может проводиться относительно других тем с аналогичным объемом поиска для определения ожидаемого уровня качества.
  6. Определение недостаточности обслуживания: Принятие решения о том, перевешивает ли спрос предложение (т.е. является ли качество корпуса ниже ожидаемого порога для данного объема поиска).
  7. Индексация и маркировка: Если тема недостаточно обслуживается, она маркируется как underserved и индексируется. Индекс может отражать степень недостаточности обслуживания (разрыв между спросом и качеством).
  8. Повторение цикла: Переход к следующей теме и повторение анализа.

Процесс Б: Обработка запроса и уведомление (Реальное время)

  1. Получение поискового запроса: Система получает запрос от пользователя.
  2. Определение качества результатов поиска: Система генерирует результаты и определяет их качество (на основе IR Score и Node Rank).
  3. Проверка качества: Определение, является ли качество результатов низким (например, ниже порогового значения или ниже среднего для аналогичных запросов).
  4. Возврат результатов: Если качество приемлемое, вернуть результаты поиска.
  5. Уведомление пользователя: Если качество низкое, уведомить пользователя о том, что результаты могут быть неадекватными.
  6. Приглашение к созданию контента: Предоставить пользователю приглашение добавить контент по этой теме (например, через сайт с пользовательским контентом).

Какие данные и как использует

Данные на входе

Патент явно указывает на использование широкого спектра данных для оценки качества и спроса:

  • Ссылочные факторы: Критически важные. Используется Node Rank для определения качества и репутации документов. Патент явно включает по ссылке патент PageRank (U.S. Pat. No. 6,285,999).
  • Контентные факторы: Используются для расчета Information Retrieval (IR) Score, который измеряет релевантность документа запросу.
  • Поведенческие факторы: Явно упоминаются для оценки качества поиска: клики по результатам, время просмотра результатов ("how long the user examines the results"), добавление тегов или рекомендаций сайта пользователем. Также упоминается частота уточнений запросов (refinement rate) как показатель качества.
  • Временные факторы: Собираются данные о распределении запросов во времени для выявления сезонности или популярности в определенные периоды (праздники, дни недели).
  • Географические факторы: Собираются данные о географическом распределении запросов.
  • Языковые факторы: Система может определять качество контента для разных языков и выявлять дефицит контента на конкретном языке.
  • Пользовательские факторы: Упоминается сбор демографического распределения запросов.

Какие метрики используются и как они считаются

  • Popularity / Search Volume (Популярность / Объем поиска): Общее количество поисковых запросов, связанных с темой за определенный период.
  • Topic Corpus Quality (Качество корпуса темы): Агрегированная метрика качества контента по теме. Рассчитывается на основе агрегации IR Scores (релевантность) и Node Ranks (авторитетность) всех документов в корпусе темы. Также может учитывать поведенческие метрики (например, низкий CTR и высокая частота уточнений снижают оценку качества).
  • Threshold Quality (Пороговое качество): Ожидаемый уровень качества корпуса для темы с заданным уровнем популярности. Может определяться путем сравнения с другими темами аналогичной популярности.
  • Degree Underserved (Степень недостаточности обслуживания): Метрика, показывающая разрыв между популярностью темы и качеством ее корпуса. Используется для приоритизации тем при распространении.

Выводы

  1. Google активно управляет экосистемой контента: Патент демонстрирует, что Google не просто индексирует существующий контент, но и активно отслеживает баланс между спросом (запросы пользователей) и предложением (качественный контент), стремясь стимулировать создание контента там, где его не хватает.
  2. Оценка качества на уровне корпуса темы (Topic Corpus): Система оценивает не отдельные страницы, а совокупность всего доступного контента по теме. Качество корпуса агрегирует метрики релевантности (IR Score) и авторитетности (Node Rank/PageRank).
  3. Использование поведенческих сигналов для оценки качества: Патент явно подтверждает использование кликов, времени просмотра результатов и частоты уточнений запросов (refinement rate) как индикаторов качества контента и удовлетворенности пользователей.
  4. Идентификация "Content Gaps": Основная цель системы — выявить underserved topics, то есть темы, где интерес пользователей значительно превышает качество доступной информации.
  5. Механизмы стимулирования: Патент предлагает несколько путей для заполнения пробелов: информирование издателей, создание "заглушек" (stub articles) на сайтах типа Wiki для привлечения авторов, и даже прямое предложение пользователю, выполнившему поиск, создать контент.
  6. Многофакторный анализ спроса: При анализе спроса учитываются не только объем запросов, но и их географическое, языковое и временное распределение, что позволяет выявлять локальные или сезонные потребности в контенте.

Практика

Best practices (это мы делаем)

  • Фокус на выявлении и заполнении "Content Gaps": Основная стратегия должна заключаться в поиске underserved topics — областей с высоким спросом и низким предложением качественного контента. Используйте анализ пробелов в ключевых словах, Google Trends и анализ конкурентов для выявления таких тем.
  • Построение тематического авторитета (Topical Authority): Создавайте кластеры контента, которые всесторонне покрывают тему. Это повышает вероятность того, что ваш контент будет высоко оценен как часть Topic Corpus, улучшая агрегированные показатели качества.
  • Оптимизация под удовлетворенность пользователя: Поскольку поведенческие сигналы (клики, время просмотра, уточнения запросов) используются для оценки качества корпуса, необходимо фокусироваться на создании контента, который полностью отвечает на интент пользователя и минимизирует необходимость возврата к выдаче.
  • Мониторинг emerging topics (развивающихся тем): Отслеживайте новые тренды и запросы, по которым еще не сформирован качественный корпус контента. Быстрое реагирование на такие тренды позволяет занять нишу до ее насыщения.
  • Локализация и учет сезонности: Используйте данные о географическом и временном распределении спроса для создания контента, нацеленного на конкретные регионы или события, где может наблюдаться дефицит качества.

Worst practices (это делать не надо)

  • Конкуренция в насыщенных нишах (Overserved Topics): Тратить ресурсы на создание контента по темам, где корпус уже имеет высокое качество и полностью удовлетворяет спрос. Патент упоминает возможность идентификации "overserved" тем, чтобы издатели избегали их.
  • Создание поверхностного контента: Создание тонкого или низкокачественного контента не поможет заполнить underserved topic, так как система оценивает качество на основе IR Score и Node Rank. Такой контент не улучшит общую оценку Topic Corpus Quality.
  • Игнорирование сигналов неудовлетворенности: Если ваши страницы показывают низкое время взаимодействия или высокую частоту возврата к выдаче, это сигнализирует системе о низком качестве контента, способствуя классификации темы как underserved.

Стратегическое значение

Патент подтверждает, что SEO — это не только оптимизация под существующие ключевые слова, но и выявление неудовлетворенных потребностей пользователей. Google ценит создание новой полезной информации, которая улучшает общий корпус веба. Стратегия должна смещаться от простого реагирования на спрос к проактивному поиску и заполнению пробелов в знаниях. Понимание концепции Topic Corpus Quality подчеркивает важность комплексного подхода к созданию контента и построению авторитета в теме.

Практические примеры

Сценарий: Выявление и заполнение пробела в контенте по новой технологии

  1. Анализ спроса: SEO-специалист замечает рост поискового интереса к новой JavaScript-библиотеке (например, "Library X optimization techniques") через Google Trends и инструменты анализа ключевых слов.
  2. Оценка предложения (Topic Corpus Quality): Анализ текущей выдачи показывает, что результаты скудны: в основном это официальная документация, несколько поверхностных постов в блогах и вопросы на форумах без ответов. Авторитетные ресурсы (высокий Node Rank) тему не покрывают.
  3. Идентификация: Система Google (и SEO-специалист) классифицирует эту тему как underserved topic, так как спрос высок, а качество корпуса низкое.
  4. Действие: SEO-специалист инициирует создание серии подробных руководств по оптимизации Library X, включая примеры кода, бенчмарки и лучшие практики.
  5. Результат: Новый контент быстро занимает высокие позиции, так как он значительно улучшает Topic Corpus Quality. Он получает высокие IR Scores и со временем набирает Node Rank, удовлетворяя существующий спрос.

Вопросы и ответы

Что такое "Topic Corpus" и почему это важно для SEO?

Topic Corpus — это совокупность всех документов, которые Google считает релевантными для определенной темы (группы связанных запросов). Важность для SEO заключается в том, что Google оценивает качество всего корпуса, а не только отдельных страниц. Если общий корпус низкого качества, это открывает возможности для новых сайтов быстро занять высокие позиции, создав контент, который значительно улучшает качество корпуса.

Как Google измеряет качество "Topic Corpus"?

Патент указывает, что качество корпуса темы (Topic Corpus Quality) является агрегированной метрикой. Она рассчитывается на основе комбинации оценок релевантности (IR Scores) и авторитетности (Node Rank, т.е. PageRank) всех документов в корпусе. Также учитываются поведенческие сигналы, такие как клики, время просмотра и частота уточнений запросов.

Что такое "Underserved Topic"?

Underserved Topic (недостаточно обслуживаемая тема) — это тема, для которой спрос (объем и частота поисковых запросов) значительно превышает предложение (качество и количество доступного контента). Система идентифицирует такие темы, сравнивая качество корпуса с ожидаемым уровнем качества для данного объема спроса.

Как на практике найти "Underserved Topics" для моего сайта?

Хотя прямого доступа к этой системе у SEO-специалистов нет, можно использовать косвенные методы. Ищите темы с растущим трендом (Google Trends) и неудовлетворительной выдачей (много форумов, тонкого контента, отсутствие авторитетных источников). Анализ пробелов в ключевых словах конкурентов и мониторинг новых запросов в вашей нише также помогают выявить такие темы.

Подтверждает ли этот патент использование поведенческих факторов для оценки качества?

Да, подтверждает. В патенте явно указано, что система может отслеживать различные поведенческие сигналы пользователей, такие как клики по результатам, продолжительность изучения результатов (время просмотра) и частоту уточнений запросов (refinement rate), для оценки качества поиска и контента.

Что значит, если Google приглашает пользователя создать контент прямо в выдаче?

Патент описывает механизм, при котором, если результаты поиска признаны низкокачественными, система может уведомить об этом пользователя и предложить ему внести свой вклад в корпус темы. Это означает, что система идентифицировала критический дефицит качественной информации по данному запросу.

Что такое "Overserved Topics" и нужно ли их избегать?

Патент упоминает возможность идентификации "overserved topics" — тем, где качество контента значительно выше, чем можно было бы ожидать, исходя из популярности темы. С точки зрения SEO, это насыщенные ниши с высокой конкуренцией. Их не обязательно избегать, но вход в них требует значительно больших ресурсов и создания контента исключительного качества.

Как система определяет, какие запросы относятся к одной теме?

Патент предлагает несколько методов группировки запросов. Основные из них — кластеризация запросов на основе общих результатов поиска (если запросы возвращают похожие документы, они связаны) и маппинг запросов в предопределенную таксономию или категории. Также могут анализироваться уточнения запросов в рамках одной сессии.

Какова роль PageRank (Node Rank) в этом патенте?

Node Rank (PageRank) играет ключевую роль в оценке качества корпуса темы. Чтобы корпус считался качественным, он должен содержать не только релевантные (высокий IR Score), но и авторитетные документы (высокий Node Rank). Отсутствие авторитетных источников является сильным сигналом того, что тема недостаточно обслуживается.

Влияет ли этот механизм на локальный или многоязычный поиск?

Да. Патент явно указывает на сбор данных о географическом и языковом распределении запросов. Система может определить, что тема хорошо освещена на английском языке, но является underserved на испанском или в конкретном регионе, стимулируя создание локализованного контента.

Похожие патенты

Как Google использует контент, который вы сейчас просматриваете, для фильтрации и уточнения вашей поисковой выдачи
Google анализирует контекст веб-страницы или документа, который просматривает пользователь, чтобы определить основную тему (топик). Когда пользователь вводит запрос, система фильтрует результаты поиска, отдавая предпочтение тем документам, которые соответствуют этой контекстной теме, тем самым уточняя выдачу для неоднозначных запросов.
  • US8762368B1
  • 2014-06-24
  • Семантика и интент

  • SERP

  • Персонализация

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент
Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.
  • US8874558B1
  • 2014-10-28
  • EEAT и качество

  • Свежесть контента

  • Индексация

Как Google анализирует мнения и общественное восприятие тем в интернете путем кластеризации контента и измерения тональности
Патент описывает систему для анализа общественного мнения по заданной теме. Google собирает релевантные интернет-ресурсы (статьи, блоги, отзывы), группирует их по подтемам, определяет важность каждой подтемы (используя просмотры страниц и ранг релевантности) и вычисляет оценку тональности (Sentiment Score). На основе этих данных создается аналитический отчет о восприятии продукта, услуги или события.
  • US8423551B1
  • 2013-04-16
  • Семантика и интент

Как Google использует анализ контента для распределения пользовательских вопросов на тематически релевантные сайты
Патент описывает систему, функционирующую подобно рекламной сети (типа AdSense), но для Q&A. Google анализирует содержание веб-сайтов (издателей) и пользовательские вопросы для определения тематической релевантности. Затем система размещает релевантные вопросы на этих сайтах, чтобы эксперты, посещающие их, могли дать ответ. Это демонстрирует базовые механизмы Google для определения тематики контента.
  • US20080160490A1
  • 2008-07-03
  • Краулинг

  • Семантика и интент

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends
Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.
  • US8145623B1
  • 2012-03-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных
Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.
  • US9594851B1
  • 2017-03-14
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы
Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.
  • US20140188927A1
  • 2014-07-03
  • Персонализация

  • SERP

  • Ссылки

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP
Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.
  • US9275421B2
  • 2016-03-01
  • Семантика и интент

  • SERP

  • Ссылки

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию
Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.
  • US8321463B2
  • 2012-11-27
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google планировал использовать социальные связи, сети доверия и экспертизу для персонализации и переранжирования поисковой выдачи
Google запатентовал метод использования данных из социальных сетей («member networks») для влияния на ранжирование. Пользователи могли явно одобрять («endorse») результаты поиска. Эти одобрения показывались другим связанным пользователям (друзьям или людям, ищущим экспертное мнение) и использовались для переранжирования выдачи, добавляя персонализированный слой доверия.
  • US8825639B2
  • 2014-09-02
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования
Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.
  • US9684697B1
  • 2017-06-20
  • Поведенческие сигналы

  • SERP

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

seohardcore