Как Google использует машинное обучение для определения значимости обновлений контента на веб-страницах

CLASSIFYING CHANGES TO RESOURCES (Классификация изменений в ресурсах)

US8607140B1
Google LLC
2010-12-21
2013-12-10

Google использует модель машинного обучения (например, Support Vector Machine) для анализа изменений между двумя версиями веб-страницы. Система оценивает контентные, структурные (ссылки) и поведенческие (трафик) признаки, чтобы классифицировать обновление как «значимое» или «незначимое». Это позволяет поисковой системе понять, какие обновления требуют внимания (например, для оценки свежести или переиндексации), а какие являются техническим шумом.

Какую проблему решает

Патент решает задачу автоматического определения значимости изменений, внесенных в веб-ресурс (например, HTML-страницу). Система должна отличать существенные обновления контента (например, добавление новой информации, переписывание разделов) от незначительных или технических изменений (например, обновление даты в футере, ротация рекламы). Цель — имитировать поведение издателей, которые генерируют уведомления (например, через RSS) только для важных обновлений, и применять эту логику ко всему вебу.

Что запатентовано

Запатентована система и метод классификации изменений ресурсов с использованием машинного обучения, в частности Support Vector Machine (SVM). Система сравнивает две последовательные версии ресурса (Version Pair) и извлекает набор признаков (feature data), описывающих различия. Эти признаки охватывают контентные, структурные (ссылочные) и трафиковые (поведенческие) изменения. Обученная модель SVM использует вектор признаков (feature vector) для классификации изменения как значимого или незначимого.

Как это работает

Система работает в двух режимах: обучение и классификация.

Обучение (Offline): Система анализирует ресурсы, которые имеют веб-фиды (RSS/Atom). Она сравнивает пары версий и определяет, какие изменения привели к генерации уведомления издателем (значимое), а какие нет (незначимое). На основе этих данных (векторы признаков и метки «значимое/незначимое») обучается классификатор SVM.
Классификация (Runtime): При обнаружении новой версии любого ресурса система извлекает вектор признаков, описывающий разницу с предыдущей версией. Обученная модель SVM анализирует этот вектор и определяет, является ли изменение достаточно значимым, чтобы сгенерировать уведомление (Change Notification).

Актуальность для SEO

Высокая. Понимание того, как Google оценивает значимость обновлений контента, критически важно для эффективности сканирования (Crawl Budget Management), скорости индексации и оценки свежести (Freshness). Хотя конкретная модель (SVM) могла эволюционировать, фундаментальные принципы и типы используемых признаков (контент, структура, трафик), описанные в патенте, остаются актуальными для современных поисковых систем.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10). Он не описывает алгоритм ранжирования, но детально раскрывает механизм, который Google использует для оценки существенности обновлений на странице. Это напрямую влияет на то, как быстро и насколько сильно обновление может повлиять на восприятие страницы поисковой системой. Понимание описанных признаков дает SEO-специалистам дорожную карту для планирования обновлений контента, чтобы максимизировать их значимость.

Термины и определения

Change Notification (Уведомление об изменении): Сообщение, указывающее на значимое обновление ресурса (например, запись в RSS/Atom-канале).
Content Features (Контентные признаки): Признаки, основанные на содержании ресурса (текст, HTML-теги, сущности, расположение текста).
Delta Term Count (Дельта-счетчик терминов): Сумма количества терминов, которые были изменены, добавлены или удалены в новой версии по сравнению со старой. Учитывает позиционность терминов.
Delta Text (Дельта-текст): Объединение терминов, удаленных из старой версии, и терминов, добавленных в новую версию.
Feature Vector (Вектор признаков): Структурированный набор числовых значений (feature data), описывающий разницу между двумя версиями ресурса, используемый моделью машинного обучения.
High IDF Terms (Термины с высоким IDF): Термины с высокой обратной документной частотой. Редкие слова, которые часто несут большее семантическое значение.
Structure Features (Структурные признаки): Признаки, основанные на графовой структуре веба, описывающие взаимосвязи (ссылки) между данным ресурсом и другими (входящие/исходящие ссылки, анкоры).
Support Vector Machine (SVM, Машина опорных векторов): Модель машинного обучения (классификатор), используемая для определения, является ли изменение значимым.
Traffic Features (Трафиковые/Поведенческие признаки): Признаки, основанные на взаимодействии пользователей с ресурсом в поисковой системе (клики, показы, запросы).
Version Pair (Пара версий): Две последовательные версии одного и того же ресурса (старая и новая), полученные краулером в разное время.

Ключевые утверждения (Анализ Claims)

Патент содержит два ключевых независимых пункта: Claim 1 (процесс классификации) и Claim 11 (процесс обучения).

Claim 1 (Независимый пункт): Описывает метод классификации изменений.

Получение первой и второй (измененной) версий ресурса.
Определение данных признаков (feature data), включая контентные признаки (content feature data).
Расчет контентных признаков включает:
- Вычисление разницы в количестве терминов (term count difference).
- Вычисление Delta Term Count (сумма удаленных, добавленных и измененных терминов).
Создание Feature Vector на основе этих данных.
Передача вектора в обученную Support Vector Machine (SVM).
Классификация второй версии как требующей или не требующей уведомления на основе вывода SVM.

Ядром изобретения является использование SVM для классификации значимости изменений, при этом в качестве обязательных признаков защищается использование Term Count Difference и Delta Term Count.

Claim 11 (Независимый пункт): Описывает метод обучения классификатора.

Получение множества пар версий ресурсов.
Получение уведомлений об изменениях для подмножества этих пар (т.е. известно, где были уведомления, а где нет).
Для каждой пары вычисляются term count difference и Delta Term Count.
Создаются Feature Vector и индикатор уведомления (notification indicator) — метка, указывающая на наличие уведомления.
Классификатор обучается с использованием векторов признаков и соответствующих индикаторов.

Этот пункт описывает обучение модели на реальных данных (ground truth), используя существующие уведомления (например, RSS) как стандарт значимости.

Зависимые пункты (Claims 3, 7 и др.): Расширяют базовый метод, добавляя в Feature Vector другие типы признаков:

Claim 3: Добавляет структурные признаки (structure feature data) — изменения в ссылочных связях.
Claim 7: Добавляет трафиковые признаки (traffic feature data) — изменения во взаимодействии пользователей.

Где и как применяется

Изобретение является инфраструктурным и применяется на ранних этапах обработки контента.

CRAWLING – Сканирование и Сбор данных
Краулер (Webcrawler) собирает версии ресурсов и данные о веб-фидах. Описанный механизм может влиять на планирование сканирования (Crawl Scheduling): ресурсы с частыми значимыми обновлениями могут сканироваться чаще.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Когда новая версия ресурса поступает на индексацию:

Difference Engine сравнивает её с предыдущей версией.
Vectorizer извлекает признаки (Content, Structure, Traffic), описывающие изменения. Это требует доступа к контентному индексу, ссылочному графу и логам поисковой системы (Session Logs).
Trained SVM классифицирует изменение.

Если изменение классифицировано как «значимое», это может инициировать более глубокие процессы переиндексации и переоценки сигналов качества и релевантности страницы (например, активацию сигналов свежести).

Входные данные:

Первая (V1) и вторая (V2) версии ресурса.
Данные о ссылочном графе для V1 и V2.
Логи поисковой системы (для Traffic Features) для V1 и V2.
Обученная модель SVM.

Выходные данные:

Классификация изменения (значимое/незначимое).

На что влияет

Конкретные типы контента: Влияет на все типы HTML-контента. Особенно критично для страниц, где важна актуальность: новостные сайты, блоги, главные страницы, страницы листингов e-commerce.
Специфические запросы: Влияет на запросы, чувствительные к свежести (QDF). Значимое обновление может активировать Freshness Boost, в то время как незначимое будет проигнорировано.

Когда применяется

Условия работы: Алгоритм применяется, когда краулер обнаруживает, что контент ресурса изменился с момента последнего сканирования и новая версия поступает в конвейер индексирования.
Триггеры активации: Любое обнаруженное изменение в контенте, структуре или связанных сигналах.

Пошаговый алгоритм

Процесс А: Классификация изменений (Runtime/Indexing)

Получение версий: Система получает первую версию (V1) и вторую, обновленную версию (V2) ресурса.
Определение Feature Data (Извлечение признаков): Vectorizer анализирует V1 и V2 для вычисления признаков:
1. Контентные: Расчет Delta Term Count, изменений в HTML-элементах, сущностях, High IDF Terms, расположения изменений на странице и т.д.
2. Структурные: Анализ изменений во входящих и исходящих ссылках (внутренних и внешних) и их анкорном тексте.
3. Трафиковые: Анализ изменений в кликах, показах и запросах из поиска.
Создание Feature Vector: Извлеченные признаки компилируются в единый вектор.
Классификация: Вектор передается в предварительно обученную модель (Trained SVM).
Принятие решения: SVM классифицирует изменение как значимое или незначимое.
Генерация уведомления (Опционально): Если изменение значимое, Change Notification Generator может создать уведомление.

Процесс Б: Обучение классификатора (Offline)

Сбор данных: Сбор множества ресурсов с ассоциированными фидами (RSS/Atom) и сохранение их последовательных версий.
Идентификация пар и Ground Truth: Создание пар версий (V1, V2) и определение, было ли сгенерировано уведомление в фиде между V1 и V2 (Notification Indicator Да/Нет).
Генерация признаков: Для всех пар вычисляются Feature Vectors (как в Процессе А).
Обучение модели: Классификатор (SVM) обучается на наборе Feature Vectors и соответствующих им Notification Indicators.

Какие данные и как использует

Данные на входе

Патент детально описывает три категории признаков, используемых для анализа изменений:

1. Контентные факторы (Content Features):

Текст и термины: Количество терминов в V1 и V2 (общее или на уровне HTML-тегов/DOM).
Delta Term Count: Количество добавленных, удаленных и измененных слов (с учетом позиции).
Delta Text: Текст, который был добавлен или удален.
Структурные факторы (HTML): Количество и типы HTML-элементов (тегов) в V1 и V2 (например, <h1>, <table>) и разница между ними.
Сущности (Named Entities): Количество именованных сущностей (имена, адреса, цены).
Значимость терминов (High IDF Terms): Количество терминов с высоким показателем IDF (редкие слова).
Тематика (Categorical Similarity): Сходство категорий V1 и V2, а также V1 и Delta Text.
Технические факторы (Рендеринг): Расположение Delta Text на отрендеренной странице и его видимость для пользователя.
Языковые модели: Статистики типа TF-IDF.

2. Ссылочные факторы (Structure Features):

Входящие ссылки (Inverse Anchor Count): Количество ссылок на ресурс с внешних доменов (Remote) и внутренних страниц (Domain). Могут быть взвешены по важности ссылающегося ресурса.
Исходящие ссылки (Anchor Count): Количество ссылок с ресурса на внешние и внутренние страницы.
Анкорный текст: Текст входящих и исходящих ссылок и его изменения (Delta Anchor Text). Также анализируется тематика анкорного текста.
Связность графа: Изменение количества ресурсов, находящихся в пределах N переходов (например, 2 кликов) от ресурса.

3. Поведенческие факторы (Traffic Features):

(Агрегируются за период времени, например, день или неделю).

Клики (CTR): Количество кликов по результату поиска, ведущему на ресурс.
Клики на кэш (Cached Version Clicks): Количество просмотров кэшированной версии страницы из поиска.
Показы (Impressions): Количество показов ресурса в ТОП-N результатов поиска.
Запросы (Query Count): Количество запросов, по которым ресурс был показан в поиске.

Какие метрики используются и как они считаются

Term Count Difference: Простая разница в количестве терминов. $Count(V2) - Count(V1)$ .
Delta Term Count: Метрика объема изменений текста. $Terms_{Added} + Terms_{Deleted} + Terms_{Changed}$ TermsChanged. Это позиционная метрика (например, перестановка двух слов считается двумя изменениями).
Categorical Similarity (Тематическая близость): Рассчитывается как скалярное произведение (dot product) векторов категорий, полученных от Category Identifier Engine.
Anchor/Traffic Differences: Разница в количестве ссылок или трафиковых событий между периодами актуальности V1 и V2.
Алгоритмы машинного обучения: Используется Support Vector Machine (SVM) для классификации итогового Feature Vector.

Google измеряет «значимость» обновлений: Система не просто фиксирует факт изменения контента, но и классифицирует его важность с помощью машинного обучения. Это означает, что не все обновления одинаково влияют на переиндексацию и оценку свежести (Freshness).
Комплексный анализ изменений (Триада признаков): Для оценки значимости обновления Google анализирует три типа сигналов одновременно:
- Изменения в самом контенте и HTML-структуре (Content Features).
- Изменения в ссылочном профиле страницы — входящие и исходящие ссылки, анкоры (Structure Features).
- Изменения в поведении пользователей по отношению к странице в поиске (Traffic Features).
Обучение на поведении издателей: Модель учится определять значимость, анализируя, когда сами издатели считают нужным уведомить пользователей об обновлении (через RSS). Это позволяет Google применять стандарты качества обновлений ко всему вебу.
Важность объема и характера изменений (Delta Term Count): Эта метрика подчеркивает, что система детально анализирует, сколько контента было добавлено, удалено или изменено (включая перестановку блоков), а не просто сравнивает итоговый объем. Существенные изменения текста с большей вероятностью будут признаны значимыми.
Влияние рендеринга и расположения: Система учитывает расположение и видимость изменений на отрендеренной странице. Изменения в основном контенте (Main Content) имеют больший вес, чем изменения в футере или скрытых блоках.

Best practices (это мы делаем)

Делайте обновления существенными и видимыми: При актуализации контента стремитесь к значимому объему изменений (высокий Delta Term Count). Добавление новых разделов, переписывание абзацев, добавление новой информации более эффективно, чем мелкие правки. Убедитесь, что ключевые обновления находятся в основном контенте страницы, так как система учитывает расположение и видимость Delta Text.
Используйте структурные изменения HTML: Добавление новых структурных элементов (таблиц, списков, заголовков) при обновлении контента увеличивает HTML Element Count Difference, что является сильным сигналом значимого изменения.
Обновляйте ссылочную структуру: Если контент значительно изменился, обновите связанные ссылки (Structure Features). Это включает добавление новых релевантных исходящих ссылок, а также обновление внутренних ссылок (и их анкорного текста), ведущих на эту страницу.
Стимулируйте взаимодействие с обновленным контентом: Поскольку Traffic Features используются для оценки значимости, привлекайте трафик на обновленные страницы (рассылки, социальные сети). Рост кликов и показов после обновления подтвердит его важность для системы.
Включайте семантически богатый контент: Добавление именованных сущностей (Named Entities) и релевантных редких терминов (High IDF Terms) при обновлении может повысить оценку значимости изменения.

Worst practices (это делать не надо)

Имитация свежести (False Freshness): Обновление даты публикации статьи без внесения реальных изменений в контент (низкий Delta Term Count) будет классифицировано как незначимое изменение и не даст эффекта свежести.
Частые незначительные правки: Постоянное внесение мелких правок (исправление опечаток, изменение одного слова) создает шум. Система классифицирует такие изменения как незначимые, что может негативно сказаться на краулинговом бюджете.
Изменения только в шаблонных элементах: Обновления, затрагивающие только футер, сайдбар или навигацию, с меньшей вероятностью будут признаны значимыми, так как модель обучена фокусироваться на основном контенте.
Скрытие изменений: Внесение изменений в невидимые пользователю части страницы снижает их значимость для классификатора.

Стратегическое значение

Патент подтверждает, что эффективность индексирования является ключевым приоритетом для Google. Система стремится тратить ресурсы только на анализ значимых изменений. Для SEO-стратегий, ориентированных на актуальность контента (Freshness), критически важно понимать, что не все обновления равны. Патент подчеркивает глубокую интеграцию контентных, ссылочных и поведенческих факторов уже на этапе индексации: значимое обновление — это то, которое меняет содержание страницы, ее место в структуре веба и то, как с ней взаимодействуют пользователи.

Практические примеры

Сценарий: Актуализация старой статьи-руководства

Плохой подход (Незначимое обновление):

Изменить дату публикации на текущую.
Исправить несколько опечаток.
Заменить одно изображение на аналогичное.
Результат: Delta Term Count низкий, Structure Features и Traffic Features не изменились. SVM классифицирует как незначимое. Эффекта свежести нет. Краулер может не приоритизировать переиндексацию.

Хороший подход (Значимое обновление):

Добавить 2 новых раздела по теме (высокий Delta Term Count).
Обновить устаревшие данные и добавить новую таблицу (изменение HTML Element Count).
Добавить исходящие ссылки на новые исследования (изменение Structure Features).
Обновить анкорный текст нескольких внутренних ссылок, ведущих на это руководство.
Анонсировать обновление в рассылке, получив всплеск трафика (изменение Traffic Features).
Результат: Вектор признаков указывает на существенные изменения по всем фронтам. SVM классифицирует как значимое. Страница получает приоритет в переиндексации и потенциальный бонус за свежесть.

Как система определяет, является ли изменение значимым?

Система использует модель машинного обучения (например, SVM), обученную на реальных примерах того, когда издатели генерируют уведомления (RSS-фиды). Она анализирует комбинацию трех типов признаков: насколько сильно изменился текст и HTML (Content Features), как изменились входящие и исходящие ссылки (Structure Features), и как изменилось поведение пользователей в поиске (Traffic Features).

Что такое Delta Term Count и почему это важно?

Delta Term Count — это метрика, которая подсчитывает общее количество добавлений, удалений и изменений слов, необходимых для превращения старой версии текста в новую. Это не просто разница в длине текста, а детальный учет объема правок с учетом позиции слов. Высокий показатель является сильным сигналом того, что контент был существенно переработан.

Если я полностью перепишу статью, но количество слов останется прежним, будет ли это считаться значимым изменением?

Да. Хотя разница в общем количестве терминов (term count difference) будет близка к нулю, Delta Term Count будет очень высоким, так как потребуется много операций изменения терминов для преобразования старой версии в новую. Это будет сильным сигналом значимости для классификатора.

Учитывает ли система, где именно на странице произошло изменение?

Да, патент явно упоминает, что контентные признаки включают расположение Delta Text на отрендеренной HTML-странице и его видимость. Изменения в основном контенте (например, в верхней части страницы) обычно считаются более значимыми, чем изменения в футере или скрытых блоках.

Как изменения во внутренней перелинковке влияют на оценку значимости обновления?

Изменения во внутренней перелинковке анализируются в рамках Structure Features. Если вы значительно обновили контент, и это привело к изменению количества внутренних ссылок (входящих или исходящих) или их анкорного текста, это служит дополнительным подтверждением значимости обновления. Это показывает системе, что страница изменила свою роль в структуре сайта.

Может ли изменение поведения пользователей сигнализировать о значимом обновлении?

Да, Traffic Features являются одной из трех основных категорий признаков. Если после обновления страница стала получать больше кликов из поиска, чаще показываться в топе или отвечать на новые запросы, система учтет это при оценке значимости изменений, произошедших на странице.

Означает ли этот патент, что исправление опечаток или мелкие правки бесполезны для SEO?

Они полезны для пользовательского опыта, но согласно патенту, такие изменения с высокой вероятностью будут классифицированы как «незначимые». Это означает, что они вряд ли спровоцируют быструю переиндексацию или дадут странице бонус за свежесть (Freshness boost). Не стоит ожидать значительного SEO-эффекта от мелких правок.

Влияет ли этот механизм на краулинговый бюджет?

Косвенно, да. Патент описывает механизм для эффективного обнаружения важных обновлений. Если система постоянно классифицирует изменения на сайте как «незначимые», это логично приведет к снижению частоты сканирования (Crawl Rate), так как поисковая система оптимизирует свои ресурсы и не хочет тратить их на анализ шума.

Как лучше всего «сообщить» Google о том, что мы значительно обновили страницу?

Нужно максимизировать сигналы во всех трех категориях. Внесите существенные правки в текст (высокий Delta Term Count) и HTML-структуру. Убедитесь, что изменения расположены на видном месте. Обновите связанные внутренние и исходящие ссылки. Наконец, постарайтесь привлечь внимание пользователей к обновленному контенту для генерации Traffic Features.

Использует ли Google по-прежнему Support Vector Machines (SVM) для этой задачи?

Патент 2010 года (опубликован в 2013) упоминает SVM. Вполне вероятно, что сегодня Google использует более современные модели машинного обучения (например, глубокие нейронные сети) для этой задачи. Однако фундаментальные признаки (контент, структура, трафик), описанные в патенте, скорее всего, остаются актуальными, даже если методы их анализа изменились.

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google переранжирует результаты поиска в реальном времени, скрывая контент, который пользователь уже видел на других сайтах

Google использует механизм оценки новизны информации для динамической корректировки поисковой выдачи во время сессии пользователя. Система вычисляет «Information Gain Score» для непросмотренных документов, определяя, сколько новой информации они содержат по сравнению с уже посещенными сайтами. Результаты с уникальной информацией повышаются, а повторяющийся контент понижается, чтобы уменьшить избыточность.

US11354342B2
2022-06-07

SERP
Семантика и интент
Персонализация

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2014-07-03

Индексация
SERP
Краулинг

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph

Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).

US9208229B2
2015-12-08

Knowledge Graph
Ссылки
EEAT и качество

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя

Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.

US9116952B1
2015-08-25

Семантика и интент
Поведенческие сигналы

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию

Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.

US8321463B2
2012-11-27

Персонализация
EEAT и качество
Поведенческие сигналы

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы