SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

IDENTIFYING RELATED DOCUMENTS BASED ON LINKS IN DOCUMENTS (Идентификация связанных документов на основе ссылок в документах)
  • US8892596B1
  • Google LLC
  • 2012-08-08
  • 2014-11-18
  • Мультиязычность
  • Ссылки
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

Описание

Какую проблему решает

Патент решает задачу автоматической идентификации и кластеризации документов, которые являются разными версиями одного и того же контента (например, переводами на разные языки или региональными вариантами). Цель — улучшить пользовательский опыт в международном поиске, предоставляя контент на предпочтительном языке пользователя и избегая показа нескольких эквивалентных версий в одной поисковой выдаче.

Что запатентовано

Запатентована система для обнаружения и верификации связей между документами путем анализа ссылок и ассоциированных с ними Relation Indicators (индикаторов связи). Система ищет сигналы на странице (например, ссылку с анкором «German» или изображение флага), указывающие на существование связанной версии. Ключевым элементом является обязательная верификация этой связи с использованием таких методов, как машинный перевод и сравнение контента, а также анализ частоты обновлений, для подтверждения эквивалентности документов.

Как это работает

Система работает в несколько этапов:

  • Обнаружение ссылки: Идентифицируется ссылка из первого документа на второй.
  • Анализ индикаторов: Система проверяет анкор ссылки, окружающий текст или связанные изображения на наличие Relation Indicators.
  • Верификация связи: Система генерирует Verification Score. Основной метод (Claim 1) включает машинный перевод первого документа и сравнение его со вторым. Дополнительные методы включают сравнение частоты обновлений (Update Frequency) и анализ поведения пользователей (Selection Activity).
  • Подтверждение: Если мера сходства превышает порог, документы помечаются как связанные (кластеризуются).
  • Применение в поиске: При ранжировании система определяет язык/регион пользователя и показывает наиболее подходящую версию из кластера, часто подавляя показ остальных версий.

Актуальность для SEO

Высокая. Корректная обработка мультиязычного и мультирегионального контента остается критически важной задачей для глобальных поисковых систем. Описанные в патенте механизмы позволяют Google алгоритмически определять связи между страницами. Эти методы дополняют использование атрибута hreflang и могут служить механизмом верификации заявленных связей или механизмом отката (fallback), если hreflang отсутствует или реализован некорректно.

Важность для SEO

Патент имеет критическое значение для международного SEO (International SEO). Он демонстрирует, как Google может идентифицировать и валидировать локализованный контент, анализируя структуру ссылок на странице и эквивалентность контента. Понимание этих механизмов диктует лучшие практики по реализации переключателей языков и управлению обновлениями контента, что напрямую влияет на то, какая версия сайта будет показана пользователям в разных странах и на разных языках.

Детальный разбор

Термины и определения

Document (Документ)
Любой индексируемый ресурс (веб-страница, файл и т.д.).
Measure of Similarity (Мера сходства)
Метрика, определяющая степень совпадения между двумя документами. Используется для верификации. Может рассчитываться на основе сравнения контента (после машинного перевода) или сравнения частоты обновлений.
Relation Indicator (Индикатор связи)
Сигнал, связанный со ссылкой, который указывает на то, что целевой документ является вариантом исходного. Примеры: название языка/региона в анкоре (anchor text), изображение флага, специфические фразы рядом со ссылкой (например, «Select a language»).
Selection Activity (Активность выбора)
Данные о поведении пользователей при взаимодействии со связанными документами (например, как часто они переключаются между версиями). Используются для верификации связи.
Update Frequency (Частота обновлений)
Частота и время внесения изменений в документ. Схожие паттерны обновлений используются как сигнал для верификации связи между документами.
Verification Score (Оценка верификации)
Мера уверенности (measure of confidence) системы в том, что два документа действительно связаны (например, являются переводами). Генерируется на основе процессов верификации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации и верификации связанных документов.

  1. Система идентифицирует в первом документе ссылку (reference) на второй документ.
  2. Идентифицируется, что ссылка связана с Relation Indicator.
  3. На основе наличия индикатора система определяет, что контент документов связан. Этот шаг определения включает обязательную верификацию:
    • Выполняется машинный перевод первого документа на язык второго документа.
    • Переведенный документ сравнивается со вторым для получения Measure of Similarity.
    • Связь подтверждается, если мера сходства удовлетворяет пороговому значению (particular similarity threshold).
  4. Второй документ обрабатывается на основе установленной связи.

Ядром изобретения является комбинация использования сигналов из ссылок и обязательной верификации этой связи через сравнение машинного перевода.

Claim 4 (Зависимый от 1): Описывает применение механизма в поиске (обработка второго документа).

  1. Система получает поисковый запрос от клиентского устройства.
  2. Идентифицируется, что первый и второй документы релевантны запросу.
  3. Определяется язык или регион клиентского устройства.
  4. Идентифицируется, что второй документ соответствует этому языку или региону.
  5. Обработка заключается в:
    • Предоставлении второго документа в качестве результата поиска.
    • Отказе от предоставления (forgoing presenting) первого документа, основываясь на том, что второй документ соответствует контексту пользователя и связан с первым.

Это механизм подмены результатов в SERP для обеспечения локальной/языковой релевантности.

Claim 6 (Зависимый от 1): Добавляет проверку обратных ссылок. Определение связи также основывается на идентификации ссылки из второго документа на первый (взаимность).

Claim 7 (Зависимый от 1): Добавляет метод верификации через анализ обновлений. Определение связи включает:

  1. Идентификацию Update Frequency первого и второго документов.
  2. Сравнение частот обновлений для получения меры сходства.
  3. Подтверждение связи, если сходство частот обновлений удовлетворяет порогу.

Claim 8 (Зависимый от 1): Добавляет метод верификации через поведение пользователей. Определение связи также основывается на анализе Selection Activity, связанной с этими документами.

Где и как применяется

Изобретение применяется в основном на этапах индексирования и ранжирования для обеспечения корректной обработки мультиязычного контента.

INDEXING – Индексирование и извлечение признаков
Основной этап работы алгоритма. Система (Document identification system) анализирует просканированные документы:

  1. Анализ ссылок и индикаторов: Извлекаются исходящие ссылки, анализируются их анкоры, окружающий текст и связанные изображения на наличие Relation Indicators.
  2. Определение языка документа.
  3. Верификация (Verification): Для пар документов, связанных ссылками с индикаторами, запускаются процессы верификации:
    • Выполняется машинный перевод и сравнение контента.
    • Анализируется история обновлений (Update Frequency) и поведение пользователей (Selection Activity).
  4. Расчет и хранение: Вычисляется Verification Score. Если он выше порога, информация о связи между документами сохраняется в индексе (кластеризация версий).

RANKING / RERANKING – Ранжирование и Переранжирование
На этом этапе используются предварительно рассчитанные связи для формирования выдачи.

  1. При отборе кандидатов могут быть найдены несколько связанных документов (например, английская и немецкая версии).
  2. Система анализирует контекст пользователя (язык запроса, настройки браузера, местоположение).
  3. Система приоритезирует ту версию документа из кластера, которая лучше всего соответствует контексту пользователя.
  4. Система может активно подавлять (forgo presenting) показ неподходящих версий, даже если они релевантны запросу (Claim 4).

Входные данные:

  • Содержимое документов (текст, ссылки, изображения).
  • Анкорные тексты и околоссылочный контент.
  • История обновлений документов (таймстампы, частота).
  • Данные о поведении пользователей (Selection Activity).

Выходные данные:

  • Verification Score для пар документов.
  • Сохраненные данные о связях между документами (кластеры эквивалентного контента).

На что влияет

  • Конкретные типы контента: Влияет на любой контент, существующий в нескольких языковых или региональных версиях (статьи, товары, документация).
  • Конкретные ниши или тематики: Наибольшее влияние на международные сайты: e-commerce, сайты глобальных брендов, новостные порталы, информационные ресурсы.
  • Языковые и географические ограничения: Напрямую влияет на то, как контент ранжируется в разных странах и на разных языках.

Когда применяется

  • Триггеры активации (Индексирование): Обнаружение ссылки, сопровождаемой Relation Indicator.
  • Условия применения (Ранжирование): Когда несколько связанных (кластеризованных) документов являются кандидатами на показ по одному запросу и необходимо выбрать лучшую версию для пользователя.
  • Пороговые значения: Система использует particular similarity threshold (порог сходства) при сравнении контента или частоты обновлений для подтверждения связи.

Пошаговый алгоритм

Процесс А: Идентификация и верификация связи (Индексирование)

  1. Идентификация ссылки: В Документе А обнаруживается ссылка на Документ Б.
  2. Обнаружение индикаторов: Система анализирует ссылку на наличие Relation Indicators (анкор, текст рядом, изображение флага). Если индикаторов нет, процесс останавливается для этой пары.
  3. (Опционально) Проверка обратной ссылки: Система проверяет, ссылается ли Документ Б на Документ А (Claim 6).
  4. Инициация верификации: Запускается расчет Verification Score.
  5. Верификация через перевод (Claim 1):
    • Определяются языки Документа А и Документа Б.
    • Документ А переводится на язык Документа Б с помощью машинного перевода.
    • Перевод сравнивается с Документом Б для расчета Measure of Similarity.
  6. (Опционально) Верификация через обновления (Claim 7):
    • Анализируется история обновлений Документов А и Б.
    • Сравнивается частота и время обновлений для расчета меры сходства.
  7. (Опционально) Верификация через поведение (Claim 8): Анализируется Selection Activity пользователей.
  8. Принятие решения: Система агрегирует результаты верификации. Если итоговая мера сходства превышает similarity threshold, связь подтверждается.
  9. Сохранение: Информация о связи между А и Б сохраняется в индексе.

Процесс Б: Применение связи (Ранжирование)

  1. Получение запроса: Пользователь вводит запрос.
  2. Определение контекста: Идентифицируется язык и/или регион пользователя.
  3. Отбор кандидатов: Система находит релевантные документы, включая Документы А и Б.
  4. Проверка связей: Система идентифицирует, что А и Б связаны (на основе данных из Процесса А).
  5. Выбор версии: Система определяет, какая версия лучше соответствует контексту пользователя (например, Документ Б).
  6. Формирование выдачи: Документ Б включается в результаты поиска. Система принимает решение об отказе от показа (forgoing presenting) Документа А (Claim 4).

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст документа используется для определения языка, машинного перевода и сравнения. Околоссылочный текст используется для поиска Relation Indicators.
  • Ссылочные факторы: Исходящие и обратные ссылки между документами. Анкорные тексты анализируются как ключевые Relation Indicators.
  • Временные факторы: История обновлений страницы (Update Frequency, таймстампы изменений). Используется для верификации эквивалентности контента.
  • Мультимедиа факторы: Изображения (например, флаги), связанные со ссылкой или расположенные рядом. Могут анализироваться имена файлов изображений (например, «GermanyFlag.gif»).
  • Поведенческие факторы: Selection Activity – данные о том, как пользователи реагируют на предложенные переводы или переключаются между версиями.
  • Географические и Пользовательские факторы: Язык и регион пользователя (используются на этапе ранжирования для выбора подходящей версии).

Какие метрики используются и как они считаются

  • Relation Indicator (Наличие): Детектирование ключевых слов (названия языков/стран), фраз или изображений вблизи ссылки или в ее анкоре.
  • Measure of Similarity (Content): Метрика сходства между машинным переводом первого документа и вторым документом. Рассчитывается путем сравнения текста или сущностей (entities).
  • Measure of Similarity (Updates): Метрика сходства паттернов обновления двух документов (например, насколько близки по времени происходят изменения).
  • Verification Score: Агрегированная оценка уверенности в связи, основанная на мерах сходства и других сигналах (наличие обратных ссылок, поведенческие данные).
  • Similarity threshold: Пороговое значение, которое должна превысить Measure of Similarity или Verification Score для подтверждения связи.

Выводы

  1. Алгоритмическое обнаружение локализованного контента: Google активно ищет и идентифицирует мультиязычные и мультирегиональные версии контента, анализируя естественные ссылки на странице (переключатели языков). Система не полагается только на явную разметку (типа hreflang).
  2. Критичность индикаторов связи: Способ представления ссылки (анкор, изображение флага, окружающий текст) имеет решающее значение для запуска процесса идентификации. Неоднозначные ссылки могут быть проигнорированы.
  3. Обязательная валидация эквивалентности: Google не доверяет индикаторам слепо. Патент подчеркивает обязательный этап верификации (Verification Score). Ключевой метод валидации (Claim 1) — машинный перевод и сравнение контента. Если контент не эквивалентен, связь не будет установлена.
  4. Синхронность обновлений как сигнал связи: Документы, которые обновляются одновременно или с минимальной задержкой (Update Frequency), с большей вероятностью будут признаны связанными версиями одного контента (Claim 7).
  5. Цель – дедупликация выдачи: Основное применение механизма в поиске — гарантировать, что пользователь увидит только наиболее подходящую версию контента. Система готова активно подавлять (forgo presenting) другие версии, чтобы избежать дублирования и каннибализации (Claim 4).

Практика

Best practices (это мы делаем)

  • Явные и сканируемые переключатели языков: Используйте прямые HTML-ссылки (<a href>) для связи между языковыми версиями. Это необходимо для того, чтобы система могла обнаружить ссылку (Claim 1).
  • Оптимизация индикаторов связи (Relation Indicators):
    • Используйте четкие анкорные тексты. Рекомендуется указывать название целевого языка на самом этом языке (например, «Deutsch», а не «German»).
    • Если используются изображения (флаги), убедитесь, что они явно связаны со ссылкой и имеют понятные ALT-атрибуты или имена файлов. Патент явно упоминает флаги как индикаторы (Claim 2).
  • Обеспечение эквивалентности контента: Убедитесь, что связанные страницы действительно являются переводами друг друга. Поскольку система использует машинный перевод для верификации (Claim 1), значительные расхождения в содержании приведут к низкому Verification Score, и связь не будет установлена.
  • Поддержание актуальности всех версий: Старайтесь обновлять контент на разных языках синхронно. Патент указывает (Claim 7), что схожая частота и время обновлений используются для подтверждения связи.
  • Реализация обратных ссылок: Убедитесь, что все языковые версии ссылаются друг на друга. Наличие обратной ссылки является дополнительным фактором верификации (Claim 6).

Worst practices (это делать не надо)

  • Использование неявных переключателей: Реализация переключения языка только через JavaScript, cookies или выпадающие списки без прямых сканируемых ссылок помешает работе описанного механизма.
  • Неоднозначные анкоры: Использование анкоров типа «Другой язык» или «Click here» без явного контекста снижает эффективность обнаружения Relation Indicators.
  • Ссылки на неэквивалентный контент: Ссылка с конкретной статьи на одном языке на главную страницу другого языка (вместо перевода этой же статьи). Такая связь не пройдет верификацию через сравнение контента.
  • Значительное расхождение версий: Наличие устаревшего контента на одной из языковых версий при актуальном контенте на другой. Это негативно повлияет на верификацию через анализ обновлений (Claim 7).

Стратегическое значение

Патент подтверждает стратегию Google по кластеризации эквивалентного контента для улучшения качества глобального поиска. Для SEO это означает, что корректная техническая реализация мультиязычности критична для предотвращения каннибализации трафика между разными версиями сайта и обеспечения ранжирования нужной версии в соответствующем регионе. Хотя hreflang остается стандартом, этот патент показывает, что Google имеет надежные механизмы для самостоятельного определения и верификации связей, основываясь на анализе контента, ссылок и паттернов обновлений.

Практические примеры

Сценарий: Оптимизация переключателя языков для алгоритмического обнаружения

Сайт имеет английскую и немецкую версии. Необходимо убедиться, что Google корректно идентифицирует связь между ними, используя механизмы из патента.

Плохая реализация: Переключатель реализован выпадающим списком через JavaScript, прямые ссылки отсутствуют. Анкоры не используются.

Оптимизированная реализация (соответствует патенту):

<div class="language-selector"> <p>Read this page in:</p> <ul> <li><a href="/de/page.html">Deutsch</a></li> <li><a href="/fr/page.html">Français</a></li> </ul> </div> 

Преимущества:

  1. Фраза «Read this page in:» выступает как сильный околоссылочный Relation Indicator.
  2. Анкоры «Deutsch» и «Français» являются явными названиями языков (сильные Relation Indicators).
  3. Наличие прямых HTML-ссылок обеспечивает сканируемость.

Такая реализация облегчает Google обнаружение и верификацию связей между версиями, что обеспечивает корректный показ в международной выдаче.

Вопросы и ответы

Заменяет ли этот механизм использование атрибута hreflang?

Нет, не заменяет. hreflang является явным указанием для поисковой системы о наличии альтернативных версий. Описанный в патенте механизм является автоматическим способом обнаружения таких связей на основе анализа ссылок и контента. Он дополняет hreflang и может служить механизмом отката (fallback), если hreflang отсутствует или реализован с ошибками, а также методом верификации заявленных связей.

Что такое «Relation Indicator» и что лучше использовать: название языка или флаг страны?

Relation Indicator — это сигнал, указывающий на связь между документами. Патент явно упоминает и названия языков/регионов в анкорах, и изображения (например, флаги) как эффективные индикаторы. С точки зрения SEO, использование названия языка (например, «Deutsch») предпочтительнее, так как язык не всегда равен стране, но использование флагов также является допустимым сигналом согласно патенту.

Как именно Google проверяет, что страницы являются переводами друг друга?

Патент описывает конкретный механизм верификации (Claim 1). Система выполняет машинный перевод первого документа на язык второго, а затем сравнивает результат перевода со вторым документом. Если полученная мера сходства (Measure of Similarity) превышает определенный порог, система считает контент эквивалентным и подтверждает связь.

Что произойдет, если контент на разных языках не полностью совпадает (локализация)?

Если контент значительно различается из-за локализации, Verification Score может оказаться ниже порогового значения. В этом случае система может не установить связь между документами. Это может привести к тому, что обе страницы будут рассматриваться как независимый контент и могут конкурировать друг с другом в выдаче. Важно сохранять основную семантику эквивалентной.

Насколько важны обратные ссылки между языковыми версиями?

Они очень важны. Патент (Claim 6) явно указывает, что идентификация обратной ссылки (из второго документа на первый) используется в процессе определения связи. Это подтверждает лучшую практику SEO, согласно которой все языковые версии должны перелинковываться между собой (полная взаимность).

Как влияет частота обновления контента на идентификацию связей?

Патент (Claim 7) описывает сравнение частоты и времени обновлений (Update Frequency) как метод верификации. Если две страницы обновляются синхронно или с небольшой задержкой, это усиливает уверенность системы в том, что они являются версиями одного и того же контента. Значительное отставание в обновлениях одной из версий может помешать установлению связи.

Что подразумевается под «Отказом от предоставления» (forgoing presenting) одной из версий в поиске?

Это означает, что если система уверена в связи между документами и определила, какая версия лучше подходит пользователю по языку/региону, она покажет только эту версию в результатах поиска. Другие версии будут подавлены (дедуплицированы), даже если они также релевантны запросу. Это предотвращает каннибализацию и улучшает пользовательский опыт.

Что делать, если переключатель языков реализован через JavaScript без прямых ссылок?

В этом случае описанный в патенте механизм не сможет функционировать, так как он основан на анализе ссылок в документе. Необходимо переработать переключатель, используя стандартные HTML-ссылки (<a href>), или убедиться, что мультиязычность корректно реализована через альтернативные методы (например, hreflang в XML-карте сайта или HTTP-заголовках).

Что такое «Selection Activity» и как она используется?

Selection Activity (Claim 8) — это данные о поведении пользователей. Например, если система предлагает перевод страницы, а пользователи часто возвращаются к оригиналу или пытаются переключиться на другую версию, это может сигнализировать о неверно установленной связи или низком качестве перевода. Эти данные используются для корректировки Verification Score.

Может ли этот механизм связать страницы на одном языке, но для разных регионов (например, US и UK)?

Да. Патент указывает, что Relation Indicator может быть не только названием языка, но и названием или изображением географического региона (Claim 2). Механизм верификации через сравнение контента также будет работать, так как перевод не потребуется или будет минимальным, а сходство контента, как правило, будет высоким.

Похожие патенты

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок
Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.
  • US9098582B1
  • 2015-08-04
  • Ссылки

  • Мультиязычность

  • Семантика и интент

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google помогает пользователям найти правильную языковую версию страницы, исправляя ошибки маршрутизации
Система определяет языковые предпочтения пользователя и сравнивает их с языком посещаемой веб-страницы. Если страница отображается не на предпочтительном языке из-за ошибки маршрутизации (например, из-за геолокации), и существует альтернативная версия на нужном языке, система предлагает пользователю перейти на нее или автоматически перенаправляет его.
  • US9251223B2
  • 2016-02-02
  • Мультиязычность

  • Персонализация

  • Индексация

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Популярные патенты

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта
Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.
  • US8121991B1
  • 2012-02-21
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google динамически повышает порог качества для результатов поиска по «рискованным» запросам
Google оценивает «риск» поискового запроса, анализируя общее качество топовых результатов. Если запрос часто привлекает спам, кликбейт или нежелательный контент (особенно видео), система динамически повышает минимальный порог качества. Контент, не соответствующий этому повышенному стандарту, понижается в выдаче, при этом учитываются такие сигналы, как показатель просмотров (Watch Rate).
  • US11609949B2
  • 2023-03-21
  • Антиспам

  • SERP

  • Поведенческие сигналы

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией
Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.
  • US9223897B1
  • 2015-12-29
  • Поведенческие сигналы

  • Индексация

  • Техническое SEO

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google использует историю чтения новостных сайтов для определения географических интересов пользователя и персонализации выдачи
Google может определять географические интересы пользователя, анализируя местоположение издателей новостных сайтов, которые он посещал. Эта информация (Geo Signal) используется для корректировки ранжирования будущих поисковых запросов, повышая результаты, релевантные этим интересам, даже если пользователь физически находится в другом месте.
  • US20130246381A1
  • 2013-09-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки
Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.
  • US8442984B1
  • 2013-05-14
  • SERP

  • EEAT и качество

  • Поведенческие сигналы

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность
Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.
  • US7870147B2
  • 2011-01-11
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

seohardcore