SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google сегментирует глобальный индекс на региональные части для повышения эффективности и локальной релевантности

REGIONAL INDEXES (Региональные индексы)
  • US8131712B1
  • Google LLC
  • 2007-10-15
  • 2012-03-06
  • Индексация
  • Local SEO
  • Мультиязычность
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google оптимизирует поисковую инфраструктуру, разделяя индекс на две части. Основной индекс («Replicated Content») содержит глобально важные документы и копируется во все дата-центры. Дополнительно каждый дата-центр получает уникальный «Regional Content» — документы, соответствующие локальному языку и шаблонам запросов. Это повышает эффективность и релевантность для международных пользователей.

Описание

Какую проблему решает

Патент решает проблему инфраструктурной эффективности и локальной релевантности в глобальной поисковой системе. Построение, поддержка и репликация полного индекса всего интернета в каждом дата-центре по всему миру является ресурсоемкой задачей. Кроме того, пользователи в определенных регионах преимущественно ищут контент на своем локальном языке (например, пользователи в Португалии ищут на португальском), и система должна эффективно предоставлять этот контент.

Что запатентовано

Запатентована система распределенных индексов для географически разнесенных дата-центров. Вместо репликации полного глобального индекса, система создает специализированные индексы для каждого региона. Каждый индекс состоит из двух частей: Replicated Content (глобально важные документы, одинаковые для всех) и Regional Content (документы, отобранные специально для данного региона на основе характеристик локального трафика запросов, в первую очередь языка).

Как это работает

Система функционирует следующим образом:

  • Идентификация глобального контента: Из всего корпуса документов отбираются документы с наивысшими глобальными оценками качества (Global Quality Score, например, на основе PageRank). Они формируют Replicated Content, который копируется во все дата-центры.
  • Анализ региональных запросов: Система анализирует логи запросов конкретного дата-центра для определения характеристик локального трафика, в частности, распределения языков и определения преобладающего языка (Predominant Language).
  • Идентификация регионального контента: На основе анализа запросов строится модель (Trained Model). Эта модель применяется к оставшейся части корпуса (документы, не вошедшие в Replicated Content). Отбираются документы, соответствующие локальным характеристикам (языку) и имеющие достаточно высокую оценку качества (глобальную или региональную).
  • Построение индекса: Локальный индекс дата-центра формируется путем объединения Replicated Content и специфического для него Regional Content.

Актуальность для SEO

Высокая. Эффективность инфраструктуры, гео-локализация данных и обработка международных запросов остаются критически важными задачами для Google. Описанный архитектурный подход к сегментации индекса для балансировки нагрузки, обеспечения скорости и локальной релевантности лежит в основе современных механизмов глобального поиска.

Важность для SEO

(5/10). Патент имеет умеренное значение для практического SEO, так как описывает в первую очередь инфраструктуру и организацию индекса, а не алгоритмы ранжирования. Однако он критически важен для понимания стратегии международного SEO. Патент подтверждает, что Google явно сегментирует контент на глобально важный и регионально/лингвистически специфичный. Для максимальной видимости в конкретном регионе сайт должен либо обладать исключительной глобальной авторитетностью (попасть в Replicated Content), либо соответствовать локальным характеристикам (языку) и иметь достаточную локальную популярность (попасть в Regional Content).

Детальный разбор

Термины и определения

Corpus of documents (Корпус документов)
Вся совокупность документов (например, веб-страниц), известных поисковой системе.
Datacenter (Дата-центр)
Физическое расположение серверов, обрабатывающих поисковые запросы, обычно обслуживающее определенный географический регион.
Global Index Selection Score (Глобальная оценка выбора для индекса)
Метрика качества и популярности документа в мировом масштабе. Используется для определения Replicated Content. Синоним Global Quality Score. В качестве примера фактора упоминается Pagerank.
Predominant Language (Преобладающий язык)
Язык, который наиболее часто используется в запросах, поступающих в конкретный дата-центр.
Quality Score (Оценка качества)
Общий термин для оценки документа. Может быть глобальной (Global Quality Score) или региональной (Regional Quality Score).
Regional Content (Региональный контент)
Часть индекса, уникальная для конкретного дата-центра. Состоит из документов, которые не попали в Replicated Content, но соответствуют характеристикам локальных запросов (например, языку) и имеют достаточную оценку качества.
Regional Index Selection Score (Региональная оценка выбора для индекса)
Метрика качества и популярности документа, рассчитанная на основе данных конкретного региона или дата-центра. Синоним Regional Quality Score.
Replicated Content (Реплицируемый контент)
Часть индекса, которая идентична во всех дата-центрах. Состоит из документов с наивысшими Global Quality Scores.
Trained Model (Обученная модель)
Модель, построенная на основе анализа логов запросов дата-центра (например, распределения языков). Используется для фильтрации и отбора документов для Regional Content.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод построения распределенных индексов.

  1. Построение индекса Replicated Content из первых документов. Критерий отбора: эти документы имеют высокую оценку качества (search result quality score), определенную в нескольких дата-центрах (т.е. глобально). Дата-центры расположены в разных регионах и имеют разные преобладающие языки.
  2. Построение индекса Regional Content из вторых документов для конкретного дата-центра. Критерии отбора: (i) документы популярны как результаты поиска в этом дата-центре, (ii) написаны на преобладающем языке (predominant language) этого дата-центра, и (iii) НЕ включают первые документы (т.е. не входят в Replicated Content).
  3. Репликация индекса Replicated Content в несколько дата-центров.
  4. Предоставление индекса Regional Content конкретному дата-центру.

Ядром изобретения является метод сегментации индекса на глобальную и региональную части, где региональная часть определяется языком и локальной популярностью, и обе части не пересекаются.

Claim 2 (Зависимый от 1): Уточняет метод определения Predominant Language.

Преобладающий язык определяется путем сравнения количества запросов на этом языке, полученных в дата-центре, с количеством запросов на других языках в этом же дата-центре.

Claim 5 (Зависимый от 1): Уточняет взаимосвязь размеров индексов.

Общее количество документов в индексе Regional Content зависит от общего количества документов в индексе Replicated Content. Это подразумевает, что общий размер индекса в дата-центре ограничен, и эти две части делят доступное пространство.

Где и как применяется

Изобретение в первую очередь относится к этапу организации данных в поисковой системе.

CRAWLING – Сканирование и Сбор данных
На этом этапе собирается весь Corpus of documents, который является исходным материалом для построения индексов.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит расчет глобальных и региональных оценок качества (Quality Scores). Затем происходит процесс сегментации корпуса и построения как глобального Replicated Content, так и локальных Regional Content индексов. Это определяет, какой набор документов будет физически доступен для поиска в каждом конкретном дата-центре.

QUNDERSTANDING – Понимание Запросов
Данные логов запросов (язык, происхождение) анализируются (офлайн) для определения Predominant Language и построения Trained Model для каждого дата-центра.

RANKING – Ранжирование
Когда пользователь отправляет запрос, система направляет его в ближайший дата-центр. Ранжирование происходит с использованием того комбинированного индекса (Replicated + Regional), который физически находится в этом дата-центре. В патенте также описан вариант, когда система может перенаправить запрос в дата-центр, соответствующий языку запроса, даже если он не является ближайшим.

Входные данные:

  • Весь корпус документов (Corpus of world-wide documents).
  • Глобальные оценки качества (Global Quality Scores) для документов (включая PageRank).
  • Логи запросов из региональных дата-центров (включая язык и данные о популярности/показах).
  • Региональные оценки качества (Regional Quality Scores).

Выходные данные:

  • Глобальный индекс Replicated Content.
  • Набор уникальных индексов Regional Content для каждого дата-центра.

На что влияет

  • Географические и языковые ограничения: Патент напрямую влияет на обработку контента в зависимости от языка и региона. Он обеспечивает приоритетную индексацию локального языкового контента в соответствующих региональных дата-центрах. Контент на определенном языке может не попасть в индекс дата-центра, где этот язык не популярен, если он не имеет глобально высокого Quality Score.
  • Конкретные типы контента: Влияет на контент, который имеет высокую локальную популярность, но недостаточную глобальную авторитетность для попадания в основной индекс (Replicated Content).

Когда применяется

Описанные процессы применяются во время построения и обновления поисковых индексов.

  • Временные рамки и частота применения: Это офлайн или пакетный процесс. Анализ логов запросов для построения Trained Model может охватывать значительный период (в патенте упоминаются примеры от 1 до 12 месяцев).
  • Условия применения: Применяется глобально для всех дата-центров и всего корпуса документов с целью создания эффективной распределенной индексной инфраструктуры.

Пошаговый алгоритм

Процесс А: Построение глобального индекса

  1. Сбор данных и оценка: Система анализирует весь корпус документов и присваивает каждому документу глобальную оценку качества (Global Quality Score).
  2. Отбор реплицируемого контента: Выбирается набор документов с наивысшими глобальными оценками качества. Количество выбираемых документов определяется выделенным объемом (в патенте приводятся примеры от 30% до 50-75% от общего размера индекса).
  3. Формирование и распространение: Из отобранных документов строится индекс Replicated Content, который копируется во все региональные дата-центры.

Процесс Б: Построение регионального индекса (выполняется для каждого дата-центра)

  1. Анализ локальных запросов: Анализируются логи запросов, полученных в дата-центре, для определения распределения языков и выявления преобладающего языка (Predominant Language).
  2. Построение модели и расчет региональных оценок: На основе характеристик запросов строится Trained Model. Также рассчитывается Regional Quality Score для документов на основе их популярности в данном регионе.
  3. Фильтрация корпуса: Модель применяется к оставшейся части корпуса (документы, НЕ вошедшие в Replicated Content).
  4. Отбор регионального контента: Отбираются документы, которые соответствуют критериям модели (например, преобладающему языку) и имеют наивысшие оценки качества среди оставшихся. Патент допускает использование как Global Quality Score, так и Regional Quality Score на этом этапе. Отбор продолжается до заполнения оставшегося объема индекса.
  5. Финальная сборка: Индекс Regional Content объединяется с индексом Replicated Content в данном дата-центре.

Процесс В: Обработка запроса (runtime)

  1. Получение и маршрутизация запроса: Запрос пользователя поступает в систему и обычно направляется в географически ближайший дата-центр.
  2. (Опционально) Перенаправление по языку: Система может проанализировать язык запроса и перенаправить его в другой дата-центр, если он лучше соответствует языку (например, запрос на китайском из США может быть перенаправлен в китайский дата-центр).
  3. Поиск и ранжирование: Запрос обрабатывается с использованием комбинированного индекса (Replicated + Regional), доступного в этом дата-центре.

Какие данные и как использует

Данные на входе

  • Ссылочные факторы: Явно упоминается PageRank как фактор, используемый при расчете Global Index Selection Score и Regional Index Selection Score. Это ключевой элемент для определения Quality Score.
  • Поведенческие факторы: Используются логи запросов (query logs) и показы страниц (page impressions), генерируемые запросами в дата-центре. Эти данные используются для определения популярности документов в регионе и расчета Regional Index Selection Score.
  • Географические факторы: Местоположение дата-центра и географическое происхождение запросов (определяемое по IP-адресу клиента) используются для привязки логов запросов к конкретному региону и маршрутизации запросов.
  • Языковые факторы: Язык документа и язык запроса являются критически важными. Они используются для определения Predominant Language дата-центра и являются основным критерием для включения документа в Regional Content.

Какие метрики используются и как они считаются

  • Global Index Selection Score / Global Quality Score: Глобальная оценка качества документа. Рассчитывается на основе мировых данных о популярности (включая PageRank). Используется для отбора Replicated Content.
  • Regional Index Selection Score / Regional Quality Score: Региональная оценка качества документа. Рассчитывается на основе популярности документа (показы) только среди пользователей, обслуживаемых конкретным дата-центром, и может также включать PageRank. Используется для отбора Regional Content.
  • Predominant Language: Определяется путем статистического анализа распределения языков в логах запросов конкретного дата-центра (какой язык встречается чаще всего).
  • Trained Model: Модель, которая взвешивает документы на основе их характеристик (например, языка) и соответствия профилю запросов дата-центра для отбора Regional Content.

Выводы

  1. Инфраструктура определяет доступность: Патент описывает архитектуру построения индекса, а не алгоритмы ранжирования. Он определяет, какие документы физически доступны для ранжирования в конкретном регионе. Google оптимизирует хранение, не копируя весь корпус документов в каждый дата-центр.
  2. Явная сегментация индекса: Индекс разделен на две непересекающиеся части: глобально важный контент (Replicated Content), который индексируется везде, и локально релевантный (Regional Content), который индексируется только в соответствующих регионах.
  3. Критерии глобальной индексации: Для попадания в Replicated Content требуется исключительно высокий Global Quality Score (упоминается PageRank). Это единственный способ гарантировать доступность документа во всех регионах.
  4. Критерии локальной индексации: Чтобы документ попал в Regional Content, он должен: (А) не быть достаточно сильным для Replicated Content, (Б) соответствовать характеристикам региона (в первую очередь, Predominant Language), и (В) иметь достаточно высокий Quality Score (глобальный или региональный) среди оставшихся кандидатов.
  5. Важность локальной популярности: Патент подчеркивает использование региональных поведенческих данных для расчета Regional Quality Score. Это позволяет индексировать контент, который важен локально, но не имеет достаточной глобальной авторитетности.
  6. Гибкая маршрутизация запросов: Система может перенаправлять запросы между дата-центрами на основе языка запроса для улучшения релевантности, независимо от физического местоположения пользователя.

Практика

Best practices (это мы делаем)

Рекомендации основаны на понимании архитектуры индексации, описанной в патенте, и критически важны для международного SEO.

  • Построение глобальной авторитетности (для попадания в Replicated Content): Развивайте сайт для достижения максимального глобального Quality Score (PageRank, E-E-A-T). Это гарантирует включение сайта в Replicated Content и его доступность во всех дата-центрах по всему миру. Это особенно важно для международных брендов.
  • Четкое таргетирование языка и региона: Используйте стандартные методы (hreflang, ccTLDs, локализованный контент) для четкого указания целевого языка и региона. Это необходимо, чтобы контент соответствовал Predominant Language целевого дата-центра и рассматривался для включения в Regional Content.
  • Построение локальной популярности (для попадания в Regional Content): Для контента, таргетированного на конкретный регион, необходимо развивать локальную популярность и авторитетность. Получайте локальные ссылки и стимулируйте локальный трафик и вовлеченность. Это повышает Regional Quality Score, что увеличивает шансы на включение в Regional Content, даже если глобальная авторитетность средняя.
  • Оптимизация под преобладающий язык: Создавайте высококачественный контент на языке, который является преобладающим в целевом регионе. Патент явно использует язык как основной критерий для отбора регионального контента.

Worst practices (это делать не надо)

  • Конфликтующие гео/языковые сигналы: Размещение контента с противоречивыми сигналами (например, контент на немецком языке на домене .br без четких языковых указаний) может привести к тому, что документ не будет соответствовать Trained Model нужного региона и не попадет в соответствующий Regional Content.
  • Автоматический перевод без локализации: Создание низкокачественного переведенного контента без построения локальных сигналов. Такой контент может соответствовать языку, но иметь низкий Regional Quality Score, из-за чего не попадет в Regional Content.
  • Игнорирование глобальной авторитетности при международном продвижении: Если сайт не имеет достаточной глобальной авторитетности для попадания в Replicated Content, его видимость будет строго ограничена теми регионами, в чей Regional Content он сможет попасть по локальным критериям.

Стратегическое значение

Патент подтверждает, что для успешного международного SEO необходима двухуровневая стратегия. Первый уровень — построение глобального авторитета, что обеспечивает базовую индексацию по всему миру (Replicated Content). Второй уровень — целенаправленная работа в ключевых регионах для повышения локальной релевантности и популярности (Regional Content). Понимание того, что индексы в разных дата-центрах физически отличаются, подчеркивает важность обеспечения попадания сайта в индекс целевого региона.

Практические примеры

Сценарий 1: Индексация глобального авторитетного ресурса

  • Сайт: Wikipedia (английский раздел).
  • Действие: Благодаря огромной глобальной авторитетности и PageRank, основные статьи Wikipedia имеют высочайший Global Quality Score.
  • Результат: Эти статьи попадают в Replicated Content и доступны для ранжирования в любом дата-центре мира (США, Бразилия, Япония), независимо от локального языка.

Сценарий 2: Индексация локального бизнеса

  • Сайт: Качественный сайт ресторана в Лиссабоне на португальском языке.
  • Действие: Сайт имеет среднюю авторитетность и релевантен запросам на португальском языке. Он не попадает в Replicated Content. Система анализирует логи дата-центра, обслуживающего Португалию, и определяет португальский как Predominant Language. Сайт соответствует критериям Trained Model и имеет достаточный Regional Quality Score.
  • Результат: Сайт включается в Regional Content португальского дата-центра. Он хорошо ранжируется локально, но может быть недоступен в индексе дата-центра, например, в Германии.

Вопросы и ответы

Означает ли этот патент, что индекс Google в разных странах отличается?

Да, патент прямо описывает архитектуру, при которой индексы в разных региональных дата-центрах отличаются. Все они содержат одинаковый базовый набор глобально важного контента (Replicated Content), но каждый из них дополнен уникальным набором локально релевантного контента (Regional Content), отобранного в первую очередь по языковому признаку и локальной популярности.

Что важнее: глобальная авторитетность или локальная релевантность?

Оба фактора важны, но они работают по-разному. Высокая глобальная авторитетность (Global Quality Score) гарантирует попадание в Replicated Content и доступность сайта во всех регионах. Локальная релевантность (соответствие языку) и локальная популярность (Regional Quality Score) позволяют попасть в Regional Content, что критично для сайтов, не обладающих топовой мировой авторитетностью.

Как Google определяет Regional Quality Score?

Патент указывает, что Regional Quality Score (или Regional Index Selection Score) рассчитывается на основе популярности документа среди пользователей, обслуживаемых конкретным дата-центром. Это включает анализ локальных сигналов: логов запросов, показов страниц (page impressions) и, вероятно, локального ссылочного профиля (PageRank также упоминается в контексте региональной оценки).

Если мой сайт на английском, может ли он ранжироваться в неанглоязычных странах?

Да, но это зависит от его авторитетности. Если у сайта очень высокий Global Quality Score, он попадет в Replicated Content и будет доступен во всех странах. Если авторитетность средняя, он может не попасть ни в Replicated Content, ни в Regional Content неанглоязычной страны (так как не соответствует преобладающему языку), что затруднит его ранжирование там.

Как этот патент влияет на использование hreflang?

Патент не упоминает hreflang напрямую, но подчеркивает важность языка для сегментации индекса. Использование hreflang помогает поисковой системе правильно определить язык и целевой регион контента, что критически важно для того, чтобы страница рассматривалась как кандидат на включение в соответствующий Regional Content индекс.

Что такое Trained Model и как она работает?

Trained Model строится для каждого дата-центра на основе анализа локальных логов запросов (в первую очередь, языка и показов). Она используется как фильтр для отбора документов из глобального корпуса в Regional Content. Модель отдает предпочтение документам, соответствующим локальным характеристикам (например, преобладающему языку) и имеющим достаточный Quality Score.

Может ли запрос быть обработан в дата-центре, который не является ближайшим к пользователю?

Да. Патент описывает возможность анализа языка запроса при его получении. Если система определяет, что другой дата-центр лучше подходит для обработки запроса на этом языке (например, запрос на испанском от пользователя в США), запрос может быть перенаправлен в соответствующий дата-центр (например, в Испании или Мексике).

Какую часть индекса обычно занимает Replicated Content?

В патенте приводятся примерные цифры, указывающие, что Replicated Content может занимать от половины (50%) до трех четвертей (75%) от общего объема данных в индексе, хотя также упоминается пример с 30%. Точное соотношение может варьироваться, но это значительная часть индекса.

Влияет ли этот механизм на скорость поиска?

Да, это одна из целей изобретения. За счет включения наиболее релевантного (глобально и локально) контента в индекс и отсечения менее важного контента, система уменьшает общий размер индекса, который необходимо поддерживать в каждом дата-центре. Это повышает эффективность использования ресурсов и ускоряет обработку запросов.

Что делать, если сайт не индексируется в целевом регионе?

В контексте этого патента, это означает, что сайт не попал ни в Replicated Content, ни в Regional Content целевого дата-центра. Необходимо проанализировать причины: возможно, у сайта слишком низкий Global Quality Score для глобальной индексации, ИЛИ он не соответствует преобладающему языку региона, ИЛИ у него слишком низкий Regional Quality Score (локальная популярность) для региональной индексации.

Похожие патенты

Как Google определяет многоязычных пользователей и показывает им результаты на языке, отличном от языка запроса
Google использует механизм для идентификации пользователей, владеющих несколькими языками, анализируя язык текущего запроса, местоположение пользователя и историю его активности. Если пользователь находится в регионе с доминирующим языком (L2), но ищет на другом языке (L1), и система подтверждает владение обоими, Google переводит запрос на L2 и ищет контент на обоих языках. Это позволяет показывать наиболее релевантные результаты, даже если их язык отличается от языка запроса.
  • US20230325421A1
  • 2023-10-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений
Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.
  • US8892596B1
  • 2014-11-18
  • Мультиязычность

  • Ссылки

  • SERP

Как Google решает, когда переводить запрос пользователя и показывать результаты на другом языке, сравнивая релевантность и распознавая сущности
Google анализирует запрос пользователя, переводит его на другой язык (например, английский) и сравнивает релевантность результатов в обоих языках. Если контент на иностранном языке значительно релевантнее, система подмешивает его в выдачу. При этом учитываются локальные и иностранные сущности в запросе, а также качество автоматического перевода.
  • US20090083243A1
  • 2009-03-26
  • Мультиязычность

  • Семантика и интент

  • SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.
  • US8600993B1
  • 2013-12-03
  • Структура сайта

  • Персонализация

  • Техническое SEO

Популярные патенты

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента
Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.
  • US8412699B1
  • 2013-04-02
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete
Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.
  • US20140108445A1
  • 2014-04-17
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph
Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.
  • US8738643B1
  • 2014-05-27
  • Knowledge Graph

  • Семантика и интент

  • Ссылки

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»
Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).
  • US9996624B2
  • 2018-06-12
  • EEAT и качество

  • Индексация

  • Семантика и интент

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы
Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.
  • US11782998B2
  • 2023-10-10
  • Семантика и интент

  • Индексация

  • Мультимедиа

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта
Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.
  • US9208233B1
  • 2015-12-08
  • Ссылки

  • Семантика и интент

  • Индексация

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.
  • US8041568B2
  • 2011-10-18
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи
Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).
  • US8972391B1
  • 2015-03-03
  • Персонализация

  • Поведенческие сигналы

  • SERP

seohardcore