SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует гибридную архитектуру индекса (Hybrid Sharding) для баланса скорости, эффективности и обновления поиска

INDEXING SYSTEM (Система индексирования)
  • US9501506B1
  • Google LLC
  • 2013-12-16
  • 2016-11-22
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует гибридную архитектуру индекса (Hybrid-Sharded Index), комбинирующую шардирование по документам и по терминам. Это позволяет оптимизировать баланс между операциями ввода-вывода и сетевым трафиком. Патент также описывает сложный механизм обновления этого распределенного индекса, позволяющий поддерживать доступность и согласованность данных (атомарность) во время внесения изменений.

Описание

Какую проблему решает

Патент решает фундаментальные инфраструктурные проблемы масштабирования распределенных поисковых индексов:

  • Баланс эффективности: Оптимизация компромисса между операциями ввода-вывода (I/O) и сетевым трафиком. Традиционное шардирование по документам (Document-sharded) увеличивает I/O, так как запрос обрабатывается многими узлами. Шардирование по терминам (Term-sharded) оптимизирует I/O, но значительно увеличивает сетевой трафик.
  • Обновление без простоя (Zero-Downtime Updates): Обеспечение возможности обновления огромного распределенного индекса без прекращения обслуживания запросов.
  • Согласованность данных (Атомарность): Гарантия Document Atomicity — того, что запрос обрабатывается по целостной версии документа (либо полностью старой, либо полностью новой), даже во время обновления.

Что запатентовано

Запатентована архитектура гибридного индекса (Hybrid-Sharded Index) и сложный механизм его обновления. Система комбинирует Document-sharded posting lists и Term-sharded posting lists в рамках одной распределенной инфраструктуры. Индекс разделяется на основе классификации документов (Base Documents и Extended Documents) для оптимизации хранения и доступа. Ключевым элементом является запатентованный метод обновления, использующий Delta Files (информацию об изменениях) для поддержания согласованности во время апдейтов.

Как это работает

Архитектура: Система делит документы на два типа. Для Base Documents используется шардирование по документам: постинг-листы хранятся на том же узле (Leaf Node), что и документ, обычно в быстрой памяти (RAM/Flash). Для Extended Documents используется шардирование по терминам: постинг-листы хранятся на узле, назначенном этому термину, часто на диске.

Обработка запроса: Корневой узел (Root) сначала извлекает Term-sharded списки (обычно для более редких терминов), а затем распределяет подзапросы только к тем узлам, которые содержат соответствующие документы, для пересечения с локальными Document-sharded списками.

Обновление: При обновлении узлы генерируют Delta Files и Translation Tables (таблицы перевода локальных идентификаторов). Обновления для Term-sharded списков рассылаются между узлами (процесс Shuffle) и объединяются (Merge). Во время внедрения обновления (Swap) система использует Delta Files, чтобы отвечать на запросы, используя старую версию индекса, обеспечивая непрерывность работы.

Актуальность для SEO

Высокая (с точки зрения инфраструктуры). Эффективное индексирование, распределенные системы и обновления без простоя остаются фундаментальными инженерными задачами для Google. Описанные концепции гибридных архитектур и обеспечения согласованности данных критически важны для систем такого масштаба и актуальны на 2025 год.

Важность для SEO

Патент имеет минимальное значение для практического SEO (1/10). Он описывает внутреннюю инфраструктуру Google для хранения и обновления индекса, а не алгоритмы ранжирования, понимания контента или оценки качества. Он дает глубокое понимание архитектуры поиска и того, как Google обеспечивает свежесть и доступность данных, но не содержит практических рекомендаций для SEO-специалистов по оптимизации сайтов.

Детальный разбор

Термины и определения

Base Documents (Базовые документы)
Набор документов, оптимизированных для снижения сетевого трафика. Термины из этих документов обычно индексируются через Document Sharding и хранятся в быстрой памяти (RAM/Flash).
Delta File / Change Information (Дельта-файл / Информация об изменениях)
Данные, генерируемые во время обновления индекса. Включают Translation Tables, списки вставок/удалений. Позволяют системе обслуживать старую версию индекса во время загрузки новой.
Document Atomicity (Атомарность документа)
Принцип, гарантирующий, что запрос обрабатывается по целостной версии документа (либо полностью по старой, либо полностью по новой), исключая смешивание данных во время обновления.
Document Sharding (Шардирование по документам)
Метод разделения индекса, при котором Posting Lists для терминов документа хранятся на том же узле (Leaf), что и сам документ.
Extended Documents (Расширенные документы)
Документы, не входящие в набор Base Documents. Термины из этих документов обычно обрабатываются через Term Sharding.
Hybrid-Sharded Index (Гибридно-шардированный индекс)
Архитектура индекса, которая одновременно использует шардирование по документам и шардирование по терминам для балансировки нагрузки на I/O и сеть.
Leaf Node (Листовой узел)
Вычислительное устройство в распределенной системе (Index Serving Cluster), хранящее часть индекса.
Local Document Identifier (Локальный идентификатор документа)
Идентификатор, присваиваемый документу конкретным Leaf Node. Он короче глобального ID и может меняться при обновлениях индекса на узле.
Root Node / Query Engine (Корневой узел)
Сервер, который принимает запросы, координирует их обработку, взаимодействует с Leaf Nodes и агрегирует результаты.
Shuffle (Перемешивание)
Процесс обмена частями обновленных Term-sharded posting lists между узлами во время обновления индекса.
Term Sharding (Шардирование по терминам)
Метод разделения индекса, при котором полный Posting List для термина хранится на узле, назначенном этому термину, независимо от того, где хранятся сами документы.
Translation Table (Таблица трансляции)
Таблица, которая маппит старые Local Document IDs на новые (Forward Translation) или наоборот (Inverse Translation) после обновления содержимого узла.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на механизме обновления гибридного индекса и архитектуре, которая его поддерживает.

Claim 1 (Независимый пункт): Описывает метод обновления гибридного индекса с фокусом на обеспечении доступности и согласованности.

  1. Система получает обновления для Hybrid-Sharded Index на первом листовом узле.
  2. Первый узел генерирует замещающие списки публикаций (replacement posting lists) и информацию об изменениях (change information / Delta File).
  3. Замещающие списки делятся на порции, каждая из которых предназначена для соответствующего второго листового узла.
  4. Порции отправляются на соответствующие вторые узлы (Shuffle).
  5. На принимающем узле: полученная порция объединяется (Merge) в обновленный список.
  6. Обновленный список загружается (Swap) в память.
  7. Критический элемент: Во время загрузки (Swap) система использует change information для ответа на запросы, используя СТАРУЮ версию (older version) гибридного индекса. Это обеспечивает атомарность.

Claim 10 (Независимый пункт): Описывает архитектуру системы и логику генерации обновлений на листовом узле (Pre-Shuffle).

  1. Система содержит узлы с document-sharded (для первого набора документов) и term-sharded списками.
  2. Первый узел получает обновление.
  3. Определяется, затрагивает ли обновление локальные document-sharded списки. Если да, они обновляются локально.
  4. Определяется, затрагивает ли обновление термин, назначенный второму узлу (term-sharded термин из второго набора документов).
  5. Если да, первый узел генерирует обновленную порцию term-sharded списка и change information, и предоставляет их второму узлу.

Claim 22 (Независимый пункт): Описывает процесс слияния (Merge) данных после обмена (Post-Shuffle).

  1. Первый листовой узел (Leaf 1) отвечает за термин T1.
  2. Leaf 1 получает обновленную порцию term-sharded списка для T1 от второго узла (Leaf 2) и от третьего узла (Leaf 3).
  3. Leaf 1 генерирует новый полный term-sharded posting list для T1, используя полученные порции.

Где и как применяется

Изобретение является фундаментальной частью инфраструктуры поиска Google.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Здесь происходит построение и обновление индекса:

  • Классификация: Система классифицирует документы как Base или Extended (критерии не описаны в патенте).
  • Шардирование: Определяется способ хранения постинг-листов (Document-sharded или Term-sharded) и тип хранилища (Tiering: RAM, Flash, Disk).
  • Обновление: Весь сложный механизм обновления (Delta Files, Shuffle, Merge, Swap) функционирует на этом этапе для поддержания свежести индекса и обеспечения Document Atomicity.

RANKING – Ранжирование (Этап Retrieval)
Архитектура индекса используется для эффективного отбора кандидатов. Query Engine (Root) использует гибридный подход:

  • Быстро извлекает полные списки для Term-sharded терминов (часто редких) с одного узла.
  • Затем координирует запрос с Leaf Nodes для пересечения с локальными Document-sharded списками (часто частых терминов) и выполнения скоринга.

На что влияет

Патент описывает инфраструктуру хранения и доступа к данным. Он не влияет на конкретные типы контента, запросы, ниши (например, YMYL) или географию выборочно. Он влияет на весь индекс целиком, определяя общую производительность, свежесть и доступность системы.

Когда применяется

  • Архитектура индекса (Hybrid Sharding): Активна постоянно.
  • Механизм обновления: Активируется, когда Indexing Engine отправляет новые данные в Index Serving Cluster (обычно в пакетном режиме).
  • Использование Delta Files: Активируется строго во время фазы замены (Swap) индекса для поддержания доступности системы и обеспечения Document Atomicity. После завершения обновления они игнорируются.

Пошаговый алгоритм

Процесс обновления гибридного индекса (на примере Узла i)

  1. Получение обновления: Листовой узел (Leaf i) получает файл обновления для документов, назначенных ему.
  2. Назначение локальных ID и генерация таблиц: Leaf i присваивает новые локальные идентификаторы (Local Document IDs) всем своим документам. Генерируются таблицы трансляции (Translation Tables) для маппинга старых и новых ID.
  3. Генерация Replacement Index и Delta File: Создается замещающий индекс на основе новых ID. Генерируется Delta File (информация об изменениях).
  4. Разделение индекса (Подготовка к Shuffle):
    • Document-Sharded (для Base Docs): Обновленные списки сохраняются локально (например, в резервном слоте памяти).
    • Term-Sharded (для Extended Docs): Замещающий индекс делится на порции для отправки другим узлам. К этим порциям добавляется соответствующая Delta Information.
  5. Shuffle (Обмен данными): Leaf i отправляет подготовленные порции соответствующим узлам и одновременно получает порции от других узлов для тех терминов, которые назначены Leaf i.
  6. Merge (Слияние): Leaf i объединяет (обычно путем конкатенации) полученные порции для формирования полных Term-Sharded Posting Lists.
  7. Swap (Замена индекса): Leaf i загружает новый индекс в рабочую память. Процесс отличается для разных типов памяти (FIG. 7):
    • Диск (Slower-access memory): Delta Information добавляется в конец постинг-листа. Новый список загружается, старый выгружается.
    • RAM/Flash (Faster-access memory): Постинг-листы делятся на срезы (slices) и загружаются по частям. Новый срез верифицируется с использованием реального трафика перед выгрузкой старого среза.
    • Важно: Во время всей фазы Swap система обслуживает запросы, используя новый индекс, НО применяет Delta File (например, Inverse Translation), чтобы результаты соответствовали СТАРОЙ версии индекса.
  8. Верификация и Завершение: После верификации Leaf i уведомляет Root о готовности. Система прекращает применять Delta Files и активирует Document-Sharded списки из резервного слота. Обслуживание полностью переходит на новую версию индекса.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на инфраструктуре и не упоминает никаких факторов ранжирования (контентных, ссылочных, поведенческих и т.д.).

  • Системные и структурные данные:
    • Глобальные идентификаторы документов (Global Document Identifiers).
    • Локальные идентификаторы документов (Local Document Identifiers).
    • Данные о маппинге: какой узел отвечает за документ, какой узел отвечает за термин.
    • Внутренняя классификация документа как Base или Extended.
    • Posting Lists (списки соответствий терминов и документов).

Какие метрики используются и как они считаются

  • Term Popularity Thresholds (Пороги популярности терминов): Упоминается, что популярность термина (частота встречаемости в документах) может влиять на решение о типе шардирования и уровне хранения (Tiering: Disk, Flash, RAM). Конкретные формулы не приведены.
  • Local ID Mapping: Использование Forward Translation Tables и Inverse Translation Tables. Метрики рассчитываются как смещение (offset) между старым и новым локальным ID документа во время обновления.

Выводы

  1. Инфраструктурный фокус: Патент описывает исключительно инфраструктуру индекса Google (хранение, доступ, обновление), а не алгоритмы ранжирования. Он не дает практических выводов для SEO-стратегии.
  2. Hybrid Sharding как баланс эффективности: Ключевая архитектура — Hybrid-Sharded Index. Она позволяет Google оптимизировать производительность, балансируя между нагрузкой на операции ввода-вывода (I/O) и сетевым трафиком.
  3. Внутренняя классификация документов: Система разделяет документы на Base Documents (используют document-sharding, быстрая память) и Extended Documents (используют term-sharding, диск). Критерии этого разделения в патенте не раскрываются.
  4. Приоритет доступности и свежести (Zero-Downtime Updates): Описан сложный механизм обновления индекса (Shuffle, Merge, Swap), подчеркивающий стремление Google поддерживать актуальность данных без прерывания работы сервиса.
  5. Атомарность и консистентность: Использование Delta Files и Translation Tables во время фазы обновления (Swap) гарантирует Document Atomicity — пользователи видят консистентную версию индекса (старую), пока новая версия полностью не загружена и не верифицирована.

Практика

ВАЖНО: Патент является инфраструктурным и не дает практических выводов для SEO. Он описывает внутренние процессы Google без прямых рекомендаций для оптимизации сайтов.

Best practices (это мы делаем)

В патенте нет информации для формирования лучших практик SEO. Он не подтверждает и не опровергает важность каких-либо конкретных тактик, так как он не касается факторов ранжирования или качества контента.

Worst practices (это делать не надо)

В патенте нет информации о неэффективных или опасных SEO-тактиках. Он не направлен против каких-либо манипуляций.

Стратегическое значение

Стратегическое значение патента заключается в понимании сложности и эффективности инфраструктуры Google. Он демонстрирует, как Google решает инженерные задачи масштабирования, обеспечивая быстрое извлечение данных и поддержание свежести индекса без ущерба для доступности системы. Это подтверждает техническую способность Google обрабатывать и обновлять огромные объемы данных в режиме, близком к реальному времени.

Практические примеры

Практических примеров применения данного патента в SEO-работе нет, так как он описывает внутреннюю архитектуру поискового индекса, на которую SEO-специалисты не могут повлиять напрямую.

Вопросы и ответы

Что такое Hybrid-Sharded Index, описанный в патенте?

Это архитектура индекса, которая комбинирует два подхода: шардирование по документам (Document-Sharded) и шардирование по терминам (Term-Sharded). Цель этой комбинации — сбалансировать производительность. Система использует оба метода одновременно для разных типов документов, чтобы оптимизировать как операции ввода-вывода (I/O), так и сетевой трафик между серверами.

В чем разница между Document-Sharded и Term-Sharded?

При Document-Sharded подходе все данные документа и его постинг-листы хранятся на одном сервере (Leaf). Это снижает сетевой трафик, но увеличивает I/O, так как запрос отправляется на все серверы. При Term-Sharded подходе полный список документов для конкретного термина хранится на одном сервере, назначенном этому термину. Это снижает I/O, но увеличивает сетевой трафик для агрегации результатов.

Что такое "Base Documents" и "Extended Documents"?

Патент вводит эти термины для определения способа хранения. Base Documents используют Document-Sharded подход (данные хранятся локально) и часто в быстрой памяти. Extended Documents используют Term-Sharded подход (данные о терминах могут храниться на других серверах). Патент НЕ определяет критерии, по которым документ классифицируется как Base или Extended (например, качество, авторитетность или частота доступа).

Влияет ли классификация документа как Base или Extended на его ранжирование?

Патент не содержит информации об этом. Классификация Base/Extended относится к способу хранения документа в инфраструктуре для оптимизации производительности системы, а не к оценке его качества или релевантности. Не следует предполагать, что способ хранения влияет на позиции в выдаче.

Описывает ли этот патент факторы ранжирования?

Нет. Патент полностью посвящен инфраструктуре индексирования, хранению данных и процессу обновления индекса. Он не содержит никакой информации о том, как Google оценивает качество контента или релевантность, и не упоминает E-E-A-T, ссылки или поведенческие факторы.

Что такое Delta File (Change Information) и зачем он нужен?

Delta File — это информация об изменениях в индексе (например, таблицы трансляции идентификаторов). Он используется во время обновления индекса. Когда новая версия индекса загружается, система применяет Delta File, чтобы "откатить" новые данные к старой версии при ответе на запросы. Это позволяет продолжать обслуживание поиска без ошибок и обеспечивает согласованность данных во время апдейта.

Что такое "Document Atomicity"?

Это принцип, гарантирующий целостность данных во время обновления. Document Atomicity означает, что запрос должен быть обработан либо полностью по старой версии документа, либо полностью по новой. Недопустимо смешивание данных из разных версий одного документа при ответе на запрос. Это обеспечивается использованием Delta Files.

Что такое "Shuffle" в контексте обновления индекса?

Shuffle — это процесс обмена данными между листовыми узлами (Leaves) во время обновления Term-Sharded части индекса. Если Leaf A обновил документ, содержащий термин T1, но за термин T1 отвечает Leaf B, то Leaf A должен отправить обновленную информацию о T1 на Leaf B. Массовый обмен этими порциями данных между всеми узлами и называется Shuffle.

Влияет ли эта архитектура на скорость индексации моего контента?

Да, косвенно. Значительная часть патента посвящена оптимизации процесса обновления гибридного индекса. Цель этих оптимизаций – максимально быстро и эффективно применять обновления без остановки обслуживания запросов. Это позволяет Google поддерживать высокую свежесть (Freshness) индекса в целом.

Какая польза от этого патента для SEO-специалиста?

Практическая польза для ежедневной SEO-работы минимальна. Однако понимание этой архитектуры помогает Senior-специалистам лучше представлять масштаб и сложность инфраструктуры Google. Это дает контекст для понимания того, как Google обеспечивает свежесть индекса и постоянную доступность поиска на глобальном уровне.

Похожие патенты

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз
Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.
  • US8856138B1
  • 2014-10-07
  • Индексация

Как Google использует многоуровневую архитектуру индекса (Standard и Extended) для баланса скорости, стоимости и полноты поиска
Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.
  • US7174346B1
  • 2007-02-06
  • Индексация

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента
Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.
  • US7693813B1
  • 2010-04-06
  • Индексация

  • Семантика и интент

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
  • US7702614B1
  • 2010-04-20
  • Индексация

  • Свежесть контента

  • Семантика и интент

Как Google обновляет индекс визуального поиска в реальном времени, используя динамические и статические индексы
Патент Google, описывающий инфраструктуру визуального поиска (например, Google Images, Lens). Система использует два индекса: быстрый «Динамический индекс» для немедленного добавления новых изображений (несжатые данные) и основной «Статический индекс» (сжатый и распределенный по шардам) для масштабного поиска. Патент объясняет, как эти индексы периодически объединяются без прерывания работы системы.
  • US8898139B1
  • 2014-11-25
  • Индексация

  • Свежесть контента

  • Мультимедиа

Популярные патенты

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования
Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.
  • US10878048B2
  • 2020-12-29
  • EEAT и качество

  • SERP

  • Knowledge Graph

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента
Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).
  • US10318543B1
  • 2019-06-11
  • Ссылки

  • Индексация

  • Мультимедиа

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования
Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.
  • US7783644B1
  • 2010-08-24
  • Поведенческие сигналы

  • Индексация

  • Семантика и интент

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц
Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.
  • US7308643B1
  • 2007-12-11
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

seohardcore