
Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.
Патент решает две фундаментальные проблемы. Во-первых, он преодолевает ограничения традиционного индексирования по отдельным словам, которое неэффективно для понимания концепций, выраженных фразами. Во-вторых, он решает сложную инфраструктурную задачу: как масштабируемо хранить массивный индекс фраз и быстро обрабатывать запросы, не перегружая серверы и сеть. Система снижает время ответа и минимизирует межсерверный трафик (inter-server communication).
Запатентована система информационного поиска, использующая фразы для индексирования и поиска документов. Система включает метод извлечения "реальных" фраз (Phrase Extraction) из контента и архитектуру для хранения индекса, использующую Уровни (Tiers) и Шарды (Shards). Tiers группируют фразы по стоимости обработки, а Shards распределяют данные по серверам. Также описан процесс интерпретации запросов (Phrasification) и оптимизации их выполнения (Query Scheduling).
Система функционирует в несколько этапов:
Phrase Posting Lists). Они назначаются на разные уровни (Tiers) в зависимости от их длины/стоимости и делятся на части (Shards) для распределенного хранения.Высокая. Концепции фразового индексирования, шардирования и многоуровневой архитектуры являются фундаментальными для современных поисковых систем. Хотя методы извлечения фраз эволюционировали (например, с помощью нейронных сетей), описанные принципы построения масштабируемого семантического поиска остаются центральными для Google.
Патент имеет высокое стратегическое и умеренное тактическое значение (7/10). Хотя большая его часть посвящена инфраструктуре (Tiers/Shards), он детально описывает процесс Phrase Extraction. Это дает конкретные указания на то, какие сигналы в контенте (структура, форматирование) помогают Google идентифицировать значимые фразы. Понимание этого механизма критически важно для создания контента, ориентированного на концепции, а не на ключевые слова.
Query Cost), например, длины списка.Phrase Posting List. Документы внутри списка распределяются по шардам.Патент в первую очередь защищает архитектуру хранения индекса (Tiers и Shards), но его описание раскрывает всю систему, включая извлечение фраз и обработку запросов.
Claim 1 (Независимый пункт): Описывает метод индексирования с многоуровневой архитектурой, основанной на длине списков фраз.
phrase posting list.first tier).Shards) и назначается серверам второго уровня (second tier).third tier).integer multiple) количества серверов второго уровня.Это условие является ядром инфраструктурной оптимизации. Оно гарантирует, что сервер на уровне N должен взаимодействовать только с ограниченным, предсказуемым набором серверов на уровне N+1. Это минимизирует сетевой трафик и ускоряет обработку запросов, требующих данных с разных уровней.
Claim 8 (Независимый пункт): Обобщает архитектуру для M уровней.
Shard Assignment Function, которая гарантирует, что документ всегда попадает в один и тот же шард.Изобретение описывает комплексную систему и затрагивает несколько этапов поиска.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап. Здесь происходит:
Phrase Posting Lists и их распределение по инфраструктуре Tiers и Shards на основе длины/стоимости.QUNDERSTANDING – Понимание Запросов
На этом этапе применяется Phrasification. Входящий запрос анализируется для определения наилучшего набора фраз, который отражает интент пользователя.
RANKING – Ранжирование (Этапы Retrieval/Отбора кандидатов)
Архитектура напрямую влияет на скорость отбора кандидатов. Процессы Query Scheduling и Query Optimization используют знание о расположении данных в Tiers и Shards для минимизации задержек и сетевого трафика при поиске релевантных документов.
Входные данные:
Выходные данные:
Phrase Extraction явно использует структурные сигналы (заголовки, форматирование, семантические границы) для идентификации фраз, что делает структуру контента важным фактором для правильной индексации концепций.Phrase Extraction применяется при обработке каждого документа. Логика Tiers/Shards применяется при сохранении данных в индекс.Phrasification, Query Scheduling и Query Execution применяются при каждом запросе пользователя.Процесс А: Извлечение фраз (Phrase Extraction)
Text Breaks (семантических границ: конец предложения/абзаца, HTML-элементы, смена шрифта).typeface characteristics).Document Phrase Score. Оценка повышается за позицию Exact, расположение в Title, выделение шрифтом или использование в анкорном тексте (hyperlink anchor).Document Phrase Scores агрегируются по всему корпусу в Combined Score.Процесс Б: Индексирование (Tiering и Sharding)
Query Cost (например, длина ее Phrase Posting List).Shard Assignment Function (например, DocID Mod S) для консистентного распределения документов.Phrase Extraction. Учитываются: Phrase Extraction. Учитываются Text Breaks: typeface characteristics: шрифт, размер, стиль).Shard Assignment Function.Document Phrase Scores по корпусу.Phrase Posting List или расчетной стоимостью обработки.Phrasification для оценки интерпретаций запроса.Phrase Extraction явно использует структурные и визуальные элементы документа (заголовки, форматирование, Text Breaks) для идентификации и оценки значимости фраз. Это имеет прямые последствия для SEO-оптимизации контента.Tiers (группировка по стоимости) и Shards (партиционирование данных) — это инженерные решения, которые делают фразовый поиск быстрым и масштабируемым, минимизируя межсерверное взаимодействие.Shard Assignment Function), критически важна для быстрого пересечения списков документов при сложных запросах.Хотя патент описывает инфраструктуру (Tiers/Shards), на которую SEO не влияет, он также детализирует процесс Phrase Extraction, который имеет прямые тактические применения.
Document Phrase Score.typeface characteristics: стиль, размер) учитываются при оценке значимости фраз.Text Breaks — семантические границы, которые система использует для определения начала и конца кандидатов в фразы. Четкая структура облегчает извлечение концепций.hyperlink anchor) также увеличивает ее оценку при извлечении.Phrase Extraction и снижает способность системы идентифицировать ключевые фразы страницы.Патент подтверждает, что инфраструктура Google изначально оптимизирована для работы с фразами как с базовыми единицами смысла. Это демонстрирует долгосрочную стратегию перехода к семантическому поиску задолго до появления современных моделей NLP. Для SEO это подчеркивает первостепенную важность работы над контентом, который четко структурирован и естественно использует язык для передачи концепций.
Сценарий: Оптимизация статьи для улучшения Phrase Extraction
Задача: Улучшить индексацию ключевых концепций в статье о "регенеративной медицине".
Document Phrase Score.для разделения мыслей), чтобы облегчить определение границ фраз.
Что такое Phrase Extraction и как он влияет на мой контент?
Phrase Extraction — это процесс, с помощью которого Google идентифицирует устойчивые словосочетания («реальные фразы») в тексте. Патент указывает, что система использует структурные сигналы: расположение фразы (Title, начало документа), форматирование (шрифт, стиль) и семантические границы (абзацы, предложения). Оптимизация структуры и выделение ключевых концепций помогает Google правильно извлечь и оценить фразы на вашей странице.
Означает ли этот патент, что нужно отказаться от оптимизации под ключевые слова?
Он означает, что оптимизация должна сместиться от плотности отдельных слов к использованию естественных фраз и концепций. Система индексирует именно фразы. Ваша стратегия должна фокусироваться на том, чтобы помочь системе распознать эти фразы как значимые, используя четкую структуру и естественный язык.
Что такое Tiers и Shards и как они влияют на ранжирование?
Tiers (Уровни) и Shards (Шарды) — это внутренняя инфраструктура Google для эффективного хранения индекса и ускорения поиска. Tiers группируют фразы по частотности, а Shards распределяют данные по серверам. Они не влияют на ранжирование напрямую, но обеспечивают техническую возможность для работы быстрого и масштабируемого фразового поиска.
Что такое "Text Breaks" и почему они важны для SEO?
Text Breaks — это семантические границы в тексте: конец предложения, абзаца, заголовок, элементы списка или изменение форматирования. Они критически важны, потому что алгоритм Phrase Extraction использует их для определения начала и конца потенциальных фраз. Четкая и логичная структура текста помогает системе правильно выделить ключевые концепции.
Стоит ли использовать жирный шрифт () для выделения фраз?
Да, согласно патенту. В описании процесса Phrase Extraction указано, что характеристики шрифта (typeface characteristics), такие как стиль и размер, учитываются при расчете Document Phrase Score. Выделение ключевых фраз может повысить их значимость в глазах системы на этапе индексации.
Что такое Phrasification (Фразификация) запроса?
Это процесс интерпретации запроса пользователя. Система не ищет отдельные слова, а пытается разбить запрос на наиболее вероятную комбинацию известных ей фраз. Например, запрос "apple pie recipe" скорее всего будет интерпретирован как ["apple pie"] AND ["recipe"]. Это позволяет точнее понять интент.
В чем заключается ключевая оптимизация инфраструктуры в этом патенте?
Ключевая оптимизация — это иерархическое шардирование, где количество шардов на верхнем уровне кратно количеству шардов на нижнем уровне. В сочетании с консистентной функцией шардирования (документ всегда в одном шарде), это значительно сокращает объем данных, передаваемых между серверами при выполнении запроса.
Как система определяет, является ли фраза "сильной" (Strong Phrase)?
Фраза считается "сильной", если ее Document Phrase Score превышает определенный порог. Это обычно происходит, если фраза встречается в очень значимых местах (например, в Title) или имеет сильное форматирование. "Сильные" фразы с меньшей вероятностью будут разбиты на субфразы при анализе.
Актуален ли этот патент, учитывая развитие BERT и MUM?
Да, актуален. BERT и MUM улучшили понимание языка и контекста, но им по-прежнему нужна эффективная инфраструктура для хранения и доступа к индексу. Концепции фразового индексирования, шардирования и многоуровневого хранения остаются фундаментальными для масштабируемости поиска.
Какова роль Анны Паттерсон (Anna Patterson) в этом патенте?
Анна Паттерсон — один из ключевых изобретателей и известный эксперт в области информационного поиска, внесшая значительный вклад в развитие семантического поиска и архитектуры поисковых систем. Ее участие подчеркивает важность этого патента для перехода Google к системам, ориентированным на понимание фраз и концепций.

Индексация
Свежесть контента
Семантика и интент

Индексация
Семантика и интент

Индексация

Семантика и интент

Индексация

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Мультиязычность
Поведенческие сигналы
SERP

Семантика и интент
Local SEO
Персонализация

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
SERP
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Антиспам
Ссылки
Техническое SEO

Поведенческие сигналы
SERP
Семантика и интент

Структура сайта
SERP
Ссылки
