
Google анализирует, как одни и те же отрывки текста (например, цитаты) используются в разных документах. Система собирает весь окружающий текст (контекст) вокруг каждого вхождения отрывка и использует статистический анализ (например, TF-IDF), чтобы определить ключевые термины, сущности и концепции, связанные с этим отрывком. Это позволяет связывать документы по смыслу и улучшать навигацию.
Патент решает проблему навигации в больших цифровых корпусах текста (например, Google Books или научные архивы), где отсутствуют гиперссылки между документами. Это затрудняет просмотр связанных по смыслу материалов (browsing by concept). Изобретение направлено на автоматическое создание концептуальных связей путем анализа повторяющихся отрывков текста и их контекста использования.
Запатентована система для автоматического извлечения ключевых терминов (Key Terms), связанных с отрывками текста, которые повторяются в нескольких документах корпуса (Similar Passages). Суть изобретения заключается в агрегировании контекста (окружающего текста) всех экземпляров данного отрывка (Context Aggregation) и последующем анализе этого агрегированного контекста для выявления значимых концепций или сущностей.
Система работает в несколько этапов (преимущественно офлайн):
Passage Mining Engine находит фрагменты текста (цитаты), которые повторяются в разных документах.Key Term Generation Engine анализирует агрегированный контекст. Для выявления значимых терминов используются статистические методы (например, TF-IDF) или сравнение с базой данных известных сущностей (Terms DB).co-location) терминов в разных контекстах, чтобы определить связанные концепции (Related Key Terms).Средне-Высокая. Патент подан в 2008 году. Хотя современные NLP-модели (BERT, MUM) ушли далеко вперед от TF-IDF, фундаментальные принципы, описанные здесь — анализ окружающего контекста для понимания значения фрагмента и извлечение сущностей на основе совместной встречаемости — остаются крайне актуальными. Эти методы лежат в основе построения Графа Знаний и понимания семантики текста.
Патент имеет значительное влияние на понимание SEO (7/10). Он не описывает алгоритмы ранжирования веб-поиска, но демонстрирует конкретную методологию Google для анализа контекста и извлечения сущностей. Это критически важно для понимания того, как Google интерпретирует околоссылочный текст, контекст упоминания брендов и семантические связи между концепциями на странице.
Pre-context (слова до отрывка) и Post-context (слова после отрывка). Также может включать метаданные документа (автор, тема, дата).Similar Passage.Context Aggregation и признанный релевантным для данного отрывка. Представляет концепцию или сущность.instance (экземпляр).Claim 1 (Независимый пункт): Описывает основной метод идентификации ключевых терминов для похожего отрывка.
instances) похожего отрывка (similar passage).Context Aggregation.Key Terms) на основе этой агрегации. Один из методов — сравнение слов в агрегации с базой данных терминов (Terms DB) и извлечение совпадений.Claim 2 и 3 (Зависимые): Уточняют альтернативные методы определения ключевых терминов.
Определение Key Terms может включать выполнение анализа TF-IDF на Context Aggregation (Claim 2). Или же, генерацию кандидатов в n-граммы из агрегации и выполнение TF-IDF анализа этих n-грамм (Claim 3).
Claim 4 (Зависимый): Расширяет определение контекста.
В Context Aggregation могут быть добавлены слова из метаданных (например, автор, тема), описывающих документы, содержащие отрывок.
Claim 6 (Зависимый от 5): Описывает механизм определения связей между терминами (Related Key Terms).
Связь между двумя ключевыми терминами (первым и вторым) определяется, если они совместно расположены (co-located) в наборе ключевых терминов, связанных с *другим* похожим отрывком. Если да, они объявляются связанными.
Изобретение применяется в основном на этапе предварительной обработки данных корпуса.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процессы выполняются офлайн (off-line), асинхронно по отношению к запросам пользователей.
Passage Mining Engine анализирует корпус и идентифицирует Similar Passages.Key Term Generation Engine извлекает окружающий текст и метаданные для каждого экземпляра и объединяет их.TF-IDF, сравнение с Terms DB) для определения Key Terms из агрегированного контекста.Related Key Terms на основе совместного расположения (co-location).Результаты сохраняются в базах данных (Similar Passage DB, Key Term DB).
METASEARCH / Взаимодействие с пользователем
Когда пользователь просматривает документ (например, в Google Books), Web Server использует предварительно рассчитанные данные для отображения Key Terms в виде навигационных ссылок.
Входные данные:
Terms DB).Выходные данные:
Similar Passages (встречаются в нескольких документах).Этап 1: Идентификация похожих отрывков (Офлайн)
Passage Mining Engine обрабатывает документы в корпусе для поиска повторяющихся фрагментов текста.Similar Passage DB.Этап 2: Генерация ключевых терминов (Офлайн)
Similar Passage определяется контекст: извлекается Pre-context (N слов до) и Post-context (M слов после). Пороги N и M могут быть разными. Опционально извлекаются метаданные.Context Aggregation.Context Aggregation анализируется для идентификации Key Terms. Используются методы: TF-IDF для терминов (или сгенерированных n-грамм) в агрегации. Термины с высокими показателями выбираются как ключевые.Terms DB. Совпадения извлекаются как ключевые термины.boosting), если термин найден во внешнем ресурсе (например, Wikipedia).Этап 3: Определение связанных терминов (Офлайн)
co-location) ключевых терминов в наборах, ассоциированных с разными Similar Passages.Related Key Terms.Этап 4: Оценка и Использование (Онлайн)
Key Term Scoring Module оценивает термины (например, по TF-IDF скору) для выбора наиболее релевантных для отображения.Context). Именно этот текст анализируется для извлечения ключевых терминов.Terms DB — предварительно составленный список потенциально важных терминов (сущностей, концепций).TF-IDF указывает на потенциальный Key Term.Pre-context) и после (Post-context) отрывка.TF-IDF, n-граммы), так и подходы, основанные на знаниях (Terms DB, валидация через внешние источники типа Wikipedia), для идентификации Key Terms.Related Key Terms) устанавливаются, если они часто упоминаются вместе в контекстах разных фрагментов. Это базовый механизм построения семантического графа.Хотя патент сфокусирован на анализе корпуса книг, его принципы напрямую применимы к веб-поиску, особенно в отношении анализа контекста ссылок и упоминаний сущностей.
Context), содержит релевантные сущности и семантически связанные термины. Этот контекст помогает поисковым системам лучше понять тематику и назначение ссылки, выходя за рамки анкорного текста.Related Key Terms.TF-IDF, что помогает выявлять неестественное распределение терминов.Патент подтверждает стратегический курс Google на семантический поиск и извлечение сущностей. Он демонстрирует, что важно не только *что* вы говорите или на *кого* ссылаетесь, но и *в каком окружении* это происходит. Для SEO это означает, что построение Topical Authority требует создания богатого контекста, в котором основные темы окружены связанными сущностями и релевантными терминами.
Сценарий: Оптимизация контекста внутренней ссылки
Применение принципов анализа контекста для улучшения внутренней перелинковки.
Context), включающим связанные сущности ("эксперты по питанию", "доктор Джон Смит") и концепции ("метаболизм", "устойчивое похудение"). Согласно патенту, анализ этого контекста поможет системе извлечь релевантные Key Terms для целевой страницы.Откуда именно извлекаются ключевые термины: из самого отрывка или из окружающего текста?
Ключевые термины извлекаются из окружающего текста (Context), а не из самого похожего отрывка (цитаты). Система собирает текст до и после каждого вхождения отрывка, агрегирует его и затем анализирует этот агрегированный массив данных для поиска значимых терминов.
Что такое "Context Aggregation" и почему это важно?
Context Aggregation — это процесс объединения окружающего текста из всех мест, где встречается определенный отрывок. Это важно, потому что анализ одного контекста может быть неполным или смещенным. Агрегация позволяет системе получить комплексное представление о том, какие темы и концепции наиболее часто обсуждаются в связи с этим отрывком во всем корпусе.
Какую роль играет TF-IDF в этом патенте?
TF-IDF используется как основной статистический метод для извлечения Key Terms из агрегированного контекста. Он помогает идентифицировать термины, которые часто встречаются рядом с данным фрагментом, но при этом относительно редки во всем корпусе документов. Это позволяет отделить действительно значимые концепции от общеупотребительных слов.
Как система определяет, что два ключевых термина связаны между собой (Related Key Terms)?
Связь определяется на основе совместной встречаемости (co-location). Если два ключевых термина часто появляются вместе в наборах ключевых терминов, ассоциированных с разными похожими отрывками, система маркирует их как связанные. Это основа для построения семантических связей между концепциями.
Упоминает ли патент использование внешних баз знаний, таких как Wikipedia?
Да. Патент упоминает, что веса (weights) кандидатов в ключевые термины могут быть повышены (boosted), если термин определен во внешнем ресурсе. В качестве примера приводится онлайн-энциклопедия (Wikipedia). Это подчеркивает важность присутствия ключевых сущностей в авторитетных источниках.
Как этот патент связан с анализом околоссылочного текста в SEO?
Принципы патента напрямую переносятся на анализ околоссылочного текста. Ссылка может рассматриваться как Similar Passage (повторяющийся элемент), а окружающий ее текст — как Context. Google может анализировать этот контекст, чтобы лучше понять релевантность и тематику целевой страницы, выходя за рамки только анкорного текста.
Применяется ли этот алгоритм в реальном времени при обработке запроса?
Нет. Основные процессы — идентификация похожих фрагментов, агрегация контекста и извлечение ключевых терминов — выполняются офлайн (off-line) во время индексирования и анализа корпуса. В реальном времени система только извлекает эти предварительно рассчитанные данные.
Могут ли метаданные документа (например, имя автора) стать ключевым термином?
Да. Патент явно указывает (Claim 4), что метаданные документа (автор, тема, дата публикации) могут быть включены в Context Aggregation. Если имя автора часто встречается в метаданных документов, цитирующих определенный отрывок, оно может быть извлечено как ключевой термин.
Как система обрабатывает разные формы одного и того же термина (например, «США» и «Соединенные Штаты»)?
Патент упоминает процесс слияния (merging) кандидатов в ключевые термины на основе анализа вариаций в написании, морфологических вариаций или альтернативных представлений. Это позволяет нормализовать сущности и объединить данные по ним.
Что важнее для SEO, исходя из этого патента: сам факт упоминания или контекст упоминания?
Контекст упоминания критически важен. Весь патент посвящен тому, как анализ окружающего текста (Context) используется для извлечения значения и связанных концепций (Key Terms). Для SEO это означает, что необходимо уделять пристальное внимание тому, в каком семантическом окружении появляются ссылки на ваш сайт или упоминания вашего бренда.

Индексация
Ссылки

Семантика и интент

Knowledge Graph
Семантика и интент
EEAT и качество

Индексация
Семантика и интент
Ссылки

Мультимедиа
Семантика и интент
SERP

Поведенческие сигналы
Персонализация
Семантика и интент

Семантика и интент
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Семантика и интент
SERP

Семантика и интент
Поведенческие сигналы
Local SEO

Поведенческие сигналы
Ссылки
SERP

Ссылки
Поведенческие сигналы
Мультимедиа

Поведенческие сигналы
Персонализация
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Поведенческие сигналы
Семантика и интент
SERP
