Патент Google (с приоритетом от 1999 г.), описывающий методы фильтрации результатов поиска на основе их связанности с заданным контекстом (набором URL или категорий). Документ раскрывает фундаментальные методы определения связанности (Relatedness): анализ ссылок (со-цитирование), текстовое сходство, тематическую классификацию и паттерны поведения пользователей. Эти методы позволяют системе уточнять неоднозначные запросы и ограничивать выдачу релевантным контекстом.
Описание
Какую задачу решает
Патент решает проблему ограничений традиционного поиска по ключевым словам, который не позволяет эффективно ограничивать результаты поиска определенным контекстом или набором связанной информации (например, связанной с конкретными URL-адресами или категориями). Это особенно полезно для устранения неоднозначности запросов (например, отличить «Java» как язык программирования от «Java» как острова) и для фокусировки поиска в рамках определенной тематической области.
Что запатентовано
Запатентована система для ограничения результатов поиска на основе контекстной информации. Система получает поисковый запрос и контекст (например, набор Context URLs или категорий) и фильтрует результаты поиска, оставляя только те, которые «связаны» (related) с этим контекстом. Связанность определяется с помощью различных метрик, включая анализ ссылок (со-цитирование), текстовое сходство, тематическую классификацию и анализ поведения пользователей.
Как это работает
Система может быть реализована двумя основными способами: на стороне клиента (через Browser Assistant, например, плагин или тулбар) или на стороне сервера (через усовершенствованный поисковый движок).
- Определение контекста: Определяется набор Context URLs (например, из закладок пользователя, истории просмотра, текущей страницы или выбора категории в директории).
- Выполнение поиска: Поисковая система генерирует стандартный набор результатов по запросу.
- Фильтрация и оценка связанности: Система (клиент или сервер) анализирует каждый результат и определяет его связанность (Relatedness Score) с Context URLs. Для этого используются различные методы: Link-based similarity (со-цитирование), Text-based similarity, Classification-based similarity или Access-based similarity.
- Представление результатов: Пользователю показывается отфильтрованный набор результатов, релевантных заданному контексту.
Актуальность для SEO
Средняя-Высокая. Хотя конкретные реализации, описанные в патенте (например, Browser Assistant в виде тулбара), устарели, базовые концепции являются фундаментальными для современного поиска. Методы определения связанности документов (со-цитирование, классификация, анализ поведения пользователей) лежат в основе понимания Google тематического авторитета, семантических связей и контекстуализации (персонализации) поиска.
Важность для SEO
Патент имеет значительное стратегическое значение для SEO (75/100). Он детально описывает фундаментальные методы, которые Google использует для определения взаимосвязей между документами (Relatedness) за пределами прямых ссылок или точного совпадения ключевых слов. Понимание этих методов, особенно со-цитирования (Link-based similarity) и тематической классификации (Classification-based similarity), критически важно для построения тематического авторитета и позиционирования сайта в правильном семантическом окружении.
Детальный разбор
Термины и определения
- Access-based similarity (Сходство на основе доступа)
- Метод определения связанности двух ссылок, если анализ паттернов доступа пользователей показывает, что доступы к документам по этим ссылкам сильно коррелируют.
- Browser Assistant (Браузерный помощник)
- Программное обеспечение на стороне клиента (плагин, тулбар, DLL или часть браузера), которое получает Context URLs, взаимодействует с поисковой системой и может выполнять фильтрацию результатов поиска на основе контекста.
- Classification-based similarity (Сходство на основе классификации)
- Метод определения связанности двух ссылок, если они относятся к одной и той же теме из предопределенного набора тем, что определяется с помощью классификаторов тем.
- Context URLs (Контекстные URL) / Context URIs
- Набор URL/URI-адресов, определяющий контекст для поиска. Может включать текущий просматриваемый URL, закладки (Favorites list) или списки предпочтений (Preferences list).
- Link-based similarity (Сходство на основе ссылок / Со-цитирование)
- Метод определения связанности двух ссылок, если анализ структуры ссылок в вебе показывает доказательства их связанности. Например, если один или несколько документов содержат обе ссылки (со-цитирование).
- Preferences list (Список предпочтений)
- Список URL-адресов, специфичных для определенной информационной потребности. Может включать положительные (on-topic) и отрицательные (off-topic) URL-адреса.
- Relatedness Score (Оценка связанности)
- Метрика, определяющая степень связанности результата поиска с набором Context URLs. Используется для фильтрации и ранжирования результатов.
- Text-based similarity (Сходство на основе текста)
- Метод определения связанности двух ссылок, если сравнение полного текста документов, относящихся к этим ссылкам, показывает сходство.
Ключевые утверждения (Анализ Claims)
Анализ основан на патенте US9665650B1, который является продолжением (continuation) более ранних патентов (начиная с заявки 2000 года). Claims в этой версии сфокусированы на реализации через Browser Assistant.
Claim 1 (Независимый пункт): Описывает метод, выполняемый браузерным помощником (Browser Assistant) для поиска в контексте.
- Идентификация (браузерным помощником) набора контекстных URI (Context URIs).
- Получение (браузерным помощником) набора ссылочных URI (referenced URIs) со страницы результатов поиска, предоставленной поисковой системой.
- Для каждого ссылочного URI определение (браузерным помощником) оценки связанности (Relatedness Score). Эта оценка основана на степени, в которой ссылочный URI связан с одним или несколькими контекстными URI.
- Выбор (браузерным помощником) подмножества ссылочных URI для представления на основе оценок связанности.
- Предоставление (браузерным помощником) выбранного подмножества для представления в виде веб-страницы в окне браузера.
Claim 5 (Зависимый от 1): Уточняет, как определяется степень связанности.
Степень связанности основана на комбинации двух или более факторов.
Claim 6 и 7 (Зависимые от 5): Уточняют факторы связанности.
Факторы включают анализ текстового сходства (text-based similarity analysis) и анализ нетекстового сходства (non-text based similarity analysis). Нетекстовый анализ включает анализ сходства на основе классификации (classification-based), доступа (access-based) или ссылок (link-based).
Примечание: Хотя Claims фокусируются на клиентской реализации, описание патента также детально рассматривает серверную реализацию (Enhanced Search Engine).
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя данные, рассчитанные на этапе индексирования, для выполнения фильтрации во время обработки запроса или после получения результатов.
INDEXING – Индексирование и извлечение признаков
На этом этапе система должна предварительно рассчитать данные, необходимые для определения связанности:
- Текстовый анализ для Text-based similarity.
- Анализ ссылочной структуры для расчета Link-based similarity (со-цитирования).
- Тематическая классификация документов для Classification-based similarity.
- Анализ и сохранение паттернов доступа пользователей для Access-based similarity.
RANKING / RERANKING – Ранжирование / Переранжирование
В реализации на стороне сервера (Enhanced Search Engine) система получает запрос и контекст, генерирует результаты и затем фильтрует или переранжирует их, используя предварительно рассчитанные данные о связанности.
CLIENT-SIDE (Пост-обработка)
В реализации через Browser Assistant (описанной в Claims) основное ранжирование выполняется поисковой системой стандартно. Browser Assistant получает результаты и выполняет фильтрацию локально на клиенте.
Входные данные:
- Поисковый запрос.
- Контекстная информация (Context URLs, категории).
- Данные о связанности документов (текстовые, ссылочные, классификационные, поведенческие).
Выходные данные:
- Отфильтрованный набор результатов поиска, связанных с заданным контекстом.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (например, «Java», «Apple», «Jaguar»), где предоставление контекста позволяет радикально улучшить релевантность выдачи. Также влияет на информационные запросы, когда пользователь хочет углубиться в тему, связанную с уже просматриваемым контентом.
Когда применяется
Алгоритм применяется при наличии контекстной информации:
- Триггеры активации:
- Пользователь явно активирует функцию поиска в контексте (например, через Browser Assistant).
- Пользователь использует специализированный интерфейс поиска (например, Advanced Search), где указывает Context URLs или категории.
- Контекст предоставляется автоматически браузером (например, на основе истории или закладок) или сервером, с которого выполняется поиск (например, встроенный поиск на сайте с предопределенным контекстом).
Пошаговый алгоритм
Патент описывает два основных сценария работы.
Сценарий А: Использование Browser Assistant (Client-side)
- Получение контекста: Browser Assistant получает набор Context URLs (текущий URL, закладки, список предпочтений, включая положительные и отрицательные примеры, или URL из выбранной категории).
- Отправка запроса: Browser Assistant отправляет запрос пользователя поисковой системе.
- Генерация и получение результатов: Поисковая система генерирует стандартный список результатов, который получает Browser Assistant.
- Фильтрация результатов: Browser Assistant фильтрует результаты, отбрасывая ссылки, не связанные с набором Context URLs. Для определения связанности используются методы:
- Сравнение хостов.
- Text-based similarity.
- Classification-based similarity.
- Access-based similarity.
- Link-based similarity (со-цитирование).
- Комбинации методов (например, анализ текста вокруг ссылок при со-цитировании).
- Представление результатов: Browser Assistant представляет отфильтрованный список пользователю.
Сценарий Б: Использование Enhanced Search Engine (Server-side)
- Индексирование: Поисковая система сканирует сеть, сохраняет документы и создает индекс (включая данные для расчета связанности).
- Получение запроса и контекста: Поисковая система получает запрос и Context URLs (от пользователя через интерфейс поиска, от браузера или от ссылающегося сервера).
- Генерация результатов: Поисковая система генерирует список результатов на основе запроса.
- Фильтрация результатов: Поисковая система фильтрует результаты, используя один или несколько методов определения связанности, чтобы оставить только те, которые связаны с контекстом.
- Отправка результатов: Поисковая система отправляет отфильтрованный список пользователю.
Какие данные и как использует
Данные на входе
Патент описывает использование широкого спектра данных для определения связанности документов.
- Контентные факторы: Полный текст документов используется для Text-based similarity. Также используются ключевые слова вокруг ссылок (keywords around the references) в со-цитирующих документах для уточнения Link-based similarity.
- Ссылочные факторы: Структура ссылок в сети (linkage in the web) критически важна для Link-based similarity. Система анализирует, какие документы ссылаются на два других документа (со-цитирование).
- Поведенческие факторы: Паттерны доступа пользователей (user access patterns). Система анализирует корреляцию доступов к различным документам для определения Access-based similarity.
- Структурные факторы (Классификация): Используются иерархические директории и тематические классификаторы для определения Classification-based similarity.
- Пользовательские факторы: Списки избранного (favorites list) и предпочтений (preferences list) пользователя.
Какие метрики используются и как они считаются
Ключевой метрикой является Relatedness Score (Оценка связанности) между результатом поиска и Context URLs. Патент детально описывает методы расчета этой оценки:
- Link-based similarity (Со-цитирование): Оценка основана на анализе того, насколько часто два документа цитируются вместе третьими документами.
- Text-based similarity: Используются стандартные процессы информационного поиска (IR) для определения текстового сходства между двумя документами (например, через векторное представление терминов и весов).
- Classification-based similarity: Используются классификаторы тем для определения, принадлежат ли документы к одной и той же теме.
- Access-based similarity: Оценка основана на анализе корреляции паттернов доступа пользователей к документам.
- Комбинированные методы (Уточнение связанности): Патент подчеркивает возможность комбинирования методов (Claim 5) для уточнения оценки.
- Link + Text: При расчете Link-based similarity система может учитывать ключевые слова вокруг ссылок в со-цитирующем документе. Это позволяет понизить (downgrade) или повысить (upgrade) оценку связанности. Например, если домашняя страница о веб-дизайне и стране Ява ссылается на документ о языке Java и документ о стране Java, анализ текста вокруг ссылок покажет, что эти документы не связаны тематически, и оценка связанности будет понижена.
- Link + Classification: Текст цитат (анкоров и окружающего текста) в со-цитирующем документе может быть классифицирован. Оценка связанности повышается, если классификации текста цитат схожи.
Выводы
- Многофакторное определение связанности: Патент подчеркивает, что Google определяет «связанность» (Relatedness) документов, используя множество различных сигналов, выходящих за рамки прямых ссылок и текстового совпадения. Это включает со-цитирование, тематическую классификацию, текстовое сходство и поведение пользователей.
- Со-цитирование как ключевой сигнал (Link-based similarity): Патент явно описывает использование со-цитирования: два документа считаются связанными, если на них часто ссылаются одни и те же третьи стороны. Это фундаментальный механизм для определения тематических сообществ и авторитетов в вебе.
- Глубокий анализ со-цитирования (Link + Text/Classification): Система не просто подсчитывает со-цитирования, но и анализирует текст вокруг ссылок в цитирующем документе. Это позволяет отличить тематическую связь от случайного упоминания несвязанных сущностей на одной странице.
- Важность тематической классификации (Classification-based similarity): Способность системы классифицировать документы по темам используется для определения связанности. Это подчеркивает важность четкой тематической направленности контента для SEO.
- Поведение пользователей как сигнал связанности (Access-based similarity): Если пользователи часто посещают два документа в схожих сценариях, система считает их связанными. Это указывает на важность понимания пути пользователя и удовлетворения интента.
- Контекст для устранения неоднозначности: Основная цель патента — использовать эту связанность для фильтрации поиска в заданном контексте, что критически важно для обработки неоднозначных запросов и персонализации.
Практика
Best practices (это мы делаем)
- Построение тематического авторитета через классификацию: Создавайте контент с четкой тематической фокусировкой и глубиной. Это помогает системе корректно классифицировать ваши страницы (Classification-based similarity) и устанавливать связь с другими релевантными ресурсами в вашей нише.
- Стратегия линкбилдинга, ориентированная на со-цитирование: Сосредоточьтесь на получении ссылок с авторитетных ресурсов (хабов), которые также ссылаются на другие ключевые сайты в вашей тематике. Это усиливает Link-based similarity и позиционирует ваш сайт в правильном «ссылочном соседстве».
- Оптимизация околоссылочного текста: Убедитесь, что входящие ссылки окружены релевантным контентом. Патент показывает, что Google анализирует этот текст (Link + Text similarity) для определения веса и релевантности связи между документами. Это также относится и к исходящим ссылкам с вашего сайта.
- Анализ пути пользователя и связанных интересов: Изучайте, какие еще сайты посещают ваши пользователи и какие задачи они решают. Создание контента, который соответствует этим паттернам поведения, может улучшить Access-based similarity с другими релевантными ресурсами.
Worst practices (это делать не надо)
- Приобретение нерелевантных ссылок: Получение ссылок с сайтов, которые не имеют тематического отношения к вашей нише или ссылаются на случайный набор ресурсов. Это не поможет установить сильные сигналы Link-based similarity с нужным контекстом.
- Публикация разрозненного контента (Piecemeal Content): Создание контента на множество несвязанных тем на одном сайте затрудняет классификацию (Classification-based similarity) и мешает установлению четких связей с тематическими кластерами в вебе.
- Манипуляции с совместным цитированием без контекста: Создание искусственных страниц, которые ссылаются на ваш сайт и авторитетный ресурс, но не имеют качественного контента или содержат тематически разрозненный текст вокруг ссылок. Комбинированный анализ Link + Text может выявить эту манипуляцию.
Стратегическое значение
Этот патент, несмотря на свой возраст, описывает фундаментальные принципы информационного поиска. Он подтверждает, что Google рассматривает веб как набор тематических кластеров или «соседств», определяемых не только прямыми связями, но и косвенными сигналами — ссылками (со-цитирование), контентом (классификация) и поведением пользователей (доступ). Долгосрочная SEO-стратегия должна быть направлена на интеграцию сайта в релевантное тематическое сообщество и установление сильных сигналов связанности с авторитетными ресурсами.
Практические примеры
Сценарий: Усиление тематического авторитета через со-цитирование (Link-based Similarity)
- Задача: Повысить авторитет нового сайта по теме «Устойчивое садоводство».
- Анализ: SEO-специалист определяет 5 ключевых авторитетных сайтов в этой нише (Сайты A, B, C, D, E).
- Идентификация хабов: Специалист находит сайты (Хабы X, Y, Z), которые часто ссылаются на несколько из этих авторитетов одновременно (например, Хаб X ссылается на A, B и C).
- Действие: Специалист проводит аутрич-кампанию, чтобы получить ссылку с Хабов X, Y и Z на свой новый сайт.
- Ожидаемый результат: Получив ссылки с этих хабов, новый сайт становится со-цитируемым вместе с признанными авторитетами. Согласно патенту, это увеличивает Link-based similarity между новым сайтом и сайтами A-E, помогая Google понять его тематику и повысить его авторитет.
Сценарий: Улучшение оценки связанности через контекст ссылок (Link + Text Similarity)
- Ситуация: Продвижение сайта о веганском питании. Получена ссылка из крупного новостного издания.
- Плохая реализация: Ссылка размещена в статье «10 случайных фактов о знаменитостях». Окружающий текст нерелевантен питанию.
- Анализ по патенту: При анализе Link + Text система видит, что окружающий текст не поддерживает сильную связь. Оценка связанности понижается.
- Хорошая реализация: Ссылка размещена в тематической статье «Тренды здорового питания 2025 года» в разделе о растительных диетах. Страница цитируется вместе с исследованиями по теме.
- Анализ по патенту: Link + Text анализ подтверждает сильную контекстуальную связь. Оценка связанности высокая.
Вопросы и ответы
Что такое со-цитирование (Link-based similarity) в контексте этого патента и почему это важно для SEO?
Со-цитирование (Link-based similarity) — это метод определения связанности двух документов, основанный на том, что на них ссылаются одни и те же третьи стороны. Если Сайт А и Сайт Б часто упоминаются вместе на авторитетных ресурсах, система считает их связанными. Для SEO это критически важно, так как позволяет установить тематическую релевантность и авторитет сайта. Стратегия должна заключаться в получении ссылок из тех же источников, которые ссылаются на ваших топовых конкурентов и лидеров ниши.
Патент упоминает анализ текста вокруг ссылок при оценке со-цитирования. Что это значит на практике?
Это значит, что Google не просто подсчитывает факт со-цитирования, но и анализирует контекст упоминания (Link + Text similarity). Если страница упоминает два сайта в разных тематических блоках, система может понизить оценку связанности между ними. На практике это подчеркивает важность релевантности околоссылочного текста как при получении входящих ссылок, так и при размещении исходящих ссылок на вашем сайте.
Что такое Classification-based similarity и как SEO-специалист может на это повлиять?
Classification-based similarity означает, что два документа считаются связанными, если система классифицирует их как принадлежащие к одной и той же теме или категории. SEO-специалист может повлиять на это, создавая контент с четкой тематической направленностью, используя релевантную терминологию, логичную структуру и покрывая тему всесторонне. Это помогает алгоритмам классификации точно определить основную тему документа и связать его с нужным тематическим кластером.
Объясните Access-based similarity. Как поведение пользователей связывает сайты?
Access-based similarity основано на анализе паттернов доступа пользователей. Если значительное число пользователей посещает Сайт А и Сайт Б в рамках схожих сессий или для решения схожих задач, система может сделать вывод об их связанности. Это показывает, что сайты, удовлетворяющие схожие или смежные интенты пользователей, алгоритмически связываются между собой. Понимание пути пользователя и его смежных интересов становится важным фактором оптимизации.
Оригинальная заявка на патент подана в 1999/2000 году. Актуален ли он сегодня?
Да, патент остается актуальным на концептуальном уровне. Хотя конкретные реализации пользовательского интерфейса (например, тулбары/Browser Assistant) устарели, описанные методы информационного поиска (со-цитирование, классификация, анализ поведения) являются фундаментальными и лежат в основе современных алгоритмов семантического поиска и определения тематического авторитета. Патент ценен тем, что явно перечисляет эти методы.
Патент описывает фильтрацию на стороне клиента (Browser Assistant) и на стороне сервера. Какой подход используется Google сейчас?
Патент описывает оба подхода. Сегодня доминирует обработка на стороне сервера. Современные поисковые системы интегрируют контекстуализацию (например, местоположение, историю поиска, семантику запроса) непосредственно в алгоритмы ранжирования, а не полагаются на клиентские плагины для фильтрации результатов. Однако базовые методы определения связанности, описанные в патенте, используются именно на стороне сервера.
Что такое «Context URLs» и как они используются?
Context URLs — это набор предопределенных URL-адресов (например, из закладок пользователя, истории или выбранной категории), которые задают контекст для поиска. Система использует их как эталон: результаты поиска фильтруются так, чтобы показать только те документы, которые имеют высокую степень связанности (Relatedness Score) с этим эталонным набором. Это позволяет сфокусировать поиск в нужной области.
Может ли система комбинировать разные методы определения связанности?
Да, патент (Claim 5) явно указывает на использование комбинации двух или более факторов для расчета итоговой оценки связанности (Relatedness Score). Это позволяет системе получить более точное и надежное понимание взаимосвязей между документами, используя сильные стороны каждого метода (Link-based, Text-based, Classification-based, Access-based).
Что такое положительные и отрицательные списки предпочтений (Preferences list)?
Это механизм для ручного уточнения контекста пользователем. Положительные списки содержат URL-адреса, которые пользователь считает релевантными (on-topic) для своей информационной потребности. Отрицательные списки содержат URL-адреса, которые считаются нерелевантными (off-topic). Система использует эти данные для более точной фильтрации результатов.
Как этот патент связан с концепцией E-E-A-T?
Патент напрямую связан с концепцией Авторитетности (Authority). Методы определения связанности, такие как Link-based similarity (со-цитирование) и Classification-based similarity, являются механизмами, с помощью которых Google определяет, принадлежит ли сайт к авторитетному тематическому сообществу. Если сайт часто со-цитируется с другими высокоавторитетными ресурсами в определенной теме, это усиливает его собственный авторитет в этой области.