Google расширяет понимание тематики документа за пределы его контента, анализируя внешние сигналы. Система косвенно выводит концепции, изучая, откуда приходят пользователи (входящие ссылки и запросы), куда они уходят (исходящие ссылки, клики по рекламе) и какие сайты посещают в рамках одной сессии. Особое внимание уделяется наиболее «успешным» (кликабельным) взаимодействиям и анкорному тексту.
Описание
Какую задачу решает
Патент решает проблему ограниченности традиционных методов определения тематики документа, которые полагаются исключительно на его прямые характеристики: основной текстовый контент, домен и URL. Такой подход не позволяет выявить концепции, которые интересны аудитории документа, но явно не упоминаются в его тексте. Изобретение направлено на расширение семантического понимания документа за счет анализа внешних сигналов и поведения пользователей.
Что запатентовано
Запатентована система для косвенного вывода (indirectly inferring) концепций, связанных с документом. Суть изобретения заключается в использовании информации, внешней по отношению к основному контенту документа, для определения тем, полезных его аудитории (useful to an audience). Ключевые методы включают анализ входящих и исходящих ссылок, анализ рекламы на странице, анализ поисковых запросов, приводящих к документу, и анализ паттернов совместного посещения (co-visitation).
Как это работает
Система использует несколько механизмов для косвенного вывода концепций:
- Анализ ссылочного окружения: Изучаются документы, которые ссылаются на целевой документ (linking documents), и документы, на которые ссылается он сам. Концепции извлекаются из контента и анкорного текста (anchor text) этих связанных документов.
- Приоритет «Успешных» взаимодействий: Система фокусируется на «успешных» (successful) взаимодействиях — например, ссылках, по которым часто переходят (трафик), или рекламе с высоким CTR. Концепции из этих источников считаются особенно релевантными.
- Анализ поведения пользователей: Отслеживаются поисковые запросы, которые привели к показу документа, и другие документы, которые пользователи посещают до или после целевого документа (co-visitation).
- Анализ рекламы: Извлекаются концепции из целевых страниц наиболее кликабельных рекламных объявлений на странице.
Актуальность для SEO
Высокая. Понимание контекста документа и интересов аудитории за пределами простого анализа ключевых слов является центральным элементом современного поиска. Описанные методы (анализ ссылок, анкоров, поведения пользователей, паттернов co-visitation) являются фундаментальными для работы современных систем ранжирования и семантического анализа (NLP/NLU). Этот патент описывает инфраструктуру для построения графа концепций на основе взаимодействий.
Важность для SEO
Патент имеет высокое стратегическое значение (85/100). Он подтверждает, что релевантность документа определяется не только его содержимым, но и его местом в веб-графе и тем, как с ним взаимодействуют пользователи. Это подчеркивает критическую важность качества ссылочного профиля (не только анкоров, но и тематики ссылающихся сайтов), внутренней перелинковки и поведенческих факторов (таких как кликабельность ссылок и трафик по ссылкам) для определения истинной тематики страницы в глазах Google.
Детальный разбор
Термины и определения
- Anchor text (Анкорный текст)
- Текстовое описание ссылки. Явно указан в Claims как критически важный источник для извлечения концепций.
- Concepts (Концепции)
- Темы, идеи или сущности, извлеченные из контента, анкорного текста или поисковых запросов.
- Co-visitation (Совместное посещение)
- Паттерн поведения, при котором пользователь посещает несколько документов в рамках одной сессии (до или после целевого документа). Упоминается в описании патента.
- Document characteristics (Характеристики документа)
- Свойства, используемые для прямого вывода концепций: текстовый контент (не связанный со ссылками), домен документа и его URL. Патент фокусируется на методах, которые не используют эти характеристики.
- Indirectly inferring (Косвенный вывод)
- Процесс определения концепций документа на основе внешней информации.
- Linking documents (Ссылающиеся документы)
- Внешние документы, содержащие ссылку на целевой документ (входящие ссылки).
- Successful (Успешный)
- Метрика для оценки эффективности взаимодействия. Определяется частотой кликов/переходов (frequency), генерируемым доходом (revenue) для рекламы или отслеживанием движения курсора (mouse-over).
- Useful to an audience (Полезный для аудитории)
- Метка, присваиваемая косвенно выведенным концепциям, указывающая на их релевантность интересам посетителей документа.
Ключевые утверждения (Анализ Claims)
Патент содержит несколько независимых пунктов (Claims 1, 6, 11, 16). Хотя в описании патента упоминаются разные методы (запросы, co-visitation), защищенные Claims фокусируются на анализе ссылок и рекламы с учетом их успешности.
Claim 1 и Claim 6 (Независимые пункты): Метод на основе входящих ссылок и их успешности.
- Система получает первый документ.
- Идентифицируется множество вторых документов, каждый из которых содержит ссылку на первый документ (входящие ссылки).
- Определяется, какой из вторых документов использовался для доступа к первому документу чаще, чем любой другой (самая «успешная» входящая ссылка по объему трафика).
- Из этого наиболее успешного второго документа извлекаются концепции.
- Извлеченные концепции ассоциируются с первым документом.
- Важное условие: По крайней мере одна извлеченная концепция должна быть связана с анкорным текстом (anchor text) в этом успешном втором документе.
Система придает наибольший вес концепциям (включая анкор), полученным от источника, генерирующего наибольший трафик на целевую страницу.
Claim 11 (Независимый пункт): Метод на основе рекламы и ее успешности.
- Система получает первый документ, содержащий множество рекламных объявлений.
- Идентифицируются объявления, которые были выбраны (кликнуты) чаще, чем другие (самые «успешные» объявления).
- Извлекаются конкретные документы, связанные с этими успешными объявлениями (целевые страницы рекламы).
- Из этих извлеченных документов (целевых страниц) извлекаются концепции.
- Важное условие: По крайней мере одна извлеченная концепция связана с anchor text, ассоциированным со ссылкой внутри одного из этих извлеченных документов (т.е. анкоры на лендинге).
- Извлеченные концепции ассоциируются с первым документом.
Тематика наиболее кликабельной рекламы на странице используется для понимания интересов аудитории и тематизации самой страницы.
Claim 16 (Независимый пункт): Комбинированный метод.
- Идентифицируется наиболее успешный входящий ссылающийся документ (как в Claim 1).
- Из него извлекаются первые концепции (включая anchor text).
- В первом документе идентифицируются рекламные объявления.
- Из этих рекламных объявлений (из их контента, не обязательно целевых страниц) извлекаются вторые концепции.
- И первые, и вторые концепции ассоциируются с первым документом.
Где и как применяется
Изобретение в основном применяется на этапах индексирования и анализа данных для обогащения семантического профиля документа.
CRAWLING – Сканирование и Сбор данных
Сбор необходимых исходных данных: контент целевого документа, контент связанных документов, рекламные объявления и их целевые страницы.
INDEXING – Индексирование и извлечение признаков
Основное применение патента. В процессе индексирования система анализирует связи и взаимодействия для косвенного вывода концепций.
- Анализ ссылок: Анализ графа ссылок (входящие и исходящие) и извлечение anchor text.
- Анализ взаимодействий (Behavioral Analysis): Обработка данных о поведении пользователей (логи кликов по ссылкам и рекламе, данные о сессиях, логи поисковых запросов) для определения «успешности» взаимодействий и выявления паттернов co-visitation.
- Извлечение концепций (Feature Extraction): Применение NLP-методов для извлечения концепций из внешних источников.
- Ассоциация и хранение: Косвенно выведенные концепции сохраняются в индексе как признаки целевого документа.
RANKING – Ранжирование
На этапе ранжирования эти косвенно выведенные концепции используются как сигналы релевантности. Документ может ранжироваться по запросам, соответствующим этим концепциям, даже если текст запроса не встречается в самом документе.
Входные данные:
- Граф ссылок и анкорный текст.
- Рекламные объявления на странице и их целевые URL.
- Данные о взаимодействиях пользователей (логи кликов, трафика, сессий, запросов).
- Контент связанных документов (ссылающихся, целевых, целевых страниц рекламы).
Выходные данные:
- Набор концепций, ассоциированных с целевым документом, которые были выведены косвенно и помечены как useful to an audience.
На что влияет
- Типы контента: Влияет на все типы индексируемого контента. Особенно полезно для страниц с небольшим количеством текста (например, галереи, карточки товаров, инструменты), где внешние сигналы становятся основным способом понимания содержания и контекста.
- Специфические запросы: Позволяет документам ранжироваться по более широкому спектру запросов, включая те, которые отражают смежные интересы аудитории, но не упоминаются в тексте.
Когда применяется
Механизмы применяются во время индексирования и периодической переоценки контента.
- Условия применения: Наличие достаточных данных для анализа — входящих/исходящих ссылок, рекламы, данных о трафике и кликах.
- Триггеры активации: Для методов, основанных на успешности (Claims 1, 11), требуется накопление статистических данных о поведении пользователей для выявления явного лидера среди ссылок или рекламных объявлений.
Пошаговый алгоритм
Патент описывает несколько альтернативных алгоритмов (методов).
Метод A: Анализ входящих ссылок (Основан на Claim 1)
- Идентификация связей: Определить все Linking Documents (Входящие) для целевого документа.
- Оценка успешности: Определить частоту доступа (трафик) через каждую входящую ссылку.
- Выбор источника: Выбрать документ, который генерирует значительно больше трафика, чем другие.
- Извлечение концепций: Извлечь концепции из выбранного документа. Источники включают Anchor Text (обязательно) и текстовое содержимое документа.
- Ассоциация: Ассоциировать извлеченные концепции с целевым документом.
Метод B: Анализ рекламы (Основан на Claim 11)
- Идентификация рекламы: Определить рекламные объявления в целевом документе.
- Оценка успешности: Определить успешность объявлений (клики, доход).
- Выбор источников: Выбрать наиболее успешные объявления.
- Получение целевых страниц: Загрузить целевые страницы (landing pages) выбранных объявлений.
- Извлечение концепций: Извлечь концепции из целевых страниц (включая анкоры на этих страницах).
- Ассоциация: Ассоциировать извлеченные концепции с целевым документом.
Метод C: Анализ исходящих ссылок (из описания патента)
- Идентификация связей: Определить исходящие ссылки.
- Оценка успешности: Определить частоту кликов по этим ссылкам.
- Выбор источников: Выбрать наиболее популярные целевые документы.
- Извлечение концепций: Извлечь концепции из выбранных целевых документов.
- Ассоциация: Ассоциировать извлеченные концепции с исходным документом.
Метод D: Анализ поисковых запросов (из описания патента)
- Мониторинг запросов: Идентифицировать запросы, которые приводят к показу/клику целевого документа в результатах поиска.
- Извлечение концепций: Использовать все или часть этих поисковых запросов в качестве концепций.
- Ассоциация: Ассоциировать эти концепции с целевым документом.
Какие данные и как использует
Данные на входе
Система активно использует данные, внешние по отношению к анализируемому документу.
- Ссылочные факторы: Критически важные. Используются входящие ссылки, исходящие ссылки и anchor text. Анализируется не только наличие ссылки, но и контент связанного документа.
- Поведенческие факторы: Критически важные. Используются для определения «успешности» (successful):
- Частота кликов (CTR) на рекламу.
- Частота переходов (трафик) по входящим и исходящим ссылкам.
- Паттерны просмотра (документы, просмотренные до и после – co-visitation).
- Поисковые запросы, которые привели к документу.
- Движение курсора (mouse-over) как индикатор интереса (упоминается в описании).
- Контентные факторы (Внешние): Текстовый контент внешних документов (ссылающихся, целевых, целевых страниц рекламы).
- Рекламные данные: Рекламные объявления, их целевые URL, данные о рекламных кампаниях.
Какие метрики используются и как они считаются
- Метрика успешности (Success Metric): Ключевая метрика для взвешивания значимости внешних данных.
Для ссылок: Частота, с которой ссылка используется для перехода между документами (объем трафика/кликабельность).
Для рекламы: Количество кликов (CTR), генерируемый доход (revenue) или уровень интереса (mouse-over).
- Пороги значимости: Система выбирает только те ссылки или объявления, которые значительно превосходят другие по метрике успешности (выбор лидера, как указано в Claim 1 и 11).
- Методы анализа текста (NLP): Используются для извлечения концепций (extracting concepts) из текста внешних документов и анкорного текста.
Выводы
- Релевантность определяется контекстом и поведением, а не только контентом: Патент доказывает, что Google стремится понять интересы аудитории документа, даже если эти интересы не отражены в тексте. Система активно использует внешние сигналы для обогащения семантического профиля документа.
- Поведенческие факторы как валидатор релевантности: Успешность взаимодействия (клики, трафик) используется как прямой индикатор тематической связи. Если пользователи часто переходят по ссылке, концепции источника/цели этой ссылки считаются релевантными. Ссылки с трафиком имеют приоритет в этом механизме.
- Критическая роль Anchor Text: Anchor text явно выделен в основных Claims (1, 6, 16) как обязательный источник концепций из входящих ссылок. Это подтверждает его непреходящее значение как сигнала релевантности.
- Важность всего ссылающегося документа: Система анализирует не только анкор, но и контент наиболее успешного ссылающегося документа. Это означает, что общая тематика и качество донора ссылки критически важны.
- Исходящие ссылки и Co-visitation формируют контекст: Анализ того, куда пользователи уходят со страницы (исходящие ссылки) и какие другие сайты они посещают в рамках сессии (co-visitation), помогает системе понять тематический контекст и смежные интересы аудитории.
- Поисковые запросы как дескрипторы: То, как пользователи ищут и находят страницу (используемые запросы), напрямую определяет, какие концепции Google ассоциирует с этой страницей.
Практика
Best practices (это мы делаем)
- Приоритет ссылкам, приносящим релевантный трафик: Сосредоточьтесь на получении ссылок с тематически близких страниц, которые генерируют реальные переходы пользователей. Согласно Claim 1, концепции из источника с наибольшим трафиком имеют максимальный вес при определении вашей тематики.
- Оптимизация анкорного текста: Обеспечьте, чтобы anchor text входящих (и внутренних) ссылок точно отражал ключевые концепции целевой страницы. Патент явно выделяет анкорный текст как обязательный источник концепций.
- Стратегические исходящие ссылки: Ссылайтесь на авторитетные и релевантные ресурсы. Если пользователи активно переходят по этим ссылкам (т.е. они «успешны»), концепции целевых страниц помогут уточнить и усилить тематику вашей страницы для Google.
- Анализ источников трафика и поисковых запросов: Регулярно анализируйте запросы в Google Search Console. Эти запросы являются прямым сигналом для ассоциации концепций с вашей страницей (метод, описанный в патенте). Убедитесь, что контент им соответствует.
- Повышение вовлеченности (Engagement): Работайте над тем, чтобы ссылки на вашем сайте (внутренние и исходящие) были полезны и кликабельны. «Успешность» ссылок является сигналом валидации для системы.
Worst practices (это делать не надо)
- Нерелевантное ссылочное окружение: Покупка или получение ссылок с тематически не связанных сайтов может привести к ассоциации нерелевантных концепций с вашим документом, размывая его тематику.
- Игнорирование анкорного текста: Использование только общих или неинформативных анкоров (например, «тут», «ссылка») не позволяет системе эффективно извлекать концепции.
- Манипуляции с кликами: Попытки искусственно накрутить трафик по ссылкам или клики по рекламе для манипуляции выводом концепций рискованны и могут быть обнаружены как неестественное поведение.
- Использование нерелевантной или агрессивной рекламы (если применимо): Если на сайте размещается реклама, и пользователи активно кликают на нерелевантные или низкокачественные объявления, концепции этих объявлений могут быть ассоциированы с вашим сайтом (Claim 11), что может навредить релевантности.
Стратегическое значение
Этот патент подчеркивает переход от анализа страницы в изоляции к анализу страницы как узла в сети взаимодействий. Стратегическое значение для SEO заключается в необходимости комплексного подхода: контент должен быть качественным, но также он должен быть правильно интегрирован в тематическую структуру сайта и внешнего веба. Поведенческие сигналы играют роль валидатора релевантности связей. Долгосрочная стратегия должна фокусироваться на построении тематического авторитета и обеспечении положительного пользовательского опыта, который генерирует правильные поведенческие сигналы.
Практические примеры
Сценарий 1: Определение тематики через трафиковую входящую ссылку (Claim 1)
- Целевой документ: Страница о новой модели кроссовок Nike (Документ А). Текст оптимизирован под модель.
- Входящие ссылки: На нее ссылаются блог о моде (мало трафика) и популярный форум о беге (много трафика).
- Анализ успешности: Система определяет, что 80% трафика на Документ А приходит с форума о беге (Документ Б). Это наиболее успешный источник.
- Извлечение концепций: Система анализирует Документ Б. Анкорный текст ссылки: «Лучшие кроссовки для марафона 2025». Контент Документа Б посвящен подготовке к марафону и экипировке.
- Результат: С Документом А ассоциируются концепции «Марафон», «Экипировка для бега», «Лучшие кроссовки для марафона 2025», даже если слово «марафон» не упоминалось на странице Nike.
Сценарий 2: Определение интересов аудитории через рекламу (Claim 11)
- Целевой документ: Статья о самостоятельном ремонте автомобиля (Документ А).
- Реклама на странице: Показывается реклама автозапчастей, инструментов и страховых компаний.
- Анализ успешности: Система видит, что пользователи массово кликают на рекламу конкретного бренда моторного масла (Реклама Б), игнорируя остальные.
- Извлечение концепций: Система анализирует целевую страницу Рекламы Б. На ней описаны спецификации масла для двигателей с турбонаддувом.
- Результат: С Документом А ассоциируется концепция «Моторное масло для турбонаддува». Система понимает, что аудитория статьи интересуется этой узкой темой.
Вопросы и ответы
Что такое «косвенный вывод концепций» в контексте этого патента?
Это процесс определения тем, релевантных для аудитории страницы, без анализа основного текста этой страницы. Вместо этого Google анализирует внешние сигналы: контент и анкоры сайтов, которые ссылаются на страницу или на которые ссылается она, поисковые запросы, приводящие на страницу, и то, на какую рекламу кликают пользователи.
Как Google определяет, какая ссылка или реклама является «успешной»?
Патент описывает несколько методов. Основной — это частота использования. Для входящих ссылок это объем трафика, который они генерируют на целевую страницу. Для рекламы и исходящих ссылок это частота кликов (CTR). Также упоминаются генерируемый доход (для рекламы) и даже отслеживание движения курсора (mouse-over) как индикаторы интереса.
Какова роль анкорного текста согласно этому патенту?
Анкорный текст играет ключевую роль. В основных пунктах патента (Claims 1, 6, 16) явно указано, что по крайней мере одна из косвенно выведенных концепций должна быть извлечена из anchor text связанной ссылки. Это подтверждает необходимость использования семантически точных и релевантных анкоров.
Означает ли это, что ссылки без трафика бесполезны для SEO?
Они не бесполезны, так как могут передавать другие сигналы (например, авторитетность). Однако, в контексте данного патента, для определения тематики приоритет отдается ссылкам, по которым переходят пользователи. Трафик валидирует релевантность связи между документами.
Как анализ рекламы на моем сайте влияет на его SEO?
Если ваш сайт отображает рекламу, то темы той рекламы, на которую пользователи активно кликают, будут ассоциироваться с вашим сайтом. Если аудитория кликает на релевантную рекламу, это подтверждает тематику сайта. Если же клики собирает нерелевантная или низкокачественная реклама, это может негативно повлиять на семантический профиль вашего сайта.
Как этот патент влияет на стратегию линкбилдинга?
Он подчеркивает важность получения не просто ссылок, а тематически релевантных ссылок, которые генерируют трафик. Система анализирует контент всего ссылающегося документа, если ссылка является «успешной». Поэтому качество, тематика донора и анкорный текст одинаково важны.
Стоит ли беспокоиться об исходящих ссылках?
Да. Патент описывает анализ исходящих ссылок. Ссылаясь на авторитетные и релевантные источники, вы помогаете определить контекст вашей страницы. Если пользователи активно используют эти ссылки, концепции целевых страниц будут ассоциированы с вашей страницей, что может усилить ее тематический профиль.
Что такое анализ Co-visitation и как он используется?
Это анализ паттернов просмотра (упомянуто в описании патента). Система отслеживает, какие сайты пользователь посещает непосредственно до или после вашего сайта в рамках одной сессии. Если многие пользователи посещают Сайт А и Сайт Б вместе, система делает вывод, что их аудитории и тематики пересекаются, и ассоциирует концепции Сайта А с Сайтом Б, и наоборот.
Может ли страница ранжироваться по запросам, которых нет в тексте, благодаря этому механизму?
Да, это одна из целей изобретения. Если система косвенно вывела концепцию (например, из популярной входящей ссылки или из поисковых запросов) и ассоциировала ее с вашей страницей, страница может быть признана релевантной запросам, связанным с этой концепцией, даже если соответствующие ключевые слова отсутствуют в ее тексте.
Какова основная цель этого изобретения – улучшение поиска или рекламы?
Хотя описанные механизмы улучшают понимание контента, что полезно для ранжирования в поиске, изобретатели патента тесно связаны с рекламными продуктами Google (например, Shuman Ghosemajumder, Gokul Rajaram). Вероятно, основной целью является повышение точности таргетинга контекстной рекламы (например, AdSense) за счет более глубокого понимания интересов аудитории страницы.