Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

SYSTEMS AND METHODS FOR PERFORMING IN-CONTEXT SEARCHING (Системы и методы для выполнения контекстного поиска)

US7305380B1
Google LLC
2000-12-13
2007-12-04

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

Какую проблему решает

Патент решает проблему ограниченности традиционных поисковых систем, которые обычно позволяют уточнять поиск только с помощью ключевых слов или ограничения по домену/хосту. Изобретение направлено на улучшение релевантности результатов путем предоставления механизма, который позволяет ограничить выдачу только теми результатами, которые связаны с заранее определенным набором информации (контекстом), например, с набором конкретных URL-адресов или тематической категорией.

Что запатентовано

Запатентована система для выполнения «контекстного поиска» (In-Context Searching). Суть изобретения заключается в фильтрации стандартного набора поисковых результатов на основе context information (например, набора URL-адресов, текущей просматриваемой страницы или списка избранного). Система определяет, связан ли кандидат в результаты с этим контекстом, используя различные методы оценки схожести, и предоставляет пользователю только отфильтрованный набор связанных результатов.

Как это работает

Система работает в несколько этапов:

Определение контекста: Система получает context information. Это может быть URL текущей страницы, список избранного пользователя, выбранная категория в директории или набор URL, определенный автором сайта.
Выполнение поиска: Система получает поисковый запрос пользователя и генерирует стандартный набор результатов.
Фильтрация: Система анализирует каждый результат и определяет, связан ли он с определенным контекстом. Для этого используются различные методы определения связанности (relatedness):
- Classification-based similarity (схожесть на основе классификации).
- Access-based similarity (схожесть на основе паттернов доступа пользователей).
- Text-based similarity (текстовая схожесть).
- Link-based similarity (схожесть на основе ссылок, например, co-citation).
- Комбинации методов, например, анализ текста вокруг ссылок при co-citation.
Представление результатов: Пользователю показывается отфильтрованный набор ссылок, которые релевантны запросу И связаны с контекстом.

Реализация может происходить как на стороне клиента (через Browser Assistant), так и на стороне сервера (Enhanced Search Engine).

Актуальность для SEO

Средняя. Патент подан в 2000 году. Описанные пользовательские интерфейсы (например, Browser Assistant/тулбары) и зависимость от внешних директорий устарели. Однако базовые концепции определения связанности документов (relatedness), описанные в патенте, остаются фундаментальными для работы поисковых систем. Методы, такие как co-citation, анализ текста вокруг ссылок и использование паттернов доступа пользователей, являются критически важными компонентами современных алгоритмов ранжирования и определения тематического авторитета.

Важность для SEO

Патент имеет высокое стратегическое значение для SEO (7.5/10). Его ценность заключается не в описании устаревшей функции контекстного поиска, а в детальном описании механизмов, которые Google использует для определения связанности между документами. Понимание этих механизмов (особенно Link-based similarity, Access-based similarity и их комбинаций с анализом текста) критически важно для построения тематического авторитета, стратегий линкбилдинга и оптимизации внутренней перелинковки.

Термины и определения

Access-based Similarity (Схожесть на основе доступа): Метод определения связанности двух ссылок, если анализ паттернов доступа пользователей показывает высокую корреляцию между посещениями документов по этим ссылкам.
Browser Assistant (Браузерный помощник): Клиентское ПО (плагин, тулбар), которое расширяет функциональность браузера. Используется для определения контекста и фильтрации результатов поиска на стороне клиента.
Classification-based Similarity (Схожесть на основе классификации): Метод определения связанности двух ссылок, если они относятся к одной и той же теме согласно классификаторам тем (topic classifiers).
Context Information / Context URLs (Контекстная информация / Контекстные URL): Заранее определенный набор информации (набор URL-адресов, категория, список избранного), используемый в качестве основы для фильтрации результатов поиска.
Enhanced Search Engine (Улучшенная поисковая система): Поисковая система, способная принимать на вход не только запрос, но и контекстную информацию, и выполнять фильтрацию на стороне сервера.
Link-based Similarity (Схожесть на основе ссылок): Метод определения связанности двух ссылок, если анализ ссылочного окружения показывает доказательства их связанности. В патенте это в первую очередь определяется через co-citation (если один или несколько документов содержат обе ссылки).
Preferences List (Список предпочтений): Список URL-адресов или категорий, созданный пользователем для конкретной информационной потребности. Может включать позитивные (on-topic) и негативные (off-topic) примеры.
Relatedness (Связанность): Метрика, определяющая, насколько тесно связаны два документа или ссылки. Рассчитывается с использованием различных методов схожести (Similarity).
Text-based Similarity (Текстовая схожесть): Метод определения связанности двух ссылок путем сравнения полного текста соответствующих документов (например, с использованием векторов терминов и весов).

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов, которые описывают общий процесс контекстного поиска, но защищают разные методы определения связанности.

Claim 1 (Независимый пункт): Описывает метод ограничения результатов поиска и защищает использование поведенческих данных.

Система получает контекстную информацию и поисковый запрос.
Система получает набор ссылок на документы в ответ на запрос.
Система фильтрует набор ссылок, идентифицируя связанные с контекстом. Ключевой момент: связанность определяется на основе корреляции паттернов доступа пользователей (correlation of user access patterns) к документам результатов и документам контекста (Access-based Similarity).
Связанные ссылки включаются в отфильтрованный набор и представляются пользователю.

Этот пункт защищает использование данных о поведении пользователей (трафике) для определения связанности между документами.

Claim 15 (Независимый пункт): Защищает метод агрегации различных сигналов связанности.

Система получает контекст, запрос и результаты.
Система фильтрует результаты путем вычисления четырех оценок для каждой ссылки:
- Оценка 1: Classification-based similarity.
- Оценка 2: Access-based similarity.
- Оценка 3: Text-based similarity.
- Оценка 4: Link-based similarity.
Эти четыре оценки комбинируются для получения результирующей оценки (resultant score).
Ссылки с итоговой оценкой выше предопределенного уровня включаются в отфильтрованный набор.

Этот пункт защищает метод объединения ссылочных, текстовых, поведенческих и тематических сигналов в единую метрику связанности.

Claim 16 (Независимый пункт): Защищает усовершенствованный метод ко-цитирования, учитывающий контекст вокруг ссылок.

Система получает контекст, запрос и результаты.
Система фильтрует результаты путем:
- Определения существования документов (co-citing documents), содержащих цитаты (ссылки) как на документ результата, так и на документ контекста.
- Анализа текста рядом с этими цитатами (text near the citations) для определения схожести между контекстом ссылок.
Ссылки включаются в отфильтрованный набор, если анализ показывает степень схожести текста рядом с цитатами выше предопределенного уровня.

Этот пункт защищает метод использования анализа околоссылочного текста в цитирующем документе для более точного определения семантической связанности между цитируемыми документами.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, но его основная ценность заключается в механизмах, рассчитываемых на этапе индексирования и применяемых во время ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые вычисления, необходимые для работы системы:

Анализ ссылок: Построение ссылочного графа и вычисление Link-based similarity (co-citation).
Анализ текста: Обработка текста документов для вычисления Text-based similarity и анализа текста вокруг исходящих ссылок.
Классификация: Применение topic classifiers для определения тематики документов и вычисления Classification-based similarity.
Обработка логов доступа: Анализ паттернов доступа пользователей для вычисления Access-based similarity.

QUNDERSTANDING – Понимание Запросов
На этом этапе система должна распознать намерение пользователя выполнить контекстный поиск, обработав ввод из интерфейса расширенного поиска или получив данные от Browser Assistant.

RANKING – Ранжирование (Отбор кандидатов) / RERANKING – Переранжирование
Описанная система фильтрации применяется для сокращения набора результатов. Если активирован контекстный поиск, система отбирает или переранжирует только те документы, которые не только соответствуют запросу, но и имеют достаточный уровень relatedness к заданному контексту.

Входные данные:

Поисковый запрос.
Контекстная информация (Context URLs или Категория).
Индекс документов с предварительно рассчитанными данными для оценки схожести (ссылочный граф, текстовые векторы, классификации, данные о доступе).

Выходные данные:

Отфильтрованный набор результатов поиска, связанных с заданным контекстом.

На что влияет

Специфические запросы: Влияет на запросы, где пользователь явно или неявно задает контекст для уточнения результатов. Особенно полезно для многозначных запросов (например, "Java"), где контекст (URL сайта о программировании или URL сайта о путешествиях) позволяет устранить неоднозначность.
Ниши и тематики: Механизмы определения связанности (relatedness) влияют на все ниши, так как они являются фундаментальными методами оценки тематической связи между сайтами и страницами.

Когда применяется

Алгоритм контекстного поиска применяется при выполнении следующих условий:

Триггер активации: Пользователь явно инициирует контекстный поиск через Browser Assistant или интерфейс Advanced Search, ИЛИ поиск инициируется со страницы, автор которой предопределил набор Context URLs.
Наличие контекста: Должна быть доступна Context Information (URL, список избранного, категория и т.д.).

Механизмы расчета схожести (Similarity) применяются постоянно на этапе индексирования для всех документов в базе.

Пошаговый алгоритм

Патент описывает два основных варианта реализации: на стороне клиента и на стороне сервера.

Вариант А: Реализация на стороне клиента (Browser Assistant)

Получение контекста: Browser Assistant определяет набор Context URLs (текущий URL, список избранного, список предпочтений или категории директории).
Отправка запроса: Пользователь вводит запрос. Browser Assistant отправляет его стандартной поисковой системе.
Генерация и получение результатов: Поисковая система генерирует стандартный список результатов, который получает Browser Assistant.
Фильтрация результатов: Browser Assistant фильтрует список, отбрасывая ссылки, не связанные с набором Context URLs. Для определения связанности используется один или несколько методов (Link-based, Text-based, Access-based, Classification-based Similarity). Фильтрация может происходить локально или с помощью запроса к серверу.
Представление результатов: Browser Assistant представляет отфильтрованный список пользователю.

Вариант Б: Реализация на стороне сервера (Enhanced Search Engine)

Подготовка данных (Офлайн): Поисковая система сканирует сеть, сохраняет документы и создает индекс, включающий данные для расчета схожести.
Получение запроса и контекста: Поисковая система получает запрос и Context URLs (через интерфейс Advanced Search или автоматически от стороннего сервера).
Генерация результатов: Поисковая система генерирует список результатов по запросу.
Фильтрация результатов: Поисковая система фильтрует результаты, используя один или несколько методов определения схожести (Similarity) для сравнения результатов с контекстом.
Отправка результатов: Поисковая система отправляет отфильтрованный список пользователю.

Какие данные и как использует

Данные на входе

Система использует несколько типов данных для вычисления различных метрик схожести:

Ссылочные факторы (Linkage Data):
Используются для Link-based similarity. Требуется информация о том, какие документы ссылаются на какие (ссылочный граф), чтобы определить co-citation (совместное цитирование).
Контентные факторы (Textual Content):
Используются для Text-based similarity. Требуется полный текст документов. Также используется текст, окружающий ссылки (text near the citations), для уточнения Link-based similarity.
Поведенческие факторы (User Access Patterns):
Используются для Access-based similarity. Требуются данные о доступе пользователей к документам (логи доступа), чтобы определить корреляцию посещений между разными документами.
Структурные/Системные данные (Classification Data):
Используются для Classification-based similarity. Требуются результаты работы классификаторов тем (topic classifiers), которые относят документы к определенным темам или категориям.

Какие метрики используются и как они считаются

Патент определяет четыре основные метрики схожести и методы их комбинирования:

Link-based Similarity Score: Рассчитывается на основе анализа ссылок. Основной метод – co-citation. Две ссылки связаны, если на них ссылается один и тот же документ.
Text-based Similarity Score: Рассчитывается с использованием стандартных методов IR для определения текстовой схожести между двумя документами.
Access-based Similarity Score: Рассчитывается путем анализа корреляции паттернов доступа пользователей к двум документам.
Classification-based Similarity Score: Рассчитывается путем сравнения тем, к которым классификаторы отнесли два документа.
Комбинированные методы:
- Link + Text (Claim 16): Оценка Link-based similarity (co-citation) взвешивается (повышается или понижается) на основе анализа ключевых слов вокруг ссылок (околоссылочного текста) в совместно цитирующем документе. Это позволяет системе различать контекст цитирования.
- Link + Classification: Оценка Link-based similarity взвешивается на основе схожести классификаций текста цитат в совместно цитирующем документе.
Resultant Score (Результирующая оценка): Агрегированная оценка, полученная путем комбинирования оценок от различных методов схожести (Claim 15).
Пороговые значения: Система использует предопределенные уровни схожести для принятия решения о включении результата в отфильтрованный список.

Фундаментальные методы определения связанности: Основная ценность патента для SEO заключается в описании четырех фундаментальных способов, которыми Google измеряет связь (Relatedness) между документами: ссылки (co-citation), текст, поведение пользователей (паттерны доступа) и тематическая классификация.
Важность Co-citation: Патент подчеркивает роль совместного цитирования (Link-based similarity) как ключевого индикатора связанности. Документы, на которые часто ссылаются вместе, считаются связанными.
Критичность околоссылочного текста: Патент вводит критически важное уточнение для co-citation (Claim 16): не только факт совместного цитирования имеет значение, но и текст, окружающий эти ссылки (text near the citations). Связанность подтверждается, только если околоссылочный текст семантически схож. Это механизм для борьбы с нерелевантным совместным цитированием.
Поведенческие факторы как мера связанности: Access-based similarity (Claim 1) явно указывает на использование корреляции пользовательского трафика для определения связанности. Если пользователи часто посещают два документа в рамках схожих информационных потребностей, эти документы считаются связанными.
Агрегация сигналов связанности: Google не полагается на один метод. Claim 15 описывает механизм объединения всех четырех типов сигналов в единую результирующую оценку (Resultant Score) для надежного определения связанности.

Best practices (это мы делаем)

Оптимизация исходящих ссылок и околоссылочного текста: При размещении исходящих ссылок убедитесь, что окружающий текст четко определяет контекст ссылки. Согласно Claim 16, это напрямую влияет на то, как Google интерпретирует связь между вашим контентом и контентом, на который вы ссылаетесь, а также на связь между несколькими исходящими ссылками на вашей странице.
Построение релевантного профиля Co-citation: Работайте над тем, чтобы ваш сайт упоминался (цитировался) на авторитетных ресурсах рядом со ссылками на другие релевантные сайты вашей ниши. Это укрепляет Link-based similarity и тематический авторитет. Анализируйте, кто ссылается на ваших конкурентов, и стремитесь получить ссылки с тех же страниц.
Оптимизация пользовательских путей (User Journeys): Учитывайте Access-based similarity. Создавайте контент и структуру сайта (включая внутреннюю перелинковку), которые способствуют естественным паттернам навигации между связанными страницами. Это усиливает корреляцию доступа и сигнализирует о связанности страниц.
Комплексное развитие тематического авторитета: Фокусируйтесь на всех аспектах связанности: создавайте текстово релевантный контент (Text-based), добивайтесь четкой тематической классификации (Classification-based), привлекайте релевантный трафик (Access-based) и стройте качественный ссылочный профиль (Link-based).

Worst practices (это делать не надо)

Нерелевантные исходящие ссылки и «Линкопомойки»: Размещение исходящих ссылок на не связанные по тематике ресурсы или использование неинформативного околоссылочного текста может размывать тематику вашей страницы.
Участие в нетематических ссылочных сетях (Link Farms/PBN): Если ваш сайт цитируется на страницах рядом с большим количеством нерелевантных сайтов, механизм уточненного co-citation (Link + Text) может определить эти связи как неестественные или низкокачественные, что нивелирует пользу от Link-based similarity.
Игнорирование поведения пользователей: Создание контента, который привлекает нецелевой трафик или демонстрирует паттерны доступа, не коррелирующие с тематикой сайта, может негативно сказаться на Access-based similarity.

Стратегическое значение

Этот патент подтверждает, что связанность между документами и сайтами является многофакторной концепцией. Стратегическое SEO должно выходить за рамки простого анализа текста и обратных ссылок. Оно должно учитывать, как сайт встроен в тематическую экосистему интернета через паттерны совместного цитирования, контекст этих цитирований и поведение пользователей. Понимание этих механизмов критически важно для построения долгосрочного тематического авторитета.

Практические примеры

Сценарий 1: Усиление тематического авторитета через оптимизацию исходящих ссылок и Co-citation (Claim 16)

Задача: Повысить авторитет обзорной статьи о лучших моделях кофемашин.

Анализ (Link-based Similarity): Идентифицировать авторитетные источники в нише (например, сайты производителей, профильные исследования).
Действие (Co-citation и Link + Text Optimization): В статье разместить ссылки на эти источники с оптимизированным околоссылочным текстом. Вместо: «Согласно этому отчету, модель X потребляет много энергии», написать: «Согласно отчету Министерства Энергетики о потреблении кофемашин за 2025 год, модель X потребляет...»
Ожидаемый результат: Google видит, что ваша статья цитирует авторитетные источники (Co-citation). Анализируя околоссылочный текст (Link+Text), он подтверждает, что цитирование происходит в релевантном контексте. Это усиливает связь вашей статьи с авторитетными узлами в тематике.

Сценарий 2: Использование Access-based Similarity для внутренней оптимизации

Анализ данных: Определить страницы, между которыми наблюдается слабый переход пользователей, несмотря на их тематическую близость (например, статья о симптомах болезни и статья о ее лечении).
Действие: Усилить внутреннюю перелинковку между этими страницами, сделать призывы к действию более заметными.
Ожидаемый результат: Увеличение переходов между страницами приведет к усилению корреляции доступа (Access-based similarity). Это сигнализирует поисковой системе о сильной связанности этих страниц.

Что такое Access-based Similarity и почему это важно для SEO?

Access-based similarity (Claim 1) – это метод определения связанности двух документов на основе корреляции паттернов доступа пользователей. Если пользователи, которые посещают документ А, также часто посещают документ Б, система считает их связанными. Для SEO это означает, что Google использует данные о поведении пользователей для понимания связей между сайтами. Важно привлекать качественный, целевой трафик и оптимизировать внутренние пути пользователя для усиления связи между тематически близкими страницами.

Как патент предлагает уточнять Co-citation (Link-based similarity)?

Патент предлагает не просто учитывать факт совместного цитирования (когда страница С ссылается на А и Б), но и уточнять его с помощью анализа текста (Claim 16). Система анализирует текст, окружающий ссылки на А и Б на странице С (text near the citations). Если этот текст семантически схож или подтверждает контекст, связанность между А и Б усиливается. Если контекст разный, связанность может быть аннулирована.

Насколько важен околоссылочный текст для исходящих ссылок согласно этому патенту?

Он критически важен. Околоссылочный текст используется для валидации и определения контекста связи между цитируемыми документами (механизм Link + Text). Размещение исходящих ссылок в релевантном текстовом окружении помогает поисковой системе правильно интерпретировать тематику вашей страницы и ее связь с экосистемой авторитетных ресурсов.

Что такое Classification-based Similarity?

Это метод, при котором два документа считаются связанными, если они отнесены к одной и той же теме или категории с помощью автоматических классификаторов тем (topic classifiers). Это подчеркивает важность создания контента с четкой тематической направленностью, чтобы помочь системам правильно классифицировать ваш сайт.

Патент описывает "Browser Assistant". Актуально ли это сегодня?

Нет, конкретная реализация через клиентские тулбары (Browser Assistant), описанная в патенте 2000 года, устарела. Современные реализации контекстного поиска и фильтрации происходят преимущественно на стороне сервера (Enhanced Search Engine), как также описано в патенте.

Что такое Preferences List с позитивными и негативными примерами?

Это механизм, позволяющий пользователю создать список URL-адресов, которые являются хорошими примерами (on-topic) или плохими примерами (off-topic) для его информационной потребности. Система использует эти примеры для более точной фильтрации результатов. Хотя этот UI устарел, концепция использования позитивных и негативных примеров часто применяется в машинном обучении для тренировки алгоритмов ранжирования.

Как система комбинирует разные типы схожести?

Согласно Claim 15, система рассчитывает отдельные оценки для Link-based, Text-based, Access-based и Classification-based схожести. Затем эти оценки комбинируются (агрегируются) в единую результирующую оценку (Resultant Score). Если эта оценка превышает определенный порог, документы считаются связанными.

Может ли автор сайта определить контекст для поиска?

Да, патент описывает сценарий, когда автор документа может предопределить (например, жестко закодировать) список Context URLs. Когда пользователь инициирует поиск с этой страницы, этот контекст автоматически передается поисковой системе для фильтрации результатов. Это похоже на реализацию функционала "Поиск по этому сайту" или "Поиск по связанным ресурсам".

Влияют ли описанные методы схожести на обычное ранжирование?

Патент описывает их применение для фильтрации результатов в рамках контекстного поиска. Однако эти методы (co-citation, анализ околоссылочного текста, паттерны доступа) являются фундаментальными для понимания связей между документами. Логично предположить, что эти же механизмы используются Google и в основном алгоритме ранжирования для определения тематического авторитета и релевантности.

Как использовать инсайты из этого патента при линкбилдинге?

Сфокусируйтесь на получении ссылок со страниц, которые уже ссылаются на другие авторитетные сайты в вашей нише (усиление Co-citation). Также убедитесь, что ссылка на ваш сайт размещена в релевантном текстовом окружении на странице донора, чтобы максимизировать эффект от механизма Link + Text (Claim 16). Качество и контекст размещения ссылки важнее её количества.

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

US7213198B1
2007-05-01

Ссылки
SERP

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

US8612411B1
2013-12-17

Ссылки
SERP

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников

Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.

US8745067B2
2014-06-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов

Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.

US7925657B1
2011-04-12

Поведенческие сигналы

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google определяет и ранжирует вертикали поиска (Web, Images, News, Local) на основе интента запроса и профиля пользователя

Патент описывает фундаментальный механизм Универсального Поиска (Universal Search). Система генерирует результаты из разных индексов (Web, Картинки, Новости, Карты) и вычисляет «Оценку Вероятности» (Likelihood Value) для каждой категории. Эта оценка определяет, какая вертикаль наиболее релевантна интенту запроса. Для расчета используются как агрегированные данные о поведении всех пользователей по схожим запросам, так и индивидуальный профиль пользователя.

US7966309B2
2011-06-21

Семантика и интент
Персонализация
SERP

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента

Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.

US9213745B1
2015-12-15

Семантика и интент
EEAT и качество
SERP

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей

Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.

US20250054045A1
2025-02-13

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов

Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).

US8060405B1
2011-11-15

Антиспам
Ссылки
SERP

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа