Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска

PHRASE-BASED PERSONALIZATION OF SEARCHES IN AN INFORMATION RETRIEVAL SYSTEM (Персонализация поиска на основе фраз в системе информационного поиска)

US7580929B2
Google LLC
2004-07-26
2009-08-25

Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.

Какую проблему решает

Патент решает задачу повышения релевантности поисковой выдачи путем адаптации результатов под индивидуальные интересы пользователя. Стандартное ранжирование может не учитывать контекст и предпочтения пользователя. Изобретение предлагает механизм для динамической корректировки ранжирования на основе анализа контента, который пользователь потреблял ранее, фокусируясь на семантически значимых фразах и концепциях.

Что запатентовано

Запатентована система персонализации поиска, которая строит модель пользователя (User Model) на основе фраз и тематических кластеров, извлеченных из документов, с которыми пользователь ранее взаимодействовал. При получении нового запроса система идентифицирует фразы, связанные с запросом, и проверяет их наличие в User Model. Результаты поиска переранжируются путем повышения веса документов, содержащих фразы, которые пересекаются с интересами пользователя.

Как это работает

Система работает в несколько этапов:

Сбор данных и Мониторинг: Отслеживаются документы, которые пользователь посещает или с которыми активно взаимодействует (например, печатает, сохраняет, долго изучает).
Построение User Model: Из этих документов извлекаются значимые фразы, их связанные фразы (Related Phrases) и кластеры (Clusters). Эта информация формирует User Model, которая может также включать счетчики интереса к кластерам (Cluster Counts).
Обработка запроса: При новом запросе система определяет его ключевые фразы и их Related Phrases.
Пересечение интересов: Система находит пересечение между Related Phrases запроса и фразами в User Model.
Персонализированное ранжирование: Документы в результатах поиска переранжируются. Повышение получают те, что соответствуют найденному пересечению. Это реализуется через маскирование битовых векторов (Mask Bit Vector) или взвешивание по Cluster Counts.

Актуальность для SEO

Высокая. Персонализация является ключевым элементом современных поисковых систем. Хотя конкретные технические реализации, описанные в патенте (например, использование битовых векторов и расчет Information Gain), могли эволюционировать в сторону нейросетевых подходов и векторных представлений (embeddings), фундаментальный принцип использования истории взаимодействия пользователя для адаптации выдачи остается крайне актуальным в 2025 году.

Важность для SEO

Патент имеет высокое значение для SEO (7/10). Он описывает конкретный механизм того, как поведение пользователя и история его взаимодействия с сайтами напрямую влияют на его будущую поисковую выдачу. Это подчеркивает стратегическую важность не только привлечения трафика, но и удержания пользователя, поощрения глубокого взаимодействия с контентом и формирования лояльности, чтобы сайт стал частью User Model пользователя для определенной тематики.

Термины и определения

Cluster (Кластер): Набор семантически связанных фраз, в котором каждая фраза имеет высокий показатель Information Gain по отношению хотя бы к одной другой фразе в наборе. Представляет собой тему или концепцию.
Cluster Counts (Счетчики кластеров): Метрики в User Model, показывающие, как часто фразы из определенного кластера встречались в документах, потребленных пользователем.
Good Phrase (Хорошая фраза): Фраза, которая встречается в корпусе достаточно часто и обладает предсказательной силой в отношении других фраз.
Information Gain (Прирост информации): Метрика, используемая для определения связи между фразами. Рассчитывается как отношение фактической частоты совместной встречаемости (A) двух фраз к ожидаемой частоте (E). $I(j,k) = A(j,k)/E(j,k)$ .
Mask Bit Vector (Масочный битовый вектор): Вектор, используемый для персонализации. Он создается путем пересечения Related Phrases запроса и User Model. Биты устанавливаются только для тех фраз, которые присутствуют в обоих наборах.
Related Phrase (Связанная фраза): Фраза Gk считается связанной с фразой Gj, если Information Gain между ними превышает высокий порог. Это указывает на сильную семантическую связь.
Related Phrase Bit Vector (Битовый вектор связанных фраз): Структура данных, хранящаяся в индексе для пары (фраза, документ). Она указывает, какие из Related Phrases данной фразы также присутствуют в этом документе. Биты упорядочены по убыванию Information Gain.
User Model (Модель пользователя): Профиль интересов пользователя, представленный как набор фраз (и/или Cluster Counts), извлеченных из документов, которые пользователь ранее посещал или с которыми взаимодействовал.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на методах использования фраз, извлеченных из истории поведения пользователя, для изменения результатов поиска.

Claim 1 (Независимый пункт): Описывает базовый метод персонализации.

Система отслеживает документы, к которым обращается пользователь.
Идентифицируются фразы в этих документах (первые фразы) и их Related Phrases (первые связанные фразы).
Создается User Model, включающая эти первые связанные фразы.
При получении нового запроса (содержащего вторые фразы) система находит релевантные документы.
Система идентифицирует Related Phrases запроса (вторые связанные фразы), которые также присутствуют в User Model (пересечение интересов).
Оценки (scores) результатов поиска взвешиваются (корректируются) в соответствии с этими общими фразами.
Результаты ранжируются по скорректированным оценкам.

Claims 2-6 (Зависимые от 1): Уточняют, что такое "обращение к документу" (accessed by a user). Это включает действия высокого интереса: печать (Claim 2), сохранение (Claim 3), добавление в закладки (Claim 4), отправка по email (Claim 5) или удержание документа открытым в браузере в течение определенного времени (Claim 6).

Claim 11 (Независимый пункт): Уточняет механизм идентификации общих фраз с использованием битовых векторов.

Процесс аналогичен Claim 1, но детализирует, как происходит идентификация общих фраз: для фразы запроса извлекается Related Phrase Bit Vector, определяется, какие из связанных фраз есть в User Model, и формируется Related Phrase Bit Mask (маска). Эта маска затем используется для взвешивания (как описано в Claim 12).

Claim 13 (Независимый пункт): Описывает альтернативный метод персонализации с использованием кластеров.

Процесс аналогичен Claim 1, но User Model состоит из Cluster Counts (счетчиков интереса к темам/кластерам). Взвешивание результатов поиска происходит на основе этих Cluster Counts для фраз, связанных с запросом.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, опираясь на инфраструктуру фразового индексирования и влияя на финальное ранжирование.

CRAWLING – Сбор данных (Data Acquisition)
На этом этапе происходит сбор данных о поведении пользователя (через логи сервера, cookies или клиентские инструменты) для фиксации документов, с которыми он взаимодействует, что необходимо для построения User Model.

INDEXING – Индексирование и извлечение признаков
Вся инфраструктура создается здесь: идентификация Good Phrases, расчет Information Gain, определение Related Phrases, формирование Clusters и индексация документов с созданием Related Phrase Bit Vectors.

QUNDERSTANDING – Понимание Запросов
Система идентифицирует фразы в запросе пользователя и извлекает для них список связанных фраз (Qr).

RERANKING – Переранжирование (Персонализация)
Основное применение патента. На этом этапе система использует User Model для корректировки стандартных оценок ранжирования.

Извлечение интересов: Система определяет, какие из связанных фраз запроса (Qr) присутствуют в User Model.
Расчет корректировки: Формируется Mask Bit Vector или используются Cluster Counts для расчета персонализированного веса.
Пересчет оценок: Исходные оценки документов модифицируются.
Финальная сортировка: Документы сортируются по новым оценкам.

Входные данные:

Запрос пользователя и идентификатор пользователя.
User Model (набор фраз и/или Cluster Counts).
Базовый набор результатов поиска.
Данные фразового индекса (Related Phrase Bit Vectors, данные о Clusters).

Выходные данные:

Переранжированный (персонализированный) набор результатов поиска.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные или широкие запросы, где знание предпочтений пользователя помогает уточнить его намерения.
Конкретные ниши или тематики: Влияет на тематики, в которых у пользователя есть выраженная история интересов. Если пользователь часто читает о программировании на Python, при запросе "Panda" система с большей вероятностью покажет результаты о библиотеке данных, а не о животном.

Когда применяется

Триггеры активации: Алгоритм активируется, когда пользователь идентифицирован (логин, cookies) и для него существует непустая User Model.
Условия применения: Применяется, если существует пересечение между Related Phrases текущего запроса и фразами/кластерами в User Model.
Временные рамки: User Model может строиться на основе последних K запросов и P документов (в патенте упоминается около 250 каждого), может быть ограничена сессией или сохраняться длительное время с понижением веса старых данных.

Пошаговый алгоритм

Процесс А: Построение User Model (Фоновый процесс)

Мониторинг действий пользователя: Система отслеживает документы, к которым обращается пользователь. Учитываются действия, свидетельствующие о высоком интересе (печать, сохранение, длительный просмотр).
Извлечение фраз: Для каждого посещенного документа извлекаются присутствующие в нем Good Phrases.
Идентификация связанных фраз и кластеров: Определяются Related Phrases и Clusters, ассоциированные с извлеченными фразами.
Обновление модели: Related Phrases и информация о Clusters добавляются в User Model пользователя.
Обновление счетчиков кластеров: Для каждого затронутого кластера инкрементируется Cluster Count в User Model.

Процесс Б: Персонализация поиска (Обработка запроса)

Получение запроса и идентификация пользователя: Система получает запрос и загружает соответствующую User Model.
Генерация базовых результатов: Выполняется стандартный поиск и ранжирование.
Определение фраз запроса: Идентифицируются фразы в запросе (Qp) и их Related Phrases (Qr).
Анализ пересечения: Система определяет, какие из Qr также присутствуют в User Model.
Генерация маски (Вариант 1 - по Claim 11): Создается Mask Bit Vector. Биты устанавливаются только для тех Qr, которые найдены в User Model.
Корректировка оценок (Вариант 1): Mask Bit Vector применяется (например, через операцию AND) к Related Phrase Bit Vector каждого документа. Это обнуляет вклад фраз, не интересующих пользователя.
Использование весов кластеров (Вариант 2 - по Claim 13): Cluster Counts из User Model используются для взвешивания оценок документов, которые содержат фразы из соответствующих кластеров.
Переранжирование: Документы сортируются на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании поведенческих данных для персонализации, опираясь на инфраструктуру фразового индексирования.

Поведенческие факторы: Критически важные данные. История посещенных документов. Действия пользователя с документами (просмотр, печать, сохранение, отправка по email, время нахождения на странице/dwell time). История запросов.
Контентные факторы: Фразы (Good Phrases), присутствующие в посещенных документах и в документах из результатов поиска.
Пользовательские факторы: Идентификатор пользователя (логин, cookies).
Системные данные: Related Phrase Bit Vectors для документов. Данные о Related Phrases и Clusters. Метрики Information Gain.

Какие метрики используются и как они считаются

Information Gain (I(j,k)): Используется для определения базовых связей между фразами (описано в разделе Термины).
Related Phrase Bit Vector Value: Числовое значение битового вектора используется как основа для оценки документа (например, Body Hit Score). Документы с большим количеством высокозначимых связанных фраз получают более высокую оценку.
Cluster Counts: Счетчики в User Model, отражающие интерес пользователя к определенным темам (кластерам фраз). Используются как весовые коэффициенты при ранжировании.
Mask Bit Vector: Результат пересечения интересов пользователя и темы запроса. Используется для фильтрации или корректировки Related Phrase Bit Vector Value.

Персонализация основана на семантике, а не ключевых словах: Система строит User Model на основе Related Phrases и Clusters, что позволяет понять глубокие тематические интересы пользователя, а не просто набор посещенных им страниц или введенных запросов.
История взаимодействия критична: User Model формируется из контента, который пользователь активно потреблял. Поведение пользователя напрямую влияет на его будущую выдачу, причем учитывается глубина взаимодействия (просмотр vs. сохранение/печать).
Механизм фильтрации и бустинга: Персонализация работает как фильтр (через Mask Bit Vector), отсекая или понижая контент, не соответствующий интересам пользователя, даже если он релевантен запросу. Альтернативно, она работает как бустинг (через Cluster Counts), повышая контент из интересующих пользователя тематик.
Важность тематической глубины контента (Topical Authority): Поскольку система оперирует кластерами связанных фраз, контент, который широко и глубоко охватывает тему (используя множество Related Phrases), с большей вероятностью попадет в User Model пользователя и будет лучше ранжироваться в персонализированной выдаче.
Лояльность и удержание как факторы ранжирования: Патент демонстрирует механизм, при котором повторные визиты и глубокое взаимодействие с сайтом улучшают его видимость для данного конкретного пользователя в будущем.

Best practices (это мы делаем)

Фокус на вовлечении и удержании (Engagement & Retention): Необходимо стимулировать глубокое взаимодействие с контентом (длительное время чтения, сохранение в закладки, шеринг). Поскольку User Model строится на основе потребленного контента (особенно выделены действия в Claims 2-6), эти действия укрепляют модель пользователя в вашу пользу.
Построение Topical Authority и глубина контента: Создавайте контент, который полностью покрывает тему, используя семантически связанные концепции (Related Phrases и Clusters). Это увеличивает вероятность того, что контент станет частью User Model пользователя в данной тематике.
Стимулирование повторных визитов и построение бренда: Развивайте лояльность аудитории. Пользователи, которые регулярно возвращаются на ваш сайт, будут иметь User Model, насыщенную фразами вашего сайта, что даст вам преимущество в их персонализированной выдаче.
Оптимизация под Google Discover (Концептуально): Механизмы, описанные в патенте, концептуально лежат в основе работы рекомендательных систем типа Discover, которые также опираются на модель интересов. Создание контента, который вызывает устойчивый интерес, напрямую тренирует систему рекомендовать ваш сайт.

Worst practices (это делать не надо)

Использование кликбейта и стратегий низкого вовлечения: Стратегии, направленные на получение клика без последующего удержания пользователя. Если пользователь быстро покидает сайт, его User Model не будет эффективно сформирована в пользу вашего ресурса.
Создание разрозненного или поверхностного контента: Публикация статей, оптимизированных только под основные ключевые слова, но игнорирующих связанные концепции. Такой контент менее эффективен для построения User Model и не формирует сильных кластеров интересов.
Игнорирование анализа аудитории и её интересов: Непонимание того, какие темы интересуют вашу аудиторию и как они связаны между собой, приводит к неэффективной контент-стратегии, которая не использует преимущества персонализации.

Стратегическое значение

Патент подтверждает, что для Google долгосрочное взаимодействие пользователя с контентом является фактором ранжирования через механизм персонализации. Стратегия SEO должна смещаться от транзакционного подхода (получить клик по запросу) к подходу, основанному на взаимоотношениях (стать авторитетным источником для пользователя в определенной теме). Понимание этого механизма подчеркивает, что SEO – это оптимизация пользовательского опыта и ценности контента для формирования устойчивого спроса.

Практические примеры

Сценарий: Усиление видимости сайта по ремонту техники для лояльного пользователя

Действие пользователя: Пользователь регулярно посещает сайт TechMaster.com, читая статьи о ремонте ноутбуков и смартфонов. Он сохраняет несколько инструкций (глубокое взаимодействие).
Построение User Model: User Model пользователя наполняется фразами типа "замена матрицы ноутбука", "перегрев процессора", "ошибка обновления iOS". Счетчики (Cluster Counts) для кластера "Ремонт электроники" увеличиваются.
Новый запрос: Пользователь вводит общий запрос "как ускорить компьютер".
Персонализация: Система видит, что Related Phrases запроса пересекаются с кластером "Ремонт электроники" в User Model пользователя.
Результат: Статья с сайта TechMaster.com "Топ-10 способов ускорить ваш ноутбук или ПК" получает значительный бустинг в выдаче этого пользователя, опережая конкурентов с более высоким общим рейтингом, потому что система считает TechMaster.com более релевантным интересам данного пользователя.

Как система определяет, какие документы использовать для построения модели пользователя (User Model)?

Система отслеживает документы, к которым пользователь обращается (accessed). В патенте уточняется, что это могут быть не только клики, но и действия, свидетельствующие о более высоком уровне интереса: печать документа, сохранение, добавление в избранное (favorite/link), отправка по email или длительное время просмотра (например, 10 минут). Активное потребление контента важнее простого клика.

Что такое связанные фразы (Related Phrases) и как они определяются?

Related Phrases — это фразы, которые статистически часто встречаются вместе в корпусе документов. Связь определяется через метрику Information Gain: если фактическая частота совместной встречаемости двух фраз значительно превышает ожидаемую (случайную), они считаются связанными. Это позволяет системе группировать фразы в концепции или темы.

Как именно происходит переранжирование результатов?

Описано два основных механизма. Первый использует Mask Bit Vector, который создается из фраз, общих для запроса и User Model. Эта маска применяется к оценке документа, эффективно фильтруя результаты. Второй использует Cluster Counts (счетчики интереса к темам) из User Model как веса для повышения (бустинга) документов из интересующих пользователя тематик.

Влияет ли этот патент на ранжирование для новых пользователей или в режиме инкогнито?

Нет. Этот механизм персонализации требует наличия истории взаимодействия пользователя с контентом (User Model). Для новых пользователей или сессий без истории (инкогнито) будет применяться стандартное ранжирование без персонализации, описанной в этом патенте.

Как SEO-специалист может оптимизировать сайт под этот алгоритм персонализации?

Ключевая стратегия – стать основным источником информации для вашей целевой аудитории в выбранной нише. Это достигается через создание глубокого, семантически богатого контента (использующего множество Related Phrases) и стимулирование повторных визитов и вовлеченности. Цель – насытить User Model ваших пользователей фразами с вашего сайта.

Что такое кластеры (Clusters) и почему они важны?

Кластеры — это группы тесно связанных фраз, представляющие собой темы. Они важны, потому что User Model может отслеживать интерес пользователя к целым темам (через Cluster Counts), а не только к отдельным фразам. Это позволяет системе учитывать широкие тематические интересы пользователя при ранжировании.

Устарел ли этот патент в эпоху нейронных сетей и эмбеддингов?

Хотя конкретные технические реализации (такие как битовые векторы и расчет Information Gain) могли быть заменены более сложными моделями (например, эмбеддингами), базовая идея патента – использование истории потребления контента для тематической персонализации поиска – актуальна как никогда. Современные системы реализуют ту же логику, но более продвинутыми методами.

Как этот патент связан с Topical Authority?

Он тесно связан. Создавая контент, который формирует сильные тематические кластеры (Clusters), сайт развивает Topical Authority. Пользователи, потребляющие этот контент, формируют User Model, сфокусированную на этой теме. В результате сайт получает преимущество в персонализированной выдаче по этой теме, что усиливает его авторитетность.

Может ли этот механизм понизить мой сайт в выдаче?

Да, косвенно. Если User Model пользователя сильно насыщена фразами и кластерами с сайтов конкурентов, то при релевантном запросе система может предпочесть конкурентов вашему сайту, даже если ваш общий рейтинг высок. Это подчеркивает важность борьбы за лояльность аудитории.

Является ли этот патент доказательством использования поведенческих факторов в основном ранжировании Google?

Нет, этот патент доказывает использование поведенческих факторов (клики, вовлеченность) для слоя персонализации (Reranking), а не для основного ранжирования (Ranking). Он показывает, как Google использует эти данные для адаптации выдачи под конкретного пользователя, но не утверждает, что эти данные используются для определения глобальной релевантности документа.

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

US7426507B1
2008-09-16

Индексация
SERP
Семантика и интент

Как Google позволяет пользователям контролировать уровень персонализации в результатах поиска с помощью слайдера

Google использует механизм для переменной настройки персонализации поисковой выдачи. Система рассчитывает несколько вариантов ранжирования — от неперсонализированного до полностью персонализированного на основе профиля интересов пользователя. Все варианты отправляются в браузер, позволяя пользователю динамически менять ранжирование с помощью слайдера без перезагрузки страницы.

US7716223B2
2010-05-11

Персонализация
SERP

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует данные о закладках, сообществах и поведении пользователей для персонализации и контекстуализации поиска

Патент описывает раннюю систему персонализации поиска, которая собирает и анализирует закладки (content pointers) пользователей и групп, организованные в иерархические категории. Эта информация используется для создания профилей интересов (content vectors), которые затем применяются для дополнения поисковых запросов (query augmentation) и переранжирования результатов (contextualization) с учетом личного контекста, интересов сообщества и недавней активности пользователя.

US7031961B2
2006-04-18

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска

Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.

US11568003B2
2023-01-31

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя

Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация
Поведенческие сигналы
SERP

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях

Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.

US10628511B2
2020-04-21

Ссылки
Индексация
Поведенческие сигналы

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса

Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.

US8392443B1
2013-03-05

Семантика и интент
Поведенческие сигналы

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP