Как Google использует поведенческие сигналы и совместные просмотры для генерации рекомендаций контента (например, "Похожие видео" на YouTube)

USER INTERACTION BASED RELATED DIGITAL CONTENT ITEMS (Связанные цифровые элементы контента на основе взаимодействия с пользователем)

US8055655B1
Google LLC
2008-02-15
2011-11-08

Google использует механизм коллаборативной фильтрации для определения связанности контента, анализируя логи взаимодействия пользователей. Система определяет, какой контент пользователи потребляют совместно в рамках одной сессии ("locality of time"). Учитываются только "позитивные взаимодействия" (например, длительный просмотр, высокая оценка). Это позволяет формировать рекомендации на основе реального поведения аудитории, а не только метаданных.

Какую проблему решает

Патент решает проблему неточности традиционных систем рекомендаций контента, которые полагаются преимущественно на метаданные (ключевые слова, теги) или общую популярность. Эти методы часто предлагают контент, который не соответствует реальным интересам пользователя в данный момент. Изобретение направлено на повышение релевантности рекомендаций (например, блока «Похожие видео») за счет анализа фактических паттернов поведения пользователей для выявления контента, который они совместно потребляют и положительно оценивают.

Что запатентовано

Запатентована система и метод определения связанных элементов цифрового контента (digital content items), таких как видео, аудио или документы, с использованием коллаборативной фильтрации. Система анализирует журналы доступа (access log) для выявления co-occurring positive interactions (совместно встречающихся позитивных взаимодействий). Если пользователи часто позитивно взаимодействуют с Элементом А и Элементом Б в течение ограниченного временного интервала (locality of time), система определяет эти элементы как связанные, даже если у них нет общих метаданных.

Как это работает

Система работает путем офлайн-анализа поведенческих данных:

Сбор данных: Все взаимодействия пользователей (просмотры, оценки, перемотки) регистрируются в журнале доступа.
Классификация взаимодействий: Каждое взаимодействие классифицируется как позитивное (например, длительный просмотр, высокая оценка) или негативное (например, короткий просмотр).
Анализ сессии: Система анализирует хронологическую последовательность потребления контента пользователем с помощью sliding window (скользящего окна, например, 1 час).
Подсчет совместных появлений: Подсчитывается, как часто два разных элемента контента имеют позитивные взаимодействия в рамках одного временного окна у одного и того же пользователя.
Агрегация и ранжирование: Данные агрегируются по всем пользователям в co-occurrence matrix (матрицу совместной встречаемости). Связанный контент ранжируется на основе общего количества позитивных совместных появлений.

Актуальность для SEO

Высокая. Хотя патент относительно старый, описанные в нем принципы коллаборативной фильтрации, основанной на поведенческих сигналах (таких как время просмотра и поведение в рамках сессии), являются фундаментальными для современных рекомендательных систем, включая YouTube (который явно упоминается в патенте). Понимание этих механизмов остается критически важным для оптимизации контента в 2025 году.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO на платформах, управляемых рекомендациями (например, YouTube SEO). Он описывает основной механизм, лежащий в основе блоков рекомендаций («Похожие видео»), которые являются важным источником трафика. Патент подчеркивает первостепенную важность поведенческих сигналов (удержание аудитории, время просмотра, вовлеченность) над традиционной оптимизацией метаданных для обнаружения контента через рекомендации.

Термины и определения

Co-occurrence Matrix (Матрица совместной встречаемости): Структура данных, хранящая количество позитивных совместных появлений для каждой пары цифровых элементов контента. Используется для определения силы связи и ранжирования рекомендаций.
Co-occurring Positive Interactions (Совместно встречающиеся позитивные взаимодействия): Ситуация, когда один пользователь проявляет интерес (позитивное взаимодействие) к двум разным элементам контента в течение определенного периода времени (locality of time).
Digital Content Items (Цифровые элементы контента): Любой тип контента на платформе. В первую очередь видео, но также аудио, документы, веб-страницы, изображения, мультимедиа.
Locality of Time (Временная локальность): Ограниченный временной интервал (сессия), в рамках которого взаимодействия пользователя считаются связанными. Реализуется через Sliding Window.
Negative Interaction (Негативное взаимодействие): Действие пользователя, указывающее на отсутствие интереса. Примеры: просмотр менее 25% видео или менее 5 секунд, низкая оценка, выполнение нового поиска сразу после начала просмотра.
Positive Interaction (Позитивное взаимодействие): Действие пользователя, указывающее на интерес к контенту. Примеры: просмотр более 75% видео или всего видео, просмотр дольше определенного времени (например, 30 секунд), высокая оценка (например, 5/5), перемотка назад для повторного просмотра.
Reproduction Event (Событие воспроизведения/копирования): Взаимодействие, при котором пользователь копирует, сохраняет или распечатывает контент (например, изображение или документ). Считается позитивным сигналом.
Sliding Window (Скользящее окно): Временной интервал (например, 1 час), используемый для анализа последовательности взаимодействий пользователя. Только взаимодействия внутри этого окна считаются совместно встречающимися. Может быть фиксированным или динамическим.
User Interaction Analysis Server (Сервер анализа взаимодействия пользователей): Компонент системы, отвечающий за обработку журнала доступа, классификацию взаимодействий и построение матрицы совместной встречаемости.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выбора набора связанных цифровых элементов контента.

Система получает доступ к взаимодействиям множества пользователей с элементами контента.
Идентифицируются co-occurring positive interactions для пар контента (первый и второй элемент). Ключевое условие: интерес пользователя к обоим элементам должен проявиться в пределах locality of time (временной близости).
Сохраняется количество (count) этих взаимодействий для пар по всем пользователям.
Потенциально связанные (вторые) элементы ранжируются на основе этого количества.
Набор связанных элементов для первого элемента выбирается на основе этого ранжирования.

Ядро изобретения — использование подсчета совместных позитивных взаимодействий в ограниченном временном промежутке как основного фактора для определения и ранжирования связанного контента.

Claim 5 и 6 (Зависимые): Вводят концепцию взвешивания и временного распада.

Совместное позитивное взаимодействие может быть представлено вещественным весом (real number weight), основанным на мере расстояния (distance measure). Этот вес может уменьшаться (decayed) в зависимости от продолжительности времени между просмотром первого и второго элемента.

Взаимодействия, более близкие по времени, считаются более сильным сигналом связи, чем те, что произошли дальше друг от друга (даже в пределах скользящего окна).

Claim 7 (Зависимый): Предлагает альтернативный метод ранжирования.

Ранжирование связанных элементов может основываться, по крайней мере частично, на общем времени просмотра (total viewing time) каждого из связанных элементов.

Система может предпочесть контент с большим суммарным временем просмотра, даже если количество совместных появлений у него меньше.

Claim 13 (Зависимый): Описывает фильтрацию данных.

Процесс включает фильтрацию количества совместно встречающихся позитивных взаимодействий для удаления взаимодействий, указывающих на то, что доступ к контенту осуществлялся программным обеспечением (ботами).

Где и как применяется

Изобретение применяется в рамках платформы хостинга контента (например, YouTube) и затрагивает этапы индексирования поведенческих данных и ранжирования рекомендаций.

CRAWLING – Сбор данных (Data Acquisition)
На этом этапе происходит непрерывная запись пользовательских взаимодействий (User Events) в журнал доступа к контенту (Content Access Log).

INDEXING – Индексирование и извлечение признаков (Offline Processing)
Основная работа алгоритма происходит здесь. User Interaction Analysis Server периодически (например, ежедневно) обрабатывает логи. На этом этапе происходит классификация взаимодействий (позитивные/негативные) и расчет Co-occurrence Matrix. Это офлайн-процесс, который извлекает поведенческие признаки и связи между контентом.

RANKING / RERANKING – Ранжирование (Система рекомендаций)
Когда пользователь просматривает элемент контента, система в реальном времени обращается к предварительно рассчитанным данным. Она извлекает список связанных элементов и ранжирует их на основе метрик из Co-occurrence Matrix для отображения пользователю (например, в боковой панели «Похожие видео»).

Входные данные:

Content Access Log, содержащий: User ID, Content ID, Временная метка, Тип взаимодействия (Play, Rate, Rewind, Bookmark, Copy и т.д.), Продолжительность просмотра (Time Offset).

Выходные данные:

Co-occurrence Matrix.
Ранжированный список связанных элементов контента для каждого элемента в базе данных.

На что влияет

Типы контента: В первую очередь влияет на видеоконтент (основной пример в патенте — YouTube). Однако патент явно указывает, что метод применим к аудиофайлам, документам, веб-страницам, изображениям, мультимедийным презентациям. Система может определять связи как внутри одного типа, так и между разными типами контента.
Обнаружение контента: Влияет на то, как контент обнаруживается пользователями через рекомендательные блоки, и на поток трафика между связанными темами на платформе.

Когда применяется

Периодичность анализа: Анализ взаимодействий и обновление списка связанных элементов происходит периодически (упоминаются примеры: ежедневно, еженедельно или ежемесячно).
Активация рекомендаций: Результаты анализа используются в реальном времени каждый раз, когда пользователь просматривает элемент контента.
Условия фильтрации: Фильтрация ботов применяется во время анализа журнала доступа, если скорость доступа пользователя превышает определенный порог (например, упоминается пример 100 видео за 2 минуты).
Исключения: Данные пользователей, которые не авторизованы на логирование их взаимодействий или не считаются подходящими участниками (например, забаненные пользователи), могут не учитываться.

Пошаговый алгоритм

Процесс анализа взаимодействий (Офлайн)

Извлечение событий: Для каждого пользователя система извлекает события взаимодействия из Content Access Log.
Тегирование событий: Каждое событие анализируется и помечается как позитивное или негативное на основе предопределенных правил.
- Примеры для видео: Время просмотра (>75% или >30 сек – позитивное; <25% или <5 сек – негативное), оценка (высокая/низкая), перемотка назад (позитивное).
- Примеры для документов/веб-страниц: Сохранение/копирование (reproduction event), добавление в закладки (bookmarking event) – позитивное.
Тегирование контента и секвенирование:
- На основе связанных событий определяется, было ли взаимодействие с элементом контента в целом позитивным (тег 1) или негативным (тег 0).
- Элементы контента упорядочиваются в хронологическую последовательность для данного пользователя.
Обработка скользящим окном (Sliding Window):
- Система применяет Sliding Window (например, 1 час) к последовательности.
- Окно может быть динамическим: короче для очень активных пользователей или перезапускаться при новом поиске (что указывает на смену интереса).
- Внутри окна идентифицируются пары контента (V1, V2), где оба элемента помечены как позитивно взаимодействующие (1, 1).
Фильтрация активности: Система анализирует скорость доступа пользователя. Если скорость слишком высока (например, 100 видео за 2 минуты), данные могут быть отфильтрованы как активность бота.
Обновление матрицы (Co-occurrence Matrix Update):
- Для каждой идентифицированной позитивной пары счетчик совместных появлений в Co-occurrence Matrix увеличивается.
- Опционально: счетчик увеличивается не на 1, а на вес, который зависит от временного расстояния между взаимодействиями (временной распад/decay).
Агрегация и Ранжирование: Процесс повторяется для всех пользователей. Для каждого элемента контента создается список связанных элементов, ранжированный по:
- Количеству (или общему весу) позитивных совместных появлений.
- ИЛИ по общему накопленному времени просмотра (total viewing time) связанных элементов.
Хранение: Ранжированные списки сохраняются в базе данных связанных элементов.

Какие данные и как использует

Данные на входе

Патент полностью сосредоточен на поведенческих факторах, извлеченных из логов.

Поведенческие факторы:
- Взаимодействия с плеером (для видео/аудио): Play, Pause, Rewind, Fast Forward, перетаскивание ползунка.
- Продолжительность просмотра (Time Offset/Play Time): Длительность воспроизведения.
- Оценки (Ratings): Оценки, выставленные пользователями.
- Комментарии: Упоминается возможность анализа текстовых или аудио/видео комментариев для определения тональности.
- Взаимодействия с сайтом: Выполнение нового поиска, изменение страницы, скроллинг.
- События взаимодействия с контентом: Bookmarking event (добавление в закладки), Reproduction events (копирование, вставка, сохранение, печать – для изображений, документов, веб-страниц).
Временные факторы: Временные метки (time stamps) событий используются для секвенирования и применения скользящего окна.
Пользовательские факторы: Анонимизированные User ID для разделения сессий. Активность пользователя может влиять на размер динамического окна.

Какие метрики используются и как они считаются

Watch Time Ratio (Коэффициент времени просмотра): Соотношение времени воспроизведения к общей длине контента. Используется для определения позитивного (>75%) или негативного (<25%) взаимодействия.
Absolute Watch Time (Абсолютное время просмотра): Фиксированная продолжительность просмотра. Используется для определения позитивного (например, >30 секунд) или негативного (<5 секунд) взаимодействия.
Co-occurrence Count (Счетчик совместных появлений): Основная метрика для измерения силы связи между двумя элементами контента.
Sliding Window Size (Размер скользящего окна): Определяет временную близость. Может быть фиксированным (например, 1 час) или динамическим.
Weight Decay (Временной распад): Функция для снижения веса совместного появления в зависимости от времени, прошедшего между двумя взаимодействиями.
Bot Detection Metric (Метрика обнаружения ботов): Скорость доступа (количество просмотренных элементов за единицу времени). Пример: >100 видео за 2 минуты указывает на бота.
Total Viewing Time (Общее время просмотра): Суммарное время просмотра элемента контента всеми пользователями. Используется как альтернативный метод ранжирования рекомендаций.

Релевантность определяется поведением (Коллаборативная фильтрация): Патент описывает систему, которая определяет связь между контентом на основе того, что пользователи смотрят вместе, а не на основе совпадения метаданных (тегов, ключевых слов).
Необходимость позитивного вовлечения (User Satisfaction): Простого совместного просмотра недостаточно. Для учета связи оба элемента контента должны быть классифицированы как Positive Interaction. Короткие просмотры или негативные реакции не создают связи.
Критичность времени просмотра (Watch Time): Watch Time используется дважды: сначала для определения того, является ли взаимодействие позитивным (на основе порогов), а затем как возможная альтернативная метрика для ранжирования рекомендаций (Total Viewing Time).
Временная близость и контекст сессии: Использование Sliding Window гарантирует, что связи основаны на поведении в рамках одной сессии. Система также может перезапускать окно при новом поиске, что указывает на смену интереса пользователя.
Взвешивание по времени (Time Decay): Система может придавать больший вес контенту, просмотренному непосредственно друг за другом, по сравнению с контентом, просмотренным с разницей во времени (даже внутри окна).
Защита от манипуляций: Патент включает механизмы для фильтрации активности ботов на основе анализа скорости доступа, подчеркивая важность подлинного человеческого взаимодействия.

Best practices (это мы делаем)

Рекомендации в первую очередь касаются YouTube SEO и оптимизации контента под рекомендательные системы.

Максимизация удержания аудитории и времени просмотра (Watch Time): Это критически важно для того, чтобы взаимодействие было классифицировано как Positive Interaction. Необходимо преодолеть пороги (например, >30 сек или >25-75% просмотра). Используйте сильные хуки и поддерживайте вовлеченность на протяжении всего контента.
Поощрение явной вовлеченности: Стимулируйте пользователей совершать действия, которые являются явными позитивными сигналами: ставить высокие оценки, сохранять контент (reproduction event) или добавлять в закладки (bookmarking event).
Оптимизация под продолжение сессии (Session Flow / User Journey): Анализируйте, какой контент популярен в вашей нише. Создавайте материалы, которые являются естественным следующим шагом после просмотра популярного контента (вашего или конкурентов). Это увеличивает вероятность Co-occurring Positive Interactions и попадания в рекомендации.
Создание тематических серий и плейлистов: Публикуйте серии контента, которые пользователи будут потреблять последовательно. Это напрямую генерирует позитивные совместные появления между вашими собственными материалами, усиливая внутренние рекомендации.

Worst practices (это делать не надо)

Использование кликбейта: Заголовки и превью, которые обманывают ожидания зрителя, приводят к коротким просмотрам (низкий Watch Time Ratio). Это генерирует Negative Interaction, и такой контент не будет рекомендоваться системой.
Покупка просмотров и накрутка ботами: Система включает механизмы обнаружения ботов, основанные на скорости доступа. Искусственная активность рискует быть полностью отфильтрованной и не внесет вклад в Co-occurrence Matrix.
Фокус только на метаданных (теги, ключевые слова): Оптимизация метаданных помогает при поиске, но описанная система рекомендаций полагается исключительно на поведенческие данные. Качество контента и удовлетворенность зрителя важнее метаданных для попадания в «Похожие видео».

Стратегическое значение

Этот патент описывает фундаментальные принципы работы рекомендательных систем, таких как YouTube. Он подтверждает, что Google активно использует поведенческие данные для понимания взаимосвязей между контентом. Для SEO-стратегии это означает, что успех на платформах, управляемых рекомендациями, зависит от способности создавать контент, который не только привлекает клик, но и удерживает внимание пользователя на длительное время и стимулирует дальнейшее потребление контента в рамках платформы.

Практические примеры

Сценарий: Попадание в рекомендации к популярному видео на YouTube

Цель: Чтобы ваше новое видео о «Тюнинге Ferrari F430» появилось в блоке «Похожие видео» у популярного обзора «Porsche 997 Turbo».
Механизм (по патенту): Система должна зафиксировать, что значительное количество пользователей, которые посмотрели обзор Porsche (и остались довольны – Positive Interaction), сразу после этого (в пределах Sliding Window) посмотрели ваше видео о Ferrari (и также остались довольны – Positive Interaction).
Действия:
- Оптимизация контента (Ferrari): Сделайте видео максимально увлекательным, чтобы достичь высокого Watch Time Ratio (например, >75% для гарантии позитивного взаимодействия).
- Привлечение целевой аудитории: На начальном этапе продвигайте видео о Ferrari среди аудитории, которая интересуется обзорами Porsche (например, через таргетированную рекламу или сообщества), чтобы стимулировать совместные просмотры.
Ожидаемый результат: Система зафиксирует Co-occurring Positive Interactions между двумя видео, увеличит счетчик в Co-occurrence Matrix, и ваше видео начнет ранжироваться в списке рекомендаций к обзору Porsche.

Что конкретно считается «Позитивным взаимодействием» (Positive Interaction) согласно патенту?

Патент приводит несколько конкретных примеров. Ключевыми являются: просмотр значительной части контента (например, >75% длины видео), просмотр в течение определенного абсолютного времени (например, >30 секунд), высокая оценка (например, 5/5 звезд). Также учитываются действия, указывающие на повторное потребление (перемотка назад) или сохранение контента (копирование, добавление в закладки).

Что считается «Негативным взаимодействием» (Negative Interaction)?

Негативные взаимодействия включают очень короткие просмотры (например, <5 секунд), просмотр малой части контента (например, <25%), низкие оценки (1/5 звезд). Также к негативным сигналам относятся действия, указывающие на неудовлетворенность: выполнение нового поиска сразу после начала просмотра или открытие других веб-страниц.

Насколько важно время просмотра (Watch Time) согласно этому патенту?

Время просмотра критически важно. Оно используется как минимум в двух контекстах. Во-первых, для определения того, было ли взаимодействие позитивным (преодоление порога). Во-вторых, общее накопленное время просмотра (Total Viewing Time) может использоваться как альтернативный метод ранжирования связанных видео (Claim 7), что может быть даже важнее, чем просто количество совместных просмотров.

Как работает «Скользящее окно» (Sliding Window) и каков его размер?

Sliding Window определяет временной интервал, в течение которого два просмотра считаются связанными. Патент предлагает фиксированный размер (например, 1 час), но также описывает динамические варианты. Окно может быть короче для очень активных пользователей или может перезапускаться, если пользователь вводит новый поисковый запрос, что сигнализирует о смене интереса.

Влияют ли ключевые слова и теги на этот алгоритм рекомендаций?

Нет. Описанный механизм является системой коллаборативной фильтрации, которая полагается исключительно на поведенческие данные пользователей (что они смотрят вместе), а не на метаданные контента. Связь устанавливается, даже если у контента нет общих ключевых слов или тегов.

Как я могу использовать этот патент для улучшения SEO моего YouTube-канала?

Ключевая стратегия — максимизировать время просмотра и удержание аудитории, чтобы гарантировать классификацию взаимодействия как позитивного. Также важно создавать контент, который является логическим продолжением популярных тем в вашей нише, чтобы перехватить аудиторию конкурентов и сгенерировать позитивные совместные появления с их видео.

Что такое «Временной распад» (Time Decay) и как он влияет на рекомендации?

Патент описывает возможность взвешивания совместных появлений на основе времени между ними (Claim 6). Если пользователь посмотрел Видео А и сразу же Видео Б, эта связь получит больший вес, чем если бы он посмотрел Видео Б через 45 минут после Видео А (даже если оба просмотра попали в часовое окно). Это усиливает важность непосредственного потока сессии.

Как система борется с накруткой просмотров ботами?

Патент явно упоминает фильтрацию активности программного обеспечения (ботов) (Claim 13). Система анализирует скорость доступа пользователя. Аномально высокая скорость (например, просмотр 100 видео за 2 минуты, как указано в описании) идентифицируется как активность бота, и эти данные исключаются из анализа.

Может ли этот алгоритм связывать разные типы контента (например, видео и статью)?

Да. Хотя примеры в патенте сосредоточены на видео (YouTube), в тексте и Claims четко указано, что метод применим к любым Digital Content Items, включая документы, изображения, аудио и веб-страницы. Система может определить, что пользователи, прочитавшие определенный документ, часто затем смотрят определенное видео.

Учитывает ли система, в каком порядке был просмотрен контент?

Да. В описании патента указано, что счетчик в Co-occurrence Matrix предпочтительно обновляется однонаправленно (uni-directionally). Если позитивное взаимодействие с V_i предшествует позитивному взаимодействию с V_j, то увеличивается счетчик для пары (V_i, V_j), но не для (V_j, V_i). Это позволяет строить рекомендации типа "Следующее видео".

Как Google (YouTube) использует последовательность просмотров и общее время просмотра для определения и ранжирования похожих видео

Google использует поведенческие сигналы для определения похожих видео на платформах типа YouTube. Система анализирует, какие видео пользователи смотрят одно за другим в течение короткого времени (ко-просмотры). Если пользователи положительно взаимодействуют (например, долго смотрят) с Видео А и сразу после этого с Видео Б, система считает их связанными. Финальный список рекомендаций ранжируется с учетом временной близости просмотров и общего времени просмотра (Total Watch Time).

US9088808B1
2015-07-21

Поведенческие сигналы
Мультимедиа
Персонализация

Как Google визуализирует связи между рекомендованными видео с помощью "взвешенной совместной посещаемости"

Патент Google, описывающий интерфейс для просмотра рекомендаций видео. Система отображает центральное видео и связанные с ним ролики, расположенные вокруг него. Расстояние между видео зависит от их "оценки рекомендации", основанной на том, как часто пользователи смотрят эти видео одно за другим (взвешенная совместная посещаемость), и их корреляции друг с другом.

US7966632B1
2011-06-21

Поведенческие сигналы
Мультимедиа
Персонализация

Как Google использует паттерны просмотра пользователей (co-visitation) для определения связанности документов и улучшения поиска

Google использует систему для определения того, насколько тесно связаны два документа, основываясь на агрегированных данных о поведении пользователей. Система рассчитывает вероятность того, что пользователь просмотрит Документ B в течение определенного времени после того, как Документ А был показан ему в результатах поиска. Эти данные используются для персонализации выдачи, предложения рекомендаций и улучшения релевантности на основе контекста сессии пользователя.

US8447760B1
2013-05-21

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует теги внутри видео, социальные связи и одобрения для генерации персонализированных рекомендаций

Google использует систему рекомендаций, анализирующую элементы (людей, объекты, места), отмеченные тегами непосредственно внутри видео. Система находит связанный контент, содержащий те же элементы. Если в видео отмечен человек, система может рекомендовать контент, который этот человек одобрил (смотрел, лайкнул), учитывая силу социальной связи между ним и зрителем, при строгом соблюдении настроек конфиденциальности.

US9639634B1
2017-05-02

Персонализация
Мультимедиа
Поведенческие сигналы

Как Google использует сигналы вовлеченности пользователей для ранжирования контента в системах без поискового запроса (например, Google Discover)

Патент описывает механизм генерации рекомендаций контента на основе того, что пользователь просматривает в данный момент, без ввода поискового запроса. Система анализирует текущий контент, находит связанные ресурсы и ранжирует их, основываясь преимущественно на метриках вовлеченности пользователей (трендовость, частота просмотров, совместные просмотры), а не только на текстовой релевантности.

US10152521B2
2018-12-11

Поведенческие сигналы
Персонализация

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph

Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.

US11036743B2
2021-06-15

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов

Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.

US7925657B1
2011-04-12

Поведенческие сигналы

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов

Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.

US8495483B1
2013-07-23

Индексация
Ссылки
SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки