Как Google использует краудсорсинг для выбора и улучшения группировки результатов поиска (например, в магазинах приложений и маркетплейсах)

CROWDSOURCED EVALUATION AND REFINEMENT OF SEARCH CLUSTERS (Краудсорсинговая оценка и уточнение поисковых кластеров)

US10331681B1
Google LLC
2016-04-11
2019-06-25

Google использует масштабируемую систему для организации результатов поиска (таких как приложения или товары) в логические группы (кластеры). Система генерирует множество вариантов кластеризации для запроса, а затем использует краудсорсинговых работников для оценки и выбора наилучшего варианта. Лучший вариант дополнительно уточняется на основе консенсуса работников и сохраняется для использования при будущих запросах.

Какую проблему решает

Патент решает проблему качества и масштабируемости при организации поисковой выдачи в виде кластеров (групп). Автоматические алгоритмы кластеризации не всегда создают логичные или высококачественные группы. Ручная оценка экспертами дает высокое качество, но она медленная и не масштабируется. Изобретение предлагает масштабируемый метод использования краудсорсинга для достижения качества, близкого к экспертному.

Что запатентовано

Запатентована система для выбора и улучшения способа группировки результатов поиска (Search Items), таких как приложения или товары. Система генерирует несколько наборов кластеров (Cluster Sets) для одного запроса, используя разные алгоритмы. Затем она использует краудсорсинговых работников (Crowdsource Workers) для оценки этих наборов и выбора лучшего. Лучший набор проходит этап уточнения (Refinement) также с помощью краудсорсинга.

Как это работает

Система работает в три основных этапа:

Генерация: Для запроса создается несколько Cluster Sets с использованием разных алгоритмов кластеризации, часто основанных на связях с сущностями (Entity Associations) и онтологии.
Оценка: Каждый Cluster Set представляется работникам в случайном порядке для независимой оценки. Система рассчитывает оценки (Cluster Set Score), учитывая затраченное время и экспертизу работников, и выбирает лучший набор.
Уточнение: Лучший набор дается работникам для доработки (слияние, удаление, перемещение элементов). Если достигается порог согласия (Agreement Threshold), система автоматически обновляет определение кластера или отправляет отчет эксперту.

Актуальность для SEO

Высокая для поиска в маркетплейсах (Google Play, Google Shopping) и магазинах приложений (ASO). Организация больших объемов товаров или приложений в логические группы критична для пользовательского опыта. Использование краудсорсинга (аналогично асессорам или Google Raters) для оценки и улучшения алгоритмов является стандартной практикой Google. Акцент на кластеризации, основанной на сущностях, также актуален.

Важность для SEO

Влияние на традиционное SEO (веб-поиск) минимальное (2/10). Однако для App Store Optimization (ASO) и Product Search влияние значительное (8/10). Патент показывает, что группировка результатов для конкретных запросов в этих вертикалях определяется не одним алгоритмом, а тщательно отбирается и курируется с помощью человеческой оценки. Ключевым фактором для попадания в правильный кластер является точная ассоциация продукта/приложения с релевантными сущностями (Entities).

Термины и определения

Cluster Set (Набор кластеров): Полный набор кластеров, сгенерированный одним конкретным алгоритмом кластеризации для результатов определенного запроса.
Cluster Set Definition (Определение набора кластеров): Сохраненная структура, определяющая, как результаты должны быть сгруппированы для конкретного запроса. Может включать список сущностей для каждого кластера.
Cluster Rating (Рейтинг кластера): Оценка качества отдельного кластера, предоставляемая работником (например, бинарная: Хороший/Плохой).
Cluster Set Score (Оценка набора кластеров): Итоговая вычисленная оценка качества набора кластеров, основанная на агрегации и взвешивании рейтингов от множества работников.
Crowdsource Workers (Краудсорсинговые работники): Люди, выполняющие задачи по оценке и уточнению кластеров (асессоры).
Embedding (Эмбеддинг / Векторное представление): Представление поискового элемента или сущности в виде точки в многомерном пространстве. Используется для расчета схожести (Embedding Similarity).
Entity (Сущность): Человек, место, предмет, идея или концепция (например, из Knowledge Base), с которой ассоциируется поисковый элемент.
Entity Ontology (Онтология сущностей): Набор отношений между сущностями, таких как синонимы или родитель-потомок (parent-child/hypernyms). Используется в некоторых алгоритмах кластеризации.
Refinement (Уточнение): Процесс модификации лучшего набора кластеров на основе предложений работников (слияние, удаление, перемещение).
Search Items (Поисковые элементы): Объекты в коллекции, которые ищет пользователь. В контексте патента это преимущественно приложения в веб-магазине или товары.
Agreement Threshold (Порог согласия): Минимальный консенсус среди работников, необходимый для автоматического применения уточнения.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод использования краудсорсинговой оценки для выбора лучшего способа кластеризации.

Система повторяет для каждого из множества краудсорсинговых работников:
1. Отображение первого набора кластеров (Cluster Set).
2. Ключевое условие: Первый набор выбирается СЛУЧАЙНО из множества наборов (каждый сгенерирован разным алгоритмом для одного запроса).
3. Получение рейтингов для отдельных кластеров (Cluster Ratings) от работника.
4. Повторение шагов a-c для оставшихся наборов, выбирая следующий набор также СЛУЧАЙНО.
Вычисление Cluster Set Score для каждого набора на основе полученных рейтингов.
Сохранение определения (Cluster Set Definition) для набора с наивысшей оценкой и ассоциация его с запросом.
Использование этого сохраненного определения при последующих запросах.

Ядром изобретения является процесс выбора наилучшего алгоритма кластеризации для конкретного запроса путем краудсорсинговой оценки результатов работы разных алгоритмов. Случайный порядок представления критичен для минимизации предвзятости оценки.

Claim 2 (Зависимый от 1): Уточняет, что система отслеживает время, затраченное работником на оценку, и Cluster Set Score взвешивается на основе этого времени. Это механизм контроля качества краудсорсинга.

Claim 18 (Независимый пункт): Описывает полный процесс, включающий генерацию, оценку и уточнение.

Генерация множества Cluster Sets разными методами.
Предоставление наборов первой группе работников для оценки. Оценка включает рейтинги кластеров, рейтинг набора, затраченное время и оценку экспертизы работника.
Определение взвешенной оценки (weighted cluster set score) для каждого набора, используя вес на основе экспертизы.
Определение набора с наивысшей оценкой.
Предоставление лучшего набора второй группе работников для уточнения (Refinement).
Сохранение определения лучшего набора после уточнения.

Где и как применяется

Изобретение описывает офлайн-процесс оптимизации представления поисковой выдачи для конкретных запросов в специализированных поисковых системах (магазины приложений, маркетплейсы).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная обработка данных. Search Items (приложения/товары) ассоциируются с Entities из Knowledge Base. Также устанавливается Entity Ontology и генерируются Embeddings.

RANKING / METASEARCH (Офлайн-оптимизация)
Основное применение патента происходит здесь, как процесс подготовки данных, а не в реальном времени.

Генерация кандидатов: Clustering Engine применяет несколько разных алгоритмов для генерации множества Cluster Sets для выбранного запроса.
Оценка и Уточнение: Crowdsource Engine координирует задачи по оценке и уточнению сгенерированных наборов с помощью работников.
Выбор и Сохранение: Выбирается лучший Cluster Set Definition и сохраняется.

METASEARCH – Метапоиск и Смешивание (Онлайн)
Когда пользователь вводит запрос, Result Engine использует сохраненный Cluster Set Definition для организации и отображения результатов поиска в виде кластеров.

Входные данные (для офлайн-процесса):

Запрос (Query).
Список релевантных Search Items.
Ассоциации между Search Items и Entities.
Entity Ontology и Embeddings.

Выходные данные (для офлайн-процесса):

Сохраненный Cluster Set Definition для данного запроса.
Отчеты для экспертов о потенциальных проблемах (например, некорректные ассоциации элементов с сущностями).

На что влияет

Конкретные типы контента: В первую очередь влияет на приложения (App Store) и товары (Marketplace/Shopping), как показано в примерах патента. Влияние на стандартные веб-документы маловероятно.
Специфические запросы: Наибольшее влияние на широкие или неоднозначные запросы, которые возвращают большое количество разнообразных элементов и требуют структурирования (например, "guitar" или "stickman" в магазине приложений).

Когда применяется

Условия применения: Процесс применяется для запросов, где стандартная выдача слишком велика или разнообразна, и требуется кластеризация для улучшения пользовательского опыта.
Временные рамки: Генерация, оценка и уточнение происходят офлайн. Это не процесс ранжирования в реальном времени, а процесс подготовки структуры выдачи.

Пошаговый алгоритм

Этап 1: Генерация наборов кластеров (Офлайн)

Получение элементов: Система извлекает Search Items, релевантные запросу.
Генерация базовых кластеров: Элементы группируются в базовые кластеры на основе ассоциации с сущностями.
Параллельная кластеризация: Система применяет несколько алгоритмов для создания разных Cluster Sets. Примеры алгоритмов из патента:
- Метод 1: Слияние на основе онтологии (наиболее похожие первыми) + иерархическая кластеризация.
- Метод 2: Слияние на основе онтологии (наименьшие первыми) + иерархическая кластеризация.
- Метод 3: Иерархическая кластеризация с корректировкой схожести на основе онтологии.
- Метод 4: Иерархическая кластеризация только на основе схожести эмбеддингов.

Этап 2: Краудсорсинговая оценка (Офлайн)

Инициализация задач: Множество Cluster Sets передается пулу работников.
Случайный выбор и таймер: Работнику показывается случайно выбранный Cluster Set. Запускается таймер.
Сбор данных: Работник оценивает каждый кластер (Cluster Rating) и набор в целом (Cluster Set Rating), предоставляет текстовое обоснование. Система отслеживает взаимодействие с элементами (просмотр деталей) и фиксирует время.
Повторение: Шаги 2-3 повторяются для всех Cluster Sets в случайном порядке.
Оценка экспертизы: Работник оценивает свою осведомленность о теме запроса.
Расчет оценок: Система рассчитывает Cluster Set Score для каждого набора путем агрегации рейтингов. Рейтинги взвешиваются на основе затраченного времени, качества обоснования и экспертизы работника.
Выбор лучшего набора: Выбирается Cluster Set с наивысшей средней взвешенной оценкой.

Этап 3: Краудсорсинговое уточнение (Офлайн)

Инициализация задач уточнения: Лучший Cluster Set передается пулу работников.
Сбор предложений: Работникам предлагается выполнить задачи по улучшению: Слияние (Merge), Удаление (Delete) кластеров/сущностей/элементов, Перемещение (Move) сущностей/элементов, Уточнение заголовка (Title Refinement).
Анализ согласия: Система определяет, достигнут ли порог согласия (Agreement Threshold) для каждого предложения (например, 20% работников предложили слияние).
Выполнение уточнения: Если порог достигнут, система автоматически обновляет Cluster Set Definition И/ИЛИ генерирует отчет для экспертного анализа (например, если предложено удаление элемента, это может сигнализировать о неверной ассоциации с сущностью).

Какие данные и как использует

Данные на входе

Контентные/Атрибутивные факторы: Описания Search Items, метаданные. Ассоциации элементов с Entities (критичны для генерации кластеров).
Структурные данные (Системные): Entity Ontology (связи синонимии и иерархии между сущностями). Embeddings (векторные представления элементов и сущностей).
Пользовательские факторы (Краудсорсинг): Cluster Ratings, Cluster Set Ratings, текстовые обоснования оценок, время, затраченное на задачу, самооценка экспертизы/осведомленности работника о запросе.

Какие метрики используются и как они считаются

Embedding Similarity (Схожесть эмбеддингов): Метрика для определения близости между элементами или сущностями. Рассчитывается как расстояние (например, косинусное сходство) в векторном пространстве. Используется при генерации кластеров.
Cluster Set Score (Оценка набора кластеров): Агрегированная оценка качества набора. Рассчитывается как среднее взвешенное рейтингов от множества работников.
Весовые коэффициенты (Weights): Используются для корректировки влияния отдельных работников на Cluster Set Score. Вес увеличивается при высокой экспертизе и достаточном времени. Вес уменьшается (или оценка игнорируется) при недостаточном времени, отсутствии взаимодействия с деталями элементов или низком качестве обоснования.
Agreement Threshold (Порог согласия): Минимальный процент работников, которые должны предложить одинаковое уточнение, чтобы оно было принято автоматически или отправлено эксперту. Пороги могут отличаться для разных типов задач.

Ограниченная область применения (Не для традиционного SEO): Патент описывает механизм для улучшения представления результатов в магазинах приложений или маркетплейсах. Он не описывает факторы ранжирования веб-поиска и имеет минимальное прямое отношение к традиционному SEO.
Кластеризация основана на сущностях: Способ группировки элементов (приложений/товаров) в значительной степени зависит от того, с какими Entities они ассоциированы и как эти сущности связаны в онтологии (Entity Ontology).
Человеческая оценка для выбора алгоритма: Google не полагается на один алгоритм кластеризации. Система тестирует несколько подходов и использует краудсорсинг для определения того, какой алгоритм дает наилучший результат для конкретного запроса.
Масштабируемое курирование выдачи: Система позволяет масштабировать процесс ручного курирования структуры выдачи. Краудсорсинговые работники могут вносить конкретные изменения (слияние, удаление), если достигается консенсус (Agreement Threshold).
Строгий контроль качества краудсорсинга: Патент подчеркивает важность контроля качества данных от работников. Используется рандомизация порядка показа для борьбы с предвзятостью, а также взвешивание оценок на основе времени, экспертизы и взаимодействия.
Выявление проблем в данных: Процесс уточнения (Refinement) также служит механизмом обратной связи. Если работники предлагают удалить элемент из кластера, это может сигнализировать экспертам о неправильной ассоциации элемента с сущностью в базе данных.

Best practices (это мы делаем)

Рекомендации применимы в первую очередь для App Store Optimization (ASO) и оптимизации товаров в маркетплейсах (например, Google Shopping).

Обеспечение точных ассоциаций с сущностями: Критически важно, чтобы приложение или товар были правильно и полно ассоциированы с релевантными Entities (темами, категориями, брендами). Поскольку кластеризация строится на этих ассоциациях, ошибки приведут к попаданию в нерелевантные группы.
Оптимизация метаданных и описаний: Убедитесь, что описания и метаданные четко отражают суть продукта/приложения. Эти данные не только помогают системе установить ассоциации с сущностями, но и используются краудсорсинговыми работниками при оценке качества кластеров (они видят их при наведении курсора).
Анализ структуры выдачи конкурентов: Изучайте, как система кластеризует результаты по вашим ключевым запросам. Понимание структуры кластеров и сущностей, которые их формируют, поможет оптимизировать ваш продукт для попадания в наиболее релевантные группы.

Worst practices (это делать не надо)

Манипуляция ассоциациями с сущностями (Entity Stuffing): Попытки ассоциировать продукт с популярными, но нерелевантными сущностями для попадания в большее количество кластеров могут быть неэффективны. Механизм уточнения (Refinement) позволяет работникам предлагать удаление нерелевантных элементов из кластера, что может привести к ручной проверке экспертами и исправлению некорректных ассоциаций.
Игнорирование онтологических связей: Непонимание того, как сущности связаны между собой (синонимы, иерархия), может привести к неоптимальному таргетингу. Система может объединять кластеры на основе этих связей (Entity Ontology).

Стратегическое значение

Патент подтверждает стратегию Google по использованию комбинации машинного обучения (генерация кластеров, эмбеддинги) и человеческой оценки (краудсорсинг) для улучшения качества поиска в специализированных вертикалях. Для ASO и Product Search это означает, что структура выдачи не является чисто алгоритмической, а проходит этап валидации и курирования людьми. Стратегия оптимизации должна фокусироваться на четком представлении продукта и его связи с релевантными сущностями.

Практические примеры

Сценарий: Оптимизация приложения для изучения гитары (ASO)

Анализ запроса: По запросу "Guitar" в магазине приложений система генерирует кластеры (как в примерах патента): "Classical Guitar/Bass Guitar", "Chord/Scale (music)", "Music video game/Song", "Learning/Education/Lesson".
Цель: Необходимо, чтобы наше приложение попало в кластер "Learning/Education/Lesson".
Действия (Основанные на патенте):
- Убедиться, что метаданные приложения четко ассоциируют его с сущностями "Learning", "Education", "Guitar Lesson".
- Проверить описание на ясность, чтобы краудсорсинговый работник при оценке сразу понял, что приложение обучающее.
Риск (Основанный на патенте): Если мы добавим в метаданные "Guitar Game", чтобы попасть в кластер "Music video game", но приложение не является игрой, работники на этапе уточнения могут предложить удалить наше приложение из этого кластера (Search Item Delete Refinement). Это может привести к проверке экспертом.
Ожидаемый результат: Приложение корректно отображается в целевом кластере благодаря точным ассоциациям с сущностями и проходит человеческую валидацию.

Применяется ли этот патент к основному веб-поиску Google (SEO)?

Напрямую нет. Примеры и описание в патенте четко указывают на Search Items, такие как приложения в веб-магазине или товары в маркетплейсе. Патент описывает, как организовать выдачу в этих специализированных поисковых системах (ASO, Product Search), а не как ранжировать или кластеризовать веб-страницы в органическом поиске.

Что такое "Cluster Set" и почему их несколько?

Cluster Set — это один из вариантов группировки результатов для запроса. Поскольку не существует единого идеального алгоритма кластеризации, система генерирует несколько наборов, используя разные подходы (например, один фокусируется на схожести эмбеддингов, другой — на онтологических связях). Это позволяет выбрать наилучший способ организации выдачи для каждого конкретного запроса.

Как система определяет, в какой кластер попадет мой товар или приложение?

Согласно патенту, кластеризация в значительной степени основана на Entity Associations. Если ваш товар ассоциирован с сущностью А, и система решает создать кластер вокруг сущности А, ваш товар попадет в этот кластер. Точность ваших метаданных и описаний, позволяющих системе установить эти ассоциации, критически важна.

Кто эти краудсорсинговые работники и как контролируется качество их работы?

Это люди, выполняющие задачи за вознаграждение (аналог асессоров). Патент предусматривает строгие меры контроля качества: рандомизация порядка задач для избежания предвзятости, отслеживание затраченного времени, учет экспертизы работника и требование текстовых обоснований. Оценки от недобросовестных работников отбрасываются или имеют низкий вес.

Что происходит на этапе уточнения (Refinement)?

На этом этапе работникам показывают лучший набор кластеров и просят предложить улучшения: объединить слишком похожие кластеры, удалить плохие кластеры, переместить элементы или темы между кластерами или предложить лучшие заголовки. Это позволяет тонко настроить структуру выдачи.

Что такое "Agreement Threshold" и как он работает?

Это минимальный процент работников, которые должны согласиться с предложенным изменением (например, слиянием двух кластеров), чтобы оно было принято. Если 20% работников предлагают одно и то же изменение, система может автоматически обновить определение кластера или отправить отчет эксперту для анализа.

Могу ли я повлиять на то, как Google кластеризует результаты по моему запросу?

Напрямую повлиять на выбор алгоритма или оценки работников нельзя. Однако вы можете повлиять на то, как ваш собственный продукт или приложение будет представлено в этих кластерах, обеспечив максимально точные и полные ассоциации с релевантными сущностями (Entities) через метаданные и описания.

Что произойдет, если я попытаюсь манипулировать сущностями, чтобы попасть в нерелевантный кластер?

Если ваш продукт не соответствует тематике кластера, краудсорсинговые работники на этапе уточнения могут предложить удалить его (Search Item Delete Refinement). Если достаточное количество работников это предложит, это может привести к проверке экспертом и исправлению ассоциаций вашего продукта с сущностями, что негативно скажется на видимости.

Происходит ли этот процесс в реальном времени при каждом запросе?

Нет. Генерация, оценка и уточнение кластеров — это офлайн-процесс. Система заранее подготавливает оптимальную структуру выдачи (Cluster Set Definition) для запроса и сохраняет ее. Когда пользователь вводит этот запрос, система просто использует заранее подготовленное определение для отображения результатов.

Какова роль "Entity Ontology" в этом процессе?

Entity Ontology определяет связи между сущностями (синонимы, иерархия). Некоторые алгоритмы кластеризации используют эти связи для объединения кластеров. Например, кластеры "Обучение" и "Уроки" могут быть объединены, если система знает, что эти сущности тесно связаны в онтологии.

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

US8090717B1
2012-01-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google использует сущности, онтологии и векторные представления для кластеризации и организации поисковой выдачи

Google использует этот механизм для структурирования поисковой выдачи по широким запросам. Система группирует результаты в кластеры на основе их связи с сущностями из Базы Знаний. Для объединения кластеров используются онтологические связи (иерархия, синонимы) и векторная близость (embedding similarity). Система параллельно тестирует несколько алгоритмов и выбирает наилучшую структуру SERP на основе метрик качества (покрытие, баланс, пересечение, силуэт).

US10496691B1
2019-12-03

SERP
Семантика и интент
Knowledge Graph

Как Google использует кластеризацию контента и результаты поиска для определения авторства и формирования профилей сущностей

Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.

US9400789B2
2016-07-26

Knowledge Graph
Семантика и интент
SERP

Как Google кластеризует и фильтрует похожие товары одного продавца в Google Shopping для повышения разнообразия выдачи

Google использует систему для обнаружения и фильтрации почти дублирующихся товаров в системах онлайн-покупок (например, Google Shopping). Система вычисляет «расстояние» между товарами одного и того же продавца на основе их атрибутов (название, модель, описание, изображение). Похожие товары объединяются в кластеры, и при формировании выдачи система ограничивает количество товаров из одного кластера, чтобы повысить разнообразие продуктов на странице результатов.

US9342849B2
2016-05-17

Google Shopping
SERP
Индексация

Как Google кластеризует, фильтрует и ранжирует популярные запросы для сервисов типа Google Trends

Патент описывает систему Google для определения популярных и быстрорастущих запросов (например, для Google Trends). Чтобы избежать дублирования и повысить качество, система группирует похожие запросы в кластеры, выбирает лучший репрезентативный запрос и ранжирует темы. Ранжирование учитывает общую популярность темы, качество результатов поиска (используя CTR, PageRank, длительность кликов) и популярность категории.

US8145623B1
2012-03-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами

Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.

US20250209127A1
2025-06-26

SERP
Поведенческие сигналы
Семантика и интент

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

US9275421B2
2016-03-01

Семантика и интент
SERP
Ссылки

Как Google использует машинное зрение и исторические клики для определения визуального интента и ранжирования изображений

Google использует систему, которая определяет визуальное значение текстового запроса, анализируя объекты на картинках, которые пользователи выбирали ранее по этому или похожим запросам. Система создает набор «меток контента» (визуальный профиль) для запроса и сравнивает его с объектами, распознанными на изображениях-кандидатах с помощью нейросетей. Это позволяет ранжировать изображения на основе их визуального соответствия интенту пользователя.

US20200159765A1
2020-05-21

Семантика и интент
Мультимедиа
Персонализация

Как Google (YouTube) анализирует трафик конкурирующих видео для рекомендации улучшений метаданных

Google использует систему для анализа конкуренции между видео на основе общих поисковых запросов и времени просмотра. Система выявляет поисковые запросы, которые приводят трафик на конкурирующие (например, производные) видео, и сравнивает их с метаданными оригинального видео. Если обнаруживаются релевантные термины, отсутствующие у оригинала, они рекомендуются автору для улучшения видимости.

US10318581B2
2019-06-11

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов

Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).

US9244977B2
2016-01-26

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы