Как Google нормализует популярность для смешивания разных типов контента (например, платного и бесплатного) в единой выдаче

BLENDED RANKING OF DISSIMILAR POPULATIONS USING AN N-FURCATED NORMALIZATION TECHNIQUE (Смешанное ранжирование разнородных популяций с использованием метода N-фуркационной нормализации)

US9058332B1
Google LLC
2012-12-28
2015-06-16

Google использует метод статистической нормализации для сравнения популярности контента из разнородных групп (популяций), например, бесплатных и платных приложений. Поскольку бесплатный контент имеет на порядки больше просмотров, система вычисляет средние показатели (Геометрическое среднее) для каждой популяции и применяет смещение (Offset). Это позволяет популярному платному контенту конкурировать с популярным бесплатным контентом в едином смешанном списке.

Какую проблему решает

Патент решает проблему справедливого ранжирования элементов контента из разнородных популяций (dissimilar populations) в едином смешанном списке. Проблема возникает, когда метрики, используемые для ранжирования (например, количество просмотров, загрузок, кликов), имеют принципиально разные распределения и масштабы для разных типов контента. Например, бесплатные приложения всегда собирают на порядки больше загрузок, чем платные. Прямое ранжирование по абсолютным показателям привело бы к полному доминированию бесплатного контента и вытеснению платного, даже если он более качественный или предпочтительный для пользователя.

Что запатентовано

Запатентована система и метод смешанного ранжирования (Blended Ranking), использующая технику нормализации для сравнения элементов из разнородных популяций. Суть изобретения — в анализе статистического распределения метрик популярности внутри каждой отдельной популяции и вычислении корректирующего смещения (Offset или Boost). Это смещение компенсирует системные различия в популярности между популяциями, позволяя объединять результаты в единый ранжированный список на основе нормализованных оценок.

Как это работает

Система использует статистический подход для нормализации:

Разделение на популяции: Контент классифицируется по родительским популяциям (например, "платный", "бесплатный").
Статистический анализ: Для каждой популяции анализируется распределение метрик популярности (view counts). Данные группируются в диапазоны (buckets), определяется самый частотный диапазон.
Расчет эталона: Вычисляется Геометрическое Среднее (Geometric Mean, GM) для самого частотного диапазона. Это служит эталоном популярности для данной популяции.
Расчет смещения (Offset): Сравниваются GM разных популяций. Разница используется для расчета смещения (Offset), которое получает популяция с меньшим GM.
Нормализация оценки: Индивидуальная оценка элемента корректируется путем добавления смещения его родительской популяции.
Смешивание (Blending): Элементы из всех популяций ранжируются вместе на основе нормализованных оценок.

Актуальность для SEO

Высокая. Смешивание результатов (Blending) и Универсальный поиск (Universal Search) являются основой современной выдачи Google. Задача справедливого сравнения контента из разных вертикалей (Новости, Видео, Картинки, Товары) или с разными моделями монетизации остается критически важной. Описанный механизм нормализации необходим для корректного функционирования смешанной выдачи.

Важность для SEO

Влияние на SEO значительное (8/10), особенно для стратегий в вертикальном поиске (Google Shopping, Video, News) и маркетплейсах (Google Play). Патент демонстрирует, что Google оценивает популярность не в абсолютных цифрах, а относительно конкретной категории (популяции). Это означает, что для успеха в смешанной выдаче критически важно стать лидером внутри своей ниши или типа контента, а не пытаться конкурировать по абсолютным метрикам с контентом принципиально другого типа.

Термины и определения

Blended Ranking (Смешанное ранжирование): Процесс объединения элементов контента из разных популяций в единый упорядоченный список.
Buckets (Корзины/Диапазоны): Диапазоны значений метрик популярности, используемые для группировки данных. В патенте предлагается использовать степени десяти (1-10, 10-100, 100-1000 и т.д.).
Dissimilar Populations (Разнородные популяции): Группы контента с существенно различающимися распределениями метрик ранжирования (например, бесплатный vs платный контент).
Geometric Mean (GM) (Геометрическое среднее): Статистическая мера, используемая для определения типичного значения популярности в совокупности. В патенте GM вычисляется для Most Common Bucket.
Media Content Items (Элементы медиаконтента): Объекты ранжирования: фильмы, аудио, изображения, приложения, ПО.
Most Common Bucket (Самая распространенная корзина): Диапазон (Bucket), содержащий наибольшее количество элементов в данной популяции.
N-furcated Normalization (N-фуркационная нормализация): Техника нормализации, которая разделяет данные на N популяций и нормализует каждую из них независимо для возможности сравнения.
Offset / Boost (Смещение / Повышающий коэффициент): Значение, добавляемое к оценке ранжирования элементов для компенсации разницы в абсолютных метриках между популяциями. Рассчитывается как разница между GM.
Parent Population (Родительская популяция): Набор элементов контента с общими свойствами (например, 'Бесплатные приложения').
View Count (Количество просмотров/взаимодействий): Метрика популярности. Включает просмотры, клики, загрузки, установки.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему смешанного ранжирования с конкретным механизмом нормализации.

Система анализирует элементы контента из разных родительских популяций, используя user browsing information и social network tags для определения интереса пользователя.
Система присваивает оценки (scores) элементам, используя следующий процесс нормализации:
1. Определение количества просмотров (view counts).
2. Группировка просмотров в корзины (buckets) по степеням десяти.
3. Идентификация корзины с максимальным количеством элементов для каждой популяции.
4. Определение Геометрического Среднего (Geometric Mean, GM) этой корзины для каждой популяции.
5. Определение смещений (offsets) на основе разницы между GM совокупностей.
6. Генерация финальных оценок на основе этих смещений.
Система ранжирует элементы на основе этих оценок.
Система агрегирует элементы из разных популяций в упорядоченный список.

Ядро изобретения — это детально описанный процесс нормализации (шаги 2a-2f). Он защищает конкретный метод, основанный на сравнении Geometric Means наиболее заполненных диапазонов популярности для вычисления корректирующих смещений.

Claim 8 и Claim 11 (Зависимые): Упоминают использование медианы (median value или median distribution) для смешивания.

Обработка Неопределенности (GM vs Median): В патенте присутствует вариативность в описании статистической меры. Claim 1 и детальное описание алгоритма (Description) фокусируются на Geometric Mean (GM) самой распространенной корзины. Однако Abstract, Claim 8 и Claim 11 упоминают медиану. Это указывает на то, что система может использовать разные статистические меры для определения центра распределения, но основная защищенная реализация в Claim 1 использует GM.

Где и как применяется

Изобретение применяется на финальных этапах формирования выдачи для объединения результатов из разных индексов или категорий.

INDEXING – Индексирование и извлечение признаков
На этом этапе собираются необходимые данные: метрики популярности (view counts) и классификация контента по родительским популяциям (Parent Populations).

METASEARCH – Метапоиск и Смешивание (Universal Search & Blending)
Это основная область применения патента. Алгоритм используется для смешивания (Blending) результатов из разных популяций (например, разных вертикалей или разных типов контента внутри маркетплейса).

Статистический анализ: Система анализирует распределение метрик для каждой популяции (это может происходить офлайн).
Нормализация: Вычисляются коэффициенты нормализации (Offsets) на основе GM.
Смешивание: Результаты объединяются и переранжируются на основе нормализованных оценок.

Входные данные:

Элементы контента и их принадлежность к Parent Populations.
Метрики популярности (View counts).
User browsing information и social network tags.

Выходные данные:

Единый смешанный список (Blended List) с нормализованными оценками ранжирования.

На что влияет

Конкретные типы контента: Приложения, фильмы, музыка, товары. Особенно сильно влияет на выдачу, где смешиваются платные и бесплатные предложения.
Конкретные ниши или тематики: Маркетплейсы (Google Play, Google Shopping) и выдача Универсального поиска, где смешиваются результаты из разных вертикалей (Видео, Картинки, Новости, Веб).

Когда применяется

Условия применения: Применяется, когда система формирует выдачу, включающую элементы из двух или более популяций.
Триггеры активации: Наличие значительного расхождения (large disparity) в значениях метрик ранжирования между этими популяциями.

Пошаговый алгоритм

Процесс нормализации и ранжирования на примере двух популяций: Бесплатной (F) и Платной (P).

Сбор данных: Сбор данных о популярности (например, загрузок) для всех элементов в обеих популяциях.
Группировка (Bucketing): Показатели популярности группируются в диапазоны (Buckets) по степеням десятки (1-10, 10-100, 100-1000 и т.д.).
Идентификация пика распределения: Для каждой популяции (F и P) определяется диапазон с наибольшим количеством элементов (Most Common Bucket).
Вычисление Среднего Геометрического (GM): Вычисляется GM (GMf и GMp) для элементов, попавших в Most Common Bucket каждой популяции.
Расчет разницы (Adif): Вычисляется разница между средними геометрическими значениями: $Adif = GMf - GMp$ .
Вычисление Смещений (Offsets/Boosts): Рассчитываются поправочные коэффициенты. Популяция с меньшим GM получает буст.
- Если Adif > 0 (Бесплатные популярнее): Смещение для F (Fb) = 0. Смещение для P (Pb) = Adif.
- Если Adif < 0: Смещение для F (Fb) = Adif. Смещение для P (Pb) = 0.
Расчет финальной оценки (Ranking Score): Для каждого элемента (x) рассчитывается итоговая оценка (Sx) путем добавления смещения к логарифму его популярности (count(x)):
- $Sx = log(count(x)) + Offset$ (где Offset это Fb или Pb).
Смешивание и Сортировка: Все элементы объединяются и сортируются по финальной оценке (Sx).

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Основные данные для ранжирования. Используются показатели популярности: View counts (количество просмотров), кликов, загрузок (downloads), установок (installation).
Пользовательские факторы: User browsing information (история поиска, история загрузок). User preference и user demographics также упоминаются как возможные факторы ранжирования.
Социальные факторы: Упоминается анализ social network generated tags, связанных с контентом.
Факторы классификации (Контентные/Технические): Данные, позволяющие отнести элемент к Parent Population (например, цена, тип контента).
Временные факторы: Recency (свежесть) упоминается как возможный дополнительный фактор ранжирования (Claim 9).
Факторы качества: Critical rating (оценки) и number of critical reviews (количество обзоров) упоминаются как дополнительные факторы (Claim 9).

Какие метрики используются и как они считаются

Geometric Mean (GM) популяции: Среднее геометрическое значение популярности элементов в Most Common Bucket. Используется как эталон типичной популярности для группы.
Adif (Разница GM): Разница между GM разных популяций. Определяет степень неравенства.
Offset (Смещение/Boost): Поправочный коэффициент, основанный на Adif.
Ranking Score (Sx): Финальная оценка ранжирования. Рассчитывается как логарифм популярности элемента плюс смещение его популяции.

Абсолютная популярность не является решающим фактором в смешанной выдаче: Патент демонстрирует, что Google активно нивелирует системные различия в метриках популярности (трафик, клики, загрузки) при сравнении разнородного контента.
Ключ к успеху — относительная популярность внутри популяции: Для ранжирования в смешанной выдаче критически важно быть популярнее своих прямых конкурентов в той же категории (Parent Population). Система нормализует оценки относительно этой категории.
Специфический механизм нормализации (GM и Offsets): Система использует статистический метод, основанный на сравнении Геометрических Средних (Geometric Means) наиболее типичных диапазонов популярности, для вычисления "буста" (Offset) для менее популярных категорий контента.
Компенсация для платного и нишевого контента: Механизм напрямую решает проблему доминирования бесплатного или массового контента, предоставляя компенсационный буст платному или нишевому контенту.
Важность правильной классификации: Корректное определение Parent Population контента критично, так как от этого зависит применение правильного коэффициента нормализации (Offset).

Best practices (это мы делаем)

Фокус на доминировании в своей категории (Population): Сосредоточьте усилия на том, чтобы стать лидером по сигналам качества и популярности именно внутри вашей специфической ниши или типа контента. Если ваш контент генерирует меньше трафика по своей природе (например, дорогие B2B продукты, платные приложения), этот алгоритм позволит вам конкурировать с высокотрафиковыми категориями, если вы лидер в своей группе.
Обеспечение четкой категоризации контента: Используйте структурированные данные (Schema.org), чтобы помочь Google правильно идентифицировать вашу Parent Population. Для товаров указывайте цену (Product/Offer), для контента — тип (VideoObject, Article). Это гарантирует применение корректного Offset.
Оптимизация в вертикалях и маркетплейсах: При работе с Google Shopping, Google Play, YouTube (если рассматривать разные жанры как популяции) фокусируйтесь на качестве, рейтингах и конверсиях внутри вашей категории, а не на абсолютных показателях просмотров конкурентов из других категорий.
Анализ конкурентов внутри популяции: При анализе SERP сравнивайте свои показатели (трафик, поведенческие факторы) именно с сайтами/элементами, которые принадлежат к вашей популяции, так как нормализация происходит относительно них.

Worst practices (это делать не надо)

Попытки конкурировать по абсолютным показателям с другой популяцией: Бессмысленно пытаться нагнать трафик на страницу нишевого продукта до уровня популярного информационного ресурса. Алгоритм нормализации нивелирует эту разницу.
Игнорирование категоризации или маскировка типа контента: Нечеткое позиционирование или попытки выдать платный контент за бесплатный могут привести к отнесению к неверной популяции и, как следствие, к потере необходимого повышающего коэффициента (Boost) при нормализации.
Оценка успеха по общим метрикам: Оценка эффективности SEO только по общему объему трафика без учета разделения на популяции может привести к неверным стратегическим решениям в нишах со смешанной выдачей.

Стратегическое значение

Патент подтверждает, что Google рассматривает поиск как набор разнородных популяций данных, а не как единый индекс. Это фундаментальный механизм для работы Универсального Поиска (Universal Search). Стратегия SEO должна строиться на принципе относительного лидерства: лучше доминировать в нишевой популяции, чем быть середняком в общей популяции, так как нормализация повышает значимость лидеров ниш при смешивании результатов.

Практические примеры

Сценарий: Ранжирование приложений в Google Play

Популяции: Система идентифицирует две популяции для запроса "фоторедактор": Бесплатные (Population F) и Платные (Population P).
Анализ популярности: Система анализирует загрузки. Most Common Bucket для F — 100k-1M загрузок. Для P — 1k-10k загрузок.
Расчет GM и Разницы: Вычисляются GMf и GMp. GMf значительно выше GMp. Система вычисляет разницу Adif.
Нормализация (Offset): Так как бесплатные популярнее, платные приложения получают Boost (Pb = Adif). Бесплатные получают Fb = 0.
Ранжирование:
- Приложение А (Бесплатное) имеет 500k загрузок. Его оценка: log(500k) + 0.
- Приложение Б (Платное) имеет 5k загрузок. Его оценка: log(5k) + Pb.
Результат: Благодаря добавлению Pb (Boost), нормализованная оценка Приложения Б может превысить оценку Приложения А, позволяя качественному платному приложению занять высокую позицию в общем смешанном списке, несмотря на в 100 раз меньшее абсолютное число загрузок.

Что такое "Популяция" (Population) в контексте этого патента?

Это группа элементов контента, объединенных общими свойствами, которые влияют на их статистическое распределение метрик. Классические примеры — это "бесплатный контент" и "платный контент". Также это могут быть результаты из разных вертикалей (видео, картинки, веб-страницы) или разные ценовые категории товаров.

Означает ли этот патент, что поведенческие факторы и трафик больше не важны?

Нет, они критически важны. Ранжирование по-прежнему основано на показателях популярности (просмотры, загрузки, клики). Однако патент показывает, что эти показатели нормализуются относительно вашей категории (популяции). Ваша цель — максимизировать эти показатели и обойти конкурентов внутри вашей группы, а не достичь абсолютных показателей другой, более популярной группы.

Как работает нормализация простыми словами?

Система определяет, насколько в среднем одна группа популярнее другой (например, бесплатные приложения в 100 раз популярнее платных). Затем она дает "фору" (Boost или Offset) менее популярной группе (платным приложениям), чтобы выровнять их оценки. Это позволяет лидерам из обеих групп конкурировать на равных в смешанной выдаче.

Что такое "Most Common Bucket" и зачем он нужен?

Это наиболее типичный диапазон популярности для данной категории (например, большинство платных игр имеют от 1000 до 10000 загрузок). Система использует этот диапазон как эталон для расчета средней популярности (Geometric Mean). Это позволяет понять типичное поведение в группе, игнорируя выбросы (супер-хиты или полные провалы).

Как этот патент влияет на SEO для обычных веб-сайтов (не приложений и не товаров)?

Принцип нормализации сигналов критически важен для понимания Universal Search (Метапоиска). Веб-страницы, Видео, Картинки, Новости — это тоже разные популяции с разными распределениями CTR и трафика. Чтобы ваш контент попал в смешанную выдачу, он должен быть конкурентоспособным внутри своей вертикали, а система нормализует его оценку для сравнения с другими вертикалями.

Как я могу определить, к какой популяции Google относит мой контент?

Патент не описывает механизм классификации, но на практике это определяется через тип контента, модель монетизации (цена в structured data), тематику и интент запроса. Необходимо обеспечить максимально четкое сигнализирование о типе и назначении вашего контента через разметку (Schema.org) и структуру сайта.

Получает ли менее популярная популяция всегда буст?

Да, согласно описанному алгоритму. Система вычисляет разницу между средними показателями популярности (Geometric Means). Эта разница становится повышающим коэффициентом (Offset или Boost) для менее популярной группы. Более популярная группа получает нулевое смещение.

Зачем используется логарифм популярности (log(x)) в финальной формуле?

Использование логарифма (log(count(x))) сглаживает влияние больших чисел. В логарифмической шкале разница между 10 и 100 просмотрами гораздо важнее, чем разница между 1,000,000 и 1,000,100. Это позволяет сосредоточиться на порядке величины, а не на абсолютной разнице.

В патенте упоминается и Geometric Mean (Claim 1), и Median (Claim 8). Что именно используется?

Патент описывает вариативность. Основной и детально описанный механизм в Claim 1 использует Geometric Mean (GM) самой распространенной корзины. Однако упоминание медианы (Median) в других пунктах предполагает, что система может использовать разные статистические меры для определения центра распределения и последующей нормализации.

Как этот патент влияет на стратегию в E-commerce и Google Shopping?

Он имеет прямое влияние. Товары разных ценовых категорий или разных брендов могут рассматриваться как разные популяции. Чтобы дорогой нишевый товар ранжировался рядом с дешевым массовым товаром, он должен демонстрировать сильные сигналы качества и популярности именно в своей категории. Нормализация компенсирует разницу в общем объеме продаж.

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google нормализует оценки мобильных приложений и ранжирует их вместе с веб-сайтами в единой выдаче

Google использует механизм для сравнения и совместного ранжирования веб-страниц и нативных мобильных приложений. Поскольку оценки для веба и приложений рассчитываются по разным шкалам, система нормализует оценки приложений, приводя их к единой шкале с веб-результатами. Это позволяет Google формировать унифицированную поисковую выдачу (Universal Search), включающую как ссылки на сайты, так и контент из приложений (Deep Links).

US8996520B2
2015-03-31

SERP

Как Google управляет разнообразием и персонализацией в лентах контента (например, Discover), балансируя категории контента

Google использует систему для управления лентами контента (например, Google Discover). Различные серверы агрегируют контент в тематические блоки (Aggregated Content Data Structures) и оценивают их. Затем сервер смешивания выбирает эти блоки, активно балансируя их категории: он повышает оценки блоков из недопредставленных категорий и понижает из слишком частых, чтобы обеспечить заданное разнообразие и соответствие интересам пользователя.

US10129309B2
2018-11-13

Персонализация
Поведенческие сигналы

Как Google (YouTube) ранжирует рекомендуемые видео, балансируя релевантность, монетизацию и вероятность просмотра рекламы

Google использует систему для ранжирования рекомендуемых (дополнительных) видео на платформах типа YouTube. Система учитывает не только релевантность и потенциал монетизации видео, но и «экспериментальные данные» о том, как пользователи взаимодействуют с рекламой в этом видео. Цель — показывать видео, где пользователи с большей вероятностью досмотрят рекламу, максимизируя доход и минимизируя отток пользователей.

US9405775B1
2016-08-02

Мультимедиа
Поведенческие сигналы

Как Google повышает ранжирование каналов на основе позиций их контента в результатах поиска

Google использует механизм для улучшения видимости «Каналов» (например, каналов YouTube) в поиске на контент-платформах. Система гарантирует присутствие определенного числа каналов в выдаче, а затем агрессивно повышает ранжирование канала, если его отдельные единицы контента (например, видео) уже занимают высокие позиции по данному запросу. Это достигается путем расчета совокупной оценки канала на основе позиций его контента.

US9348922B2
2016-05-24

SERP
Мультимедиа

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

US9767157B2
2017-09-19

Семантика и интент
Техническое SEO
EEAT и качество

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним

Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.

US9235625B2
2016-01-12

Ссылки
Поведенческие сигналы
Мультимедиа

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи

Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.

US9256685B2
2016-02-09

Персонализация
Поведенческие сигналы
SERP

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи

Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.

US7996379B1
2011-08-09

Семантика и интент
Ссылки
SERP