Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных

RICH RESULTS RELEVANT TO USER SEARCH QUERIES FOR BOOKS (Обогащенные результаты, релевантные поисковым запросам пользователей о книгах)

US8577897B2
Google LLC
2011-10-26
2013-11-05

Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.

Какую проблему решает

Патент решает задачу предоставления пользователю консолидированной информации о конкретной сущности (в данном случае, книге), когда его запрос направлен на поиск этой сущности. Система стремится предоставить единый «обогащенный результат» (Rich Result), агрегируя разрозненные данные из нескольких источников (корпусов). Кроме того, патент решает проблему качества и согласованности данных, предлагая механизм исправления информации на основе консенсуса, найденного в веб-ресурсах.

Что запатентовано

Запатентована система и метод для выборочного запуска и генерации обогащенных результатов в ответ на запросы о публикациях. Ключевым механизмом является триггер, основанный на доминировании оценки релевантности (score) первого результата поиска над остальными. Если доминирование достаточно велико (превышает порог), система генерирует Rich Result, агрегируя данные из разных корпусов (Книги, Веб, Товары) и применяя механизм коррекции данных на основе консенсуса информации в вебе.

Как это работает

Офлайн-подготовка: Система кластеризует записи о книгах (Clustering Engine) и ассоциирует веб-страницы с этими книгами (Web Association Engine).
Обработка запроса: Система получает запрос и проводит поиск в корпусе книг.
Триггер (Score Dominance): Система проверяет, насколько оценка релевантности первого результата превышает оценки следующих. Если порог превышен (высокая уверенность в интенте), активируется генерация Rich Result. Также могут проверяться дополнительные условия (наличие сниппета, цен).
Агрегация данных: Система выполняет дополнительные поиски в Веб-корпусе и Товарном корпусе (например, по ISBN), чтобы собрать метаданные, цены и связанные ссылки.
Коррекция данных (Data Correction): Rich Result Engine сравнивает варианты данных (например, написание названия или автора) из разных корпусов и выбирает «наиболее популярный вариант» (most popular variant) из веб-ресурсов.
Отображение: Пользователю предоставляется Rich Result вместе со стандартными результатами поиска.

Актуальность для SEO

Высокая. Патент описывает фундаментальные механизмы работы с сущностями, агрегации данных и формирования обогащенных результатов (включая элементы Knowledge Panel). Принципы определения интента по доминированию результата и использование консенсуса веба для валидации и коррекции структурированных данных критически важны в современном семантическом поиске и развитии Knowledge Graph.

Важность для SEO

Патент имеет высокое стратегическое значение (8.5/10). Он демонстрирует, как Google использует данные со всего интернета для формирования и валидации информации о сущностях. Для SEO это подчеркивает критическую важность согласованности и распространенности данных о бренде/продукте/сущности (Consistency) во всем вебе. Google полагается на консенсус веба для определения истины, что делает управление данными на внешних ресурсах ключевым элементом Entity SEO.

Термины и определения

Books Corpus (Корпус книг): Специализированная база данных или индекс, содержащий цифровые ресурсы, относящиеся к книгам и другим публикациям.
Clustering Engine (Механизм кластеризации): Компонент, который группирует несколько ресурсов или записей метаданных, относящихся к одной и той же публикации, используя пересекающуюся информацию (например, Title, Author, ISBN).
Confidence Value (Показатель уверенности): Метрика, используемая Web Association Engine, показывающая вероятность того, что веб-ресурс ссылается на конкретную книгу.
Products Corpus (Корпус товаров): База данных, содержащая информацию о товарах, включая цены и продавцов. Используется для получения информации о стоимости книги, часто по ISBN.
Rich Result (Обогащенный результат): Форматированное представление контента, релевантного запросу, которое содержит информацию из нескольких источников (корпусов). В контексте патента — детальный блок о книге.
Rich Result Engine (Механизм обогащенных результатов): Компонент, который определяет необходимость запуска Rich Result и отвечает за коррекцию данных путем сравнения информации из разных корпусов.
Topicality Value (Показатель тематичности): Метрика, используемая Web Association Engine, показывающая степень, в которой веб-сайт посвящен конкретной книге (например, обзор имеет высокую тематичность, а список бестселлеров — низкую).
Web Association Engine (Механизм веб-ассоциаций): Компонент, который идентифицирует веб-ресурсы (в Web Corpus), которые упоминают публикацию или связаны с ней.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс генерации обогащенного результата для поиска книг.

Система получает запрос на поиск публикации (поиск в corpus of digital book resources).
Получаются результаты поиска публикаций.
Определяется, удовлетворяет ли оценка (score) первого результата пороговому значению относительно оценок других результатов. Это условие определяет, будет ли показан Rich Result.
Если ДА, система ищет в corpus of web resources, используя данные первого результата, чтобы найти веб-ресурсы, ссылающиеся на эту книгу.
Генерируется Rich Result, включающий данные из первого результата и данные из найденных веб-ресурсов (цены, ссылки, сниппет, авторы).
Rich Result предоставляется вместе с другими результатами поиска.

Claim 2, 3 (Зависимые): Уточняют условие срабатывания триггера (Score Dominance).

Порог считается достигнутым, если оценка первого результата как минимум в пороговое кратное число раз (threshold multiple) превышает оценку результата, занимающего второе, третье или четвертое место в ранжировании. Это указывает на высокую уверенность системы в интенте пользователя.

Claim 6 (Зависимый): Детализирует получение информации о ценах.

Система получает результаты из products corpus, используя ISBN книги, и определяет цену на основе этих результатов.

Claim 8 и 9 (Зависимые): Детализируют механизм коррекции данных (Data Correction).

Генерация Rich Result включает определение того, является ли элемент данных из первого результата поиска некорректным, используя веб-ресурсы (Claim 8). Процесс коррекции (Claim 9) включает:

Получение нескольких вариантов (multiple variants) элемента данных из веб-ресурсов.
Определение «наиболее популярного варианта» (most popular variant) на основе частоты его появления.
Если исходные данные не совпадают с наиболее популярным вариантом, они заменяются на этот популярный вариант.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя офлайн-процессы для подготовки данных и онлайн-процессы для генерации выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы:

Clustering: Clustering Engine анализирует Books Corpus, чтобы сгруппировать разные записи об одной и той же книге.
Web Association: Web Association Engine анализирует Web Corpus и ассоциирует веб-страницы с конкретными книгами, рассчитывая Confidence Value и Topicality Value.

RANKING – Ранжирование
Система выполняет поиск в специализированном индексе (Books Corpus) и рассчитывает оценки релевантности (scores) для результатов.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента:

Оценка доминирования: Система анализирует результаты этапа RANKING и проверяет, доминирует ли первый результат над остальными (триггер).
Активация Rich Result: Если доминирование обнаружено и дополнительные условия выполнены, активируется Rich Result Engine.
Параллельные поиски (Aggregation): Система инициирует дополнительные поиски в Web Corpus и Products Corpus.
Коррекция данных (Data Correction): Система использует данные из разных корпусов для валидации и исправления метаданных (выбор most popular variant).
Формирование SERP: Rich Result формируется и встраивается в страницу результатов.

Входные данные:

Запрос пользователя.
Данные из Books Corpus, Web Corpus, Products Corpus.
Результаты офлайн-кластеризации и веб-ассоциаций.

Выходные данные:

Обогащенный результат (Rich Result) с агрегированными и скорректированными данными о сущности.

На что влияет

Конкретные типы контента: Влияет на отображение информации о четко определенных сущностях (книги, продукты, фильмы, организации). Влияет на издателей, авторов, сайты отзывов и интернет-магазины.
Специфические запросы: Наибольшее влияние на запросы с четким интентом поиска конкретной сущности (навигационные или объектные запросы).

Когда применяется

Алгоритм применяется только при выполнении строгого набора условий:

Триггер уверенности (Score Dominance): Когда оценка релевантности (Score) первого результата значительно превышает последующие (например, в 10 раз выше). Это указывает на высокую уверенность системы в том, что пользователь ищет именно эту сущность.
Наличие данных (Data Availability): Когда для сущности доступны дополнительные данные (как описано в FIG. 4):
- Приемлемый сниппет (Snippet acceptable).
- Информация о ценах (Prices available).
- Связанные информационные страницы (Information pages available).

Если эти данные отсутствуют, Rich Result не будет показан, даже если порог уверенности достигнут.

Пошаговый алгоритм

Процесс А: Офлайн-подготовка данных

Кластеризация ресурсов (Clustering): Clustering Engine обрабатывает Books Corpus. Записи метаданных с пересекающейся информацией (Title, Author, ISBN) группируются.
Ассоциация веб-ресурсов (Web Association): Web Association Engine анализирует Web Corpus. Для веб-страниц рассчитываются Confidence Value и Topicality Value. Если значения превышают пороги, веб-ресурс аннотируется связью с книгой.

Процесс Б: Обработка запроса в реальном времени

Получение запроса и ранжирование: Система получает запрос и вычисляет оценки (scores) для результатов из Books Corpus.
Проверка триггера (Score Dominance): Проверяется, превышает ли оценка первого результата оценки последующих в пороговое количество раз.
- Если НЕТ: Вернуть стандартные результаты.
Проверка наличия данных (Data Availability): Проверяется наличие приемлемого сниппета, цен и информационных страниц.
- Если НЕТ: Вернуть стандартные результаты.
- Если ДА (все условия выполнены): Активировать генерацию Rich Result.
Генерация веб-результатов: Система получает связанные веб-ресурсы.
Генерация товарных результатов: Система получает данные из Products Corpus (например, используя ISBN) для извлечения цен.
Коррекция данных (Data Correction): Rich Result Engine сравнивает метаданные из Books Corpus с вариантами из Web Corpus. Выбирается most popular variant для использования в Rich Result.
Формирование и отправка: Rich Result собирается и отправляется клиенту.

Какие данные и как использует

Данные на входе

Система использует данные из трех основных корпусов:

Books Corpus (Структурированные данные):

Контентные/Структурные факторы: Название, Автор, Год публикации, Количество страниц, Сниппет/Синопсис, Обложка.
Технические факторы: ISBN (International Standard Book Number).

Web Corpus (Неструктурированные данные):

Контентные факторы: Текст веб-страниц, анализируемый для определения связи с книгой и извлечения вариантов метаданных (для коррекции).
Ссылочные факторы: Ссылки на связанные сайты (Related websites), сайты издателей, сайты отзывов.

Products Corpus (Коммерческие данные):

Коммерческие факторы: Цена (Price), Продавцы (Sellers).

Какие метрики используются и как они считаются

Score (Оценка релевантности): Стандартная оценка релевантности результата запросу.
Threshold Multiple (Пороговый множитель): Используется для определения доминирования. Триггер срабатывает, если Score(Result 1) > Threshold Multiple * Score(Result N). В патенте упоминается пример множителя 10.
Confidence Value: Вероятностная оценка того, что веб-ресурс ссылается на книгу.
Topicality Value: Оценка того, насколько веб-ресурс посвящен книге.
Most Popular Variant (Наиболее популярный вариант): Метрика для коррекции данных. Определяется путем подсчета частоты встречаемости различных вариантов элемента данных в Web Corpus.

Триггеры уверенности для SERP Features: Google использует конкретные триггеры для определения, когда запрос относится к сущности. Механизм «доминирования оценки» (Score Dominance) является ключевым индикатором уверенности системы в интенте пользователя для активации Rich Results.
Агрегация из разных корпусов (Cross-Corpora Aggregation): Для формирования полного ответа о сущности Google активно агрегирует данные из специализированных вертикальных индексов (Книги, Товары) и общего Веб-индекса.
Консенсус веба как источник истины (Data Correction): Критически важный вывод. Google использует Web Corpus для валидации и исправления данных из структурированных источников (Books Corpus). Система предпочитает most popular variant данных из веба, считая его более надежным. Это механизм самокоррекции Knowledge Graph.
Важность внешних ассоциаций и авторитета: Система использует метрики Confidence и Topicality для определения того, какие внешние ресурсы будут использованы для формирования Rich Result или получат в нем ссылки (Related Websites).
Значение структурированных идентификаторов: Идентификаторы, такие как ISBN (или GTIN), играют критическую роль в связывании данных между разными корпусами (например, для получения цен).

Best practices (это мы делаем)

Обеспечение согласованности данных (Entity Consistency): Критически важно поддерживать согласованность информации о ваших ключевых сущностях (продуктах, брендах, авторах) по всему интернету (сайты, каталоги, Википедия). Поскольку Google ищет most popular variant для коррекции своих данных, необходимо, чтобы этот популярный вариант был корректным и доминирующим.
Использование уникальных идентификаторов и микроразметки: Активно используйте стандартные идентификаторы (ISBN, GTIN) и разметку Schema.org (Product, Book, Organization). Это помогает Google связывать данные между разными корпусами (например, использовать ISBN для поиска цен в Products Corpus).
Стимулирование авторитетных упоминаний и обзоров: Работайте над тем, чтобы авторитетные и тематические сайты писали о ваших сущностях. Web Association Engine ищет ресурсы с высокими показателями Confidence и Topicality. Качественные обзоры повышают вероятность использования данных в Rich Result и включения сайта в связанные ресурсы.
Мониторинг и коррекция внешних данных: Регулярно отслеживайте, какая информация о ваших сущностях присутствует в вебе. При обнаружении ошибок на авторитетных ресурсах старайтесь их исправить, чтобы не допустить формирования неверного консенсуса.
Присутствие в товарных агрегаторах: Для коммерческих сущностей важно передавать данные в Google Merchant Center. Отсутствие цен в Products Corpus может заблокировать показ Rich Result.

Worst practices (это делать не надо)

Игнорирование данных на внешних площадках: Фокусироваться только на собственном сайте и игнорировать некорректную информацию о вашем бренде/продукте на других ресурсах. Это может привести к тому, что Google примет неверный вариант как истинный (most popular variant).
Публикация противоречивых данных: Использование разных вариантов написания названия компании или характеристик продукта в разных источниках. Это затрудняет кластеризацию и может привести к ошибкам в Rich Result.
Создание поверхностного контента: Создание страниц, которые упоминают сущность, но не посвящены ей (низкая Topicality). Такие страницы вряд ли будут использованы системой для формирования Rich Result.

Стратегическое значение

Этот патент имеет важное стратегическое значение для Entity SEO. Он демонстрирует переход от простого извлечения данных к их валидации через консенсус веба. Стратегия SEO должна включать управление присутствием сущности во всем интернете, а не только на собственном сайте. Создание согласованного и авторитетного информационного следа является фундаментом для корректного отображения в Knowledge Graph и других обогащенных результатах. Google полагается на веб как на механизм самоочистки данных.

Практические примеры

Сценарий 1: Коррекция названия компании/продукта через консенсус веба

Ситуация: Компания провела ребрендинг с «Старое Название» на «Новое Название» и обновила свой сайт. Однако в Knowledge Panel все еще отображается «Старое Название».
Анализ (по патенту): Rich Result Engine анализирует Web Corpus. Он находит 5000 упоминаний «Старое Название» (в старых новостях, каталогах) и только 200 упоминаний «Новое Название».
Действие Google: Система определяет «Старое Название» как most popular variant и использует его.
Действия SEO-специалиста: Необходимо инициировать кампанию по обновлению информации на всех внешних площадках (СМИ, каталоги, партнеры, Википедия), чтобы увеличить количество упоминаний «Новое Название». Цель — сделать корректный вариант наиболее популярным в вебе.

Сценарий 2: Блокировка Rich Result из-за отсутствия цены

Ситуация: Пользователь ищет новый продукт. Google уверен в результате (Score Dominance достигнут).
Проверка триггеров: Система проверяет наличие сниппета (Есть) и информационных страниц (Есть).
Проверка Products Corpus: Система пытается найти цены (например, по GTIN), но продукт еще не загружен в Google Merchant Center. Цены недоступны.
Результат: Условие Prices available не выполнено. Rich Result не отображается.
Действия SEO-специалиста: Обеспечить своевременную передачу данных о продукте и ценах в товарные агрегаторы до запуска продукта.

Что является главным условием для показа обогащенного результата (Rich Result) согласно патенту?

Основным триггером является высокая степень уверенности системы в интенте пользователя. Это определяется математически: оценка ранжирования (Score) первого результата должна значительно (например, в 10 раз) превышать оценки последующих результатов (Score Dominance). Это гарантирует, что Rich Result показывается только при очень точном соответствии запроса конкретной сущности.

Что произойдет, если порог уверенности достигнут, но данных о сущности мало?

Даже если порог уверенности достигнут, патент описывает дополнительные обязательные условия. Система должна найти приемлемый сниппет, информацию о ценах в Products Corpus и связанные информационные страницы в Web Corpus. Если хотя бы одно из этих условий не выполняется, обогащенный результат показан не будет.

Как работает механизм «коррекции данных» (Data Correction)?

Это процесс валидации информации. Система сравнивает данные из структурированных источников (например, Books Corpus) с тем, как эта информация представлена в интернете (Web Corpus). Если существуют разные варианты написания (например, названия или имени автора), система анализирует частоту их использования и выбирает «наиболее популярный вариант» (most popular variant). Веб-консенсус используется для исправления потенциальных ошибок.

Какое это имеет значение для Entity SEO и Knowledge Graph?

Критическое. Это означает, что Google использует консенсус веба как источник истины для валидации данных в Knowledge Graph. Для SEO важно управлять информацией о сущности по всему интернету, обеспечивая согласованность и преобладание корректных данных, чтобы Google принял правильную версию.

Что делать, если Google показывает неверную информацию о моем продукте или компании в обогащенном результате?

Необходимо проанализировать, какая информация преобладает в интернете. Если на большинстве авторитетных сайтов указана неверная информация, Google примет ее как most popular variant. Нужно работать над исправлением данных на внешних ресурсах (СМИ, каталоги, Википедия), чтобы сформировать новый, корректный консенсус.

Что такое Confidence Value и Topicality Value?

Это метрики, используемые Web Association Engine для оценки веб-страниц. Confidence Value — вероятность того, что страница ссылается на данную сущность. Topicality Value — степень того, насколько страница посвящена именно этой сущности (обзор имеет высокую Topicality, упоминание в списке — низкую). Они важны для выбора качественных связанных сайтов для Rich Result.

Как повысить шансы моего сайта появиться в ссылках внутри обогащенного результата?

Ваш сайт должен быть тесно ассоциирован с сущностью и иметь высокие показатели Topicality. Создавайте подробный, авторитетный контент о сущности (например, официальный сайт продукта, подробный обзор). Это увеличивает вероятность того, что Web Association Engine идентифицирует ваш сайт как релевантный.

Какова роль ISBN или других идентификаторов (GTIN) в этом процессе?

Идентификаторы критически важны для связывания данных между разными системами. Например, Google использует ISBN/GTIN, чтобы найти информацию о сущности в основном корпусе, а затем использует тот же идентификатор для запроса цен в Products Corpus. Использование корректных идентификаторов и микроразметки обязательно.

Применяется ли этот патент только к книгам?

Патент описан на примере книг (Books Corpus), но описанные механизмы — триггер по доминированию результата, агрегация данных из разных корпусов и коррекция данных на основе консенсуса веба — являются универсальными принципами работы Google с любыми сущностями (продукты, организации, люди).

Что такое Clustering Engine и зачем он нужен?

Clustering Engine работает офлайн и решает задачу объединения разрозненной информации об одной и той же сущности из разных источников. Он анализирует пересечения в метаданных (название, автор, ISBN), чтобы понять, что разные записи относятся к одной сущности. Это основа для последующей агрегации данных.

Как Google распознает, согласовывает и упорядочивает сериализованный контент (книги, фильмы) из разрозненных источников

Google использует алгоритмы для анализа информации о контенте (например, книгах, фильмах, сериалах) из множества источников. Система создает записи, кластеризует их для выявления серий, определяет канонические названия серий и отдельных произведений, а затем упорядочивает их последовательность. Это позволяет структурировать разрозненные и противоречивые данные для улучшения поисковой выдачи и формирования Графа Знаний.

US9244919B2
2016-01-26

Knowledge Graph
Семантика и интент
Индексация

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

US8122026B1
2012-02-21

Семантика и интент
Ссылки
Knowledge Graph

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google использует кластеризацию контента и результаты поиска для определения авторства и формирования профилей сущностей

Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.

US9400789B2
2016-07-26

Knowledge Graph
Семантика и интент
SERP

Как Google использует статистический анализ текста для автоматического сопоставления отсканированных книг с библиотечными каталогами (Google Books)

Патент описывает инфраструктурный процесс Google для каталогизации оцифрованных документов (Google Books). Система статистически сравнивает текст книги, полученный через OCR (особенно страницу авторских прав), с базой библиотечных метаданных. Используя вероятностный анализ, который придает больший вес редким терминам, система находит наилучшее совпадение и связывает структурированные данные (автор, название, ISBN) с отсканированным контентом.

US8510312B1
2013-08-13

Индексация

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует социальные связи для выявления предвзятых ссылок и борьбы со ссылочными схемами и кликфродом

Google анализирует взаимоотношения между администраторами веб-сайтов (используя данные социальных сетей), чтобы определить независимость ссылок или кликов по рекламе. Если обнаружена тесная связь, это интерпретируется как предвзятость (Bias). В результате вес ссылки для ранжирования может быть снижен (борьба с Search Spamming), или клик по рекламе может быть дисконтирован (борьба с Ad Spamming).

US10402457B1
2019-09-03

Ссылки
Антиспам
Краулинг

Как Google использует механизм «Pull-Push» для валидации ссылок через трафик и время вовлечения (Dwell Time)

Google использует механизм «Pull-Push» для борьбы с искусственными ссылками, анализируя соотношение между количеством ссылок и реальными кликами по ним. Если ссылки не генерируют пропорциональный трафик (с учетом времени вовлечения), они обесцениваются. Сайты, которые систематически ставят такие ссылки, классифицируются как «неквалифицированные источники», и их исходящие ссылки дисконтируются при ранжировании.

US9558233B1
2017-01-31

Ссылки
Поведенческие сигналы
Антиспам

Как Google использует данные сессий и разнообразие результатов для генерации блока "Связанные запросы"

Google анализирует поисковые сессии пользователей, чтобы найти запросы, которые часто следуют за одним и тем же предшествующим запросом (родственные запросы). Затем система фильтрует эти потенциальные "Связанные запросы", чтобы убедиться, что они предлагают разнообразные результаты по сравнению с исходным запросом и другими предложениями, помогая пользователям исследовать смежные, но отличные темы.

US8244749B1
2012-08-14

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи

Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.

US8538970B1
2013-09-17

Персонализация
Поведенческие сигналы
SERP

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа