Как Google использует поиск для сопоставления отзывов о товарах, у которых нет уникальных идентификаторов (GTIN, UPC)

AGGREGATING PRODUCT REVIEW INFORMATION FOR ELECTRONIC PRODUCT CATALOGS (Агрегирование информации об отзывах о продуктах для электронных каталогов продуктов)

US20120254158A1
Google LLC
2011-09-12
2012-10-04

Google использует механизм для агрегации отзывов о товарах в свой продуктовый каталог (например, Google Shopping). Если в отзыве отсутствует уникальный идентификатор товара (GTIN, UPC), система извлекает ключевую информацию (например, название товара), выполняет поиск в интернете и анализирует результаты выдачи. Найдя наиболее вероятный идентификатор в результатах поиска, Google связывает отзыв с соответствующим товаром в каталоге.

Какую проблему решает

Патент решает проблему точного сопоставления и агрегации отзывов о продуктах в крупномасштабном электронном каталоге (например, Google Shopping), когда исходные данные об отзывах не содержат стандартизированных уникальных идентификаторов продукта (таких как GTIN, UPC, MPN). Это улучшает полноту и качество данных о товарах, позволяя системе связывать разрозненные отзывы, полученные из разных источников (веб-краулинг, фиды), с конкретными товарными позициями.

Что запатентовано

Запатентована система и метод для идентификации продуктов в отзывах, не имеющих явных идентификаторов. Суть изобретения заключается в использовании поисковой системы для разрешения неоднозначности. Система извлекает информацию из отзыва (например, заголовок), использует ее как поисковый запрос, а затем анализирует полученные результаты поиска (SERP) для обнаружения потенциальных идентификаторов продукта. Найденные идентификаторы оцениваются для выбора наиболее релевантного.

Как это работает

Система работает следующим образом:

Получение данных: Система собирает отзывы о продуктах из различных источников.
Проверка идентификатора: Для каждого отзыва проверяется наличие известного уникального идентификатора (product identifier).
Извлечение и Нормализация: Если идентификатор отсутствует, система извлекает ключевую информацию (например, название продукта из заголовка отзыва) и нормализует ее (например, удаляя стоп-слова, выделяя бренды).
Поиск: Нормализованная информация используется как запрос для выполнения поиска в интернете.
Анализ SERP и Идентификация: Система анализирует результаты поиска на предмет наличия идентификаторов продуктов.
Разрешение неоднозначности: Если найдено несколько идентификаторов, система выбирает наиболее вероятный, используя такие метрики, как частота встречаемости идентификатора в SERP или ранг страниц, на которых он найден.
Ассоциация: Отзыв добавляется в Product Catalog и связывается с идентифицированным продуктом.

Актуальность для SEO

Высокая. Проблема агрегации данных и разрешения сущностей (Entity Resolution) является фундаментальной и постоянно актуальной для Google, особенно в контексте E-commerce и Google Shopping. Хотя конкретные методы анализа SERP могли эволюционировать с развитием NLP и ML, описанный базовый подход — использование поиска для нахождения идентификаторов в неструктурированных данных — остается критически важным для масштабирования продуктового каталога.

Важность для SEO

Патент имеет высокое значение для SEO в E-commerce (7.5/10). Он раскрывает, как Google обрабатывает и сопоставляет отзывы с товарами. Понимание этого механизма критически важно для обеспечения того, чтобы отзывы корректно атрибутировались к продуктам в Google Shopping. Кроме того, патент подчеркивает важность наличия и видимости уникальных идентификаторов (GTIN, MPN) на страницах товаров, так как именно эти страницы используются Google в качестве источника истины для идентификации продуктов в отзывах.

Термины и определения

Product Catalog (Каталог продуктов): База данных или структура данных, содержащая информацию о продуктах от одного или нескольких продавцов. Включает идентификаторы продуктов, описания, цены, изображения и агрегированные отзывы.
Product Identifier (Идентификатор продукта): Уникальный идентификатор продукта. Примеры включают GTIN (Global Trade Item Number), UPC (Universal Product Code), MPN (Manufacturer's Part Number), ISBN, EAN, JAN, а также комбинацию бренда и номера модели.
Product Review (Отзыв о продукте): Информация, включающая комментарии, рейтинги, мнения или личный опыт использования продукта, полученная из внешних источников (краулинг, фиды) или от пользователей.
Analysis Module (Модуль анализа): Компонент системы, отвечающий за анализ отзывов, определение наличия идентификаторов, извлечение информации для поиска и анализ результатов поиска для идентификации продукта.
Receiver Module (Модуль приема): Компонент системы, отвечающий за получение данных о продуктах и отзывах (например, через фиды, краулинг, screen scraping).
Normalized Information (Нормализованная информация): Информация, извлеченная из отзыва (например, заголовок) и обработанная для использования в качестве поискового запроса (например, удаление лишних слов, выделение брендов).
Confidence Value (Оценка уверенности): Метрика, присваиваемая потенциальным идентификаторам, найденным в результатах поиска, для определения наиболее вероятного соответствия.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод агрегации отзывов, включающий процесс идентификации продукта через поиск.

Система получает информацию об отзыве о продукте.
Определяется, содержит ли эта информация product identifier.
Если НЕТ (информация НЕ содержит идентификатор):
- Инициируется поиск с использованием части полученной информации (например, заголовка отзыва).
- Анализируются результаты поиска (SERP) для идентификации product identifier для данного отзыва.
- Если идентификатор найден, информация об отзыве добавляется в electronic product catalog и ассоциируется с этим идентификатором.

Claim 3 (Зависимый от 1): Уточняет, что перед поиском извлеченная информация нормализуется (normalizing).

Claim 9 (Зависимый от 1): Детализирует процесс анализа результатов поиска при обнаружении нескольких потенциальных идентификаторов.

Идентифицируется несколько потенциальных product identifiers в результатах поиска.
Определяется, какой из них встречается наиболее часто (occurs most often).
Идентификатор, встречающийся наиболее часто, выбирается как product identifier для отзыва.

Claim 12 (Зависимый от 1): Предлагает альтернативный метод выбора идентификатора на основе ранжирования.

Идентифицируется несколько потенциальных product identifiers.
Определяется ранг, ассоциированный с каждым идентификатором, на основе ранга соответствующих результатов поиска (страниц в SERP), где они были найдены.
Идентификатор с лучшим рангом (better rank) выбирается как product identifier для отзыва.

Claim 13 (Зависимый от 1): Уточняет процесс поиска.

Идентифицируется название бренда (brand name) в заголовке отзыва.
Этот бренд выделяется или подчеркивается (emphasizing) при выполнении поиска.

Где и как применяется

Изобретение применяется на этапах сбора и индексирования данных для формирования продуктового каталога (например, Google Shopping).

CRAWLING – Сканирование и Сбор данных
На этом этапе Receiver Module собирает отзывы о продуктах. Это может происходить путем сканирования сайтов продавцов, специализированных сайтов с отзывами, форумов или через получение электронных фидов (electronic feed).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Analysis Module обрабатывает собранные отзывы для их включения в Product Catalog. Это включает в себя:

Entity Resolution (Разрешение сущностей): Определение, к какому конкретному продукту относится отзыв.
Data Cleaning and Normalization: Обработка текста отзыва для извлечения названия продукта и его нормализация.
Identifier Discovery: Использование поисковой системы (вероятно, основного индекса Google) для нахождения идентификатора продукта, если он отсутствует в отзыве.
Data Aggregation: Связывание отзыва с продуктом в каталоге.

Входные данные:

Сырые данные отзывов (текст, заголовок, возможно, указание бренда/модели).
Существующий Product Catalog с известными идентификаторами.
Доступ к поисковой системе и ее индексу.

Выходные данные:

Отзывы, добавленные в Product Catalog.
Установленная связь между отзывом и уникальным Product Identifier.

На что влияет

Конкретные типы контента: В первую очередь влияет на отзывы о продуктах (Product Reviews) и страницы продуктов в электронных каталогах (например, Google Shopping).
Конкретные ниши или тематики: Наибольшее влияние оказывается на E-commerce, особенно в категориях, где товары имеют стандартизированные идентификаторы (электроника, бытовая техника, книги (ISBN) и т.д.).
Точность данных в Google Shopping: Влияет на то, насколько корректно отзывы и рейтинги отображаются для конкретных товаров.

Когда применяется

Алгоритм идентификации через поиск активируется при выполнении следующих условий:

Триггер активации: Система обрабатывает новый отзыв о продукте.
Условие срабатывания: В данных отзыва отсутствует явный уникальный Product Identifier (GTIN, UPC и т.д.).
Исключения: Если извлеченная из отзыва информация слишком короткая или общая (например, заголовок "Не покупайте эту камеру"), система может отбросить (discard) отзыв, не пытаясь найти идентификатор. Также отзыв может быть отброшен, если Confidence Value для найденных идентификаторов слишком низкая.

Пошаговый алгоритм

Процесс А: Агрегация отзывов

Поддержание каталога: Система поддерживает Product Catalog с информацией о множестве продуктов и их идентификаторах.
Получение отзывов: Receiver Module получает новые отзывы о продуктах.
Проверка идентификатора: Analysis Module определяет, содержит ли каждый отзыв Product Identifier.
Обработка отзывов БЕЗ идентификатора: Если идентификатор отсутствует, переходит к Процессу Б.
Обработка отзывов С идентификатором: Если идентификатор присутствует, отзыв добавляется в каталог и ассоциируется с соответствующим продуктом (переход к шагу 6).
Добавление в каталог: Отзывы (с найденными или исходными идентификаторами) добавляются в Product Catalog и связываются с соответствующими продуктами.

Процесс Б: Идентификация продукта для отзыва (Детализация шага 4 Процесса А)

Извлечение информации: Analysis Module извлекает ключевую информацию из отзыва (например, заголовок отзыва или название продукта, упомянутое в тексте).
Нормализация: Извлеченная информация нормализуется. Удаляются ненужные слова. Может происходить выделение (emphasizing) названий брендов или производителей.
Выполнение поиска: Система инициирует поиск (например, в интернете), используя нормализованную информацию в качестве запроса. К запросу могут добавляться уточняющие термины (например, "UPC номер").
Получение результатов: Система получает результаты поиска (SERP).
Поиск идентификаторов в SERP: Analysis Module анализирует результаты поиска (например, топ-50) на предмет наличия потенциальных Product Identifiers (проверка формата данных и сверка со списком известных идентификаторов).
Обработка результатов идентификации:
- Если идентификаторы НЕ найдены: Система может вернуться к шагу 1 для извлечения другой информации из отзыва или отбросить отзыв.
- Если найден ОДИН идентификатор: Он может быть принят как идентификатор для отзыва (возможно, после дополнительной валидации).
- Если найдено НЕСКОЛЬКО идентификаторов: Переход к шагу 7.
Разрешение неоднозначности (Анализ): Система определяет, какой из найденных идентификаторов является корректным. Используются методы:
- Подсчет частоты встречаемости (number of occurrences) каждого идентификатора в SERP.
- Анализ ранга (rank) результатов поиска, содержащих идентификаторы.
- Анализ расстояния (distance) между поисковыми словами и идентификатором в тексте результатов поиска.
Выбор идентификатора: Выбирается идентификатор с наибольшей частотой, лучшим рангом или наивысшей оценкой уверенности (confidence value).

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Контентные факторы: Текст отзыва, заголовок отзыва (title of the product review). Из них извлекаются названия продуктов, бренды, номера моделей.
Структурные факторы (в исходных данных): Наличие или отсутствие структурированных полей для Product Identifiers (GTIN, UPC, MPN, ISBN, EAN, JAN) в полученных отзывах.
Внешние данные (SERP): Результаты поисковой выдачи, полученные по запросу, сформированному из контента отзыва. Анализируется контент и ранг этих страниц.

Какие метрики используются и как они считаются

Патент упоминает несколько метрик для разрешения неоднозначности при идентификации продукта:

Number of Occurrences (Частота встречаемости): Подсчет количества раз, когда конкретный Product Identifier появляется в результатах поиска. Идентификатор с наибольшей частотой считается более вероятным.
Rank of Search Results (Ранг результатов поиска): Учитывается позиция страниц в SERP, на которых найден идентификатор. Идентификаторы, найденные на более высоко ранжирующихся страницах, получают приоритет.
Distance (Расстояние): Метрика, основанная на близости между терминами поискового запроса (извлеченными из отзыва) и найденным идентификатором в тексте результата поиска. Чем меньше расстояние, тем выше уверенность.
Confidence Value (Оценка уверенности): Агрегированная метрика (формула не приводится), которая может учитывать частоту, ранг, расстояние и другие факторы для выбора наилучшего идентификатора. Если оценка уверенности ниже порога, отзыв может быть отброшен.

Использование Поиска для Разрешения Сущностей: Патент демонстрирует, как Google использует свою основную поисковую технологию не только для ответа на запросы пользователей, но и как инструмент для обработки и структурирования собственных данных (в данном случае, для сопоставления отзывов и товаров).
Важность Внешних Данных (SERP): Точность идентификации продуктов зависит от качества и содержания страниц в интернете. Веб-сайты, которые четко указывают названия продуктов рядом с их уникальными идентификаторами, служат для Google источником истины.
Многофакторная Оценка Уверенности: При обнаружении потенциальных идентификаторов Google не полагается на один сигнал. Используется комбинация метрик (частота, ранг источника, близость текста) для определения наиболее вероятного соответствия.
Автоматизация Агрегации: Описанный механизм позволяет масштабировать сбор отзывов из неструктурированных источников (например, краулинг веб-страниц), автоматизируя процесс их привязки к структурированному каталогу.
Приоритет Брендов: Патент явно упоминает возможность выделения (emphasizing) брендов при формировании поискового запроса, что подчеркивает важность брендовой информации для идентификации товаров.

Best practices (это мы делаем)

Обеспечение видимости и корректности идентификаторов: Критически важно указывать корректные уникальные идентификаторы (GTIN, MPN, Бренд) на страницах товаров (PDP). Они должны быть доступны для краулинга и корректно размечены (например, через Schema.org/Product). Это позволит Google использовать ваш сайт как надежный источник при идентификации товаров в отзывах.
Оптимизация PDP для идентификации: Убедитесь, что название товара, бренд и его идентификаторы расположены близко друг к другу на странице. Это улучшит метрику Distance (близость) и повысит уверенность Google в том, что идентификатор относится именно к этому товару.
Консистентность данных: Поддерживайте единообразие в наименовании товаров и указании идентификаторов на вашем сайте, в продуктовых фидах для Google Merchant Center и на внешних платформах. Это снижает неоднозначность при анализе данных.
Стимулирование информативных отзывов: Поощряйте пользователей оставлять отзывы с четкими и полными названиями продуктов. Если вы агрегируете отзывы на своем сайте, убедитесь, что ваша система корректно связывает их с Product ID, чтобы при краулинге Google получал структурированные данные.

Worst practices (это делать не надо)

Отсутствие или скрытие идентификаторов: Скрытие GTIN/MPN от поисковых роботов или их отсутствие на странице усложняет для Google процесс сопоставления отзывов с вашими товарами. Это может привести к тому, что отзывы не будут отображаться в Google Shopping.
Некорректная микроразметка идентификаторов: Ошибки в микроразметке (например, указание неверного GTIN) могут привести к неправильной ассоциации отзывов и снижению доверия к вашему сайту как источнику данных.
Использование общих или неоднозначных заголовков отзывов: Если отзывы на вашем сайте или на внешних ресурсах имеют заголовки вроде "Отличный товар", система может отбросить их, так как из них невозможно надежно извлечь название продукта для поиска.

Стратегическое значение

Этот патент подчеркивает стратегическую важность структурированных данных и уникальных идентификаторов в E-commerce SEO. Для Google критически важно иметь возможность точно идентифицировать товары в масштабах всего интернета. Сайты, которые предоставляют четкие, консистентные и легко проверяемые данные о товарах (включая GTIN/MPN), становятся авторитетными источниками для систем агрегации Google. Это не только улучшает видимость товаров в Google Shopping, но и повышает общее доверие к данным, получаемым с домена.

Практические примеры

Сценарий: Обеспечение корректной агрегации отзывов для нового смартфона

Ситуация: Вы запускаете продажу нового смартфона "BrandX SuperPhone 12". В интернете начинают появляться первые обзоры на форумах и сайтах отзывов, но они не содержат GTIN.
Действия SEO-специалиста:
- Убедиться, что на странице продукта на вашем сайте четко указано название "BrandX SuperPhone 12".
- Убедиться, что рядом с названием указан корректный GTIN и MPN.
- Внедрить микроразметку Schema.org/Product, указав эти идентификаторы в полях gtin и mpn.
- Обеспечить индексацию страницы.
Как работает Google (согласно патенту):
- Google сканирует отзыв с форума. Идентификатор не найден.
- Система извлекает название "BrandX SuperPhone 12".
- Система выполняет поиск по этому названию (возможно, добавляя "GTIN").
- Ваш оптимизированный сайт появляется в топе выдачи (SERP).
- Google анализирует вашу страницу, находит GTIN рядом с названием товара.
- Google связывает отзыв с этим GTIN в своем каталоге.
Результат: Отзывы, найденные на форуме, корректно отображаются вместе с вашим товарным предложением в Google Shopping.

Что является основным триггером для запуска описанного алгоритма поиска идентификаторов?

Алгоритм запускается только тогда, когда система обрабатывает отзыв о продукте, в котором отсутствует явный уникальный идентификатор (Product Identifier), такой как GTIN, UPC или MPN. Если идентификатор присутствует в исходных данных отзыва (например, в фиде или в микроразметке на странице отзыва), система использует его напрямую, и сложный процесс идентификации через поиск не требуется.

Какую информацию система извлекает из отзыва для поиска идентификатора?

В патенте в качестве основного источника информации упоминается заголовок отзыва (title of the product review). Также может быть извлечено название продукта, упомянутое в тексте, номер модели или бренд. Эта информация затем нормализуется для формирования эффективного поискового запроса.

Как система обрабатывает ситуацию, когда в результатах поиска найдено несколько разных идентификаторов?

Это ключевая часть патента. Система использует несколько метрик для разрешения неоднозначности. Она может выбрать идентификатор, который чаще всего встречается в результатах поиска (Number of Occurrences). Также она может предпочесть идентификатор, найденный на страницах с более высоким рангом в выдаче (Rank of Search Results). Дополнительно может учитываться близость идентификатора к названию продукта в тексте найденных страниц (Distance).

Как этот патент влияет на SEO для страниц продуктов (PDP) в интернет-магазине?

Влияние значительно. Ваши страницы продуктов служат для Google источником истины при валидации связи между названием товара и его идентификатором. Если ваша PDP хорошо ранжируется по названию товара и содержит четко указанные GTIN/MPN, Google с высокой вероятностью использует данные с вашей страницы для корректного сопоставления отзывов в своем каталоге.

Что произойдет, если система не сможет найти идентификатор в результатах поиска?

Если идентификатор не найден, система может предпринять повторную попытку, извлекая другую информацию из отзыва для нового поиска. Если идентификация по-прежнему невозможна или оценка уверенности (Confidence Value) слишком низкая, система, согласно патенту, может отбросить (discard) этот отзыв, и он не будет добавлен в продуктовый каталог.

Насколько важна микроразметка (Schema.org) в контексте этого патента?

Хотя патент явно не упоминает Schema.org, он описывает анализ результатов поиска для обнаружения идентификаторов. Наличие микроразметки Product с полями gtin, mpn, brand значительно упрощает для Google извлечение этих идентификаторов со страниц в SERP. Это повышает вероятность того, что Google сможет быстро и точно идентифицировать продукт.

Упоминается ли в патенте нормализация данных перед поиском? Что это значит на практике?

Да, упоминается нормализация (normalization). На практике это означает очистку извлеченного названия продукта: удаление стоп-слов, общих фраз из отзыва (например, "лучший", "обзор на"). Также патент указывает на возможность специальной обработки (emphasizing) названий брендов, что помогает сфокусировать поиск на конкретном производителе.

Применяется ли этот механизм только к отзывам, собранным краулером?

Нет, механизм применяется к отзывам, полученным любым способом, включая электронные фиды (electronic feeds), пользовательский контент или краулинг (web crawling, screen scraping). Главное условие — отсутствие уникального идентификатора в исходных данных.

Может ли этот механизм привести к неправильному сопоставлению отзывов?

Да, если система ошибочно идентифицирует продукт. Например, если в результатах поиска доминируют страницы с неверными идентификаторами или если названия продуктов очень похожи (например, разные версии одной модели). Однако использование метрик частоты, ранга и расстояния направлено на минимизацию таких ошибок.

Актуален ли этот патент, учитывая развитие современных NLP-моделей типа BERT?

Патент описывает общую архитектуру решения проблемы. Современные NLP-модели, вероятно, используются на этапах извлечения информации из отзыва и анализа контента результатов поиска для более точного определения соответствия. Однако базовая логика — использование поиска для разрешения неоднозначности сущностей — остается высоко актуальной.

Как Google находит, извлекает и объединяет отзывы о товарах из интернета для создания агрегированных рейтингов и выявления частых фраз

Патент описывает систему Google для сбора отзывов о товарах из интернета. Система использует селективное сканирование сайтов, извлекает текст отзывов, рейтинги и авторов. Затем она автоматически определяет, к какому именно продукту относится отзыв (даже при разных названиях), и создает сводную информацию: общий рейтинг, распределение оценок и список часто упоминаемых фраз. Эта система позволяет пользователям искать информацию внутри отзывов о конкретном товаре.

US7962461B2
2011-06-14

Краулинг

Как Google использует GTIN, MPN и машинное обучение для определения синонимов брендов в каталоге товаров

Google использует механизм машинного обучения для решения проблемы несогласованности данных в фидах мерчантов. Система анализирует пары товарных предложений с одинаковыми идентификаторами (GTIN, MPN), но разными названиями брендов. Путем расчета метрик схожести (цены, заголовка) и статистического анализа система определяет, являются ли разные названия (например, «HP» и «Hewlett-Packard») синонимами одного и того же бренда для корректной группировки товаров.

US8655737B1
2014-02-18

Google Shopping
Семантика и интент

Как Google динамически обогащает сниппеты, ранжируя отзывы, атрибуты и упоминания для обоснования результатов поиска

Google использует фреймворк для обогащения результатов поиска вспомогательной информацией (аннотациями), такой как редакционные упоминания, списки Топ-X, атрибуты товаров и контекстные отзывы. Система использует машинное обучение для оценки и ранжирования этих разнородных данных, чтобы динамически выбрать наиболее полезный дополнительный сниппет. Это позволяет обосновать позицию результата и повысить доверие пользователя.

US12164527B2
2024-12-10

SERP

Как Google автоматически извлекает и анализирует отзывы о компаниях из интернета

Google использует систему для автоматического поиска и анализа отзывов о сущностях (например, компаниях) на веб-страницах. Система идентифицирует информацию о компании (название, адрес), извлекает текст рядом с ней и применяет анализ тональности (Sentiment Analysis), чтобы определить, является ли этот текст отзывом и какова его эмоциональная окраска.

US20150112981A1
2015-04-23

Local SEO
Семантика и интент
EEAT и качество

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов

Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).

US8090736B1
2012-01-03

Ссылки
SERP
Структура сайта

Как Google использует временной распад и анализ трендов кликов для корректировки ранжирования и борьбы со стагнацией выдачи

Google применяет механизмы для предотвращения «залипания» устаревших результатов в топе выдачи. Система анализирует возраст пользовательских кликов и снижает вес старых данных (временной распад), отдавая приоритет свежим сигналам. Кроме того, система выявляет документы с ускоряющимся трендом кликов по сравнению с фоном и повышает их в выдаче, улучшая актуальность результатов.

US9092510B1
2015-07-28

Свежесть контента
Поведенческие сигналы
SERP

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)

Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.

US10248698B2
2019-04-02

Персонализация
Поведенческие сигналы
SERP

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами

Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.

US20250209127A1
2025-06-26

SERP
Поведенческие сигналы
Семантика и интент

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)

Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

US7584177B2
2009-09-01

Семантика и интент
SERP
Персонализация