Как Google извлекает цены и изображения товаров с веб-страниц для Google Shopping

METHODS AND SYSTEMS FOR INFORMATION EXTRACTION (Методы и системы для извлечения информации)

US7836038B2
Google LLC
2003-12-10
2010-11-16

Этот патент описывает, как Google автоматически идентифицирует страницы электронной коммерции и извлекает структурированные данные о товарах (такие как цена и изображение) из неструктурированного HTML. Система использует анализ близости элементов, структуру HTML и сигналы форматирования для поиска правильных атрибутов, что формирует основу для поисковых систем по товарам, таких как Google Shopping.

Какую проблему решает

Патент решает проблему автоматического извлечения структурированной информации о товарах (цена, изображение, версия, SKU) из огромного количества неструктурированных или слабоструктурированных веб-документов (например, HTML-страниц). Это позволяет создать систему сравнения товаров без необходимости ручного сбора данных или зависимости исключительно от структурированных фидов продавцов. Система также направлена на то, чтобы отличать страницы, продающие товар, от страниц, просто обсуждающих его (например, обзоров).

Что запатентовано

Запатентована система автоматического извлечения атрибутов товаров из документов, идентифицированных как shopping articles (торговые документы). Изобретение использует анализ структуры документа (например, дерева HTML DOM), сигналы форматирования (размер и начертание шрифта) и метрики близости (proximity metrics) между терминами запроса, потенциальными ценами и потенциальными изображениями для идентификации и извлечения корректных данных о товаре.

Как это работает

Система работает в несколько этапов:

Идентификация торговых документов: Система определяет, является ли документ shopping document, анализируя механические аспекты, такие как наличие строк "add to cart", "checkout" в URL или элементах форм (<FORM>, <INPUT>), а также наличие корректно отформатированных цен.
Поиск релевантных документов: В ответ на запрос о товаре система находит соответствующие торговые документы.
Извлечение атрибутов: Attribute processor анализирует структуру страницы и форматирование для поиска потенциальных цен (price signals) и изображений (image signals) вблизи терминов запроса.
Анализ близости: Система использует метрики близости в дереве документа, чтобы выбрать наилучшую комбинацию цены и изображения, предпочитая те атрибуты, которые расположены близко друг к другу и к названию товара.
Вывод данных: Извлеченные структурированные данные используются для формирования поисковой выдачи по товарам.

Актуальность для SEO

Высокая. Этот патент описывает фундаментальные технологии, лежащие в основе Google Shopping (ранее Froogle). Хотя современные системы Google, вероятно, используют более продвинутые модели машинного обучения для извлечения информации (Information Extraction), описанные принципы использования структурных сигналов, анализа DOM-дерева и близости элементов остаются критически важными для понимания того, как Google интерпретирует страницы электронной коммерции, особенно в качестве запасного механизма при отсутствии или ошибках в структурированных данных (Schema.org).

Важность для SEO

Патент имеет критическое значение для SEO в сфере E-commerce. Он раскрывает конкретные механизмы, которые Google использует для понимания предложений товаров на странице. Понимание логики извлечения позволяет оптимизировать структуру и код страниц (PDP), чтобы гарантировать, что Google корректно идентифицирует товар, его основную цену и главное изображение для отображения в результатах поиска по товарам и обогащенных сниппетах.

Термины и определения

Attribute Processor (Обработчик атрибутов): Компонент поисковой системы, отвечающий за идентификацию и извлечение определенных атрибутов товара (цена, изображение, SKU и т.д.) из документа.
Shopping Document / Shopping Article (Торговый документ): Документ (например, веб-страница), который представляет товары для продажи и позволяет их приобрести посредством взаимодействия с этим документом или связанными с ним.
Price Signal (Сигнал цены): Характеристика потенциальной цены в документе, используемая для оценки вероятности того, что это действительная цена товара. Включает форматирование, размер шрифта, начертание, окружающие слова и метрики близости.
Image Signal (Сигнал изображения): Характеристика потенциального изображения в документе. Включает тип файла, размер, соотношение сторон (aspect ratio), частоту использования (occurrence value) и метрики близости.
Proximity Metric (Метрика близости): Способ измерения расстояния между элементами (например, термином запроса, ценой, изображением) в документе. Может включать количество слов между элементами (Distance Metrics) или структурное расстояние в дереве документа (Structure Metrics).
Tree Structure (Древовидная структура): Иерархическая структура документа, например HTML DOM-дерево.
Closest Common Ancestor (Ближайший общий предок): В древовидной структуре это ближайший узел, который является предком для двух рассматриваемых элементов (например, цены и изображения). Используется для оценки их структурной близости.
Price Representation Score (Оценка представления цены): Метрика, оценивающая, насколько хорошо текстовый фрагмент выглядит как цена (например, наличие символа валюты, числа, десятичного разделителя и двух цифр после него).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод автоматического извлечения и отображения информации о товаре.

Система получает поисковый запрос о товаре и ищет в индексе статей, описывающих товары для продажи.
Идентифицируется набор релевантных статей.
Из каждой статьи извлекается цена и изображение товара:
Извлечение цены:
- Идентифицируется потенциальная цена в первой статье.
- Идентифицируется связанный с ней price signal.
- На основе proximity metric определяется, указывает ли price signal на то, что это действительная цена товара.
- При положительном решении цена извлекается.
Извлечение изображения:
- Изображение автоматически выбирается и извлекается из первой статьи на основе извлеченной цены (т.е. используется локация цены для поиска изображения).
Процесс повторяется для других статей.
Отображается объединенный набор результатов с извлеченными ценами и изображениями.

Claim 10 (Зависимый): Детализирует процесс извлечения изображения.

Потенциальное изображение идентифицируется на основе извлеченной цены. Затем идентифицируется image signal, связанный с этим изображением. Система определяет, указывает ли image signal на то, что это действительное изображение товара, и если да, извлекает его.

Claims 14, 15, 16 (Зависимые): Уточняют использование древовидной структуры HTML для анализа близости.

Метрики (image signals или price signals) могут включать: расстояние до closest common ancestor между ценой/изображением и термином запроса; количество узлов в наименьшем поддереве (smallest tree), содержащем цену, изображение и термин запроса; глубину этого наименьшего поддерева.

Claim 20 (Зависимый): Описывает процесс ранжирования потенциальных атрибутов.

Выбирается несколько потенциальных цен и изображений. Выбор основывается на терминах запроса и расстоянии между локациями цен и изображений внутри статьи. Создается ранжированный список потенциальных цен и изображений, причем те пары, которые расположены ближе друг к другу в статье, ранжируются выше.

Где и как применяется

Изобретение в первую очередь применяется на этапе индексирования для извлечения структурированных данных из контента.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает необработанные HTML-документы. Патент упоминает, что идентификация shopping documents может происходить во время или после сканирования.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Attribute Processor анализирует собранные документы для выполнения двух ключевых задач:

Классификация документов: Определение, является ли страница shopping document, путем поиска механических признаков (строки в формах/ссылках) и представлений цен.
Извлечение информации (Information Extraction): Анализ структуры HTML (DOM-дерева), форматирования и контента для извлечения структурированных атрибутов товара (цена, изображение). Это включает расчет метрик близости и оценок сигналов.

METASEARCH – Метапоиск и Смешивание
Извлеченные структурированные данные используются для формирования специализированной выдачи по товарам (например, Google Shopping) или обогащенных сниппетов в основной выдаче.

Входные данные:

Необработанный HTML-документ.
Термины запроса (используются как контекст для определения релевантности и как опорные точки для измерения близости).

Выходные данные:

Классификация документа (shopping document или нет).
Структурированные данные о товаре: цена, изображение, возможно, другие атрибуты (SKU, версия).

На что влияет

Конкретные типы контента: Влияет исключительно на страницы электронной коммерции, в частности, на страницы с описанием товаров (PDP) и, возможно, страницы категорий (PLP), если они содержат цены и изображения конкретных товаров.
Специфические запросы: Влияет на обработку коммерческих запросов, направленных на покупку конкретного товара.
Конкретные ниши или тематики: Наибольшее влияние в E-commerce и ритейле.

Когда применяется

Условия применения: Алгоритм применяется к документам, которые предварительно классифицированы как shopping documents.
Триггеры активации: Активация процесса извлечения происходит при обработке торгового документа, который признан релевантным определенному товару (либо в ответ на запрос пользователя, либо во время упреждающего индексирования).

Пошаговый алгоритм

Этап 1: Идентификация торгового документа

Анализ механических признаков: Поиск специфических строк ("add to cart", "checkout") в URL, параметрах или значениях элементов HTML-форм (<FORM>, <INPUT>, <IMAGE>) или тегов <A>.
Анализ представления цен: Поиск текстовых фрагментов, соответствующих формату цены (например, $15.89).
Классификация: Если признаки обнаружены, документ помечается как shopping document.

Этап 2: Извлечение атрибутов (для релевантного товара)

Определение опорных точек: Идентификация расположения названия товара (часто соответствующего терминам запроса) в документе.
Идентификация потенциальных цен:
- Поиск кандидатов на роль цены в документе.
- Расчет Price Signals для каждого кандидата: Price Representation Score, размер и начертание шрифта, предшествующие/последующие слова.
- Расчет метрик близости к опорным точкам (названию товара).
Идентификация потенциальных изображений:
- Поиск кандидатов на роль изображения товара.
- Расчет Image Signals: размер, соотношение сторон, частота использования (для исключения логотипов).
- Расчет метрик близости к опорным точкам (названию товара) И к потенциальным ценам.
Выбор и ранжирование атрибутов:
- Система составляет список потенциальных цен и изображений.
- Ранжирование пар (цена + изображение) осуществляется с предпочтением тех пар, которые расположены ближе друг к другу в структуре документа (например, имеют более близкого общего предка или находятся в меньшем общем поддереве).
Извлечение: Выбираются и извлекаются наиболее высоко ранжированные цена и изображение.

Какие данные и как использует

Данные на входе

Контентные факторы:
- Слова, непосредственно предшествующие цене (положительные: "our price", "sale price"; отрицательные: "starting at", "save", "rebate", "shipping").
- Слова, следующие за ценой (например, аббревиатуры стран "US").
Технические факторы:
- URL-адреса ссылок и форм анализируются на наличие строк, указывающих на покупку.
Структурные факторы:
- HTML структура (DOM-дерево) используется для расчета метрик близости.
- Элементы форм (<FORM>, <INPUT>) и ссылок (<A>).
- Форматирование текста: размер шрифта (большой размер предпочтителен для цены), начертание шрифта (например, зачеркнутый шрифт strikethrough может указывать на неактуальную цену).
Мультимедиа факторы:
- Тип файла изображения (.gif, .jpeg, .jpg).
- Размер изображения (слишком большие или слишком маленькие могут быть исключены).
- Соотношение сторон (aspect ratio) изображения (необычные соотношения могут указывать на логотипы или баннеры).
- Частота использования изображения (frequency of occurrence) в документе или сети (частое использование может указывать на логотип).

Какие метрики используются и как они считаются

Price Representation Score: Оценка того, насколько текстовый фрагмент соответствует ожидаемому формату цены.
Метрики близости (Proximity Metrics) (рассчитываются между терминами запроса, потенциальными ценами и потенциальными изображениями):
- Количество слов между элементами (Distance Metric).
- Расстояние от элемента до closest common ancestor в дереве документа (Structure Metric).
- Глубина наименьшего дерева (smallest tree), содержащего оба элемента (Structure Metric).
- Количество узлов в наименьшем дереве, содержащем оба элемента (Structure Metric).
Occurrence Value (Значение частоты использования): Метрика для изображений, основанная на частоте их появления в документе и в сети (Global Information).

Google может извлекать структурированные данные без разметки: Патент демонстрирует сложный механизм для понимания страниц E-commerce и извлечения атрибутов товаров (цены, изображения) непосредственно из неструктурированного HTML, не полагаясь исключительно на фиды данных или микроразметку.
Структура HTML и близость элементов критичны: Ключевым фактором для корректного извлечения является физическая и структурная близость названия товара, цены и изображения в коде страницы. Google анализирует DOM-дерево (Tree Structure) и использует метрики, такие как Closest Common Ancestor, чтобы определить, какие элементы связаны между собой.
Форматирование имеет значение: Визуальное представление атрибутов используется как сигнал. Например, большой размер шрифта цены является положительным сигналом (Price Signal), а зачеркнутый шрифт — отрицательным.
Взаимозависимость атрибутов при извлечении: Система использует один атрибут для подтверждения другого. Например, нахождение достоверной цены помогает определить правильное изображение товара, и наоборот. Предпочтение отдается парам атрибутов, расположенным близко друг к другу.
Идентификация намерений страницы: Google активно пытается отличить страницы продажи от информационных страниц (обзоров), анализируя "механические" элементы (формы, ссылки с "add to cart"), а не только контент.
Отличие товара от шума: Система использует глобальную информацию (например, соотношение сторон и частоту использования изображения) для отличия реальных фотографий товара от логотипов, баннеров или иконок.

Best practices (это мы делаем)

Обеспечьте тесную структурную связь между ключевыми элементами товара: Название товара (H1), основное изображение и цена должны быть расположены максимально близко друг к другу в HTML-коде. В идеале они должны находиться в одном родительском контейнере с минимальным количеством промежуточных узлов (иметь близкого Closest Common Ancestor).
Используйте чистое и очевидное форматирование цен: Цена должна быть представлена текстом (не изображением) и соответствовать стандартному формату (например, $19.99). Используйте заметный размер шрифта для основной цены.
Разделяйте основную и старую цену: Если товар на скидке, убедитесь, что система может отличить текущую цену от старой (зачеркнутой). Текущая цена должна быть более заметной и не иметь отрицательных Price Signals (таких как слова "Save" или "Rebate" в непосредственной близости).
Оптимизируйте главные изображения товаров: Используйте изображения с адекватным размером и стандартным соотношением сторон. Главное изображение товара не должно использоваться повторно на той же странице в качестве декоративного элемента или иконки, чтобы не снижать его уникальность (Occurrence Value).
Используйте явные сигналы покупки в коде: Убедитесь, что функциональные элементы, такие как кнопка "Добавить в корзину", содержат соответствующие текстовые строки ("add to cart", "checkout") в коде (в тексте, URL или параметрах формы), чтобы помочь системе классифицировать страницу как Shopping Document.

Worst practices (это делать не надо)

Сложные макеты, разделяющие атрибуты товара: Использование JavaScript или сложных CSS-макетов (например, Flexbox/Grid с измененным порядком отображения), которые приводят к тому, что цена и изображение визуально находятся рядом, но в DOM-дереве разделены множеством узлов (например, сайдбарами, блоками рекомендаций).
Использование изображений вместо текста для цен: Это делает невозможным извлечение цены с помощью описанного механизма.
Неоднозначное представление цены: Акцентирование внимания на размере скидки или экономии больше, чем на фактической цене продажи. Использование формулировок типа "От $X.XX" для основного товара (если это не вариант товара).
Использование нестандартных изображений товара: Использование изображений с очень странным соотношением сторон или изображений, которые выглядят как баннеры или логотипы, в качестве главного фото товара.

Стратегическое значение

Патент подчеркивает важность технического SEO и чистой структуры кода для E-commerce. Хотя использование структурированных данных (Schema.org/Product) является современной рекомендуемой практикой для передачи атрибутов товара Google, этот патент показывает, что у Google есть мощные механизмы для извлечения этой информации самостоятельно. Стратегия SEO должна включать оптимизацию структуры шаблонов страниц товаров (PDP) для обеспечения надежного резервного механизма извлечения данных, гарантируя корректное представление товаров в Google Shopping и других сервисах.

Практические примеры

Сценарий: Оптимизация шаблона страницы товара (PDP)

Проблема: Товар не появляется в Google Shopping, или отображается неверная цена/изображение. Анализ показывает, что в текущем HTML-шаблоне между H1 товара и ценой вставлен большой блок "Похожие товары".

Применение патента:

Анализ структуры: Понимая, что Google использует Proximity Metrics и Closest Common Ancestor, мы видим, что блок "Похожие товары" увеличивает структурное расстояние между названием и ценой.
Действие: Изменить порядок блоков в HTML-коде. Переместить блок "Похожие товары" ниже блока с ценой и кнопкой "Добавить в корзину".
Результат: Название, изображение и цена теперь структурно связаны (находятся в меньшем общем поддереве). Это увеличивает вероятность того, что Attribute Processor корректно идентифицирует и извлечет правильные атрибуты, так как Price Signals и Image Signals стали сильнее за счет улучшенных метрик близости.

Как этот патент соотносится с использованием микроразметки Schema.org/Product?

Schema.org является предпочтительным и более современным способом передачи структурированных данных поисковым системам. Однако этот патент описывает механизмы, позволяющие Google извлекать данные без разметки. Это служит важным резервным механизмом (fallback) в случае ошибок в разметке или ее отсутствия. Для максимальной надежности необходимо использовать Schema.org И оптимизировать структуру HTML, как описано в патенте.

Как Google определяет главное изображение товара, если на странице их несколько?

Система ищет изображение, которое имеет наилучшие Image Signals и метрики близости к названию товара и извлеченной цене. Также используются глобальные сигналы: предпочтение отдается изображениям адекватного размера, со стандартным соотношением сторон, которые не используются слишком часто на сайте (чтобы исключить логотипы). Изображение, структурно ближайшее к цене, имеет преимущество.

Что делать, если товар на скидке? Как Google поймет, какая цена актуальна?

Патент учитывает это через Price Signals. Зачеркнутый шрифт (strikethrough) или слова типа "was" (было) являются отрицательными сигналами для текущей цены. Актуальная цена должна быть визуально заметнее (например, крупнее шрифт) и иметь положительные сигналы (например, слова "sale price" или "our price"). Важно, чтобы актуальная цена была структурно ближе к названию товара и кнопке покупки.

Влияет ли скорость загрузки или Core Web Vitals на этот механизм извлечения?

Патент не упоминает скорость загрузки. Он фокусируется исключительно на анализе контента и структуры документа после его загрузки. Однако, если страница загружается слишком медленно или если ключевые элементы (цена/изображение) загружаются с задержкой через JavaScript и недоступны во время индексирования, система не сможет извлечь данные.

Как система обрабатывает варианты товаров (разные цвета, размеры) с разными ценами?

Патент не детализирует обработку вариантов. Он описывает извлечение атрибутов для "товара, релевантного запросу". Если варианты представлены как отдельные блоки в HTML, система может попытаться извлечь данные для каждого блока. Если цена меняется динамически через JavaScript при выборе варианта, система может извлечь только цену по умолчанию, видимую при загрузке страницы.

Что такое "Closest Common Ancestor" и почему это важно для SEO?

Это ближайший общий родительский элемент в HTML DOM-дереве для двух разных элементов (например, цены и изображения). Чем ближе этот общий предок к самим элементам, тем теснее они структурно связаны. Для SEO это означает, что связанные элементы должны быть сгруппированы в коде (например, в одном <div>), чтобы поисковая система могла легко определить их взаимосвязь.

Как убедиться, что Google классифицирует мою страницу как "Shopping Document"?

Патент предлагает искать "механические" признаки покупки. Убедитесь, что на странице присутствуют функциональные элементы (формы, кнопки, ссылки), содержащие в коде или URL параметры с терминами вроде "add to cart", "basket", "checkout", а также текстовое представление цены в стандартном формате.

Может ли этот механизм использоваться для извлечения других атрибутов, кроме цены и изображения?

Да. Хотя патент фокусируется на цене и изображении как на основных примерах, в описании упоминается возможность извлечения других атрибутов, таких как SKU номер и версия товара. Логика остается той же: использование сигналов форматирования и метрик близости к названию товара и другим уже извлеченным атрибутам.

Влияет ли использование CSS Grid или Flexbox на извлечение данных?

Если CSS используется только для визуального расположения, а порядок элементов в DOM остается логичным (название, изображение, цена идут последовательно), проблем быть не должно. Однако, если CSS используется для радикального изменения порядка отображения по сравнению с порядком в DOM (например, цена в коде идет первой, а отображается последней), это может ухудшить метрики близости и затруднить извлечение.

Насколько важны окружающие цену слова?

Они являются важной частью Price Signals. Слова вроде "Our Price" или "Sale Price" повышают уверенность системы в том, что это актуальная цена. Напротив, слова вроде "Save" (Экономия), "Rebate" (Скидка) или "Shipping" (Доставка), расположенные вплотную к числу, могут привести к тому, что система неверно интерпретирует это число как цену самого товара.

Как Google автоматизирует создание структуры категорий и оптимизирует мерчандайзинг на сайтах E-commerce

Система для автоматической организации интернет-магазинов. Она анализирует товарный фид, используя NLP для создания релевантных категорий. Затем система сортирует товары внутри категорий, применяя алгоритмы оптимизации (Decision Trees), основанные на данных о продажах (конверсии, отказы) и внешних поисковых трендах, для максимизации эффективности сайта мерчанта.

US20170116658A1
2017-04-27

Семантика и интент
Структура сайта
Поведенческие сигналы

Как Google автоматизирует извлечение структурированных данных с веб-страниц для создания списков ключевых слов

Патент Google описывает инструмент для автоматического извлечения данных со структурированных веб-страниц. Пользователь выбирает два примера элемента (например, названия товаров), а инструмент анализирует структуру документа (DOM-дерево), находит шаблон и автоматически извлекает все остальные элементы, соответствующие этому шаблону. Это используется для быстрого сбора ключевых слов для рекламных кампаний.

US8341176B1
2012-12-25

Структура сайта

Как Google использует компьютерное зрение для анализа, сегментации и визуального поиска товаров в E-commerce

Патент описывает комплексную систему Google для визуального поиска товаров. Система автоматически обрабатывает изображения: отделяет объект от фона (сегментация), выравнивает его, извлекает визуальные признаки (цвет, форма, текстура) и создает цифровые подписи (векторы). Это позволяет пользователям искать похожие товары, используя изображение в качестве запроса (CBIR), уточнять поиск по визуальным характеристикам и находить товары на сторонних сайтах.

US8732030B2
2014-05-20

Индексация
Мультимедиа

Как Google автоматически определяет и проверяет атрибуты, бренды и категории товаров, анализируя веб-контент и поведение пользователей

Google использует систему для автоматического извлечения и проверки «Структурных параметров» (бренды, атрибуты, категории, линейки продуктов) из неструктурированного веб-контента и логов запросов. Система валидирует классификацию с помощью анализа контекстуального сходства, целевого краулинга (поиск фраз типа «X является Y») и анализа распределения кликов. Это позволяет стандартизировать данные о товарах от разных продавцов и формировать структурированную E-commerce выдачу.

US9171088B2
2015-10-27

Индексация
Краулинг
Семантика и интент

Как Google разбирает изображения на части для визуального поиска товаров (e.g., Google Lens)

Система Google для визуального поиска товаров, которая анализирует изображения, извлекая глобальные и локальные признаки (цвет, форма, текстура). Патент описывает, как это позволяет пользователям искать похожие товары, выделяя конкретные части объекта (например, узор на сумке или форму каблука), используя технологию, лежащую в основе Google Lens.

US9008435B2
2015-04-14

Мультимедиа
Индексация
Google Shopping

Как Google использует связанные запросы и временный «бустинг» для обнаружения и тестирования релевантных документов, которые ранжируются низко

Патент описывает механизм улучшения поиска путем перемещения документов на более высокие позиции. Google идентифицирует документы, которые высоко ранжируются по связанным запросам (например, с синонимами, уточнениями или исправленными ошибками), но низко по исходному запросу, и повышает их. Цель — протестировать истинную релевантность этих документов и собрать пользовательский отклик (клики) для улучшения будущего ранжирования.

US8521725B1
2013-08-27

Поведенческие сигналы
SERP
Семантика и интент

Как Google использует контент веб-страниц для генерации, верификации и адаптации AI-ответов в поиске (SGE/AI Overviews)

Google использует Большие Языковые Модели (LLM) для создания генеративных сводок (AI Overviews/SGE). Для обеспечения точности система не полагается только на знания LLM, а обрабатывает контент из актуальных результатов поиска (SRDs). Патент описывает архитектуру этого процесса: как выбираются источники, как генерируется сводка на их основе (Grounding), как проверяется информация для добавления ссылок (Verification), и как ответ адаптируется под контекст и действия пользователя.

US20250005303A1
2025-01-02

SERP
EEAT и качество
Персонализация

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах

Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.

US20130144836A1
2013-06-06

Ссылки
Индексация
Техническое SEO

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация

Как Google персонализирует Sitelinks и сниппеты, используя интересы пользователя и тренды для прямого перехода на нужные страницы

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

US20140188927A1
2014-07-03

Персонализация
SERP
Ссылки

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

US9104759B1
2015-08-11

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений

Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.

US9645980B1
2017-05-09

Индексация
Ссылки
Техническое SEO