Как Google использует анализ затрат и выгод, чтобы решить, когда показывать графики временных рядов в результатах поиска

PROVIDING TIME SERIES INFORMATION WITH SEARCH RESULTS (Предоставление информации временных рядов с результатами поиска)

US8326836B1
Google LLC
2010-07-13
2012-12-04

Google не всегда генерирует графики и таблицы данных (временные ряды) в ответ на запрос. Система сначала оценивает затраты на сбор и обработку этих данных (нагрузка на сервер, задержка) и сравнивает их с ожидаемой выгодой для пользователя (вероятность клика, качество данных). Визуализация генерируется, только если выгода превышает затраты.

Какую проблему решает

Патент решает проблему эффективного распределения вычислительных ресурсов при генерации сложных поисковых функций. Сбор, агрегация и визуализация информации временных рядов (например, исторических цен на акции или демографических данных) из множества источников является ресурсоемким процессом. Выполнение этого процесса для каждого запроса нецелесообразно, так как это увеличивает задержку (latency) и нагрузку на систему (System Load), при этом не всегда принося значительную пользу пользователю. Изобретение позволяет выборочно генерировать эту информацию только тогда, когда ожидаемая польза оправдывает затраты.

Что запатентовано

Запатентована система принятия решений, которая определяет, следует ли включать информацию временных рядов (Time Series Information) в результаты поиска. Ключевым компонентом является механизм анализа затрат и выгод (Cost-Benefit Engine). Этот механизм сравнивает оценку затрат (Cost Estimate) на генерацию информации с оценкой выгоды (Benefit Estimate) для пользователя. Генерация происходит, только если выгода превышает затраты.

Как это работает

Система работает следующим образом:

Идентификация намерения: Time Series Interest Engine определяет, указывает ли запрос на потребность в данных временного ряда (например, через семантический анализ или наличие дат).
Оценка Затрат (Cost Estimate): Система оценивает вычислительные ресурсы, необходимые для сбора данных. Учитывается, закэширована ли информация, текущая нагрузка на систему, ожидаемое время обработки и задержка.
Оценка Выгоды (Benefit Estimate): Система прогнозирует ценность информации для пользователя. Учитываются прошлые данные о кликах (Click Data) на подобные функции, характеристики пользователя и уровень уверенности в качестве данных (Level of Certainty).
Принятие решения: Cost-Benefit Engine сравнивает оценки. Если выгода превышает затраты, активируется Time Series Collection Engine для сбора и агрегации данных из различных ресурсов.

Актуальность для SEO

Средняя/Высокая. Хотя конкретные методы оценки затрат и выгод могли эволюционировать с 2012 года, базовый принцип балансировки вычислительных ресурсов и пользовательского опыта остается критически важным для Google. Это особенно актуально при генерации сложных SERP-функций, таких как детальные визуализации данных или современные AI Overviews. Эффективное управление ресурсами является фундаментальной задачей поисковых систем.

Важность для SEO

Влияние на SEO — косвенное. Патент не описывает алгоритмы ранжирования "синих ссылок", а фокусируется на условиях генерации специфического типа расширенного результата (SERP feature) — визуализации временных рядов. Понимание этого механизма помогает SEO-специалистам оптимизировать контент так, чтобы снизить "стоимость" извлечения данных для Google (упростив парсинг) и повысить "выгоду" от их показа (повысив авторитетность данных), тем самым увеличивая вероятность появления таких блоков по релевантным запросам.

Термины и определения

Benefit Estimate (Оценка выгоды): Количественная оценка ожидаемой пользы от включения информации временных рядов в результаты поиска. Основана на прогнозируемом поведении пользователя, качестве данных и прошлых кликах.
Click Data / Click Log Data (Данные о кликах): Журналы взаимодействия пользователей с результатами поиска. Используются для оценки выгоды: анализируется, как часто пользователи взаимодействовали с временными рядами в прошлом по схожим запросам.
Cost Estimate (Оценка затрат): Количественная оценка ресурсов, необходимых для генерации и предоставления информации временных рядов. Включает время обработки, нагрузку на сеть, задержку и нагрузку на систему.
Cost-Benefit Engine (Механизм анализа затрат и выгод): Компонент системы, который генерирует Cost Estimate и Benefit Estimate и принимает решение о генерации временного ряда на основе их сравнения.
Level of Certainty (Уровень уверенности): Метрика качества и надежности собранных данных временного ряда. Учитывает авторитетность источников и наличие конфликтующих данных из разных ресурсов.
System Load (Нагрузка на систему): Показатель текущей загруженности вычислительных ресурсов поисковой системы. Является фактором при расчете Cost Estimate.
Time Series Cache (Кэш временных рядов): Хранилище предварительно собранной информации временных рядов, часто для популярных запросов. Использование кэша значительно снижает Cost Estimate.
Time Series Collection Engine (Механизм сбора временных рядов): Компонент, отвечающий за извлечение (парсинг) и агрегацию данных временных рядов из одного или нескольких ресурсов.
Time Series Information (Информация временных рядов): Последовательность точек данных, связанных с временными значениями (например, графики, таблицы исторических данных).
Time Series Interest Engine (Механизм определения интереса к временным рядам): Компонент, который анализирует запрос, чтобы определить, ищет ли пользователь информацию временных рядов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод принятия решений и включает предварительную обработку популярных запросов.

Система предварительно собирает информацию временных рядов для популярных запросов (определенных по логам запросов).
Система получает первый запрос и определяет, что он указывает на запрос информации временных рядов.
Генерируется Cost Estimate (оценка затрат на включение этой информации).
Генерируется Benefit Estimate (оценка выгоды от включения этой информации).
Принимается решение: генерировать информацию, если выгода превышает затраты. Генерация может включать определение того, что нужная информация уже есть среди предварительно собранных данных (в кэше).
Принимается решение: НЕ генерировать информацию, если затраты превышают выгоду.

Claim 2 (Зависимый от 1): Детализирует, как определяется интерес к временным рядам.

Определение того, что запрос указывает на потребность во временных рядах, включает один или несколько методов:

Семантический анализ запроса на наличие индикативных терминов (например, "исторический", "со временем").
Определение наличия временных диапазонов в запросе.
Анализ Click Log Data для оценки реакции пользователей на предоставление временных рядов в прошлом.
Определение того, содержат ли ресурсы, релевантные запросу, информацию временных рядов.

Claim 3 (Зависимый от 1): Детализирует факторы для расчета Benefit Estimate.

Генерация оценки выгоды включает один или несколько методов:

Определение ожидаемого поведения пользователя на основе его характеристик (например, возраста, опыта, истории поиска).
Определение Level of Certainty (уровня уверенности) в данных временного ряда.
Анализ Click Log Data по прошлым результатам, где предоставлялись временные ряды.

Claim 8 (Независимый пункт): Описывает основной метод (аналогичный Claim 1, но без упоминания предварительной обработки), с акцентом на один из факторов затрат.

Метод явно указывает, что генерация Cost Estimate включает определение расчетного количества времени обработки (estimated amount of processing time) для сбора релевантной информации временных рядов.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя как офлайн-процессы, так и обработку в реальном времени.

INDEXING – Индексирование и извлечение признаков
На этом этапе Time Series Collection Engine может предварительно анализировать ресурсы (как указано в Claim 7). Система определяет, содержит ли индексируемый ресурс информацию временных рядов, извлекает ее и может сохранять в Time Series Cache, ассоциируя с ресурсом.

QUNDERSTANDING – Понимание Запросов
Включает два аспекта:

Офлайн: Анализ логов запросов для выявления популярных запросов, требующих временных рядов (Claim 1). Для них информация собирается заранее (pre-computation).
Онлайн: Time Series Interest Engine анализирует входящий запрос на наличие признаков интереса к временным рядам (Claim 2).

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование
Основное применение патента происходит на этапе формирования выдачи.

Принятие решения: Cost-Benefit Engine активируется, если обнаружен интерес к временным рядам. Он рассчитывает Cost Estimate и Benefit Estimate.
Генерация функции: Если выгода превышает затраты, система генерирует блок с временным рядом (используя кэш или собирая данные на лету с помощью Time Series Collection Engine).
Смешивание: Сгенерированный блок интегрируется в поисковую выдачу (SERP) вместе с другими результатами.

Входные данные:

Запрос пользователя.
Данные о нагрузке системы (System Load), задержках, сетевых ресурсах.
Статус Time Series Cache.
Click Log Data (история взаимодействия с подобными функциями).
Характеристики пользователя (если известны).
Индексированные ресурсы (для извлечения данных).

Выходные данные:

Решение о генерации/не генерации временного ряда.
Сгенерированная информация временного ряда (в виде графика или таблицы), интегрированная в SERP.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на информационные запросы, связанные с данными, изменяющимися во времени (например, [население Франции], [цена биткоина], [минимальная зарплата в Мэн]).
Конкретные ниши или тематики: Финансы, экономика, демография, статистика, погода и другие ниши, богатые статистическими данными.
Форматы контента: Влияет на вероятность показа расширенных блоков (SERP features) в виде графиков и таблиц данных.

Когда применяется

Алгоритм применяется при выполнении следующих условий:

Триггер активации: Когда Time Series Interest Engine определяет, что запрос, вероятно, выиграет от предоставления информации временных рядов (на основе семантики, дат или анализа ресурсов).
Условие выполнения: Только если рассчитанный Benefit Estimate превышает Cost Estimate (или превышает его на определенный пороговый уровень).
Особые случаи (Prompt): В патенте упоминается (Claim 5), что система может показать пользователю подсказку (Prompt), спрашивая, хочет ли он увидеть график, вместо автоматической генерации. Это может происходить, если разница между выгодой и затратами находится в определенном диапазоне (неопределенность).

Пошаговый алгоритм

Процесс А: Обработка запроса в реальном времени

Получение запроса: Система получает запрос от пользователя.
Определение интереса: Time Series Interest Engine анализирует запрос на наличие индикаторов интереса к временным рядам.
- Если НЕТ: Стандартная обработка запроса.
- Если ДА: Переход к шагу 3.
Генерация оценки затрат (Cost Estimate): Cost-Benefit Engine рассчитывает затраты. Проверяется наличие данных в Time Series Cache. Оценивается текущий System Load, ожидаемое время обработки, задержка и нагрузка на сеть.
Генерация оценки выгоды (Benefit Estimate): Cost-Benefit Engine рассчитывает выгоду. Анализируются Click Log Data, характеристики пользователя и прогнозируемый Level of Certainty данных, которые могут быть собраны.
Сравнение и принятие решения: Система сравнивает Выгоду и Затраты.
- Если Затраты > Выгоды: Временной ряд не генерируется.
- Если Выгода > Затраты: Переход к шагу 6.
- (Опционально) Если неопределенность: Показать пользователю подсказку (Prompt) и ждать ответа.
Сбор данных: Time Series Collection Engine собирает данные. Если данных нет в кэше, они извлекаются и агрегируются из релевантных ресурсов.
Валидация и форматирование: Определяется финальный Level of Certainty. Система выбирает формат отображения (график или таблица).
Предоставление результатов: Информация временного ряда предоставляется пользователю вместе с результатами поиска.

Процесс Б: Офлайн-обработка (Pre-computation)

Анализ логов: Система анализирует журналы запросов.
Идентификация популярных запросов: Выявляются популярные запросы, указывающие на интерес к временным рядам (Claim 1).
Сбор и кэширование: Для этих запросов Time Series Collection Engine заранее собирает данные и сохраняет их в Time Series Cache.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для оценки как затрат, так и выгод.

Данные для оценки Затрат (Cost Estimate):

Технические факторы (Системные метрики): Текущая нагрузка на систему (System Load), нагрузка на сеть (network resource load), метрики задержки (latency). Также упоминаются стоимость хранения (storage device cost) и стоимость экранного пространства (cost of screen space).
Статус кэша: Наличие или отсутствие предварительно собранных данных в Time Series Cache.
Сложность парсинга: Оценка времени, необходимого для извлечения данных из ресурсов (processing time).

Данные для оценки Выгоды (Benefit Estimate):

Поведенческие факторы: Click Log Data — анализируется прошлая вовлеченность пользователей (клики, время просмотра) при показе временных рядов по этому или похожим запросам.
Пользовательские факторы: Характеристики пользователя (возраст, опыт, история поиска), которые могут указывать на повышенный или пониженный интерес к данным временных рядов.
Факторы качества данных: Оценка авторитетности источников и согласованности данных для расчета Level of Certainty. Также учитывается общее количество точек в ряду.

Данные для генерации временного ряда:

Контентные факторы: Текст и структурированные данные (таблицы) из индексированных ресурсов, из которых извлекаются точки данных и временные метки.

Какие метрики используются и как они считаются

Cost Estimate: Агрегированная метрика затрат. Рассчитывается на основе взвешивания факторов, таких как System Load, Latency, Processing Time и статуса кэша. Конкретные формулы в патенте не приводятся.
Benefit Estimate: Агрегированная метрика выгоды. Рассчитывается на основе взвешивания Level of Certainty, анализа Click Log Data и характеристик пользователя. Конкретные формулы не приводятся.
Level of Certainty: Метрика уверенности в данных. Может снижаться, если данные из разных источников конфликтуют, или повышаться, если данные получены из авторитетных источников (например, правительственных сайтов) или если разница между конфликтующими данными невелика.

Баланс ресурсов и UX: Google активно управляет своими вычислительными ресурсами. Сложные SERP-функции, такие как визуализация данных, генерируются не всегда, а только когда это оправдано с точки зрения затрат и ожидаемой пользы для пользователя.
Вовлеченность как мера выгоды: Прошлое поведение пользователей (Click Data) является ключевым фактором при определении "Выгоды". Если пользователи не взаимодействуют с определенной функцией по данному типу запросов, Google с меньшей вероятностью будет тратить ресурсы на ее генерацию.
Качество данных определяет показ: Level of Certainty (уверенность в качестве и точности данных) напрямую влияет на оценку выгоды. Google предпочитает не показывать данные, если не уверен в их надежности или если источники конфликтуют.
Стоимость извлечения имеет значение: Сложность парсинга и сбора данных (Processing Time) является ключевым компонентом "Затрат". Чем сложнее извлечь данные, тем выше стоимость и тем меньше вероятность генерации временного ряда.
Офлайн-обработка для скорости: Для популярных запросов Google предпочитает рассчитывать и кэшировать временные ряды заранее (офлайн), чтобы минимизировать затраты и задержки во время реального поиска.

Best practices (это мы делаем)

Хотя патент описывает внутренние процессы Google по управлению ресурсами, мы можем использовать эти знания для повышения вероятности того, что Google извлечет и покажет данные с нашего сайта в виде временных рядов.

Снижение "Затрат" для Google (Упрощение парсинга): Структурируйте исторические данные максимально четко. Используйте чистые HTML-таблицы (<table>) для представления временных рядов. Это снижает Processing Time, необходимый для извлечения данных, тем самым уменьшая Cost Estimate для Google.
Использование микроразметки: Применяйте релевантную разметку Schema.org (например, Dataset), чтобы помочь поисковой системе идентифицировать и интерпретировать наборы данных на странице.
Повышение "Выгоды" для Google (Увеличение Level of Certainty): Обеспечьте высокое качество и авторитетность данных. Указывайте источники, даты публикации и обновления данных. Работайте над общим авторитетом сайта (E-E-A-T) в нише, связанной с данными. Чем выше доверие к сайту, тем выше Level of Certainty.
Согласованность данных: Убедитесь, что данные на вашем сайте согласованы и не конфликтуют с другими авторитетными источниками, так как конфликты снижают Level of Certainty.
Ориентация на запросы с временным интентом: Создавайте контент, отвечающий на запросы, которые подразумевают интерес к истории или трендам (например, "история процентных ставок", "динамика цен на недвижимость").

Worst practices (это делать не надо)

Представление данных в виде изображений или сложных скриптов: Размещение временных рядов внутри изображений, сложных JavaScript-визуализаций или PDF без текстового слоя значительно увеличивает "Затраты" (Processing Time) на извлечение данных, делая их использование Google маловероятным.
Неструктурированный текст: Описание временных рядов в виде длинных абзацев текста (например, "в 2010 году было X, а в 2011 стало Y...") сложнее для парсинга, чем таблицы.
Предоставление устаревших или ненадежных данных: Публикация данных без проверки или из сомнительных источников снижает Level of Certainty и, следовательно, "Выгоду" для Google.

Стратегическое значение

Патент подтверждает важность структурированных данных и технической оптимизации не только для ранжирования, но и для появления в расширенных результатах поиска. Он демонстрирует, что Google оценивает контент не только с точки зрения релевантности и качества, но и с точки зрения "стоимости" его обработки. Стратегия должна включать упрощение доступа к данным для поисковых роботов, чтобы минимизировать затраты Google на их использование.

Практические примеры

Сценарий: Оптимизация страницы с демографическими данными

Задача: Повысить вероятность того, что Google покажет график на основе данных со страницы "Население Берлина по годам".

Анализ текущей реализации: Данные представлены в виде списка, разбросанного по нескольким абзацам. Источники не указаны.
Применение Best Practices (Снижение Затрат): Все данные сводятся в единую HTML-таблицу с двумя колонками: "Год" и "Население". Добавляется разметка Dataset.
Применение Best Practices (Повышение Выгоды): Внизу таблицы добавляется ссылка на официальный источник данных (например, Статистическое управление Берлина). Проверяется актуальность данных. Это повышает Level of Certainty.
Ожидаемый результат: Google требуется меньше времени на парсинг (ниже Cost Estimate) и он больше доверяет данным (выше Benefit Estimate). Вероятность генерации графика временного ряда в SERP увеличивается.

Описывает ли этот патент алгоритм ранжирования?

Нет, этот патент не описывает, как ранжируются стандартные веб-страницы ("синие ссылки"). Он описывает механизм принятия решений о том, стоит ли тратить вычислительные ресурсы на генерацию специальной функции в выдаче — блока с информацией временных рядов (графика или таблицы). Это скорее патент об управлении ресурсами и оптимизации пользовательского опыта (SXO).

Что такое анализ "Затрат и Выгод" (Cost-Benefit Analysis) в контексте поиска?

Это процесс, при котором Google взвешивает ресурсы, необходимые для выполнения задачи (Затраты), против ожидаемого улучшения пользовательского опыта (Выгода). Затраты включают время работы сервера, задержку ответа и нагрузку на сеть. Выгода включает вероятность того, что пользователь найдет информацию полезной (оценивается по кликам) и качество самой информации.

Как SEO-специалист может снизить "Затраты" (Cost Estimate) для Google?

Ключевой фактор затрат, на который можно повлиять, — это время обработки (Processing Time), необходимое для извлечения данных. Чтобы его снизить, данные должны быть представлены в легко парсируемом формате. Используйте чистые HTML-таблицы и микроразметку Dataset. Избегайте представления данных в виде изображений или сложных скриптов.

Как можно повысить "Выгоду" (Benefit Estimate) для Google?

Выгода повышается за счет двух основных факторов: качества данных и ожидаемой вовлеченности пользователей. Повышайте Уровень Уверенности (Level of Certainty), предоставляя точные, актуальные данные из авторитетных источников и работая над общим E-E-A-T сайта. Также создавайте контент, который точно соответствует запросам, подразумевающим временные ряды.

Почему Google иногда показывает график, а иногда нет, по одному и тому же запросу?

Патент объясняет это динамическим расчетом затрат. Если в момент запроса нагрузка на систему (System Load) высока или наблюдаются сетевые задержки (Latency), Cost Estimate может возрасти. Если затраты превысят выгоду, Google может решить не генерировать график в этот конкретный момент, чтобы быстрее отдать стандартные результаты поиска.

Использует ли Google данные о кликах (Click Data) в этом алгоритме?

Да, Click Log Data используется для расчета Benefit Estimate. Если в прошлом пользователи часто кликали или взаимодействовали с графиками временных рядов по схожим запросам, Google считает это признаком высокой выгоды и с большей вероятностью покажет график снова.

Что такое "Уровень уверенности" (Level of Certainty) и почему он важен?

Это мера того, насколько Google доверяет собранным данным. Она зависит от авторитетности источников и согласованности информации. Если разные сайты предоставляют конфликтующие данные по одному и тому же вопросу, Level of Certainty снижается, что уменьшает общую Выгоду и вероятность показа графика.

Может ли Google извлекать данные из нескольких разных сайтов для одного графика?

Да. Time Series Collection Engine предназначен для извлечения и агрегации данных из нескольких ресурсов (Claim 4). Например, он может взять данные за 1990-2000 годы с одного сайта, а за 2001-2010 годы — с другого, а затем объединить их в единый временной ряд.

Что значит, что Google может "предварительно рассчитать" (pre-compute) временные ряды?

Это означает, что Google анализирует логи запросов офлайн, выявляет популярные запросы, связанные с временными рядами (например, [цена акций Apple]), и заранее собирает для них данные. Эта информация сохраняется в Time Series Cache. Когда пользователь вводит такой запрос, Google мгновенно достает данные из кэша, что сводит Затраты к минимуму.

Влияют ли характеристики пользователя на показ временных рядов?

Да, патент упоминает, что Benefit Estimate может рассчитываться с учетом характеристик пользователя (Claim 3). Например, если система знает, что пользователь часто ищет статистические данные или имеет определенный профессиональный бэкграунд (опыт), выгода от показа графика для него может быть оценена выше.

Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов

Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.

US10489459B1
2019-11-26

Семантика и интент

Как Google оптимизирует скорость генерации поисковой выдачи с помощью адаптивного планирования внутренних задач

Google использует систему адаптивного планирования для ускорения ответа на поисковый запрос. Система разбивает запрос на множество внутренних задач (например, поиск, парсинг, фильтрация) и прогнозирует время их выполнения на основе исторических данных и контекста (например, времени суток). Это позволяет оптимально распределить нагрузку на процессоры и минимизировать общее время генерации SERP.

US8555281B1
2013-10-08

SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google агрегирует и отображает исторические тренды для продуктов со сложными атрибутами (например, цены или ставки)

Google использует систему для отслеживания изменений характеристик продуктов (цены, ставки по ипотеке) во времени. Система заранее определяет типичные сценарии поиска, периодически собирает данные по ним, агрегирует результаты в статистику (например, средняя цена за день) и сохраняет эту историю. Это позволяет быстро отображать графики трендов, когда пользователь выполняет похожий поиск.

US20150073871A1
2015-03-12

Google Shopping

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

US8751520B1
2014-06-10

SERP
Поведенческие сигналы
Семантика и интент

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)

Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.

US10248698B2
2019-04-02

Персонализация
Поведенческие сигналы
SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска

Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.

US8996514B1
2015-03-31

Техническое SEO
Ссылки

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)

Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.

US7590628B2
2009-09-15

Семантика и интент
Структура сайта
Ссылки

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче

Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.

US8645362B1
2014-02-04

Техническое SEO
Поведенческие сигналы
SERP