SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

QUERY CLASSIFICATION (Классификация запросов)
  • US9152701B2
  • Google LLC
  • 2012-05-02
  • 2015-10-06
  • Семантика и интент
  • Безопасный поиск
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

Описание

Какую проблему решает

Патент решает проблему определения истинного намерения пользователя (интента) для неоднозначных запросов, особенно когда интент связан с контентом, подлежащим фильтрации (например, порнография). Традиционные методы, основанные на анализе терминов запроса, могут быть неэффективны, если запрос не содержит явных ключевых слов или использует эвфемизмы (например, запрос "amateur"). Изобретение позволяет классифицировать интент запроса независимо от его содержания, основываясь на поведении пользователей при настройке фильтров поиска.

Что запатентовано

Запатентована система классификации запросов, которая определяет вероятность того, что запрос направлен на поиск контента определенного типа. Классификация основывается на анализе частоты использования этого запроса в unfiltered search operations (поиск с выключенным фильтром) по сравнению с filtered search operations (поиск с включенным фильтром). Система вычисляет нормализованное значение (Content Type Value), и если оно превышает порог, запрос классифицируется как Content Type Seeking Query.

Как это работает

Система анализирует логи поиска (Search Logs) и для каждого запроса подсчитывает, сколько раз он был отправлен с включенным контентным фильтром и сколько раз — с выключенным. Эти данные нормализуются относительно общего объема всех фильтрованных и нефильтрованных поисковых операций в системе. Затем вычисляется соотношение между этими двумя нормализованными значениями (Content Type Value). Если запрос непропорционально часто используется в нефильтрованном поиске, система классифицирует его как ищущий данный тип контента. Эта классификация затем используется для корректировки relevance scores: повышая или понижая результаты, содержащие контент данного типа.

Актуальность для SEO

Высокая. Понимание интента пользователя, особенно для неоднозначных запросов и чувствительных тем (включая взрослый контент, регулируемый SafeSearch), остается ключевой задачей поисковых систем. Описанный метод обеспечивает мощный поведенческий сигнал для классификации запросов, который не зависит от языка или конкретных терминов и адаптируется к изменениям в поведении пользователей.

Важность для SEO

Патент имеет высокое значение для SEO (75/100), особенно для сайтов, работающих в нишах с неоднозначным контентом или для брендов, чьи названия могут пересекаться с чувствительными тематиками. Он описывает конкретный механизм, как Google определяет, ищет ли пользователь "взрослый" (или иной фильтруемый) контент по запросу, который сам по себе не содержит стоп-слов. Это напрямую влияет на то, будут ли результаты определенного типа повышены или понижены в выдаче при отключенном фильтре.

Детальный разбор

Термины и определения

Content Type Seeking Query (CTSQ) (Запрос, ищущий контент определенного типа)
Классификация запроса, указывающая на вероятный интерес пользователя к контенту определенного типа (например, adult). Присваивается, если Content Type Value превышает порог.
Content Type Independent Query (Запрос, не зависящий от типа контента)
Классификация запроса, указывающая на маловероятный интерес пользователя к контенту определенного типа. Присваивается, если Content Type Value не достигает порога.
Content Type Value (CTV) (Значение типа контента)
Метрика, рассчитываемая для запроса на основе соотношения First Value и Second Value. Используется для классификации запроса.
Filtered Search Operation (Фильтрованная поисковая операция)
Поисковая операция, при которой результаты, содержащие контент определенного типа, не могут быть возвращены в ответ на запрос (например, SafeSearch включен).
Unfiltered Search Operation (Нефильтрованная поисковая операция)
Поисковая операция, при которой результаты, содержащие контент определенного типа, могут быть возвращены в ответ на запрос (например, SafeSearch выключен).
First Value (FV) (Первое значение)
Нормализованное значение. Рассчитывается как отношение числа нефильтрованных операций для данного запроса к общему числу всех нефильтрованных операций в системе.
Second Value (SV) (Второе значение)
Нормализованное значение. Рассчитывается как отношение числа фильтрованных операций для данного запроса к общему числу всех фильтрованных операций в системе.
Search Logs (Логи поиска)
Хранилище данных о запросах, результатах и настройках фильтрации (filter settings) для каждой поисковой операции.
Session (Сессия)
Коллекция запросов, полученных от одного пользовательского устройства в течение определенного периода времени. Используется для уточнения интента.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод классификации запросов с использованием нормализации данных об использовании фильтров.

  1. Система получает множество запросов.
  2. Для каждого запроса определяется первое количество вхождений (Noff) в Unfiltered Search Operations и второе количество вхождений (Non) в Filtered Search Operations.
  3. Вычисляется общее количество всех нефильтрованных операций (NoffTot) и всех фильтрованных операций (NonTot) на основе данных по всем запросам.
  4. Для каждого запроса вычисляются нормализованные значения:
    • First Value (FV) = Noff / NoffTot.
    • Second Value (SV) = Non / NonTot.
  5. Для каждого запроса вычисляется First Content Type Value (CTV) как отношение FV к SV.
  6. Если CTV достигает первого порога (first threshold), запрос классифицируется как First Content Type Seeking Query (CTSQ).
  7. Если CTV не достигает первого порога, запрос классифицируется как First Content Type Independent Query.

Ядро изобретения заключается в использовании нормализованных частот (FV и SV). Это позволяет учесть базовое распределение фильтрованных и нефильтрованных операций в системе. Например, если 90% всех поисков фильтрованные, нормализация позволяет выявить запросы, для которых пользователи отключают фильтр значительно чаще, чем в среднем по системе.

Claim 2 (Зависимый): Уточняет, что контент первого типа — это порнографический контент.

Claim 5 и 6 (Зависимые): Описывают механизм корректировки подсчета вхождений на основе сессий. Если в течение одной сессии запрос был отправлен сначала с одной настройкой фильтра, а затем с другой, то первое вхождение дисконтируется (не учитывается), а учитывается только последнее. Это повышает точность определения истинного намерения.

Claim 7 (Зависимый): Описывает применение классификации для понижения ранжирования. Если получен запрос для Unfiltered Search Operation (фильтр выключен) и этот запрос НЕ классифицирован как CTSQ, система понижает relevance score для всех ресурсов, содержащих контент первого типа.

Claim 8 (Зависимый): Описывает применение классификации для повышения ранжирования. Если получен запрос для Unfiltered Search Operation и этот запрос классифицирован как CTSQ, система повышает relevance score для всех ресурсов, содержащих контент первого типа.

Где и как применяется

Изобретение затрагивает этапы понимания запросов и ранжирования/переранжирования.

QUNDERSTANDING – Понимание Запросов
Основное применение патента. Система Query Classification System работает преимущественно в офлайн-режиме, анализируя Search Logs для классификации запросов. Этот процесс определяет интент запроса на основе исторических данных о фильтрации.

RANKING / RERANKING – Ранжирование и Переранжирование
На этих этапах используются результаты классификации. Когда поступает новый запрос в реальном времени, система проверяет его классификацию и настройки фильтрации текущей операции. В зависимости от этого (Claims 7 и 8), система корректирует relevance scores результатов, содержащих контент соответствующего типа.

Входные данные (Офлайн-процесс):

  • Search Logs, содержащие исторические данные о запросах (Qx).
  • Настройки фильтрации (Fx) для каждого вхождения запроса в логах.
  • Данные о сессиях.

Выходные данные (Офлайн-процесс):

  • База данных классификаций (Classifications Store), где запросам присвоены метки (например, CTSQ или Independent).

Входные данные (Онлайн-процесс):

  • Текущий запрос и его настройка фильтрации.
  • База данных классификаций.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (ambiguous queries), которые могут иметь разный интент. Например, запросы, которые могут интерпретироваться как информационные или как направленные на поиск adult-контента.
  • Конкретные типы контента: Влияет на видимость контента, который подпадает под действие фильтров (например, SafeSearch). В патенте явно упоминается порнографический контент, но механизм может применяться к любым фильтруемым типам контента (например, насилие, или даже фильтры типа "только новости" или "только черно-белые изображения").
  • Конкретные ниши или тематики: Сильно влияет на adult-нишу и смежные тематики, где часто используются нейтральные термины для поиска деликатного контента.

Когда применяется

  • Офлайн-классификация: Применяется периодически для анализа накопленных логов поиска и обновления базы классификаций запросов.
  • Онлайн-корректировка ранжирования: Применяется в реальном времени при обработке запроса, но только если это Unfiltered Search Operation (Claim 7, 8).
  • Пороговые значения: Классификация происходит только тогда, когда рассчитанный Content Type Value (CTV) достигает определенного порога (например, >1, или как указано в примере патента, >3 или <0.8).

Пошаговый алгоритм

Процесс А: Классификация запросов (Офлайн)

  1. Сбор данных: Система получает доступ к Search Logs, содержащим множество запросов и соответствующие им настройки фильтрации.
  2. Очистка данных (Обработка сессий):
    • Для каждого запроса в рамках одной сессии проверяется, был ли он отправлен более одного раза с разными настройками фильтрации.
    • Если да, то учитывается только последняя настройка фильтрации в сессии, а предыдущие дисконтируются (игнорируются).
  3. Подсчет вхождений: Для каждого уникального запроса определяется:
    • Первое количество (Noff): число нефильтрованных операций.
    • Второе количество (Non): число фильтрованных операций.
  4. Расчет общих значений: Определяется общее количество всех нефильтрованных операций (NoffTot) и всех фильтрованных операций (NonTot) в системе.
  5. Нормализация: Для каждого запроса вычисляются:
    • First Value (FV) = Noff / NoffTot.
    • Second Value (SV) = Non / NonTot.
  6. Вычисление CTV: Для каждого запроса рассчитывается Content Type Value (CTV) = FV / SV.
  7. Классификация:
    • Сравнение CTV с порогом (Threshold).
    • Если CTV соответствует порогу (например, значительно больше 1), запрос классифицируется как Content Type Seeking Query (CTSQ).
    • Если нет, запрос классифицируется как Content Type Independent.
  8. Сохранение: Классификации сохраняются в базе данных.

Процесс Б: Использование классификации при ранжировании (Онлайн)

  1. Получение запроса: Система получает запрос для Unfiltered Search Operation (фильтр выключен).
  2. Проверка классификации: Система проверяет в базе данных, классифицирован ли запрос как CTSQ.
  3. Корректировка релевантности:
    • Если запрос классифицирован как CTSQ: Система увеличивает relevance score для ресурсов, содержащих контент данного типа.
    • Если запрос НЕ классифицирован как CTSQ (т.е. Content Type Independent): Система уменьшает relevance score для ресурсов, содержащих контент данного типа.
  4. Формирование выдачи: Результаты ранжируются на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на анализе логов поиска и настроек фильтрации. Он не использует контентные, ссылочные или технические факторы для классификации запросов.

  • Поведенческие факторы:
    • Настройки фильтрации (Filter Settings): Ключевой элемент данных. Для каждой поисковой операции система знает, была ли она фильтрованной или нефильтрованной (например, статус SafeSearch ON/OFF).
    • Данные сессий (Session Data): Используются для определения контекста и очистки данных. Система анализирует последовательность запросов и изменение настроек фильтра в рамках одной сессии.
  • Данные запросов: Текст запросов из Search Logs.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрики и строгий процесс нормализации.

  • Noff (для запроса): Количество нефильтрованных операций для конкретного запроса (скорректированное по сессиям).
  • Non (для запроса): Количество фильтрованных операций для конкретного запроса (скорректированное по сессиям).
  • NoffTot: Общее количество всех нефильтрованных операций в системе (сумма всех Noff).
  • NonTot: Общее количество всех фильтрованных операций в системе (сумма всех Non).
  • First Value (FV): Нормализованная частота нефильтрованных операций. FV=NoffNoffTotFV = \frac{Noff}{NoffTot}FV=NoffTotNoff​.
  • Second Value (SV): Нормализованная частота фильтрованных операций. SV=NonNonTotSV = \frac{Non}{NonTot}SV=NonTotNon​.
  • Content Type Value (CTV): Соотношение нормализованных частот. CTV=FVSVCTV = \frac{FV}{SV}CTV=SVFV​.
  • Threshold (Порог): Значение, с которым сравнивается CTV. В патенте упоминается, что порог может быть больше 1. В примере используются пороги > 3 для CTSQ и < 0.8 для Content Type Independent.

Выводы

  1. Классификация интента без анализа контента: Патент описывает механизм для определения интента запроса, который полностью игнорирует термины запроса и содержание результатов. Он основан исключительно на том, как пользователи взаимодействуют с настройками фильтрации (например, SafeSearch).
  2. Важность нормализации данных: Ключевым элементом является нормализация. Система не просто считает абсолютное количество включений/выключений фильтра, а сравнивает поведение пользователей по конкретному запросу со средним поведением по всем запросам. Это позволяет точно выявлять статистические аномалии в использовании фильтров.
  3. Обработка ошибок пользователя (Session Refinement): Система учитывает изменение настроек фильтра в рамках одной сессии. Если пользователь сначала искал с фильтром, а потом без (или наоборот) и повторил запрос, учитывается только последняя настройка. Это повышает точность определения истинного намерения.
  4. Прямое влияние на ранжирование в нефильтрованном поиске: Классификация запроса напрямую используется для корректировки relevance scores. Если запрос признан ищущим определенный контент (CTSQ), этот контент бустится. Если запрос признан нейтральным (Independent), то контент деликатного типа пессимизируется, даже если фильтр у пользователя выключен.
  5. Решение проблемы неоднозначных запросов: Этот механизм особенно эффективен для запросов с двойным смыслом, где один из интентов связан с фильтруемым контентом. Система определяет доминирующий интент на основе агрегированных пользовательских данных.

Практика

Best practices (это мы делаем)

  • Анализ интента с учетом SafeSearch: При анализе семантики в нишах с двойным интентом (например, здоровье, развлечения, определенные товары), необходимо учитывать, как Google классифицирует запрос. Если ваш контент не связан с adult, но вы таргетируетесь на запросы, которые могут быть классифицированы как CTSQ (например, из-за сленга), вы будете конкурировать с adult-контентом, получающим бустинг в нефильтрованной выдаче.
  • Четкое позиционирование контента: Убедитесь, что ваш контент четко соответствует основному интенту запроса. Если запрос классифицирован как Content Type Independent, Google будет активно понижать любые результаты, которые классифицированы как adult, даже в нефильтрованной выдаче. Это подчеркивает важность избегания случайного использования терминов или изображений, которые могут привести к неверной классификации страницы.
  • Мониторинг выдачи в разных режимах: Для пограничных запросов проверяйте выдачу как с включенным SafeSearch, так и с выключенным. Значительные различия указывают на то, как система классифицирует запрос и какие корректировки ранжирования применяются.
  • Стратегия для Adult-сегмента: Для сайтов соответствующей тематики этот патент подчеркивает важность таргетинга на запросы, которые система классифицировала как CTSQ. По этим запросам система будет активно повышать релевантные результаты при выключенном фильтре.

Worst practices (это делать не надо)

  • Использование неоднозначных терминов без необходимости: Использование ключевых слов, которые часто ассоциируются с adult-тематикой (высокий CTV), на информационных или коммерческих сайтах может привести к проблемам. Страница может быть ошибочно классифицирована как adult, и если запрос признан нейтральным (Independent), страница будет понижена в ранжировании.
  • Игнорирование классификации контента: Попытки ранжировать контент деликатного типа по общим запросам, которые Google классифицировал как Content Type Independent, будут неэффективны. Система активно борется с показом такого контента по нейтральным запросам, даже если у пользователя отключен фильтр.

Стратегическое значение

Патент подтверждает, что Google использует агрегированные данные о поведении пользователей для понимания интента на уровне отдельных запросов. Это механизм "мудрости толпы" для интерпретации неоднозначности. Стратегически это означает, что интент запроса определяется не только семантикой слов, но и историческими паттернами взаимодействия пользователей с интерфейсом поиска (в данном случае, с фильтрами). Это снижает зависимость Google от лингвистического анализа и делает систему более устойчивой к новым терминам и сленгу.

Практические примеры

Сценарий 1: Классификация неоднозначного запроса (Пример из патента: "Nurse")

  1. Исходные данные (гипотетические): Общий объем поиска: 9000 фильтрованных операций (NonTot), 1000 нефильтрованных (NoffTot). Запрос "Nurse": 55 раз в фильтрованном поиске (Non), 25 раз в нефильтрованном (Noff).
  2. Нормализация:
    • SV (фильтрованный) = 55 / 9000 = 0.0061.
    • FV (нефильтрованный) = 25 / 1000 = 0.025.
  3. Расчет CTV: CTV = FV / SV = 0.025 / 0.0061 = 4.091.
  4. Классификация: Если порог для CTSQ равен 3.0, то запрос "Nurse" (CTV 4.091) классифицируется как ищущий данный тип контента (например, adult).
  5. Результат: Когда пользователь вводит запрос "Nurse" с выключенным фильтром, Google применяет бустинг к adult-результатам (Claim 8).

Сценарий 2: Классификация нейтрального запроса (Пример из патента: "Calculator")

  1. Исходные данные: Запрос "Calculator": 75 раз в фильтрованном (Non), 7 раз в нефильтрованном (Noff).
  2. Нормализация и расчет CTV:
    • SV = 75 / 9000 = 0.008333.
    • FV = 7 / 1000 = 0.007.
    • CTV = 0.007 / 0.008333 = 0.84.
  3. Классификация: CTV 0.84 ниже порога. Запрос классифицируется как Independent.
  4. Результат: Когда пользователь вводит запрос "Calculator" с выключенным фильтром, Google понижает любые adult-результаты по этому запросу (Claim 7), защищая чистоту выдачи.

Вопросы и ответы

Что такое Content Type Value (CTV) и почему важна нормализация при его расчете?

CTV — это соотношение между частотой использования запроса в нефильтрованном поиске и частотой его использования в фильтрованном поиске, при этом обе частоты нормализованы. Нормализация критически важна, потому что она учитывает базовое распределение использования фильтров в системе. Например, если 90% всех поисков происходят с включенным фильтром, нормализация позволяет выявить запросы, для которых пользователи отключают фильтр значительно чаще, чем эти базовые 10%, что является сильным сигналом интента.

Как система обрабатывает ситуации, когда пользователь меняет настройки фильтра во время поиска?

Патент описывает механизм обработки сессий (Claims 5 и 6). Если один и тот же запрос отправляется несколько раз в течение одной сессии с разными настройками фильтрации, система учитывает только последнюю настройку. Предыдущие считаются ошибками пользователя и дисконтируются при подсчете. Это повышает точность определения истинного намерения пользователя.

Влияет ли эта классификация на ранжирование, если у пользователя включен SafeSearch (Filtered Search Operation)?

Нет. Патент фокусируется на корректировке ранжирования только для Unfiltered Search Operations (SafeSearch выключен), как указано в Claims 7 и 8. Если фильтр включен, то контент соответствующего типа и так не будет показан по определению фильтрованной операции. Механизм корректировки применяется именно тогда, когда контент может быть показан.

Что произойдет, если мой сайт ошибочно классифицирован как adult, а запрос классифицирован как нейтральный (Content Type Independent)?

Это проблемный сценарий. Согласно Claim 7, если запрос классифицирован как нейтральный, а пользователь ищет в нефильтрованном режиме, система активно понизит relevance score для всех ресурсов, содержащих контент данного типа (в данном случае, adult). Ваш сайт будет пессимизирован в выдаче по этому запросу, даже если он релевантен по тексту.

Может ли этот патент использоваться для других типов контента, кроме adult?

Да. Хотя в патенте в качестве основного примера используется порнографический контент (Claim 2), описанный механизм является общим. Он может применяться к любым типам контента, для которых существуют фильтры, например, контент с насилием, или даже не связанные с безопасностью фильтры, такие как фильтры изображений ("черно-белые") или тематические фильтры ("только новости").

Как узнать, классифицирован ли мой целевой запрос как Content Type Seeking Query (CTSQ)?

Google не предоставляет эту информацию напрямую. Однако можно провести косвенный анализ. Сравните выдачу по запросу в режиме с включенным и выключенным SafeSearch. Если при выключенном SafeSearch в топе появляется много adult-контента, который сильно опережает другие результаты, вероятно, запрос имеет высокий CTV и классифицирован как CTSQ.

Заменяет ли этот механизм анализ ключевых слов для определения интента?

Нет, он дополняет его. Этот механизм особенно полезен, когда анализ ключевых слов не дает однозначного ответа (неоднозначные запросы) или когда используются новые термины/сленг, которые еще не известны лингвистическим моделям. Он обеспечивает основанный на данных способ классификации, независимый от языка и содержания.

Какие пороги (Thresholds) используются для классификации?

Патент не указывает точных значений, но утверждает, что порог для CTSQ должен быть больше 1 (Claim 3). В описании приводится пример, где порог для CTSQ может быть >3, а порог для Content Type Independent <0.8. Запросы в промежуточном диапазоне могут оставаться неклассифицированными в рамках этой системы.

Что делать, если мой информационный контент конкурирует с adult по неоднозначному запросу?

Если запрос классифицирован как CTSQ, конкурировать напрямую будет сложно, так как adult-контент получает преимущество (бустинг) в нефильтрованном поиске. Стратегия должна заключаться в уточнении семантики и таргетинге на более длинные, специфические запросы (long-tail), которые с меньшей вероятностью будут классифицированы как CTSQ.

Как быстро система реагирует на появление новых трендов или сленга?

Поскольку система основана на анализе Search Logs и не требует машинного обучения на контенте, она может реагировать относительно быстро. Как только новый термин начинает использоваться в поиске и пользователи начинают взаимодействовать с фильтрами при его вводе, система накапливает данные для расчета CTV. Скорость реакции зависит от частоты обновления офлайн-процесса классификации.

Похожие патенты

Как Google рассчитывает «Рейтинг безопасности» запроса для фильтрации или блокировки выдачи (SafeSearch)
Google анализирует рейтинги контента (например, «для всех возрастов» или «для взрослых») топовых результатов по запросу, чтобы вычислить его «Safety Score». Если выдача содержит слишком много неприемлемого контента, система может полностью заблокировать запрос или агрессивно отфильтровать результаты, показывая только гарантированно безопасный и релевантный контент.
  • US11829373B2
  • 2023-11-28
  • Безопасный поиск

  • SERP

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи
Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.
  • US8838587B1
  • 2014-09-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует классификаторы запросов и контента для фильтрации и понижения оскорбительных результатов, связанных с защищенными группами
Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, содержат ли результаты поиска оскорбительный контент. На основе комбинации этих классификаций и анализа сессии пользователя результаты могут быть отфильтрованы или понижены в ранжировании.
  • US10083237B2
  • 2018-09-25
  • Безопасный поиск

  • Семантика и интент

  • SERP

Как Google определяет намерение поиска изображений, анализируя контент топовых веб-результатов
Google использует систему для определения того, следует ли показывать блок с изображениями в поисковой выдаче. Вместо анализа только текста запроса, система анализирует характеристики контента (например, плотность изображений, соотношение изображений к тексту) на страницах, которые уже ранжируются в топе. Если эти страницы похожи на контент, который обычно удовлетворяет потребность в изображениях, система активирует показ блока картинок.
  • US9195717B2
  • 2015-11-24
  • Семантика и интент

  • Мультимедиа

  • SERP

Как Google классифицирует запросы о медиа (фильмы, книги, музыка), используя данные из разных вертикалей поиска и поведенческие сигналы
Google использует многофакторную модель для определения, относится ли запрос к медиа-контенту (фильмам, книгам, музыке). Система анализирует результаты товарного поиска, предлагаемые подсказки (candidate queries), частоту запроса в специализированных вертикалях (Search Probability Ratio) и наличие специфичных ключевых слов. Это позволяет точнее определить интент пользователя и показать релевантные специализированные блоки или товарные предложения.
  • US8768910B1
  • 2014-07-01
  • Семантика и интент

  • Поведенческие сигналы

  • Мультимедиа

Популярные патенты

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов
Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.
  • US9110975B1
  • 2015-08-18
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
  • US10853432B2
  • 2020-12-01
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank
Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.
  • US8122026B1
  • 2012-02-21
  • Семантика и интент

  • Ссылки

  • Knowledge Graph

seohardcore