SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует классификаторы запросов и контента для фильтрации и понижения оскорбительных результатов, связанных с защищенными группами

PROTECTING USERS FROM INAPPROPRIATE SENSITIVE OR OFFENSIVE SEARCH RESULTS (Защита пользователей от неуместных, деликатных или оскорбительных результатов поиска)
  • US10083237B2
  • Google LLC
  • 2015-08-31
  • 2018-09-25
  • Безопасный поиск
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, содержат ли результаты поиска оскорбительный контент. На основе комбинации этих классификаций и анализа сессии пользователя результаты могут быть отфильтрованы или понижены в ранжировании.

Описание

Какую проблему решает

Патент решает проблему непроизвольного воздействия на пользователей неуместного, деликатного или оскорбительного контента (inappropriate sensitive or offensive content) в результатах поиска. Он направлен на улучшение механизмов фильтрации (например, SafeSearch), особенно в ситуациях, когда контент является оскорбительным, подстрекательским или издевательским (spoof) по отношению к определенным «защищенным классам людей» (protected class of people), таким как демографические группы или профессии.

Что запатентовано

Запатентована система, которая применяет комбинаторную логику для модификации поисковой выдачи. Система использует два ключевых классификатора: Query Classifier (для анализа запроса) и Search Result Classifier (для анализа контента). Решение о фильтрации (удалении) или понижении (демоутинге) результата принимается на основе сочетания этих классификаций. Также учитываются данные сессии пользователя (user session data) для уточнения намерений.

Как это работает

Механизм работает следующим образом:

  • Классификация запроса: Система определяет, содержит ли запрос термины, относящиеся к protected class (например, «подростки», «политики»), и содержит ли он деликатные/оскорбительные термины (например, «шутки», «мемы», «банды»).
  • Классификация результатов: Каждый кандидат оценивается на предмет наличия sensitive or offensive content (например, насилие, порнография, издевательства, разжигание ненависти).
  • Применение правил: Система применяет логику, основанную на пересечении классификаций. Например:
    • Если запрос относится к protected class И содержит деликатные термины, А результат содержит оскорбительный контент, то результат фильтруется (удаляется).
    • Если запрос относится к protected class, но НЕ содержит деликатных терминов, А результат содержит оскорбительный контент, то результат понижается в ранжировании.
  • Анализ сессии: Система может анализировать предыдущие запросы в текущей сессии, чтобы определить, ищет ли пользователь целенаправленно неуместный контент, и соответствующим образом ужесточить фильтрацию.

Актуальность для SEO

Высокая. Защита пользователей от оскорбительного контента, hate speech и шокирующих материалов является приоритетной задачей для поисковых систем. Этот патент описывает базовую архитектуру для реализации сложных сценариев фильтрации, которые лежат в основе современных систем SafeSearch и механизмов обеспечения качества выдачи в деликатных тематиках.

Важность для SEO

Патент имеет существенное значение (75/100) для SEO, особенно в нишах, связанных с юмором, политикой, социальными темами, новостями и YMYL. Он демонстрирует, что оценка контента происходит не изолированно, а в контексте запроса и его связи с защищенными группами. Контент, классифицированный как оскорбительный или неуместный в этом контексте, подвергается риску полного исключения из выдачи или значительного понижения, даже если он релевантен запросу.

Детальный разбор

Термины и определения

Candidate set of search results (Набор результатов-кандидатов)
Предварительный набор результатов, полученный в ответ на поисковый запрос до применения фильтрации или модификации ранжирования, описанных в патенте.
Classification signals (Сигналы классификации)
Данные, полученные от классификаторов (запросов, результатов, сессий), которые используются поисковой системой для принятия решения о модификации выдачи.
Inappropriate sensitive or offensive content (Неуместный деликатный или оскорбительный контент)
Подкатегория Sensitive or offensive content. Включает контент, который является незаконным, оскорбительным или крайне нежелательным для protected class. Примеры: контент для вербовки в банды, подстрекательство к насилию, высмеивание (mocking) или издевательства (spoof content), разжигание ненависти против группы.
Protected class of people / Particular class of people (Защищенный класс людей)
Группа людей, имеющих по крайней мере одну общую демографическую характеристику, для которой желательна защита от неуместного контента. Примеры в патенте включают детей/подростков (по возрасту) и профессии (патентные поверенные, политики).
Query Classifier (Классификатор запросов)
Компонент системы, который классифицирует поисковый запрос на основе наличия терминов, связанных с protected class, и наличия sensitive or offensive terms.
Search Result Classifier (Классификатор результатов поиска)
Компонент системы, который классифицирует документы результатов поиска на основе вероятности содержания sensitive or offensive content. Может включать специализированные классификаторы (например, классификатор насилия, порнографии, spoof).
Sensitive or offensive content (Деликатный или оскорбительный контент)
Общая категория контента, включающая порнографию, кровавые изображения (gore) и контент с насилием.
User session data (Данные сессии пользователя)
Данные об активности пользователя в текущей сессии (предыдущие запросы, клики), которые могут использоваться для определения вероятной темы интереса (likely topic of interest) и дополнительной модификации результатов.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько независимых пунктов (Claims 1, 4, 5), описывающих логику системы фильтрации.

Claim 1 (Независимый пункт): Описывает общий метод обработки запроса с учетом классификаций и данных сессии.

  1. Система получает запрос и набор кандидатов.
  2. Получается классификация запроса по трем категориям: (i) не связан с защищенной группой, (ii) связан с защищенной группой, (iii) связан с защищенной группой И содержит деликатные/оскорбительные термины.
  3. Получается классификация каждого результата по двум категориям: (i) не содержит деликатный/оскорбительный контент, (ii) содержит его.
  4. Система генерирует оценки релевантности (relevance score) и определяет ранжирование.
  5. Система получает данные сессии пользователя (user session data) и атрибуты устройства.
  6. Происходит выбор презентационного набора на основе комбинации классификаций (I) и (II). Этот выбор включает:
    • Модификацию ранжирования на основе user session data.
    • Для каждого документа: присвоение метки (label), указывающей на тематику контента, на основе классификации результата как оскорбительного, и принятие решения о фильтрации или модификации ранжирования на основе этой метки.

Claim 4 и 5 (Независимые пункты): Детализируют конкретные правила модификации выдачи на основе классификаций.

Выбор презентационного набора включает следующие действия:

  • Понижение ранга (Demotion) (Claim 4): Ранг результата понижается, если (i) запрос классифицирован как связанный с защищенной группой (категория ii), И (ii) результат классифицирован как содержащий деликатный/оскорбительный контент.
  • Фильтрация (Filtering/Removal) (Claim 4, 5): Результат удаляется из выдачи, если (i) запрос классифицирован как связанный с защищенной группой И содержащий деликатные/оскорбительные термины (категория iii), И (ii) результат классифицирован как содержащий деликатный/оскорбительный контент.
  • Включение без изменений (Inclusion) (Claim 4, 5): Результат может включаться без изменений, если запрос классифицирован как не связанный с защищенной группой (категория i), независимо от того, содержит ли он деликатные термины или нет (при условии, что не активированы общие фильтры типа SafeSearch).

Где и как применяется

Изобретение затрагивает несколько этапов поиска, используя предварительно вычисленные данные и влияя на финальный этап выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе Search Result Classifier анализирует контент и присваивает документам метки (labels) или оценки, указывающие на наличие sensitive or offensive content (порнография, насилие, spoof и т.д.). Эти данные сохраняются в индексе.

QUNDERSTANDING – Понимание Запросов
Query Classifier анализирует входящий запрос в реальном времени, чтобы определить его связь с protected class of people и наличие деликатных терминов. Также на этом этапе могут анализироваться user session data для определения контекста и намерений пользователя.

RANKING – Ранжирование
На этом этапе генерируется исходный Candidate set of search results с базовыми оценками релевантности (relevance scores).

RERANKING – Переранжирование (Twiddlers)
Основное применение патента. Система действует как Twiddler (механизм корректировки выдачи):

  1. Получает classification signals от классификаторов запросов, результатов и данных сессии.
  2. Применяет правила (логику фильтрации и понижения) к набору кандидатов.
  3. Модифицирует ранжирование или удаляет результаты для формирования финального Presentation set.

Входные данные:

  • Поисковый запрос.
  • Набор результатов-кандидатов с оценками релевантности.
  • Классификация запроса (от Query Classifier).
  • Классификация результатов/меток контента (от Search Result Classifier).
  • User session data и атрибуты устройства (например, настройки SafeSearch).

Выходные данные:

  • Презентационный набор результатов поиска (отфильтрованный и/или переранжированный).

На что влияет

  • Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, связанные с демографическими группами (возраст, профессия, социальные группы), особенно если они пересекаются с деликатными темами (насилие, юмор, критика). Это напрямую затрагивает YMYL-тематики, политику, новости о происшествиях и социальные вопросы.
  • Типы контента: Влияет на контент, который может быть классифицирован как высмеивающий (spoof), разжигающий ненависть, содержащий насилие или порнографию. Это может включать мемы, шутки, сатиру, а также новостной контент о скандалах.

Когда применяется

Алгоритм применяется при обработке запроса, но его действия (фильтрация или понижение) активируются только при выполнении определенных условий, основанных на комбинации классификаций.

Триггеры активации модификации выдачи:

  • Триггер для Понижения: Запрос связан с protected class И результат содержит sensitive or offensive content.
  • Триггер для Фильтрации: Запрос связан с protected class И содержит деликатные термины, И результат содержит sensitive or offensive content.
  • Дополнительные триггеры: Данные сессии указывают на целенаправленный поиск неуместного контента, или активированы настройки безопасного поиска (SafeSearch setting).

Пошаговый алгоритм

  1. Получение запроса и Генерация кандидатов: Система получает запрос и генерирует Candidate set of search results с базовыми relevance scores.
  2. Классификация запроса: Query Classifier анализирует запрос и определяет его класс:
    • Класс A: Не связан с protected class.
    • Класс B: Связан с protected class (но не содержит деликатных терминов).
    • Класс C: Связан с protected class И содержит sensitive or offensive terms.
  3. Классификация результатов: Для каждого результата извлекается его классификация (на основе анализа Search Result Classifier):
    • Класс X: Не содержит sensitive or offensive content.
    • Класс Y: Содержит sensitive or offensive content (с возможным присвоением меток тематики).
  4. Получение данных сессии: Извлечение user session data для определения контекста сессии.
  5. Выбор и Модификация результатов: Система применяет правила на основе комбинации классов запроса, результата и данных сессии:
    • Запрос Класса A: Результаты (X или Y) обычно выбираются без модификации (если не активирован SafeSearch или данные сессии не требуют иного).
    • Запрос Класса B:
      • Результат Класса X: Выбирается.
      • Результат Класса Y: Выбирается, но ранг значительно понижается (Demotion).
    • Запрос Класса C:
      • Результат Класса X: Выбирается.
      • Результат Класса Y: Фильтруется (удаляется) (Filtering).
  6. Дополнительная модификация по сессии: Если данные сессии указывают на поиск неуместного контента, система может дополнительно отфильтровать результаты Класса Y.
  7. Вывод результатов: Предоставление финального Presentation set of search results.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании классификаций. Для их вычисления и применения используются следующие данные:

  • Контентные и Мультимедиа факторы: Текст, метаданные, теги изображений, URL-адреса, изображения и видео. Анализируются Search Result Classifier с использованием методов сопоставления ключевых слов и обработки изображений для выявления деликатного контента.
  • Запросные данные: Термины запроса анализируются Query Classifier. Система использует обученные данные (training data), которые могут быть проверены людьми (human reviewer), для идентификации терминов, связанных с protected classes и sensitive content.
  • Поведенческие факторы (User Session Data): История запросов и кликов в рамках текущей сессии. Используются для определения контекста и вероятной темы интереса пользователя.
  • Пользовательские факторы: Атрибуты устройства или настройки аккаунта (например, активация SafeSearch).

Какие метрики используются и как они считаются

  • Классификация Запроса: Категориальная оценка наличия терминов, связанных с защищенными группами и деликатными темами.
  • Классификация Контента (Метки и Пороги): Метрики, определяющие наличие sensitive or offensive content. Патент упоминает использование пороговых значений (thresholds). Например, если количество терминов, связанных с насилием, превышает порог, документ классифицируется как содержащий насилие. Пороги могут различаться для разных тем (например, порог для spoof может быть выше, чем для насилия). Документам присваиваются метки (labels) тематики.
  • Relevance Score: Стандартная оценка релевантности документа запросу, которая используется для базового ранжирования и может быть модифицирована.

Выводы

  1. Контекстуальная фильтрация (Двойная классификация): Ключевым механизмом является оценка допустимости контента не изолированно, а в контексте запроса. Фильтрация или понижение происходит на пересечении классификаций запроса и результата.
  2. Приоритет защиты групп (Protected Classes): Система специально разработана для идентификации запросов, связанных с определенными демографическими или социальными группами, и применения более строгой фильтрации контента в этих контекстах. Определение protected class достаточно широкое.
  3. Градация санкций зависит от явности интента: Система применяет разные уровни санкций. Если пользователь явно ищет деликатный контент о защищенной группе (Query Class C), система агрессивно фильтрует (удаляет) результаты. Если запрос нейтрален, но относится к защищенной группе (Query Class B), система понижает деликатные результаты.
  4. Широкое определение неуместного контента: Патент выделяет не только стандартные категории (насилие, порнография), но и inappropriate content, такой как высмеивание (spoof/mocking), разжигание ненависти и подстрекательство.
  5. Контекст сессии имеет значение: User session data используется для корректировки результатов. Поведение пользователя в рамках сессии может активировать более строгие фильтры, если система определяет паттерн поиска неприемлемого контента.

Практика

Best practices (это мы делаем)

  • Мониторинг классификации контента: Необходимо понимать, как ваш контент может быть классифицирован системой. Если вы работаете в нишах, связанных с демографическими группами (protected classes), избегайте контента, который может быть воспринят как высмеивание (spoof), разжигание ненависти или подстрекательство.
  • Аккуратная работа с деликатными темами и медиа: Если ваш контент затрагивает деликатные темы (насилие, скандалы, медицинские фото) и при этом связан с защищенными группами, будьте готовы к возможному понижению в выдаче по нейтральным запросам (Query Class B). Подавайте информацию нейтрально и авторитетно, избегайте шокирующих изображений, если это возможно.
  • Сегментация контента: Если сайт содержит как нейтральный, так и потенциально sensitive контент (например, сайт с юмором или новостями), убедитесь, что нейтральный контент четко отделен и не «загрязнен» сигналами, которые могут привести к классификации раздела как offensive.
  • Понимание классификации запросов в нише: Анализируйте, какие запросы в вашей тематике могут быть отнесены к Классу B или C. Например, при продвижении сайта по запросам о политиках или знаменитостях, учитывайте, что запросы типа «мемы о [имя]» или «шутки о [группа]» могут активировать строгую фильтрацию вашего контента, если он классифицирован как spoof.

Worst practices (это делать не надо)

  • Создание оскорбительного или высмеивающего контента (Spoof/Mocking): Создание контента (текста, изображений, мемов), который высмеивает, оскорбляет или разжигает ненависть по отношению к любым демографическим или социальным группам, крайне рискованно. Этот патент напрямую нацелен на фильтрацию такого контента.
  • Манипуляция интентом в деликатных нишах: Попытки ранжироваться по запросам, связанным с protected classes, с помощью кликбейта или шок-контента. Даже если контент релевантен, он будет понижен или удален, если классифицирован как sensitive/offensive.
  • Игнорирование сигналов о насилии и жестокости (Gore/Violence): Размещение шокирующего, кровавого или жестокого контента делает его уязвимым для понижения, особенно если он связан с запросами о людях (например, новости о происшествиях).

Стратегическое значение

Патент подтверждает стратегическое стремление Google выступать в роли модератора контента для обеспечения безопасности выдачи. Это подтверждает, что релевантность может быть отменена классификацией контента как оскорбительного или неприемлемого. Для SEO это означает, что работа над качеством контента включает не только E-E-A-T, но и этические аспекты, нейтральность и отсутствие материалов, которые могут быть классифицированы как inappropriate.

Практические примеры

Сценарий: Ранжирование сайта с юмористическим контентом о профессиях

Сайт публикует статью «Топ-10 злых шуток и мемов про патентных поверенных». Классификатор помечает контент как offensive (spoof/mocking). Патентные поверенные определены как protected class.

  1. Запрос 1 (Общий): «Смешные мемы про работу».
    • Классификация запроса: Класс A (Не связан с защищенной группой).
    • Результат: Статья может ранжироваться нормально.
  2. Запрос 2 (Нейтральный о группе): «Жизнь патентного поверенного».
    • Классификация запроса: Класс B (Связан с защищенной группой, без деликатных терминов).
    • Результат: Так как статья содержит offensive контент, ее ранг будет значительно понижен (Demotion).
  3. Запрос 3 (Деликатный о группе): «Шутки про патентных поверенных».
    • Классификация запроса: Класс C (Связан с защищенной группой И содержит деликатный термин «шутки»).
    • Результат: Так как статья содержит offensive контент, она будет отфильтрована из выдачи (Filtering).
  4. Запрос 4 (Контекст сессии): Пользователь вводит Запрос 2, но до этого искал «как оскорбить юриста».
    • Классификация сессии: Намерение найти неуместный контент.
    • Результат: Статья может быть дополнительно отфильтрована на основе данных сессии, даже если по правилам для Запроса 2 она должна была быть только понижена.

Вопросы и ответы

Что такое «Protected class of people» (Защищенный класс людей) согласно патенту?

Это любая группа людей, имеющая общую демографическую характеристику, для которой система стремится обеспечить защиту от неуместного контента. Примеры в патенте включают детей и подростков (teenagers), а также профессии, такие как политики (politicians) или патентные поверенные (patent attorneys). Это определение достаточно широкое и может применяться к различным социальным и демографическим группам.

В чем разница между «Sensitive content» и «Inappropriate sensitive content»?

Sensitive content — это общая категория, включающая насилие, порнографию и шок-контент (gore). Inappropriate sensitive content — это подкатегория, которая включает более сложные случаи: разжигание ненависти, высмеивание (mocking/spoof) демографических групп, подстрекательство к насилию или вербовку в банды. Система особенно агрессивно борется с Inappropriate content, когда он связан с защищенными группами.

Как система решает, понизить результат или полностью его удалить (отфильтровать)?

Решение зависит от явности интента в запросе. Если запрос относится к защищенной группе, но сформулирован нейтрально (Класс B, например, «подростковые группы»), а результат содержит деликатный контент, он будет понижен. Если запрос явно ищет деликатный контент о защищенной группе (Класс C, например, «банды подростков насилие»), то деликатный результат будет полностью отфильтрован.

Влияет ли этот механизм на контент, который не связан с защищенными группами?

Согласно описанным правилам (Claims 4, 5), если запрос классифицирован как не связанный с protected class (Класс A), результаты обычно выбираются без модификации, даже если они содержат sensitive content. Однако патент также упоминает общие механизмы SafeSearch и использование данных сессии, которые могут привести к фильтрации даже в этом случае (например, если у пользователя активирован SafeSearch).

Как система использует данные сессии пользователя (User session data)?

Система анализирует предыдущие запросы и клики в рамках текущей сессии, чтобы определить вероятную тему интереса. Если система обнаруживает паттерн поиска неприемлемого контента (например, несколько запросов о spoof-контенте), она может применить более строгую фильтрацию к последующим запросам в этой сессии, даже если они сформулированы нейтрально.

Может ли сатира, юмор или мемы быть отфильтрованы этой системой?

Да, абсолютно. Патент явно упоминает spoof (высмеивание/пародия) и mocking как примеры inappropriate sensitive content. Если юмористический или сатирический контент направлен на демографическую или социальную группу и классифицируется как оскорбительный или издевательский, он будет подвергнут фильтрации или понижению по соответствующим запросам.

Как SEO-специалисту определить, классифицируется ли его контент как «sensitive» или «offensive»?

Патент не дает точных метрик, но упоминает использование классификаторов, обученных на training data, и пороговых значений (thresholds) для количества деликатных терминов или анализа изображений. На практике следует критически оценивать контент на предмет наличия насилия, шок-контента, языка вражды, оскорблений или высмеивания социальных/демографических групп.

Влияет ли этот патент на новостные сайты, публикующие информацию о скандалах или насилии?

Да, влияет. Если новостной сайт публикует статью о насилии (sensitive content), связанном с определенной группой людей (protected class), эта статья может быть понижена в выдаче по общим запросам об этой группе. Это делается для защиты пользователей, которые искали общую информацию, от непроизвольного столкновения с контентом о насилии.

На каком этапе поиска работает этот механизм?

Он работает на этапе переранжирования (Reranking), после того как основной алгоритм ранжирования сформировал список кандидатов. Он использует классификации, которые были присвоены документам на этапе индексирования (Indexing) и классификации запроса на этапе его понимания (Query Understanding).

Применяется ли эта логика только к органическому поиску или также к изображениям и видео?

Патент указывает, что sensitive or offensive content включает изображения и видео. Search Result Classifier использует методы обработки изображений для анализа мультимедийного контента. Следовательно, описанная логика фильтрации применяется ко всем типам контента в поиске.

Похожие патенты

Как Google использует машинное обучение для обнаружения и удаления "revenge porn" и другого неконсенсусного контента из поиска
Google использует систему для борьбы с лично нежелательным контентом (например, «revenge porn»). Система применяет два классификатора: один определяет, является ли контент нежелательным (например, порнографическим), а второй — является ли он любительским. Если контент одновременно нежелательный и любительский, он удаляется из выдачи. Система также проактивно анализирует запросы с низкой популярностью для выявления нового такого контента.
  • US10795926B1
  • 2020-10-06
  • Безопасный поиск

  • SERP

  • Семантика и интент

Как Google рассчитывает «Рейтинг безопасности» запроса для фильтрации или блокировки выдачи (SafeSearch)
Google анализирует рейтинги контента (например, «для всех возрастов» или «для взрослых») топовых результатов по запросу, чтобы вычислить его «Safety Score». Если выдача содержит слишком много неприемлемого контента, система может полностью заблокировать запрос или агрессивно отфильтровать результаты, показывая только гарантированно безопасный и релевантный контент.
  • US11829373B2
  • 2023-11-28
  • Безопасный поиск

  • SERP

Как Google использует поведение в сессии (запросы и клики) для профилирования пользователей и персонализации выдачи на лету
Google анализирует действия пользователя в рамках текущей поисковой сессии, такие как специфическая терминология, орфография или клики по результатам, чтобы отнести его к определенной «Группе пользователей» (например, по профессии или демографии). Последующие результаты поиска переранжируются на основе того, что исторически популярно или непопупулярно в этой конкретной группе по сравнению с общей популяцией пользователей.
  • US8930351B1
  • 2015-01-06
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует анализ совместных поисковых сессий для выявления запросов о неприемлемом или запрещенном контенте
Google анализирует поисковые сессии пользователей для обучения классификатора, выявляющего запросы о неприемлемом контенте (например, насилии, CSAM, терроризме). Система отслеживает, какие еще запросы вводил пользователь незадолго до или после ввода уже известного "плохого" запроса. Это позволяет автоматически расширять базу данных для фильтрации и модерации поисковой выдачи.
  • US9959354B2
  • 2018-05-01
  • Безопасный поиск

  • Поведенческие сигналы

  • Семантика и интент

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Популярные патенты

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования
Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.
  • US8005811B2
  • 2011-08-23
  • Поведенческие сигналы

  • SERP

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)
Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.
  • US8417697B2
  • 2013-04-09
  • Персонализация

  • Поведенческие сигналы

  • Антиспам

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)
Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.
  • US8775434B1
  • 2014-07-08
  • Local SEO

  • Поведенческие сигналы

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.
  • US9015152B1
  • 2015-04-21
  • Семантика и интент

  • Поведенческие сигналы

  • Local SEO

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам
Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.
  • US8209330B1
  • 2012-06-26
  • Поведенческие сигналы

  • SERP

  • Мультимедиа

seohardcore