SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует машинное обучение для обнаружения и удаления "revenge porn" и другого неконсенсусного контента из поиска

SUPPRESSING PERSONALLY OBJECTIONABLE CONTENT IN SEARCH RESULTS (Подавление лично нежелательного контента в результатах поиска)
  • US10795926B1
  • Google LLC
  • 2016-04-22
  • 2020-10-06
  • Безопасный поиск
  • SERP
  • Семантика и интент
  • EEAT и качество
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для борьбы с лично нежелательным контентом (например, «revenge porn»). Система применяет два классификатора: один определяет, является ли контент нежелательным (например, порнографическим), а второй — является ли он любительским. Если контент одновременно нежелательный и любительский, он удаляется из выдачи. Система также проактивно анализирует запросы с низкой популярностью для выявления нового такого контента.

Описание

Какую проблему решает

Патент решает задачу идентификации и подавления в поисковой выдаче «лично нежелательного контента» (Personally Objectionable Content, POC). POC определяется как нежелательный контент (например, оскорбительный, неприятный), тесно связанный с конкретным человеком и размещенный онлайн без его согласия (например, «revenge porn», буллинг, насилие). Ключевая проблема — отличить такой контент от контента, который является нежелательным в целом, но размещен с согласия (например, профессиональная порнография), и обеспечить его удаление из поиска для защиты репутации жертв.

Что запатентовано

Запатентована система для автоматического обнаружения и подавления POC. Система использует два ключевых классификатора: один определяет, является ли контент «нежелательным» (Objectionable Content), а второй — является ли он «профессионально созданным» (Professionally Produced Content). Контент классифицируется как POC, если он одновременно является нежелательным И НЕ является профессионально созданным (т.е. любительским). Система обрабатывает как жалобы пользователей, так и проактивно анализирует поисковые запросы для выявления нового POC.

Как это работает

Система работает в двух режимах:

  • Реактивный (Обработка жалоб): Пользователь сообщает о контенте. Content Evaluation Engine анализирует его с помощью двух классификаторов. Если контент признан POC (Нежелательный + Любительский), он и его дубликаты добавляются в базу данных Resource Attributes (черный список) для фильтрации.
  • Проактивный (Анализ запросов): При получении запроса Query Classifier определяет, ищет ли пользователь POC (например, запрос содержит имя, но не популярен). Если да, система агрессивно фильтрует весь Objectionable Content из выдачи и отправляет его на детальный анализ в Content Evaluation Engine для потенциального добавления в черный список.

Актуальность для SEO

Высокая. Защита пользователей от неконсенсусного контента (Trust & Safety) и управление репутацией (ORM) являются критически важными задачами для Google. Этот патент описывает конкретную техническую реализацию политик Google по борьбе с «revenge porn» и подобным контентом, используя современные методы машинного обучения (включая нейронные сети) для классификации изображений и видео.

Важность для SEO

Влияние на общие SEO-стратегии низкое (3/10). Этот патент описывает не алгоритм ранжирования, а механизм фильтрации и подавления специфического типа контента. Однако он критически важен для специалистов по управлению репутацией (ORM) и владельцев сайтов в «чувствительных» нишах (например, Adult, UGC). Он объясняет механизм, с помощью которого Google отличает профессиональный контент от любительского неконсенсусного контента.

Детальный разбор

Термины и определения

Amateur Imagery (Любительские изображения)
Контент, классифицированный как не являющийся профессионально созданным. Ключевой индикатор для POC.
Content Evaluation Engine (Механизм оценки контента)
Компонент, который получает контент (по жалобам или проактивно) и классифицирует его как POC или нет, используя два классификатора.
Filtering Engine (Механизм фильтрации)
Компонент, который удаляет результаты поиска из выдачи на основе данных из Resource Attributes и классификации запроса.
Objectionable Content (Нежелательный контент)
Контент, который является оскорбительным, неприятным или неприемлемым в целом (например, порнография, насилие).
Objectionable Content Classifier (Классификатор нежелательного контента)
Модель (например, нейронная сеть), обученная определять, содержит ли контент нежелательные элементы.
Personally Objectionable Content (POC) (Лично нежелательный контент)
Нежелательный контент, связанный с конкретным человеком и размещенный без его согласия. Определяется как (Нежелательный контент) И (НЕ Профессиональный контент).
Pro Content Classifier (Классификатор профессионального контента)
Модель, обученная определять, выглядит ли контент как профессионально созданный (Professionally Produced Content).
Query Classifier (Классификатор запросов)
Компонент, определяющий намерение запроса — ищет ли он POC. Использует сигналы запроса и сигналы результатов поиска.
Resource Attributes (Атрибуты ресурса)
База данных (черный список), хранящая информацию о ресурсах (страницах, изображениях, сайтах), которые были идентифицированы как содержащие POC.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает процесс проактивного (preemptive) обнаружения и фильтрации POC, инициированный поисковым запросом.

  1. Система получает первый поисковый запрос (Query 1).
  2. Определяется, что Query 1 запрашивает POC. Ключевой фактор для этого определения, указанный в патенте: измерение популярности запроса (measure of popularity) НЕ достигает порогового значения (popularity threshold).
  3. В ответ на это инициируется процесс классификации ресурса, найденного в результатах Query 1:
    • Получение изображения из ресурса.
    • Классификация изображения как содержащего Objectionable Content (Классификатор 1).
    • Классификация изображения как содержащего Amateur Imagery (т.е. НЕ профессионального) (Классификатор 2).
    • Ресурс помечается как вероятно содержащий POC.
  4. Система получает второй поисковый запрос (Query 2) от пользователя.
  5. Получаются результаты для Query 2, включающие ресурс, классифицированный на шаге 3.
  6. Система проактивно фильтрует (удаляет) этот ресурс из результатов Query 2 до того, как они будут показаны пользователю.

Ядро изобретения — использование непопулярности запроса как триггера для запуска глубокого анализа контента (двойная классификация) и последующая проактивная фильтрация этого контента в будущих запросах.

Claim 3 (Зависимый от 1 и 2): Детализирует последствия классификации.

Если ресурс определен как содержащий Objectionable Content и Amateur Imagery, он официально обозначается (designating) как содержащий POC. После этого он фильтруется как из результатов Query 1, так и из результатов Query 2.

Claim 6-10 (Зависимые от 1): Детализируют дополнительные методы определения того, что запрос ищет POC (в дополнение к низкой популярности из Claim 1).

  • (Claim 6, 7): Определение, что имя в запросе НЕ является именем известной личности (famous person) или порноактера/актрисы.
  • (Claim 8): Определение, что запрос включает термин, связанный с POC (например, «revenge», «nude»).
  • (Claim 9): Определение, что результаты поиска НЕ идентифицируют ресурсы с профессионально созданным контентом.
  • (Claim 10): Определение, что топовые результаты поиска НЕ имеют оценок качества (quality scores), удовлетворяющих пороговому значению.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, фокусируясь на обработке запросов и финальной фильтрации.

CRAWLING & INDEXING – Сканирование и Индексирование
Indexing Engines могут использовать базу данных Resource Attributes (черный список) при создании или обновлении индексов. Они могут либо полностью исключать ресурсы с POC из индекса, либо помечать их соответствующим образом. Content Evaluation Engine работает в офлайн или периодическом режиме для анализа контента и обновления Resource Attributes.

QUNDERSTANDING – Понимание Запросов
Query Classifier работает на этом этапе в реальном времени. Он анализирует запрос и начальные результаты поиска, чтобы определить намерение пользователя — ищет ли он POC. Это критически важно для активации агрессивной проактивной фильтрации.

RERANKING / METASEARCH – Переранжирование и Смешивание
Filtering Engine работает на финальном этапе формирования выдачи. Он выполняет подавление результатов:

  1. Стандартная фильтрация: Удаление ресурсов, уже известных как POC (из Resource Attributes).
  2. Агрессивная фильтрация: Если Query Classifier определил, что запрос ищет POC, Filtering Engine может удалить все ресурсы, классифицированные как Objectionable Content (даже если они еще не подтверждены как POC).
  3. Инициация анализа: Filtering Engine может передавать новые подозрительные ресурсы (New Objectionable Resources) обратно в Content Evaluation Engine для глубокого анализа.

Входные данные:

  • Жалобы пользователей (URL, образцы контента).
  • Поисковые запросы и статистика их популярности.
  • Начальные результаты поиска (Initial Search Results).
  • База данных Resource Attributes.
  • Выходные данные классификаторов (Objectionable, Pro Content).
  • Данные о сущностях (знаменитости, порноактеры).

Выходные данные:

  • Отфильтрованные результаты поиска (Filtered Search Results).
  • Обновления базы данных Resource Attributes (новые записи в черном списке).

На что влияет

  • Конкретные типы контента: В первую очередь влияет на изображения и видео (мультимедийный контент).
  • Специфические запросы: Запросы, содержащие имена людей, особенно в сочетании с чувствительными терминами. Наиболее сильно влияет на запросы с низкой популярностью (long-tail), касающиеся непубличных лиц.
  • Конкретные ниши: Критически влияет на Online Reputation Management (ORM). Также влияет на сайты в нише Adult, которым необходимо четко позиционировать себя как профессиональные ресурсы, и на UGC-платформы.

Когда применяется

Система применяется в нескольких сценариях:

  • Периодически: При пакетной обработке накопленных пользовательских жалоб.
  • В реальном времени (при каждом запросе): Filtering Engine всегда активен для удаления известного POC.
  • Триггеры активации проактивного анализа: Активируется, когда Query Classifier определяет, что запрос ищет POC. Основной триггер (согласно Claim 1) — низкая популярность запроса (popularity threshold не достигнут). Дополнительные триггеры включают наличие имени, отсутствие признаков знаменитости, наличие чувствительных терминов и низкое качество выдачи (low quality scores).

Пошаговый алгоритм

Процесс А: Обработка пользовательских жалоб (Реактивный режим)

  1. Получение данных: Система получает жалобы (через Reporting Engine), идентифицирующие URL изображений, которые предположительно являются POC.
  2. Классификация нежелательности: Изображения классифицируются как содержащие Objectionable Content или нет (например, порнография, насилие).
  3. Классификация профессионализма: Изображения классифицируются как Professionally Produced или нет (Amateur Imagery).
  4. Фильтрация кандидатов: Отфильтровываются изображения, которые НЕ являются нежелательными ИЛИ являются профессионально созданными. Оставшиеся считаются POC.
  5. Поиск дубликатов: Система ищет URL точных или близких дубликатов (near-duplicates) для подтвержденных POC изображений.
  6. Обновление базы данных: Документы, содержащие эти изображения или их дубликаты, помечаются как содержащие POC в базе Resource Attributes.

Процесс Б: Обработка запроса и проактивная фильтрация (Проактивный режим)

  1. Получение запроса: Система получает запрос и начальные результаты поиска.
  2. Классификация запроса: Query Classifier определяет, ищет ли запрос POC (используя сигналы: низкая популярность, наличие имени, отсутствие знаменитости и т.д.).
  3. Применение фильтрации (Ветвление):
    • Если запрос НЕ ищет POC: Система фильтрует только те результаты, которые уже помечены как POC в Resource Attributes.
    • Если запрос ищет POC: Система агрессивно фильтрует все результаты, идентифицирующие документы с Objectionable Content (используя Objectionable Content Classifier).
  4. Инициация глубокого анализа: (Только если запрос ищет POC) URL отфильтрованного нежелательного контента отправляются в Content Evaluation Engine для дальнейшего анализа (Процесс А, начиная с шага 3) для подтверждения, являются ли они POC.
  5. Предоставление результатов: Пользователю возвращается отфильтрованная выдача.

Какие данные и как использует

Данные на входе

  • Мультимедиа факторы: Пиксельные данные изображений и видео. Это основной объект анализа для классификаторов контента.
  • Пользовательские факторы (Жалобы): Жалобы пользователей (user reports), включающие URL ресурсов, URL изображений или сами файлы, а также метаданные (например, имя жертвы).
  • Поведенческие факторы (Популярность): Используется measure of popularity (мера популярности) запроса. Также может использоваться популярность изображения (например, на основе статистики выбора в поиске).
  • Контентные факторы (Запросы): Текст запроса (для выявления имен и триггерных слов).
  • Системные данные: Списки известных личностей, порноактеров. Оценки качества сайтов (quality scores) в выдаче.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик и моделей:

  • Objectionable Content Score: Вероятность того, что контент является нежелательным. Вычисляется классификатором (упоминается нейронная сеть), обученным на размеченных данных.
  • Professionally Produced Score: Оценка того, насколько профессионально выглядит контент. Вычисляется классификатором, обученным на парах изображений с метками, какое из них выглядит более профессиональным.
  • Query Popularity (Популярность запроса): Метрика частотности запроса. Сравнивается с popularity threshold. Низкая популярность является ключевым индикатором потенциального поиска POC (Claim 1).
  • Сигналы для Query Classifier:
    • Наличие имени в запросе.
    • Является ли имя именем знаменитости или порноактера (негативный индикатор).
    • Наличие терминов, связанных с POC (позитивный индикатор).
    • Quality scores топовых результатов (низкое качество — позитивный индикатор).
  • Алгоритмы машинного обучения: Упоминаются нейронные сети для классификации контента. Query Classifier также является моделью машинного обучения, использующей вышеупомянутые сигналы как признаки.

Выводы

  1. Ключевой критерий POC — любительское происхождение: Система Google считает, что неконсенсусный контент (POC) в подавляющем большинстве случаев является любительским. Поэтому главным отличием POC от разрешенного нежелательного контента (например, профессиональной порнографии) является классификация «Профессиональный» vs «Любительский» (Amateur Imagery).
  2. Двойная классификация обязательна: Чтобы ресурс был признан POC, он должен быть классифицирован как Objectionable Content И как Amateur Imagery (не профессиональный).
  3. Два режима работы: реактивный и проактивный: Система не только реагирует на жалобы, но и активно ищет новый POC во время обработки поисковых запросов.
  4. Низкая популярность запроса как главный триггер: Запросы с низкой частотностью (не достигающие popularity threshold), особенно содержащие имена, рассматриваются как потенциально ищущие POC (Claim 1). Это запускает агрессивную фильтрацию и глубокий анализ контента.
  5. Интент запроса определяет агрессивность фильтрации: Если система считает, что пользователь ищет POC, она фильтрует весь Objectionable Content, даже если он еще не подтвержден как POC. Если интент другой — фильтруется только подтвержденный POC.
  6. Это система подавления, а не ранжирования: Патент не описывает изменение позиций, а полное удаление (подавление) определенных результатов из выдачи на основе классификации контента и запроса.

Практика

Best practices (это мы делаем)

Для большинства SEO-специалистов этот патент имеет ограниченное применение. Он актуален для ORM и специфических ниш.

  • (ORM) Использование механизма для защиты клиентов: Специалисты по управлению репутацией должны понимать этот механизм для помощи клиентам, ставшим жертвами POC (например, revenge porn). Необходимо использовать официальный Reporting Engine Google для отправки жалоб. Патент подтверждает, что система обработает эти жалобы, найдет дубликаты и удалит контент из поиска.
  • (Сайты в чувствительных нишах, например, Adult): Если сайт работает с Objectionable Content (например, порнографией), критически важно убедиться, что контент выглядит профессионально и имеет высокое качество. Это необходимо, чтобы Pro Content Classifier четко отличал ваш контент от любительского POC. Сигналы качества сайта (quality scores) также должны быть высокими.
  • (UGC платформы): Необходима строгая модерация пользовательского контента, особенно изображений и видео, чтобы предотвратить размещение POC. Появление такого контента может привести к фильтрации страниц или всего сайта из поиска.

Worst practices (это делать не надо)

  • Размещение любительского нежелательного контента: Сайты, специализирующиеся на любительском контенте, который может быть классифицирован как Objectionable, находятся в зоне высокого риска. Система активно ищет и подавляет такой контент, считая его потенциальным POC.
  • Игнорирование качества в чувствительных нишах: Создание низкокачественных сайтов вокруг чувствительных тем или имен людей. Низкие quality scores в выдаче являются сигналом для Query Classifier, что запрос может искать POC (Claim 10), что приведет к агрессивной фильтрации.
  • Хостинг неконсенсусного контента: Размещение revenge porn или материалов с буллингом гарантированно приведет к подавлению в поиске после обнаружения системой (через жалобу или проактивно).

Стратегическое значение

Патент демонстрирует сложность систем Google в обеспечении безопасности пользователей (Trust & Safety). Он показывает, как глубоко интегрированы классификаторы изображений (на основе ML/нейронных сетей) и классификаторы запросов для решения узких, но критически важных задач. Для SEO это подчеркивает, что Google может и будет полностью удалять контент из выдачи, если он нарушает определенные политики, используя при этом сложные технические критерии (как различие между профессиональным и любительским контентом).

Практические примеры

Сценарий 1: Управление репутацией (ORM) — Реактивный режим

  1. Ситуация: Клиент стал жертвой revenge porn. Фотографии размещены на нескольких сайтах.
  2. Действие ORM-специалиста: Используя интерфейс Google (Reporting Engine), специалист отправляет жалобы на URL страниц и URL изображений.
  3. Работа системы Google: Content Evaluation Engine анализирует контент. Objectionable Content Classifier подтверждает наличие порнографии. Pro Content Classifier определяет контент как любительский. Контент признается POC. Система находит дубликаты на других сайтах.
  4. Результат: Все найденные страницы и изображения добавляются в Resource Attributes и удаляются из поисковой выдачи.

Сценарий 2: Проактивное обнаружение системой

  1. Ситуация: Пользователь ищет [Имя Фамилия nude]. [Имя Фамилия] — непубличное лицо.
  2. Работа системы Google: Query Classifier анализирует запрос. Сигналы: содержит имя, содержит чувствительный термин («nude»), запрос имеет низкую популярность (ниже popularity threshold), [Имя Фамилия] не является знаменитостью.
  3. Решение системы: Запрос классифицируется как ищущий POC.
  4. Действие системы: Filtering Engine активирует агрессивный режим. Все результаты в выдаче, которые классифицируются как Objectionable Content, удаляются из SERP. Одновременно эти URL отправляются на глубокий анализ в Content Evaluation Engine.
  5. Результат: Пользователь видит выдачу без нежелательного контента. Система потенциально обнаружила новый POC еще до получения жалобы.

Вопросы и ответы

Является ли описанный механизм фактором ранжирования?

Нет, это не фактор ранжирования. Патент описывает механизм подавления (suppression) или фильтрации. Ресурсы, идентифицированные как Лично Нежелательный Контент (POC), полностью удаляются из поисковой выдачи, а не понижаются в ней.

Как система определяет, является ли контент «профессиональным» или «любительским»?

Система использует специализированный классификатор (Pro Content Classifier), обученный на парах изображений. Модель (например, нейронная сеть) учится определять визуальные признаки, характерные для профессиональной съемки и продакшена. Это позволяет объективно оценить вероятность того, что контент является любительским.

Может ли этот механизм повлиять на мой сайт, если я работаю в нише Adult?

Да. Если ваш сайт содержит контент, который классифицируется как Objectionable (например, порнография), критически важно, чтобы он также был классифицирован как Professionally Produced. Если контент выглядит любительским и имеет низкое качество, система может ошибочно принять его за POC (например, revenge porn) и удалить из поиска.

Что такое «проактивная фильтрация» (preemptive filtering) в контексте этого патента?

Это механизм, при котором система удаляет контент из выдачи еще до того, как он был окончательно подтвержден как POC. Это происходит, если Query Classifier определяет, что пользователь ищет POC (например, по непопулярному запросу с именем). В этом случае система временно скрывает весь Objectionable Content и отправляет его на детальный анализ.

Почему низкая популярность запроса является триггером для поиска POC?

Жертвы POC, как правило, не являются знаменитостями. Поэтому запросы, связанные с ними (например, их имена + чувствительные термины), обычно имеют низкую частотность по сравнению с запросами о знаменитостях. Система использует это как сильный сигнал (Claim 1) того, что запрос может касаться частного лица.

Как система борется с распространением POC на другие сайты?

После того как изображение идентифицировано как POC (по жалобе или проактивно), система использует технологию поиска близких дубликатов (near-duplicates). Все найденные дубликаты и страницы, на которых они размещены, также помечаются как POC и удаляются из поиска.

Что делать, если мой контент был ошибочно классифицирован как POC?

Патент не описывает механизм апелляции. Однако он упоминает, что система регулярно обновляет классификации. Если нежелательный контент удален с ресурса, система при повторном анализе обновит Resource Attributes (черный список), и ресурс снова сможет появляться в поиске. Если контент не был удален, но классификация неверна, потребуются стандартные каналы связи с поддержкой Google.

Влияет ли этот патент на текстовый контент?

Патент в основном фокусируется на изображениях и мультимедийном контенте (image content, videos). Хотя POC может включать и текст (например, описание буллинга), основные механизмы классификации (Objectionable и Pro Content) описаны применительно к визуальному контенту.

Какие сигналы указывают на то, что запрос НЕ ищет POC?

Негативными индикаторами являются: высокая популярность запроса, наличие в запросе имени знаменитости или известного порноактера/актрисы, а также наличие в выдаче результатов с высокими оценками качества (quality scores) или результатов с профессиональных сайтов.

Использует ли система распознавание лиц для идентификации жертв?

Патент не упоминает использование технологии распознавания лиц. Идентификация связи контента с жертвой в основном происходит через контекст запроса (использование имени в запросе) или через информацию, предоставленную в жалобе пользователя. Система фокусируется на характеристиках самого контента и запроса.

Похожие патенты

Как Google использует классификаторы запросов и контента для фильтрации и понижения оскорбительных результатов, связанных с защищенными группами
Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, содержат ли результаты поиска оскорбительный контент. На основе комбинации этих классификаций и анализа сессии пользователя результаты могут быть отфильтрованы или понижены в ранжировании.
  • US10083237B2
  • 2018-09-25
  • Безопасный поиск

  • Семантика и интент

  • SERP

Как Google использует анализ совместных поисковых сессий для выявления запросов о неприемлемом или запрещенном контенте
Google анализирует поисковые сессии пользователей для обучения классификатора, выявляющего запросы о неприемлемом контенте (например, насилии, CSAM, терроризме). Система отслеживает, какие еще запросы вводил пользователь незадолго до или после ввода уже известного "плохого" запроса. Это позволяет автоматически расширять базу данных для фильтрации и модерации поисковой выдачи.
  • US9959354B2
  • 2018-05-01
  • Безопасный поиск

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует query-specific модели для переранжирования изображений на основе их визуальных характеристик в реальном времени
Google использует систему для корректировки ранжирования изображений непосредственно в момент запроса (онлайн). Для популярных запросов система заранее обучает индивидуальные модели релевантности на основе исторических данных о кликах. При получении нового запроса система активирует наиболее подходящую модель и использует визуальные характеристики (цвет, текстура) для переоценки и переранжирования результатов, обеспечивая точное соответствие визуального контента интенту пользователя.
  • US10311096B2
  • 2019-06-04
  • Мультимедиа

  • SERP

  • Поведенческие сигналы

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google рассчитывает «Рейтинг безопасности» запроса для фильтрации или блокировки выдачи (SafeSearch)
Google анализирует рейтинги контента (например, «для всех возрастов» или «для взрослых») топовых результатов по запросу, чтобы вычислить его «Safety Score». Если выдача содержит слишком много неприемлемого контента, система может полностью заблокировать запрос или агрессивно отфильтровать результаты, показывая только гарантированно безопасный и релевантный контент.
  • US11829373B2
  • 2023-11-28
  • Безопасный поиск

  • SERP

Популярные патенты

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска
Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).
  • US8706747B2
  • 2014-04-22
  • Мультиязычность

  • Семантика и интент

  • Ссылки

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования
Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.
  • US8005811B2
  • 2011-08-23
  • Поведенческие сигналы

  • SERP

Как Google использует историю поиска и браузинга пользователя для персонализации и изменения результатов выдачи
Google записывает историю поиска и просмотров пользователя для последующей персонализации выдачи. Система может повышать в ранжировании ранее посещенные сайты, добавлять в текущую выдачу релевантные результаты из прошлых похожих запросов, а также понижать сайты, которые пользователь ранее видел, но проигнорировал. Патент также описывает создание "предпочитаемых локаций" на основе частоты посещений и времени пребывания на сайте.
  • US9256685B2
  • 2016-02-09
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
  • US8898148B1
  • 2014-11-25
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует контекст пользователя для предоставления информации без явного запроса (Технология предиктивного поиска)
Google использует технологию предиктивного (проактивного) поиска, которая анализирует текущий контекст пользователя (местоположение, время, календарь, скорость движения, привычки) для автоматического предоставления релевантной информации. Система реагирует на «запрос без параметров» (например, открытие приложения или простое действие с устройством) и самостоятельно определяет информационные потребности пользователя.
  • US8478519B2
  • 2013-07-02
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона
Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.
  • US8463772B1
  • 2013-06-11
  • Local SEO

  • Поведенческие сигналы

seohardcore