Как Google автоматически находит похожие страницы внутри одного сайта, используя текст текущей страницы как запрос (Query by Example)

TECHNIQUES FOR WEB SITE INTEGRATION (Техники для интеграции веб-сайта)

US8756212B2
Google LLC
2009-07-06
2014-06-17

Анализ патента Google, описывающего технологию автоматического поиска связанного контента внутри одного веб-сайта. Система анализирует текст просматриваемой страницы, извлекает и взвешивает ключевые термины на основе их уникальности, а затем использует их как поисковый запрос (Query by Example) для нахождения тематически похожих документов на том же сайте. Используются классические формулы информационного поиска (TF-IDF/BM25).

Какую проблему решает

Патент решает проблему автоматизации поиска и представления связанного контента в пределах одного крупного веб-сайта. Ручное связывание страниц (например, создание блоков "Похожие материалы" или назначение тегов) трудоемко и сложно в поддержке, особенно на динамичных сайтах. Изобретение предлагает автоматизированный метод (Website Integration) для идентификации тематически похожих документов на основе анализа контента текущей страницы.

Кроме того, патент решает инфраструктурную проблему эффективности информационного поиска (Information Retrieval), предлагая оптимизации структуры индекса (Compressed Document Surrogates) и алгоритма поиска.

Что запатентовано

Запатентован метод автоматического поиска документов внутри веб-сайта, связанных с документом, который в данный момент просматривает пользователь. Система использует текст текущего документа для автоматической генерации взвешенного поискового запроса (подход "Query by Example"). Этот запрос выполняется по индексу данного веб-сайта, и результаты (похожие страницы) представляются пользователю. Также запатентованы техники оптимизации этого процесса.

Как это работает

Система работает следующим образом:

Извлечение терминов: Когда пользователь открывает документ (веб-страницу), система анализирует его содержание и извлекает термины.
Взвешивание терминов (W_T): Каждому термину присваивается вес (W_T). Этот вес рассчитывается путем сравнения частоты термина в данном документе с его частотой на всем веб-сайте. Более уникальные для документа термины получают больший вес.
Генерация запроса: Из взвешенных терминов формируется поисковый запрос.
Поиск и ранжирование: Запрос выполняется по коллекции документов сайта. Другие документы ранжируются с использованием классической модели информационного поиска, в частности Robertson's Term Frequency (компонент BM25), с учетом весов терминов из запроса.
Оптимизация: Процесс поиска оптимизирован за счет использования Compressed Document Surrogates (CDS) и алгоритма досрочного завершения поиска (S_Max).

Актуальность для SEO

Средняя. Концепция автоматического связывания контента актуальна. Однако техническая реализация, описанная в патенте (основанная на статистическом взвешивании терминов и Robertson's TF), относится к классическому информационному поиску (оригинальная заявка имеет приоритет от 2000 года). Современные системы в 2025 году преимущественно используют нейросетевые подходы и векторные эмбеддинги для определения схожести документов. Тем не менее, описанные принципы и формулы (BM25) остаются фундаментальными.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент в первую очередь фокусируется на улучшении пользовательского опыта внутри одного веб-сайта (например, системы рекомендаций контента или внутрисайтовый поиск), а не на ранжировании в глобальном поиске Google. Однако он предоставляет глубокое понимание классических методов информационного поиска (взвешивание TF-IDF, BM25). Понимание того, как статистическая значимость терминов используется для определения релевантности и схожести, критически важно для разработки контент-стратегии и оптимизации внутренней структуры сайта.

Термины и определения

Compressed Document Surrogate (CDS) (Сжатый суррогат документа): Структура данных, организованная по документу. Содержит список всех значимых терминов, встречающихся в документе, их частоту и/или позиции. Использует методы сжатия (например, Golomb Coding). Позволяет быстро определить, какие термины содержатся в документе, ускоряя финальный расчет оценки.
Golomb Coding (Кодирование Голомба): Метод энтропийного сжатия данных, используемый в патенте для кодирования разницы между идентификаторами терминов в CDS.
IDF (Inverse Document Frequency) (Обратная частота документа): Метрика, отражающая важность термина для коллекции документов. Редкие термины имеют высокий IDF.
Inverted Term List (Инвертированный список терминов): Стандартная структура данных индекса, организованная по терминам. Для каждого термина содержит список документов, в которых этот термин встречается.
Query by Example (Запрос по примеру): Метод поиска, при котором в качестве запроса используется существующий документ для поиска похожих документов.
Robertson's Term Frequency (Частота термина по Робертсону): Специфическая формула расчета Term Frequency (TF), являющаяся компонентом алгоритма BM25. Учитывает длину документа и эффект насыщения (повторение термина приносит убывающую пользу).
S_Max (Максимальная оценка): В контексте алгоритма оптимизации поиска — это максимально возможная оценка, которую может получить еще не найденный документ, исходя из оставшихся необработанных терминов запроса. Используется для досрочного завершения поиска (early termination).
Weight (W_T) (Вес термина в запросе): Значение, присваиваемое термину, извлеченному из исходного документа. Рассчитывается на основе статистической значимости (уникальности) термина для этого документа по сравнению со всем сайтом.

Ключевые утверждения (Анализ Claims)

Патент имеет 19 пунктов формулы изобретения. Ключевым является независимый пункт 1.

Claim 1 (Независимый пункт): Описывает метод автоматической интеграции контента веб-сайта.

Система предоставляет пользователю первый документ с веб-сайта.
Система автоматически генерирует поисковый запрос из терминов, содержащихся в первом документе. Процесс генерации включает специфическое взвешивание терминов:
- Определение первого соотношения (first ratio): количество вхождений термина в первом документе к общему количеству терминов в первом документе.
- Определение второго соотношения (second ratio): количество вхождений термина на всем веб-сайте к общему количеству терминов на всем веб-сайте.
- Вычисление веса (weight) для термина на основе первого и второго соотношений.
- Присвоение этого веса термину в поисковом запросе.
Использование этого взвешенного поискового запроса для определения оценок (scores) для множества других документов на этом же веб-сайте.
Идентификация набора документов на основе этих оценок.

Claim 10 (Зависимый от 1): Уточняет формулу расчета веса.

Вес термина вычисляется путем вычисления логарифма отношения между первым соотношением (first ratio) и вторым соотношением (second ratio) для этого термина.

Claim 6 (Зависимый от 1): Уточняет механизм оценки.

Определение оценок для документов выполняется с использованием Compressed Document Surrogates (CDS). CDS содержит данные, представляющие количество вхождений терминов в соответствующем документе.

Где и как применяется

Изобретение применяется в рамках системы информационного поиска, обслуживающей конкретный веб-сайт (например, внутрисайтовый поиск или система рекомендаций контента), а не в глобальном веб-поиске.

INDEXING – Индексирование и извлечение признаков

Сбор статистики: На этом этапе система анализирует все документы веб-сайта для расчета глобальной статистики: общее количество документов (N), количество документов, содержащих термин (N_T), общая частота терминов на сайте, длина документов (L_D) и средняя длина документа (L_0).
Расчет метрик: Вычисляются TF (Robertson's TF) и IDF.
Построение индекса: Создаются ключевые структуры данных: Inverted Term Lists и Compressed Document Surrogates (CDS) для каждого документа.

RANKING – Ранжирование (Внутрисайтовое)

Это основной этап применения патента, который активируется при доступе пользователя к документу.

Генерация запроса: Текст просматриваемого документа используется как основа для запроса (Query by Example). Вычисляются веса терминов (W_T).
Выполнение поиска (Retrieval): Система выполняет взвешенный запрос по индексу сайта. Используется оптимизированный алгоритм поиска, который итеративно обрабатывает Inverted Term Lists, начиная с наиболее значимых терминов, и использует механизм досрочного завершения (S_Max).
Расчет оценок (Scoring): Финальные оценки релевантности (S_D) рассчитываются с использованием формулы, объединяющей W_T, TF и IDF. Для ускорения этого процесса используются CDS.

Входные данные:

Текст первого (просматриваемого) документа.
Статистика по терминам и документам веб-сайта (TF, IDF, длины документов).
Структуры индекса (Inverted Term Lists, CDS).

Выходные данные:

Ранжированный список связанных документов внутри того же веб-сайта.

На что влияет

Типы контента и форматы: Влияет на любые текстовые документы внутри сайта (статьи, описания товаров, новости), которые индексируются системой.
Внутренняя навигация: Напрямую влияет на формирование блоков автоматической внутренней перелинковки и рекомендаций контента.

Когда применяется

Триггеры активации: Алгоритм активируется либо автоматически при каждом доступе пользователя к документу на сайте (Claim 2), либо по явному запросу пользователя (например, нажатие кнопки "Найти похожие") (Claim 3).

Пошаговый алгоритм

Процесс А: Генерация и выполнение запроса по примеру (Website Integration)

Получение исходного документа (D1): Пользователь обращается к документу на сайте.
Извлечение терминов: Система извлекает значимые термины (T) из D1.
Расчет весов терминов (W_T): Для каждого термина T рассчитывается вес по формуле (согласно Claim 1 и 10):

Фокус на внутрисайтовой интеграции: Патент описывает механизм для автоматического определения связанных документов строго в пределах одного веб-сайта (Website Integration). Он не описывает алгоритмы ранжирования глобального поиска Google.
Классический IR и статистическая релевантность: Система основана на классических моделях (TF-IDF, BM25). Это подтверждает, что статистический анализ частотности и распределения терминов является фундаментальным методом определения тематической связи между документами.
Взвешивание запроса по примеру (W_T): Ключевой особенностью является взвешивание терминов исходного документа. Вес W_T подчеркивает термины, которые чаще встречаются в документе, чем в среднем по сайту (дискриминативные термины), что позволяет выделить основную тему документа.
Инфраструктурная оптимизация (CDS): Введение Compressed Document Surrogates (CDS) позволяет оптимизировать расчет оценок, предоставляя быстрый доступ к информации о терминах, содержащихся в документе.
Оптимизация алгоритма поиска (S_Max): Описан эффективный алгоритм поиска с досрочным завершением. Обработка начинается с наиболее значимых терминов, и если Топ-N результатов уже набрали достаточно высокие оценки, обработка прекращается.

Best practices (это мы делаем)

Хотя патент описывает автоматизированную систему для внутрисайтовой интеграции, понимание его принципов полезно для общей SEO и контент-стратегии.

Поддержание четкой тематической структуры сайта: Система полагается на статистическое распределение терминов по сайту. Четкая кластеризация контента поможет системе точнее определять базовую вероятность термина на сайте (P_T(R-bar)) и, следовательно, точнее вычислять вес W_T для выделения уникальной темы документа.
Использование тематически значимой и уникальной лексики: Для того чтобы страницы эффективно связывались друг с другом, они должны содержать лексику, которая является статистически значимой. Используйте специфические, релевантные для темы термины (которые получат высокий IDF и высокий W_T), а не только общие слова.
Оптимизация длины и фокуса документа: Формула Robertson's TF учитывает длину документа (нормализация). Слишком длинные документы, охватывающие множество тем, могут размывать статистическую значимость отдельных терминов. Поддерживайте фокус на основной теме страницы.
Внедрение блоков "Похожие материалы": Если вы используете сторонние решения или собственные алгоритмы для генерации блоков похожих материалов (автоматическая перелинковка), этот патент предоставляет валидированный подход к реализации такого функционала, основанный на взвешенном TF-IDF/BM25.

Worst practices (это делать не надо)

Искусственное завышение частоты терминов (Keyword Stuffing): Формула Robertson's TF специально разработана для сглаживания влияния чрезмерной частоты (эффект насыщения). Переспам не даст линейного прироста релевантности в этой модели и может исказить профиль документа.
Дублирование контента и Boilerplate текст: Если один и тот же контент или шаблонный текст часто повторяется на разных страницах, это исказит глобальную статистику сайта (IDF и P_T(R-bar)), делая термины из этого контента менее значимыми (низкий W_T) для системы интеграции.
Создание страниц с размытой тематикой: Страницы, охватывающие несвязанные темы, сгенерируют разрозненный запрос по примеру, что приведет к некачественным рекомендациям связанного контента.

Стратегическое значение

Патент подтверждает важность классических принципов информационного поиска в определении схожести контента. Он демонстрирует, как математически определяется релевантность на основе статистики использования слов. Для SEO-специалистов это подчеркивает, что контент должен быть не только качественным, но и обладать четкими статистическими характеристиками, позволяющими алгоритмам идентифицировать его основную тематику и отличать от другого контента на сайте.

Практические примеры

Сценарий: Автоматическая генерация блока "Связанные статьи" на контентном сайте.

Исходная страница (D1): Статья про "Уход за Абиссинской кошкой". Сайт посвящен кошкам.
Анализ контента: Система извлекает термины. Термины "кошка" и "Абиссинская" встречаются часто.
Взвешивание (W_T):
- Термин "кошка" часто встречается на всем сайте. Вероятность P(R-bar) высока. Вес W_T будет низким или умеренным.
- Термин "Абиссинская" встречается на сайте реже. Вероятность P(R-bar) низкая. Вес W_T будет высоким, так как он является дискриминативным для этой статьи.
Поиск: Система выполняет взвешенный запрос, где "Абиссинская" имеет значительно больший приоритет, чем "кошка".
Результат: В блоке "Связанные статьи" будут показаны страницы, наиболее релевантные запросу, например, "История Абиссинской породы" и "Болезни Абиссинских кошек", а не общие статьи про уход за любыми кошками.

Описывает ли этот патент алгоритмы ранжирования Google Поиска?

Нет, напрямую не описывает. Патент сфокусирован на технологии "Website Integration" — автоматическом поиске связанных документов строго в пределах одного веб-сайта. Это скорее технология для внутреннего поиска или автоматических блоков похожих материалов, чем алгоритм глобального веб-поиска. Однако используемые принципы информационного поиска (TF-IDF, BM25) являются фундаментальными и применяются в различных поисковых системах.

Что такое Compressed Document Surrogate (CDS) и зачем он нужен?

CDS — это оптимизированная структура данных, которая хранит информацию о том, какие термины содержатся в документе и как часто. В отличие от стандартного инвертированного индекса (организован по терминам), CDS организован по документам. Это позволяет системе быстрее рассчитывать итоговую оценку документа по многословному запросу, избегая многократных поисков документа в списках терминов.

Как именно рассчитывается вес термина W_T?

Вес W_T рассчитывается как логарифм отношения двух вероятностей: вероятности встретить термин в данном документе к вероятности встретить этот термин на всем сайте. Если термин встречается в документе значительно чаще, чем в среднем по сайту, он получает высокий вес W_T. Это позволяет выделить термины, которые определяют уникальную тему документа.

Насколько актуальны описанные методы TF-IDF/BM25 в эпоху нейронных сетей (BERT, MUM)?

Описанные методы относятся к классическому информационному поиску. В современных системах для определения схожести контента преимущественно используются нейросетевые модели и векторные эмбеддинги, которые обеспечивают лучшее понимание семантики. Классические методы, такие как BM25, могут использоваться в гибридных системах или на ранних стадиях отбора кандидатов.

Что такое оптимизация поиска с досрочным завершением (S_Max)?

Это техника для ускорения поиска. Система обрабатывает термины запроса, начиная с самых важных. Она рассчитывает S_Max — максимально возможную оценку, которую может получить любой документ за счет оставшихся терминов. Если Топ-N результатов уже имеют оценки выше S_Max, поиск прекращается, так как найти более релевантные документы уже невозможно. Это экономит вычислительные ресурсы.

Влияет ли длина документа на расчет релевантности?

Да, влияет. В патенте используется формула Robertson's TF (компонент BM25), которая включает нормализацию по длине документа (L_D/L_0). Это означает, что при прочих равных, короткие документы, содержащие нужные термины, могут получить более высокую оценку TF, чем длинные документы с тем же количеством вхождений этих терминов.

Могу ли я использовать этот патент для улучшения внутренней перелинковки?

Да, принципы, описанные в патенте, можно использовать как основу для создания собственного алгоритма генерации автоматической внутренней перелинковки или блоков "Похожие материалы". Использование взвешенного подхода TF-IDF/BM25 для определения схожести страниц является надежным методом, хотя современные векторные методы могут дать более точные результаты.

В патенте упоминается «Robertson's Term Frequency». Это то же самое, что BM25?

Да, это тесно связанные понятия. Robertson's Term Frequency — это компонент расчета частоты термина (TF) в алгоритме Okapi BM25. Патент фактически описывает использование BM25 (или очень близкого к нему алгоритма) для оценки релевантности документов.

Поможет ли этот механизм ранжироваться моему сайту выше в Google?

Нет, этот механизм предназначен для улучшения навигации и интеграции контента внутри вашего сайта. Он не влияет напрямую на позиции сайта в глобальной выдаче Google. Однако улучшение пользовательского опыта, глубины просмотра и поведенческих факторов за счет качественной внутрисайтовой интеграции может косвенно положительно влиять на SEO.

Как наличие шаблонного текста (boilerplate) повлияет на работу этой системы?

Негативно. Термины из шаблонного текста встречаются на многих страницах, поэтому они получат очень низкий вес W_T (они не являются уникальными). Если уникального контента на странице мало, а шаблонного много, это может «зашумлять» процесс и приводить к нерелевантным рекомендациям.

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO

Как Google итеративно генерирует запросы из метаданных контента для поиска "Похожих Видео" (на примере YouTube)

Google (в частности, YouTube, упомянутый в патенте) использует итеративный процесс для генерации списков связанного контента. Система анализирует метаданные (заголовок, описание, теги) просматриваемого элемента и создает упорядоченный список ключевых слов. Затем она формирует внутренний поисковый запрос и автоматически уточняет его — сужая добавлением слов или расширяя удалением слов — пока не будет найдено оптимальное количество похожих результатов.

US8078632B1
2011-12-13

Семантика и интент
Персонализация
Мультимедиа

Как Google может генерировать альтернативные запросы из контента страниц и встраивать их в сниппеты

Google использует механизм для помощи пользователям в уточнении их поискового намерения. Система анализирует текст веб-страниц в результатах поиска и находит фразы, похожие на исходный запрос или характеризующие документ. Эти фразы затем встраиваются непосредственно в сниппеты как кликабельные предложения для нового поиска, облегчая навигацию и уточнение запроса.

US9183323B1
2015-11-10

Семантика и интент
SERP

Как Google использует связанные фразы и Information Gain для автоматической кластеризации и организации поисковой выдачи

Патент описывает комплексную систему перехода от индексации слов к индексации фраз. Google определяет статистическую связь между фразами с помощью меры Information Gain. Эти данные используются для автоматической организации поисковой выдачи в тематические кластеры (таксономию), группируя результаты по наиболее частым связанным фразам.

US7426507B1
2008-09-16

Индексация
SERP
Семантика и интент

Как Google использует Топ-N терминов и URL-паттерны для быстрой кластеризации похожих страниц на сайте

Google использует эффективный метод (O(n)) для группировки структурно похожих документов на веб-сайте. Система определяет страницы, у которых совпадают наиболее весомые термины (Топ-N), используя метрику Modified TF-IDF, смещенную в сторону шаблонного текста (boilerplate). Затем находится общий шаблон в их URL-адресах. Это позволяет быстро кластеризовать большие объемы контента для анализа структуры сайта и оптимизации индексирования.

US8200670B1
2012-06-12

Индексация
Структура сайта
Техническое SEO

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google рассчитывает «сигнал конкурентоспособности» (Competition Signal) страниц на основе анализа кликов, показов и времени взаимодействия

Google оценивает качество страниц, анализируя их «победы» и «поражения» в поисковой выдаче. Система сравнивает, как часто пользователи выбирают данный URL вместо других и как долго они взаимодействуют с контентом по сравнению с конкурентами (Dwell Time). На основе этих данных рассчитывается корректирующий фактор, который повышает или понижает позиции страницы, отражая её относительную конкурентоспособность и удовлетворенность пользователей.

US9020927B1
2015-04-28

Поведенческие сигналы
SERP
EEAT и качество

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования

Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.

US8005811B2
2011-08-23

Поведенческие сигналы
SERP

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google автоматически находит похожие страницы внутри одного сайта, используя текст текущей страницы как запрос (Query by Example)

Описание