Как Google реализует SafeSearch и верификацию возраста путем фильтрации чувствительных запросов и результатов

SEARCH FILTERING (Фильтрация поиска)

US8032527B2
Google LLC
2007-08-29
2011-10-04

Безопасный поиск

Google использует систему для обнаружения «фильтрующих терминов» в запросах или результатах поиска. При обнаружении Google немедленно показывает только «отфильтрованные» (безопасные) результаты и предлагает доступ к службе верификации (например, подтверждение возраста). Если пользователь верифицирован, отображаются «нефильтрованные» (потенциально чувствительные) результаты. Это предотвращает полную блокировку выдачи при использовании чувствительных терминов.

Какую проблему решает

Патент решает проблему чрезмерно ограничительной фильтрации поиска. В традиционных системах обнаружение неприемлемого контента (например, для взрослых) или «запрещенных» поисковых терминов часто приводило к полной блокировке всей поисковой выдачи до верификации пользователя. Это ухудшало пользовательский опыт, особенно для тех, кто ищет легитимную информацию, связанную с чувствительными темами (например, исследования о влиянии порнографии на общество), но не может пройти верификацию. Изобретение улучшает UX, предоставляя безопасные результаты немедленно.

Что запатентовано

Запатентована система фильтрации поиска, которая вместо полной блокировки выдачи предоставляет условный доступ к контенту. Если система обнаруживает Filtering Term в запросе или результатах (Search Instance), она немедленно предоставляет пользователю Filtered Content Items (безопасные результаты). Одновременно пользователю предлагается доступ к Verification Service (например, подтверждение возраста). Только после успешной верификации система предоставляет Unfiltered Content Items (полный набор результатов).

Как это работает

Система работает как посредник (Search Access Engine):

Перехват и анализ: Система определяет, содержит ли Search Instance (запрос или результаты) какие-либо Filtering Terms, используя Keyword Hash Map для учета контекста.
Триггер фильтрации: Если обнаружен фильтрующий термин в неодобренном контексте, активируется процесс фильтрации.
Генерация безопасных результатов: Система идентифицирует Filtered Content Items. Это может быть сделано путем изменения исходного запроса (пре-фильтрация) или путем фильтрации полного набора результатов (пост-фильтрация).
Условный доступ: Пользователю показываются только безопасные результаты и предоставляется доступ к Verification Service.
Верификация: Если пользователь проходит верификацию (Access Approval), ему показываются Unfiltered Content Items. Статус может сохраняться в рамках Device Session.

Актуальность для SEO

Высокая. Описанный механизм лежит в основе работы современных систем фильтрации контента, таких как Google SafeSearch, а также региональных или юридических ограничений (например, обязательная верификация возраста). Несмотря на дату патента, процесс остается фундаментальным для управления доступом к чувствительной информации в поиске.

Важность для SEO

Влияние на SEO (4/10). Патент носит преимущественно инфраструктурный характер и описывает механику ограничения доступа к контенту и верификации пользователя (Compliance/Safety), а не алгоритмы ранжирования. Он не описывает сигналы качества. Его значимость для SEO ограничена пониманием того, как контент классифицируется как чувствительный (SafeSearch), и как это влияет на его видимость в выдаче.

Термины и определения

Approved Query Context (Одобренный контекст запроса): Контекст, в котором использование Filtering Term считается безопасным и не требует активации фильтрации (White-Listed).
Device Session (Сессия устройства): Состояние (например, через cookie или логин), которое сохраняет статус верификации пользователя, чтобы избежать повторных запросов на подтверждение.
Filtered Content Items (FCI) (Отфильтрованные элементы контента): Набор результатов, считающихся безопасными. Это может быть подмножество полных результатов или результаты, сгенерированные по измененному (безопасному) запросу.
Filtering Terms (FT) (Фильтрующие термины): Термины (например, из «черного списка»), связанные с чувствительной тематикой (контент для взрослых, ненормативная лексика и т.д.), которые запускают процесс фильтрации (Black-Listed).
Keyword Hash Map (Хеш-карта ключевых слов): Структура данных для эффективной проверки компонентов запроса на соответствие «белым» (WL) и «черным» (BL) спискам терминов с учетом их последовательности (уровня) и контекста.
Search Access Engine (Механизм доступа к поиску): Промежуточная система, которая управляет процессом фильтрации, взаимодействуя с поисковой системой и службой верификации.
Search Instance (Поисковый экземпляр): Контекст поиска. Система может анализировать на наличие фильтрующих терминов как сам запрос, так и результаты, идентифицированные для этого запроса.
Unfiltered Content Items (UCI) (Нефильтрованные элементы контента): Полный набор результатов, релевантных исходному запросу, включая потенциально чувствительный контент.
Verification Service (Служба верификации): Система (например, проверка возраста), которая подтверждает право пользователя на просмотр нефильтрованного контента и возвращает Access Approval (AA) или Access Denial (AD).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс, когда фильтрация инициируется на основе анализа запроса.

Система получает запрос.
Система определяет, что запрос включает Filtering Term.
В ответ на это: Идентифицируются FCI и UCI; Пользователю предоставляются FCI и доступ к Verification Service.
Если получено Access Approval, предоставляются UCI. Если отказ — доступ к UCI блокируется.

Критически важная часть Claim 1 детализирует механизм определения наличия фильтрующего термина с помощью Keyword Hash Map. Запрос сегментируется на компоненты. Компоненты сравниваются с хеш-картой, где каждый элемент имеет уровень (позицию в запросе) и статус (отфильтрованный/нефильтрованный). Запрос считается содержащим фильтрующий термин, если его компоненты соответствуют карте и последний компонент слова в запросе имеет статус «отфильтрованный».

Эта структура позволяет обрабатывать контекст. Например, если "Слово А" (BL), но "Слово А + Слово Б" (WL), то запрос "Слово А + Слово Б" не будет отфильтрован, так как статус последнего компонента будет WL.

Claim 8 (Зависимый от 1): Описывает метод генерации FCI путем пост-фильтрации. Система получает UCI по исходному запросу, затем исключает из них элементы, связанные с фильтрующим термином. Оставшиеся элементы становятся FCI.

Claim 9 (Зависимый от 1): Описывает метод генерации FCI путем пре-фильтрации (изменения запроса). Система генерирует revised query (например, удаляя термин или используя отрицательные булевы операторы — Claims 10, 11), выполняет поиск по нему и идентифицирует результаты как FCI.

Claim 13 (Зависимый от 12): Подчеркивает важность контекста. Запрос считается содержащим фильтрующий термин, только если его контекст не является одобренным (approved query context).

Где и как применяется

Изобретение применяется на нескольких этапах обработки запроса и формирования выдачи.

QUNDERSTANDING – Понимание Запросов
Search Access Engine анализирует запрос сразу после его получения. Используется Keyword Hash Map для проверки наличия Filtering Terms с учетом контекста. На этом этапе может происходить переписывание запроса (Query Revision), если выбран метод пре-фильтрации (Claim 9).

RANKING – Ранжирование
Система выполняет поиск. В зависимости от реализации, она либо запускает ранжирование по исходному запросу (чтобы получить UCI для пост-фильтрации), либо по измененному запросу (чтобы получить FCI).

RERANKING / METASEARCH – Переранжирование и Смешивание (Фильтрация)
Основное место применения логики патента. Если используется метод пост-фильтрации (Claim 8), то на этом этапе из UCI удаляются чувствительные элементы. Здесь принимается решение о том, какой набор результатов показать (FCI или UCI), и управляется интеграция доступа к Verification Service (например, показ предупреждения и ссылки).

Входные данные:

Поисковый запрос пользователя.
База данных Filtering Terms (включая Keyword Hash Map и Approved Query Contexts).
(Потенциально) Набор UCI, полученный от поисковой системы.
Данные пользователя для верификации и данные сессии (Device Session).

Выходные данные:

Набор FCI ИЛИ набор UCI.
Инструкции для доступа к Verification Service (ссылка, форма).

На что влияет

Конкретные ниши или тематики: Наибольшее влияние оказывается на ниши, связанные с контентом для взрослых, насилием, разжиганием ненависти (hate speech), а также на регулируемые отрасли, где требуется верификация возраста.
Специфические запросы: Влияет на запросы, содержащие эксплицитные термины или двусмысленные термины, которые часто приводят к выдаче чувствительного контента.
Типы контента: Применяется ко всем типам контента в Information Corpora, включая веб-страницы, изображения, видео и т.д.

Когда применяется

Алгоритм применяется при выполнении одного из условий (в зависимости от реализации):

Триггер 1 (На основе запроса): Когда сам запрос содержит Filtering Term, который не находится в одобренном (white-listed) контексте. Определение происходит с помощью Keyword Hash Map.
Триггер 2 (На основе результатов): Когда результаты (Unfiltered Content Items), идентифицированные для запроса, включают или ассоциированы с Filtering Term (например, помечены как контент для взрослых).
Исключения: Фильтрация не активируется, если контекст одобрен. Патент приводит пример: термин "nude" может быть фильтруемым, но фраза "nude expression" может быть разрешена.

Пошаговый алгоритм

Процесс объединяет различные варианты реализации (FIG 6, 7, 8).

Получение запроса: Search Access Engine получает запрос от пользовательского устройства.
Идентификация поискового экземпляра (Search Instance): Система определяет область анализа (запрос или результаты).
Проверка на фильтрующие термины: Search Instance анализируется. При анализе запроса используется Keyword Hash Map для проверки статуса (BL/WL) и контекста.
Принятие решения о фильтрации: Содержит ли Search Instance фильтрующий термин в неодобренном контексте?
- Если НЕТ: Перейти к шагу 9.
- Если ДА: Перейти к шагу 5.
Генерация отфильтрованного контента (FCI):
- Метод А (Пре-фильтрация): Запрос изменяется (например, удаляется термин, добавляется отрицательный булев оператор) и выполняется поиск по новому запросу (Claim 9).
- Метод Б (Пост-фильтрация): Из набора Unfiltered Content Items удаляются чувствительные результаты (Claim 8).
Предоставление отфильтрованных результатов и доступа к верификации: Пользователю отправляются FCI вместе с инструкциями или ссылкой на Verification Service.
Проверка верификации: Система ожидает действия пользователя. Получено ли Access Approval (AA) от Verification Service?
Принятие решения о доступе:
- Если НЕТ/ОТКАЗ (AD): Поддерживать отфильтрованный вид (блокировать UCI).
- Если ДА (AA): Перейти к шагу 9.
Предоставление нефильтрованного контента (UCI): Полный набор результатов отправляется пользователю.
(Опционально) Управление сессией: Создается или обновляется Device Session на основе результата верификации для упрощения будущих поисков.

Какие данные и как использует

Данные на входе

Пользовательские факторы:
- Идентификационные данные пользователя (имя, номер, email, пароль) используются Verification Service для подтверждения личности или возраста.
- Device Sessions (cookies, данные входа в аккаунт) используются для поддержания статуса верификации.
Контентные факторы (Косвенно): Если используется пост-фильтрация, контент результатов (UCI) анализируется (или используются их предварительные классификации), чтобы определить, соответствует ли он Filtering Terms.

Какие метрики используются и как они считаются

Анализ Keyword Hash Map: Основной метод вычисления для фильтрации на уровне запроса. Это метод сопоставления шаблонов компонентов запроса со списками фильтруемых/нефильтруемых терминов. Учитывается последовательность (уровни) и статус (Black-List/White-List).
Контекстуальный анализ (Approved Query Context): Определение того, используется ли фильтрующий термин в одобренном (white-listed) контексте.
Булева логика: Упоминается как способ изменения запросов путем генерации отрицательных булевых терминов (negative Boolean term).
Статус Верификации: Бинарный результат (AA/AD), получаемый от Verification Service.

Приоритет пользовательского опыта над полной блокировкой: Google предпочитает показать пользователю безопасную часть выдачи (FCI), а не блокировать поиск полностью при обнаружении чувствительных терминов. Это позволяет пользователям получать доступ к информации, даже если их запрос затрагивает фильтруемые темы.
Гибкость механизмов фильтрации (Пре- и Пост-фильтрация): Патент описывает два основных подхода: пре-фильтрация (изменение запроса до поиска) и пост-фильтрация (фильтрация результатов после поиска). Это дает системе гибкость в реализации SafeSearch.
Контекст имеет значение (Whitelisting и Approved Context): Система не просто реагирует на отдельные слова. Использование Keyword Hash Map и проверка Approved Query Context явно указывают на то, что контекст фразы определяет, будет ли активирована фильтрация. Фраза может содержать фильтруемое слово, но быть разрешенной в целом.
Два триггера фильтрации: Фильтрация может быть инициирована как анализом самого текста запроса, так и характером результатов, которые этот запрос возвращает (Search Instance).
Верификация как шлюз: Чувствительный контент не удаляется из индекса, а помещается за шлюз верификации (например, подтверждение возраста). Доступ к нему возможен, но требует дополнительных действий и подтверждения прав доступа.

Best practices (это мы делаем)

Понимание классификации контента (SafeSearch): Для сайтов, чей контент может граничить с чувствительными темами (медицина, искусство, социальные исследования), критически важно понимать, как Google классифицирует их контент. Используйте четкие сигналы, чтобы помочь Google правильно интерпретировать контекст.
Обеспечение контекстуальной ясности: При обсуждении чувствительных тем в безопасном контексте убедитесь, что контекст однозначен. Это поможет попасть в Approved Query Context и избежать попадания под фильтры, даже если используются потенциальные Filtering Terms.
Четкая сегментация контента (SFW/NSFW): Если сайт содержит как общедоступный (SFW), так и чувствительный (NSFW) контент, они должны быть строго разделены. Это снижает риск того, что фильтрация чувствительного контента повлияет на видимость безопасных разделов сайта.

Worst practices (это делать не надо)

Смешивание типов контента: Размещение контента для взрослых или другого чувствительного материала вперемешку с общим контентом создает высокий риск того, что весь сайт будет отфильтрован для пользователей с включенным SafeSearch или неверифицированных пользователей.
Использование двусмысленного языка и кликбейта: Неоправданное использование терминов, которые могут быть классифицированы как Filtering Terms, для привлечения внимания увеличивает вероятность фильтрации контента, даже если он по сути безопасен.

Стратегическое значение

Этот патент описывает техническую реализацию функций типа SafeSearch. Он подтверждает, что Google индексирует широкий спектр контента, но активно управляет доступом к нему. Это не патент о ранжировании, а о фильтрации выдачи. Для SEO-стратегии это означает, что основная задача — обеспечить максимально точную классификацию контента системами Google, чтобы он достигал целевой аудитории в соответствующем контексте и не был ошибочно скрыт фильтрами.

Практические примеры

Сценарий: Академический ресурс, обсуждающий чувствительную тему.

Задача: Опубликовать статью "Социальное влияние контента для взрослых" так, чтобы она была доступна максимально широкой аудитории, включая пользователей с включенным SafeSearch.

Анализ запросов: Пользователи могут искать информацию, используя термины, которые входят в Filtering Terms (например, "влияние порнографии").
Риск: Если Google посчитает контекст недостаточно академическим, статья может быть классифицирована как UCI (нефильтрованный контент) и скрыта от пользователей с SafeSearch.
Действия SEO-специалиста:
- Обеспечить явный академический контекст: использовать формальный язык, ссылки на исследования, указать авторство экспертов.
- Избегать использования сенсационных или двусмысленных заголовков.
- Убедиться, что на сайте нет рекламы или ссылок на ресурсы для взрослых.
Ожидаемый результат: Система Google распознает контекст как Approved Query Context. Статья классифицируется как безопасная и включается в FCI (отфильтрованный контент), оставаясь видимой для всех пользователей.

Описывает ли этот патент алгоритмы ранжирования?

Нет, этот патент не связан с ранжированием. Он описывает исключительно механизмы фильтрации контента (например, SafeSearch) и процесс управления доступом к результатам поиска через верификацию пользователя. Он определяет, будет ли результат показан пользователю в данный момент, а не на какой позиции он должен находиться.

Что такое "Search Instance" (Поисковый экземпляр) в контексте патента?

Search Instance — это объект, который система проверяет на наличие фильтруемых терминов. Патент указывает, что это может быть либо сам текст запроса, введенный пользователем, либо набор результатов поиска (Unfiltered Content Items), сгенерированный в ответ на этот запрос. Это позволяет применять фильтрацию как до, так и после выполнения поиска.

Будет ли фильтр всегда срабатывать, если запрос содержит слово из черного списка?

Нет, не всегда. Патент уделяет большое внимание контексту. Механизмы Keyword Hash Map и проверка Approved Query Context позволяют создавать исключения. Если слово из черного списка используется в рамках разрешенной фразы или в безопасном контексте (например, академическом или новостном), фильтрация может не активироваться.

Что увидит пользователь, если не пройдет верификацию?

Пользователь продолжит видеть только Filtered Content Items (FCI) — безопасную часть выдачи. Доступ к полным результатам (Unfiltered Content Items, UCI), которые могут содержать чувствительный контент, будет запрещен. Важно, что пользователь не получает пустую выдачу, а получает безопасные результаты.

Нужно ли пользователю проходить верификацию при каждом запросе?

Нет. Патент описывает механизм Device Session. После успешной верификации система может классифицировать сессию как "одобренную" (например, с помощью cookies или через вход в аккаунт). В течение этой сессии пользователь будет автоматически получать нефильтрованные результаты без повторной верификации.

Как SEO-специалист может предотвратить фильтрацию безопасного контента?

Если контент безопасен, но затрагивает чувствительные темы, необходимо обеспечить максимальную ясность контекста, чтобы система распознала его как Approved Query Context. Также критически важно избегать смешивания безопасного и чувствительного контента на одном сайте или в одном разделе, так как это может привести к ошибочной классификации.

Что такое пре-фильтрация и пост-фильтрация?

Это два разных метода создания безопасной выдачи (FCI). Пре-фильтрация (Claim 9) изменяет запрос до его выполнения (например, удаляет фильтруемый термин) и ищет результаты по новому запросу. Пост-фильтрация (Claim 8) выполняет поиск по исходному запросу, получает полные результаты (UCI), а затем удаляет из них нежелательный контент.

Влияет ли этот механизм на видимость сайтов в нише Adult?

Да, напрямую. Контент таких сайтов, скорее всего, будет классифицирован как UCI и скрыт по умолчанию для пользователей с включенным SafeSearch или для тех, кто не прошел верификацию возраста. Видимость такого контента напрямую зависит от готовности и способности пользователя пройти верификацию.

Что такое Keyword Hash Map и зачем она нужна?

Это специализированная структура данных для эффективного хранения и поиска многословных фраз с учетом их статуса (разрешено/запрещено) и позиции слов. Она позволяет системе быстро проверять сложные контекстуальные правила, например, разрешать фразу "А Б В", даже если фраза "А Б" запрещена. Это обеспечивает точность работы фильтров.

Актуален ли этот патент, поданный в 2007 году?

Несмотря на дату подачи, описанные принципы и архитектура остаются высоко актуальными. Фильтрация контента и управление доступом к сенситивной информации являются фундаментальными задачами поисковых систем. Хотя конкретные методы классификации контента с тех пор значительно усложнились (например, с использованием ИИ), базовая логика обработки таких запросов осталась схожей.

Как Google стандартизирует и применяет международные возрастные рейтинги для фильтрации контента в поиске

Google использует систему для унификации различных национальных систем возрастных рейтингов (например, PG-13 в США, 12А в Великобритании, 16+ в России) в единый глобальный стандарт. Это позволяет применять пользовательские настройки фильтрации (например, родительский контроль или SafeSearch) единообразно к контенту из любой страны, блокируя или модифицируя результаты поиска, если они не соответствуют установленному уровню ограничений.

US9703846B1
2017-07-11

Безопасный поиск
SERP

Как Google рассчитывает «Рейтинг безопасности» запроса для фильтрации или блокировки выдачи (SafeSearch)

Google анализирует рейтинги контента (например, «для всех возрастов» или «для взрослых») топовых результатов по запросу, чтобы вычислить его «Safety Score». Если выдача содержит слишком много неприемлемого контента, система может полностью заблокировать запрос или агрессивно отфильтровать результаты, показывая только гарантированно безопасный и релевантный контент.

US11829373B2
2023-11-28

Безопасный поиск
SERP

Как Google фильтрует поисковые подсказки (Autocomplete) на основе оценок безопасности контента в результатах поиска

Google анализирует рейтинги безопасности (например, возрастные ограничения) контента в результатах поиска для популярных запросов. Если выдача по запросу содержит недостаточное количество "безопасного" контента (ниже установленного порога), этот запрос добавляется в список запрещенных и не показывается в качестве поисковой подсказки (Autocomplete) пользователям с включенными фильтрами безопасности.

US10169488B2
2019-01-01

Безопасный поиск
SERP

Как Google использует классификаторы запросов и контента для фильтрации и понижения оскорбительных результатов, связанных с защищенными группами

Google применяет систему двойной классификации для защиты пользователей от неуместного или оскорбительного контента. Система оценивает, относится ли запрос к «защищенной группе людей» и содержит ли он деликатные термины. Параллельно анализируется, содержат ли результаты поиска оскорбительный контент. На основе комбинации этих классификаций и анализа сессии пользователя результаты могут быть отфильтрованы или понижены в ранжировании.

US10083237B2
2018-09-25

Безопасный поиск
Семантика и интент
SERP

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google использует вероятностные модели и анализ пользовательского выбора (кликов) для обучения систем ранжирования

Патент Google описывает метод эффективного ранжирования контента (видео или результатов поиска) с использованием парных сравнений. Система моделирует качество как вероятностное распределение и оптимизирует сбор данных. Этот механизм может применяться для интерпретации кликов в поисковой выдаче как сигналов предпочтения, учитывая позицию результата и доверие к пользователю.

US8688716B1
2014-04-01

SERP
Поведенческие сигналы

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов

Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.

US8423538B1
2013-04-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google алгоритмически определяет и верифицирует языковые версии страниц, анализируя ссылки, контент и частоту обновлений

Google использует систему для автоматической идентификации связанных версий контента (например, переводов). Система анализирует ссылки между страницами и ищет «индикаторы связи» (названия языков в анкорах или флаги). Обнаруженная связь затем верифицируется с помощью машинного перевода и сравнения контента, а также анализа частоты обновлений. Это позволяет Google показывать пользователю наиболее подходящую языковую или региональную версию в поиске.

US8892596B1
2014-11-18

Мультиязычность
Ссылки
SERP

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске

Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph
Семантика и интент
EEAT и качество

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей

Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность
Поведенческие сигналы

Как Google использует контент вокруг ссылок (вне анкора) для генерации «Синтетического Описательного Текста» и ранжирования вашего сайта

Google может генерировать «Синтетический Описательный Текст» для страницы, анализируя контент и структуру сайтов, которые на нее ссылаются. Система создает структурные шаблоны для извлечения релевантного текста (например, заголовков или абзацев рядом со ссылкой), который затем используется как мощный сигнал ранжирования. Этот механизм позволяет лучше понять содержание страницы, особенно если традиционный анкорный текст низкого качества или отсутствует.

US9208233B1
2015-12-08

Ссылки
Семантика и интент
Индексация

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта