Как Google обнаруживает спам, использующий подмену символов из разных алфавитов (Homograph Attacks)

APPARATUS AND METHOD FOR DETECTING SPAM (Аппарат и метод для обнаружения спама)

US9465789B1
Google LLC
2013-03-27
2016-10-11

Антиспам

Google использует метод обнаружения спама, основанный на анализе переходов между различными наборами символов (например, с латиницы на кириллицу и обратно). Этот метод выявляет попытки спамеров заменить буквы визуально похожими символами (гомоглифами) из других алфавитов, чтобы обойти текстовые фильтры. Высокая частота таких переходов сигнализирует о спаме, в то время как легитимный многоязычный контент игнорируется.

Какую проблему решает

Патент решает проблему обхода стандартных спам-фильтров, основанных на поиске ключевых слов (например, "cheap prescription drugs"). Спамеры используют технику, известную как гомографическая атака (Homograph Attack), заменяя символы на визуально похожие из других алфавитов (например, замена латинской "a" на кириллическую "а"). Это позволяет сохранить читаемость текста для человека, но делает его невидимым для фильтров, ищущих точное совпадение символов.

Что запатентовано

Запатентована система и метод для обнаружения спама путем анализа частоты переходов (transitions) между различными наборами символов (character sets), соответствующими разным алфавитам. Ключевая идея состоит в том, что спам часто чередует символы из разных алфавитов внутри одного слова (много переходов), в то время как естественное использование нескольких языков обычно включает целые слова или фразы (мало переходов).

Как это работает

Система анализирует последовательность символов в тексте. Она определяет, к какому набору символов (например, латиница, кириллица) принадлежит каждый символ на основе его кодировки (например, Unicode). Затем система подсчитывает количество раз, когда символ из одного набора сменяется символом из другого (amount of transitions). На основе этого количества, часто нормализованного по длине текста (Transition Ratio), вычисляется оценка спама. Если оценка превышает порог, текст маркируется как спам. Система может придавать больший вес переходам, включающим "вводящие в заблуждение символы" (misleading characters/гомоглифы).

Актуальность для SEO

Средне-высокая. Гомографические атаки остаются актуальным методом для спама и обхода модерации. Хотя этот метод менее критичен для основного веб-поиска благодаря развитию NLP, он крайне важен для защиты пользовательского контента (UGC), такого как отзывы, комментарии и особенно бизнес-листинги (Local SEO/Google Maps). Патент описывает фундаментальный механизм защиты от манипуляций с кодировкой.

Важность для SEO

Влияние на SEO умеренное (6/10), но важное. Это антиспам-патент, нацеленный на конкретную технику манипуляции. Он не меняет фундаментальных принципов ранжирования, но критически важен для поддержания качества и достоверности контента в Local SEO и на платформах с UGC. Понимание этого механизма необходимо для эффективной модерации и борьбы со спамом в отзывах и листингах.

Термины и определения

Character Encoding (Кодировка символов): Стандарт (например, UTF-8, UTF-16, ASCII), который сопоставляет символы алфавитов, цифры и знаки препинания с двоичными числами (code units) для их обработки компьютером.
Character Set (Набор символов): Подмножество кодировки символов, соответствующее определенному алфавиту (например, латинский набор, кириллический набор). Наборы могут пересекаться в части неалфавитных символов (пробелы, пунктуация).
Misleading Characters (Вводящие в заблуждение символы / Гомоглифы): Символы из одного набора, которые визуально похожи на символы из другого набора (например, кириллическая 'а' и латинская 'a'). Патент предполагает использование записей (record of misleading characters) для их идентификации.
Primary Character Set (Основной набор символов): Набор символов, который используется для кодирования большинства символов в анализируемом тексте.
Text Entry (Текстовая запись): Единица анализа. Может быть всей веб-страницей или отдельным сегментом (например, один отзыв пользователя).
Transition (Переход): Событие в последовательности текста, когда текущий символ принадлежит к иному набору символов, чем предыдущий символ. Замена одной буквы в слове генерирует два перехода.
Transition Ratio (Коэффициент переходов): Нормализованная метрика: количество переходов, деленное на общее количество символов в тексте.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод обнаружения спама.

Система получает текстовую запись (text entry).
Определяется количество переходов (number of character transitions) между разными наборами символов. Наборы символов соответствуют разным алфавитам и являются разными подмножествами одной кодировки.
Вычисляется оценка (score), указывающая на вероятность спама, на основе этого количества переходов.
Текстовая запись маркируется как спам на основе этой оценки.

Claim 2 (Зависимый): Уточняет расчет оценки.

Оценка основана на соотношении (ratio) количества переходов и общего количества символов в текстовой записи. Это обеспечивает нормализацию по длине текста.

Claim 3 (Зависимый): Вводит механизм взвешивания на основе визуального сходства.

Идентифицируется основной набор символов (primary character set).
Выбирается соответствующая запись вводящих в заблуждение символов (record of misleading characters).
Переходам, включающим эти вводящие в заблуждение символы, придается больший вес при подсчете, чем остальным переходам.

Claim 4 и 5 (Зависимые): Уточняют получение текста.

Получение текста включает сегментацию исходного текста на несколько текстовых записей (например, отзывы пользователей). Это позволяет анализировать контент от разных авторов независимо.

Claim 11 (Зависимый): Описывает альтернативный метод расчета оценки.

Определяется количество языков в текстовой записи.
Определяется коэффициент переходов (как в Claim 2).
Оценка рассчитывается путем умножения коэффициента переходов на количество языков. (Логика: спам часто использует больше языков, чем легитимный текст).

Claim 13 и 14 (Зависимые): Описывают адаптивные пороги для маркировки спама.

Порог (threshold) для маркировки текста как спам адаптируется на основе:

Основного набора символов/языка (Claim 13) — для учета языков, где смешение символов более распространено.
Типа веб-сайта или части веб-сайта (Claim 14) — для более строгого контроля в зонах повышенного риска спама (например, бизнес-листинги).

Где и как применяется

Изобретение применяется на этапах обработки контента для выявления спама.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает необработанный текст и определяет его кодировку (например, UTF-8), что необходимо для последующего анализа.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Во время обработки контента система (Spam Detector) выполняет:

Сегментация текста: Разделение контента по авторам (например, в отзывах).
Анализ текста: Определение основного языка, подсчет переходов между character sets, идентификация misleading characters.
Расчет оценки спама (Spam Score Calculation): Вычисление метрик на основе переходов.
Маркировка спама: Присвоение контенту (или его части) метки спама, которая сохраняется как сигнал в индексе (Spam Signals).

RANKING / RERANKING – Ранжирование и Переранжирование
Сигналы спама, вычисленные на этапе индексирования, используются системами ранжирования для пессимизации (down-ranking) или исключения обнаруженного спам-контента из результатов поиска.

Вне архитектуры поиска (UGC Filtering):
Система может использоваться веб-серверами для анализа пользовательского контента (например, отзывов) перед публикацией.

Входные данные:

Текст с веб-сайта (закодированный).
Данные о кодировке (например, UTF-16).
Репозиторий данных о наборах символов (character set data repository).
Записи о misleading characters для разных языков.

Выходные данные:

Метка спама (да/нет) или оценка вероятности спама (Spam Score) для анализируемого текста.

На что влияет

Конкретные типы контента: Наибольшее влияние на пользовательский контент (UGC) — отзывы, комментарии, форумы.
Конкретные ниши или тематики: Бизнес-листинги (Local SEO), где спамеры часто пытаются манипулировать ключевыми словами или скрыть запрещенные услуги. Также влияет на спамные ниши (фарма, гемблинг).
Языковые и географические ограничения: Механизм универсален (основан на Unicode). Особенно эффективен при смешении визуально похожих алфавитов (латиница, кириллица, греческий). Пороги адаптируются под специфику конкретных языков.

Когда применяется

Условия работы: Применяется при обработке любого текста (индексирование или отправка UGC), где необходимо обнаружение спама, основанного на визуальном обмане (homograph attacks).
Триггеры активации: Активируется при обнаружении в тексте символов, принадлежащих к разным наборам символов.
Пороговые значения: Используются адаптивные пороги. Порог может быть ниже (строже) для бизнес-листингов и выше для языков, естественно смешивающих алфавиты.

Пошаговый алгоритм

Процесс работы детектора спама:

Получение и Экстракция текста: Система получает текст с веб-сайта, определяет его кодировку и извлекает видимый текст (удаляет разметку).
Сегментация: Текст сегментируется на отдельные записи (text entries), например, по авторам или отзывам.
Инициализация анализа: Для каждой записи определяется основной язык и primary character set. Загружаются определения наборов символов и записи misleading characters.
Детектирование и Подсчет переходов: Система итеративно проходит по символам. Если набор символов текущего символа отличается от набора предыдущего, счетчик переходов (transition count) увеличивается.
- Взвешивание (Опционально): Если переход включает misleading character, к счетчику добавляется повышенный вес.
Расчет оценки (Score Calculation): Вычисляется итоговая оценка спама. Возможные методы:
- Нормализованный коэффициент: $\text{Score} = \frac{\text{(Взвешенное) Количество переходов}}{\text{Общее количество символов}}$
- С учетом количества языков: $\text{Score} = \text{Коэффициент переходов} \times \text{Количество языков}$
Идентификация спама (Labeling): Оценка сравнивается с пороговым значением (threshold).
- Адаптация порога (Опционально): Порог корректируется в зависимости от основного языка, типа сайта или длины текста.
Действие: Если оценка превышает порог, текст маркируется как спам. Он может быть исключен из индекса, пессимизирован или отправлен на ручную проверку (Claim 8).

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе самого текста и его кодировки.

Контентные факторы: Непосредственно анализируется весь текст записи (text entry) как последовательность символов.
Технические факторы: Критически важным является определение кодировки символов (Character Encoding), такой как UTF-8 или UTF-16.
Структурные факторы: Используется HTML-разметка или другие структурные паттерны для сегментации текста по авторам или разделам (например, отделение отзывов от описания).

Какие метрики используются и как они считаются

Transition Count (Количество переходов): Прямой подсчет смены наборов символов в тексте.
Character Count (Количество символов): Общая длина текста для нормализации.
Transition Ratio (Коэффициент переходов): $\frac{\text{Transition Count}}{\text{Character Count}}$ .
Number of Languages (Количество языков): Количество различных языков, обнаруженных в тексте (используется в альтернативном расчете оценки).
Weights (Веса): Применяются к переходам, включающим misleading characters. Веса основаны на степени визуального сходства.
Adaptive Thresholds (Адаптивные пороги): Пороговые значения для Spam Score, которые изменяются в зависимости от контекста (язык, тип контента).

Обнаружение спама на уровне кодировки: Google анализирует текст не только на уровне слов, но и на уровне кодировки отдельных символов. Это позволяет выявлять технические манипуляции (Homograph Attacks), направленные на обход традиционных текстовых фильтров.
Различие между спамом и многоязычным контентом: Ключевым фактором является частота переключения (Transition Ratio), а не само наличие разных алфавитов. Система отличает естественный многоязычный контент (целые фразы, мало переходов) от искусственного смешивания символов внутри слов (много переходов).
Учет визуального сходства (Гомоглифы): Система придает больший вес переходам, использующим визуально похожие символы (misleading characters). Это фокусирует алгоритм на контенте, созданном для обмана.
Сегментация по авторам и типам контента: Анализ проводится независимо для разных сегментов контента (например, отдельных отзывов). Это позволяет точечно бороться со спамом в UGC, не наказывая всю страницу.
Адаптивные пороги и комплексная оценка: Система использует гибкие пороги, учитывая язык и тип контента. Оценка спама может также учитывать общее количество используемых языков, усиливая сигнал при неестественном смешении.

Best practices (это мы делаем)

Использование стандартной кодировки и языка: Убедитесь, что сайт использует чистую и стандартную кодировку (UTF-8). Создавайте контент естественно, избегая ненужных смешений алфавитов. При использовании иностранных слов делайте это последовательно.
Модерация UGC и отзывов: Для платформ с пользовательским контентом критически важно внедрять системы модерации. Следите за качеством отзывов и комментариев, так как спам, использующий подмену символов, будет обнаружен Google.
Чистота данных в Local SEO: Обеспечьте корректность данных в бизнес-листингах (Google Business Profile). Избегайте любых попыток манипуляции с названиями или описаниями, которые могут быть восприняты как попытка скрыть ключевые слова с помощью разных алфавитов.

Worst practices (это делать не надо)

Использование гомоглифов для скрытия ключевых слов (Keyword Stuffing/Cloaking): Категорически нельзя заменять буквы в ключевых словах на визуально похожие символы из других алфавитов (например, использовать кириллицу в английском тексте). Этот патент напрямую направлен против такой практики.
Искусственное смешивание языков и алфавитов: Попытки манипулировать ранжированием путем неестественного смешивания символов будут обнаружены как спам, особенно если используется большое количество языков (Claim 11).
Использование визуально похожих символов для стилизации: Использование греческих или других символов для «украшения» текста или заголовков может быть рискованным, так как это увеличивает Transition Count и может активировать фильтр.

Стратегическое значение

Патент подчеркивает усилия Google по борьбе со спамом на всех уровнях, включая технические уловки с кодировкой. Для SEO-специалистов это напоминание о том, что любые попытки обмана рискуют быть обнаруженными специализированными алгоритмами. Стратегически это подтверждает необходимость фокусироваться на создании естественного, качественного контента и поддержании чистоты данных, особенно в Local SEO и UGC.

Практические примеры

Сценарий: Сравнительный анализ отзывов

Анализируется страница с двумя отзывами.

Отзыв 1 (Легитимный мультиязычный контент):
"Excellent service. The owner speaks Russian: 'Спасибо за ваш визит'. Highly recommend."

Анализ: Система обнаруживает Латиницу и Кириллицу.
Переходы: Мало. Переход с Латиницы на Кириллицу перед цитатой и обратно на Латиницу после неё.
Результат: Transition Ratio низкий. Отзыв легитимный.

Отзыв 2 (Спам с обфускацией):
"Buy cheap Vіаgrа here! Best рrісеs!" (Использованы кириллические 'і', 'а', 'р', 'с', 'е')

Анализ: Система обнаруживает смешение Латиницы и Кириллицы. Основной язык – английский.
Переходы: Очень много. Например, V(лат) -> і(кир), і(кир) -> а(кир), а(кир) -> g(лат), g(лат) -> r(лат), r(лат) -> а(кир).
Взвешивание: Кириллические символы идентифицированы как misleading characters для латиницы, что увеличивает вес переходов.
Результат: Transition Ratio высокий. Отзыв классифицируется как спам.

Что такое "переход" (transition) между наборами символов и как он считается?

Переход – это момент в тексте, когда символ из одного алфавита (например, латиницы) сменяется символом из другого (например, кириллицы). Важно понимать, что одна замененная буква в середине слова генерирует два перехода: один переход на иностранный символ и один переход обратно на основной алфавит. Именно высокая частота таких переключений является сигналом спама.

Как система отличает спам от сайта, который легитимно использует несколько языков?

Система фокусируется на частоте переходов (Transition Ratio). В легитимном многоязычном тексте обычно есть целые слова или фразы на другом языке, что приводит к малому количеству переходов (один в начале фразы, один в конце). В спаме символы часто перемешаны внутри одного слова, что приводит к очень большому количеству переходов.

Что такое «вводящие в заблуждение символы» (misleading characters) или гомоглифы?

Это символы, которые выглядят очень похоже на символы основного языка текста (например, кириллическая «а» и латинская «a»). Система содержит списки таких символов для разных алфавитов. При расчете оценки спама переходы, включающие эти символы, получают больший вес, так как они с высокой вероятностью используются для обмана фильтров и пользователей.

Влияет ли этот патент только на веб-поиск?

Нет. Патент явно указывает на применение этого метода для обнаружения спама в веб-сайтах, пользовательских комментариях (UGC) и бизнес-листингах. Это означает, что он имеет прямое отношение к качеству контента на форумах, в разделах отзывов и особенно в Local SEO (например, отзывы и листинги в Google Maps).

Может ли этот алгоритм наказать сайт, если спам размещен в комментариях без ведома владельца?

Патент описывает механизм сегментации текста (Claim 4 и 5), который позволяет анализировать комментарии разных авторов независимо. Это предполагает, что система может идентифицировать и игнорировать спамный UGC, не обязательно наказывая всю страницу. Однако большое количество немодерируемого спама может негативно влиять на общую оценку качества сайта.

Как система адаптируется к разным языкам и типам контента?

Система использует адаптивные пороги (thresholds). Для языков, которые естественно смешивают алфавиты, порог срабатывания будет выше. Для типов контента, которые часто подвергаются спаму (например, бизнес-листинги), порог может быть ниже (требования строже).

Что произойдет, если система пометит текст как спам?

Текст, помеченный как спам, может быть исключен из индекса, понижен в ранжировании или удален (если система используется для фильтрации UGC перед публикацией). Патент также упоминает возможность добавления подозрительного текста в очередь для ручной проверки человеком (human review).

Как рассчитывается оценка спама согласно патенту?

Описано два основных метода. Первый — это коэффициент переходов: количество переходов (возможно взвешенное), деленное на общее количество символов. Второй метод умножает этот коэффициент на общее количество обнаруженных языков в тексте, предполагая, что большее смешение языков усиливает сигнал спама.

Может ли использование эмодзи или специальных символов активировать этот фильтр?

Теоретически да, если они относятся к другому character set и часто перемежаются с текстом. Однако система использует взвешивание misleading characters. Если символы визуально не похожи на буквы основного алфавита (т.е. не используются для обмана), они получат низкий вес и вряд ли приведут к маркировке текста как спам.

Что делать SEO-специалисту, чтобы соответствовать требованиям этого патента?

Основная рекомендация — избегать любых неестественных текстовых манипуляций. Используйте стандартную кодировку, пишите естественно и не пытайтесь скрыть ключевые слова с помощью символов из других алфавитов. Также критически важно активно модерировать пользовательский контент на сайте, чтобы предотвратить появление такого типа спама.

Как Google находит синонимы для транслитерированных запросов с помощью обратного языкового маппинга

Google использует механизм для идентификации синонимов слов, написанных транслитом (например, хинди, написанное латиницей). Поскольку транслитерация не имеет строгих правил орфографии, одно и то же слово может иметь много вариантов написания. Система определяет, какие слова являются транслитерацией, а затем пытается восстановить исходное слово на языке оригинала. Если разные варианты написания на латинице указывают на одно и то же слово на хинди, они считаются синонимами и используются для расширения запроса.

US8521761B2
2013-08-27

Мультиязычность
Семантика и интент

Как Google исправляет запросы, введенные с неправильной раскладкой клавиатуры, используя контекст пользователя

Google использует механизм для автоматического определения и исправления запросов, введенных с ошибочной раскладкой клавиатуры. Если исходный запрос возвращает неудовлетворительные результаты, система анализирует контекст пользователя (язык интерфейса, местоположение, историю поиска), чтобы определить предполагаемый язык. Затем запрос перекодируется в правильный скрипт, и пользователю показываются релевантные результаты.

US8676824B2
2014-03-18

Мультиязычность
Поведенческие сигналы

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

US8762358B2
2014-06-24

Мультиязычность
Семантика и интент

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы

Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

US7475063B2
2009-01-06

Мультиязычность
Семантика и интент
Индексация

Как Google Autocomplete обрабатывает запросы, смешивающие разные языки и форматы ввода (например, иероглифы, пиньинь и английский)

Google использует механизм для генерации поисковых подсказок (Autocomplete), когда пользователь вводит запрос, смешивая разные языки или системы письма. Система создает альтернативные, "неоднозначные" представления ввода, запрашивает подсказки и фильтрует их. Это позволяет корректно интерпретировать сложный ввод (например, сочетание китайских иероглифов, пиньиня и английских слов) и предлагать релевантные варианты.

US20120203541A1
2012-08-09

Мультиязычность
Семантика и интент

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов

Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.

US9971746B2
2018-05-15

Структура сайта
SERP
Ссылки

Как Google использует ссылки, которыми делятся в почте, блогах и мессенджерах, как сигнал для корректировки ранжирования

Google запатентовал механизм (User Distributed Search), который учитывает, как пользователи делятся ссылками в коммуникациях (почта, блоги, мессенджеры). Если автор включает ссылку в сообщение, это дает ей первоначальную модификацию в ранжировании. Если получатели переходят по этой ссылке, её Ranking Score увеличивается ещё больше. Оба сигнала используются для влияния на позиции документа в будущей выдаче.

US8862572B2
2014-10-14

Поведенческие сигналы
Ссылки

Как Google рассчитывает репутационную значимость организаций и людей, используя данные из внешних источников для ранжирования

Google использует систему для оценки репутации и престижа сущностей (например, организаций или людей). Система не полагается только на предоставленные данные, а активно ищет «Дополнительные Аспекты» из внешних источников (например, профессиональные сети, СМИ). На основе этих данных рассчитываются две метрики: «Репутационная Значимость» (престиж относительно аналогов) и «Двустороннее Соответствие» (взаимная привлекательность), которые используются для ранжирования результатов поиска и рекомендаций.

US10878048B2
2020-12-29

EEAT и качество
SERP
Knowledge Graph

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска

Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.

US10909124B2
2021-02-02

Семантика и интент
Персонализация
SERP

Как Google использует атрибуты пользователей и показатели предвзятости (Bias Measures) для персонализации ранжирования

Google анализирует, как разные группы пользователей (сегментированные по атрибутам, таким как интересы или демография) взаимодействуют с документами. Система вычисляет «показатель предвзятости» (Bias Measure), который показывает, насколько чаще или реже определенная группа взаимодействует с документом по сравнению с общей массой пользователей. При поиске Google определяет атрибуты пользователя и корректирует ранжирование, повышая или понижая документы на основе этих показателей предвзятости.

US9436742B1
2016-09-06

Персонализация
Поведенческие сигналы
SERP

Как Google определяет географическую зону релевантности бизнеса на основе реального поведения пользователей (Catchment Areas)

Google определяет уникальную "зону охвата" (Catchment Area) для локального бизнеса, анализируя, из каких географических точек пользователи кликали на его результаты в поиске. Эта динамическая зона заменяет фиксированный радиус и используется для фильтрации кандидатов при локальном поиске, учитывая известность бренда, категорию бизнеса и физические препятствия.

US8775434B1
2014-07-08

Local SEO
Поведенческие сигналы

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы

Как Google автоматически генерирует блоки "Связанные ссылки" и "Похожие запросы", анализируя контент страницы при загрузке

Патент описывает систему для динамической генерации виджетов связанных ссылок. При загрузке страницы система извлекает текст (заголовок, контент, запрос из реферера), определяет наиболее важные ключевые слова с помощью глобального репозитория (Keyword Repository), выполняет поиск по этим словам (часто в пределах того же домена) и отображает топовые результаты для улучшения навигации.

US9129009B2
2015-09-08

Ссылки
Семантика и интент
Техническое SEO

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов

Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.

US7610282B1
2009-10-27

Поведенческие сигналы
SERP
Семантика и интент