Как Google идентифицирует, классифицирует и помечает сайты с вредоносным ПО (Scumware) в поиске и браузерах

IDENTIFICATION OF POSSIBLE SCUMWARE SITES BY A SEARCH ENGINE (Идентификация возможных сайтов со Scumware поисковой системой)

US8126866B1
Google LLC
2005-09-30
2012-02-28

Google сканирует веб на наличие «Scumware» (вредоносное и нежелательное ПО). Патент описывает, как система различает сайты, которые содержат вредоносный код, и сайты, которые на него ссылаются. Обнаружение угрозы может привести к исключению сайта из поиска, понижению в ранжировании или добавлению различных визуальных предупреждений в SERP и браузерных тулбарах.

Какую проблему решает

Патент решает проблему защиты пользователей от Scumware (вредоносное, шпионское, рекламное и другое нежелательное ПО), которое может быть загружено с веб-сайтов, найденных через поисковую систему. Цель — предотвратить ущерб компьютерам пользователей, отслеживание их действий или нежелательную установку ПО, повышая безопасность и надежность поисковой выдачи.

Что запатентовано

Запатентована система, интегрирующая обнаружение Scumware в процесс индексирования и ранжирования. Поисковая система сканирует документы на наличие угроз и обновляет индекс, помечая опасные сайты. При генерации результатов поиска система может исключать, понижать в ранжировании или визуально помечать ссылки на такие сайты. Ключевой особенностью является дифференциация угроз: система различает сайты, которые содержат Scumware, и сайты, которые ссылаются на него, отображая разные предупреждения.

Как это работает

Система работает в несколько этапов:

Сканирование и Обнаружение: Веб-документы сканируются на предмет Scumware с использованием различных методов (сигнатуры файлов, эвристика, анализ скриптов, эмуляция посещения).
Классификация Угрозы: Система определяет, содержит ли сайт Scumware напрямую или ссылается на него. Рассчитывается кратчайший путь (Shortest Number of Links) до вредоносного контента.
Обновление Индекса: В индекс добавляется индикация наличия Scumware, его тип и серьезность.
Генерация SERP: При обработке запроса система учитывает данные о безопасности. Она может исключить или понизить зараженные сайты, а также отобразить Visual Indicators (например, иконки) рядом со ссылкой.
Дифференциация Индикаторов: Для сайтов с разным уровнем угрозы (содержит vs. ссылается) отображаются разные индикаторы.
Интеграция с Тулбаром: Система взаимодействует с браузерным тулбаром, предупреждая пользователя при посещении опасного сайта и показывая дистанцию до Scumware.

Актуальность для SEO

Критически высокая. Описанные механизмы лежат в основе современных систем безопасности Google, таких как Google Safe Browsing. Защита пользователей от вредоносного ПО является фундаментальным требованием к поисковой системе. Хотя конкретные методы обнаружения и интерфейсы эволюционировали, базовая концепция идентификации и маркировки опасных сайтов абсолютно актуальна.

Важность для SEO

Патент имеет критическое значение для SEO (9/10). Он описывает механизм, который может полностью исключить сайт из поиска или значительно снизить его CTR из-за маркировки безопасности, независимо от релевантности контента. Обеспечение технической безопасности сайта и чистоты исходящих ссылок является необходимым условием для ранжирования и поддержания репутации.

Термины и определения

Scumware: Общий термин для обозначения любого ПО, предназначенного для нанесения ущерба или выполнения нежелательных действий. Включает вирусы, черви, трояны, шпионское ПО (spyware), рекламное ПО (adware) и вредоносное ПО (malware). Также включает ПО, которое меняет настройки без разрешения, трудно удаляется или скрытно собирает данные.
Document Index (Индекс Документов): База данных поисковой системы, хранящая информацию о веб-документах, включая индикаторы того, связан ли документ со Scumware.
Visual Indicators (Визуальные индикаторы): Элементы интерфейса (иконки, изменение цвета), отображаемые рядом с результатами поиска для предупреждения пользователя об угрозе. Индикаторы различаются в зависимости от типа и серьезности угрозы.
Toolbar (Тулбар): ПО, интегрированное в браузер клиента, которое взаимодействует с поисковой системой для получения информации о безопасности текущего сайта и отображения предупреждений (например, Security threat warning indicator).
Shortest Number of Links (Кратчайшее количество ссылок): Метрика, указывающая минимальное количество переходов по ссылкам от текущего документа до документа, содержащего Scumware.
Cached Version (Кэшированная версия): Копия документа, хранимая поисковой системой. Патент предполагает возможность очистки (cleaning) Scumware из этих версий.

Ключевые утверждения (Анализ Claims)

Claim 1, 6, 9, 10, 12, 14 (Независимые пункты): Все основные независимые пункты описывают ядро изобретения — дифференциацию угроз и взаимодействие с тулбаром:

Система идентифицирует документы.
Определяется, что Первый Документ содержит ссылки, ведущие на Scumware.
Определяется, что Второй Документ непосредственно содержит Scumware.
В индексе сохраняются разные данные для Первого и Второго Документов.
Система отображает ссылки на оба документа, используя разные визуальные индикаторы для каждого, подчеркивая дифференциацию угрозы.
Система получает запрос от Тулбара относительно Первого Документа (который ссылается на угрозу).
Тулбару предоставляются данные, на основе которых он отображает кратчайшее количество ссылок (shortest number of links) от Первого Документа до Scumware (причем это количество больше единицы).

Claim 2, 3, 18 (Зависимые): Уточняют определение Scumware. Включают как типы ПО (вирусы, spyware, adware), так и поведенческие характеристики: изменение настроек браузера или безопасности без разрешения, показ всплывающей рекламы, установка без разрешения, сопротивление удалению, скрытая передача данных пользователя или отслеживание нажатий клавиш.

Claim 4, 5 (Зависимые): Описывают методы идентификации Scumware. Включают сопоставление атрибутов файла (имя, размер, дата, издатель), сопоставление сигнатур файлов, обнаружение модификаций реестра (при эмуляции) или обнаружение скриптов, эксплуатирующих уязвимости браузера.

Где и как применяется

Изобретение охватывает практически весь конвейер поиска и взаимодействие с клиентом.

CRAWLING – Сканирование и Сбор данных
На этом этапе система собирает контент (файлы, скрипты). Может выполняться эмуляция посещения страницы в изолированной среде для динамического анализа поведения.

INDEXING – Индексирование и извлечение признаков
Основной этап применения. Система анализирует контент и извлекает признаки безопасности:

Наличие Scumware (Да/Нет).
Тип угрозы (Содержит / Ссылается).
Уровень серьезности (Level of Severity) и уверенности (Level of Confidence).
Анализ ссылочного графа для расчета Shortest Number of Links.
Очистка и сохранение безопасных Cached Versions.

RANKING – Ранжирование
Наличие Scumware используется как фактор ранжирования. Патент упоминает возможность исключения (excluding) или понижения (demoting) таких сайтов, независимо от их релевантности.

RERANKING / METASEARCH (Формирование SERP)
На этом этапе система форматирует SERP, добавляя Visual Indicators к опасным результатам. Также система взаимодействует с клиентским Toolbar для передачи данных о безопасности.

Входные данные:

Контент веб-документов (HTML, скрипты, загружаемые файлы).
Ссылочный граф.
Базы данных сигнатур и атрибутов Scumware.
Данные поведенческого анализа при эмуляции (изменения в системе, сетевая активность).

Выходные данные:

Аннотированный Document Index с метками безопасности.
Скорректированные оценки ранжирования.
SERP с визуальными предупреждениями.
Данные о безопасности (включая Shortest Number of Links), передаваемые в Toolbar.

На что влияет

Конкретные типы контента: Наибольшее влияние на сайты, предлагающие загрузку файлов (софт, медиа), использующие агрессивные скрипты и рекламу, а также на взломанные сайты.
Конкретные ниши или тематики: Ниши, связанные с распространением пиратского ПО, контента для взрослых, торрентами, и любые тематики, где распространено нежелательное ПО.

Когда применяется

Триггеры активации (Обнаружение): Активируется при обнаружении признаков Scumware во время сканирования (совпадение сигнатур, эвристический анализ поведения).
Триггеры активации (Отображение): Активируется при генерации SERP, если в результатах присутствуют помеченные сайты, или при запросе от тулбара.
Временные рамки: Сканирование происходит непрерывно (во время краулинга, после индексации или по запросу). Применение к ранжированию происходит в реальном времени.

Пошаговый алгоритм

Процесс А: Обнаружение и Индексирование (Офлайн/Фоновый режим)

Сбор данных: Краулер загружает контент документа.
Сканирование на Scumware: Анализ контента с использованием статических (сигнатуры, атрибуты файлов) и динамических (эмуляция посещения, анализ поведения скриптов, изменений в реестре) методов.
Классификация и Анализ Связей:
- Если Scumware присутствует напрямую: Документ классифицируется как "Содержит Scumware".
- Если Scumware отсутствует, но исходящие ссылки ведут на него: Документ классифицируется как "Ссылается на Scumware" и рассчитывается Shortest Number of Links.
Оценка Угрозы: Определение уровня серьезности и уверенности.
Обновление Индекса: В Document Index сохраняются метки о статусе и типе угрозы.
Обработка Кэша (Опционально): Система может очистить Scumware и сохранить безопасную Cached Version.

Процесс Б: Обработка Запроса и Отображение (Реальное время)

Генерация Результатов: Система находит релевантные документы.
Применение Политик Безопасности: Проверка меток Scumware. Применение исключения/понижения или маркировки.
Дифференциация Отображения: Использование разных Visual Indicators для сайтов, которые "Содержат Scumware", и сайтов, которые "Ссылаются на Scumware".
Формирование SERP: Генерируется финальная страница результатов с предупреждениями.

Процесс В: Взаимодействие с Тулбаром (Реальное время)

Запрос от Тулбара: Когда пользователь посещает сайт, Toolbar запрашивает статус безопасности.
Ответ Системы: Система возвращает данные из индекса (статус, тип угрозы, Shortest Number of Links).
Отображение в Тулбаре: Тулбар отображает предупреждение и/или дистанцию до Scumware.

Какие данные и как использует

Данные на входе

Патент предполагает использование широкого спектра данных для обнаружения Scumware:

Контентные и Файловые факторы:
- HTML-код и скрипты (например, Javascript). Анализируются на наличие кода, эксплуатирующего уязвимости браузера.
- Загружаемые файлы. Анализируются атрибуты (имя, размер, дата, издатель) и сигнатуры файлов (сопоставление с известными образцами).
Ссылочные факторы: Исходящие ссылки. Используются для определения связи с источниками Scumware и расчета дистанции.
Поведенческие факторы (при эмуляции): Действия, выполняемые ПО или скриптами: изменение настроек браузера (домашняя страница, поисковик), изменение конфигурации безопасности, установка ПО без разрешения, передача данных на сторонние сайты без разрешения.
Системные данные (при эмуляции): Изменения в системном реестре (registry modifications), модификация LSP стека, модификация 'hosts' файлов.

Какие метрики используются и как они считаются

Статус Scumware: Классификация (Не содержит / Содержит / Ссылается).
Shortest Number of Links: Минимальное количество кликов до вредоносного контента. Рассчитывается путем анализа ссылочного графа.
Level of Severity / Harmfulness (Уровень серьезности / вредоносности): Оценка потенциального вреда. Используется для выбора визуального индикатора и степени понижения в ранжировании.
Level of Confidence (Уровень уверенности): Вероятность того, что классификация верна.
Методы анализа: Патент упоминает pattern matching (для сигнатур), heuristic detection techniques (эвристика) и анализ поведения (включая сканирование реестра).

Безопасность как критический фактор ранжирования: Наличие Scumware является сильным негативным сигналом, который может привести к исключению или понижению сайта в выдаче, переопределяя сигналы релевантности.
Дифференциация угроз и ответственности: Google четко различает сайты, которые хостят Scumware, и те, которые на него ссылаются. Для них предусмотрены разные визуальные предупреждения и, вероятно, разные уровни санкций.
Критичность анализа исходящих ссылок: Патент подчеркивает важность контроля того, куда ведет сайт. Система рассчитывает дистанцию до угрозы (Shortest Number of Links), что означает, что даже косвенная связь с вредоносным контентом является фактором риска.
Глубокий анализ контента: Используются не только статические методы (сигнатуры), но и динамический поведенческий анализ (эмуляция посещения, анализ изменений в системе), что позволяет выявлять сложные и новые угрозы.
Интеграция безопасности в экосистему: Система безопасности интегрирована в Поиск и взаимодействует с клиентскими приложениями (тулбарами/браузерами) для сквозной защиты пользователя, что соответствует концепции Google Safe Browsing.
Очистка кэшированных страниц: Предусмотрен механизм предоставления безопасного доступа к контенту через кэш Google, даже если оригинал заражен.

Best practices (это мы делаем)

Регулярный аудит безопасности сайта: Внедрить постоянный мониторинг сайта на наличие вредоносного кода, инъекций и уязвимостей. Безопасность сайта напрямую влияет на его способность ранжироваться. Оперативно реагировать на уведомления в Google Search Console (Security Issues).
Контроль исходящих ссылок: Тщательно проверять безопасность внешних ресурсов, на которые ссылается сайт. Ссылка на сайт, классифицированный как Scumware, может привести к маркировке вашего собственного сайта.
Гигиена рекламных сетей и монетизации: Использовать только надежные рекламные сети. Агрессивные форматы или сети, распространяющие нежелательное ПО (Adware), могут привести к пессимизации сайта. Убедитесь, что реклама не приводит к установке ПО без явного согласия.
Контроль UGC (Пользовательского контента): Внедрить строгую модерацию и автоматическое сканирование ссылок и файлов в комментариях или на форумах, чтобы предотвратить распространение Scumware через ваш ресурс.
Обеспечение чистоты загружаемого ПО: Если сайт предлагает загрузку файлов, гарантировать их безопасность. ПО не должно выполнять нежелательных действий (например, изменение настроек браузера без разрешения).

Worst practices (это делать не надо)

Распространение нежелательного ПО: Монетизация через распространение adware, spyware или ПО, которое меняет настройки пользователя без спроса. Это прямой путь к активации системы и исключению из индекса.
Игнорирование безопасности и обновлений CMS: Использование устаревшего ПО повышает риск взлома и размещения Scumware, что приведет к маркировке сайта в поиске как опасного.
Немодерируемое размещение внешних ссылок: Разрешение пользователям публиковать ссылки без проверки создает высокий риск связи с источниками Scumware.
Использование сомнительных рекламных сетей: Размещение рекламы, которая использует эксплойты или ведет на загрузку вредоносного ПО.

Стратегическое значение

Патент подчеркивает, что безопасность пользователя является фундаментальным приоритетом Google. В контексте E-E-A-T, безопасность напрямую связана с Доверием (Trust). Сайт, представляющий угрозу, не будет ранжироваться. Для долгосрочной SEO-стратегии поддержание технического здоровья и безопасности сайта так же важно, как создание качественного контента. Пренебрежение безопасностью может мгновенно обнулить все прочие усилия по оптимизации.

Практические примеры

Сценарий 1: Маркировка сайта из-за исходящей ссылки в UGC

Ситуация: На форуме (Сайт А) пользователь размещает ссылку на Сайт Б, предлагающий утилиту. Сайт Б содержит Scumware.
Действие системы: Google сканирует Сайт Б и классифицирует его как "Содержит Scumware". Затем система анализирует ссылочный граф и идентифицирует форум (Сайт А) как "Ссылается на Scumware" (Shortest Number of Links = 1).
Результат: В поисковой выдаче рядом со ссылкой на форум появляется визуальный индикатор (отличающийся от индикатора Сайта Б). CTR форума падает. Тулбар пользователя может показать предупреждение при посещении форума.
Решение для SEO: Внедрить автоматическую проверку исходящих UGC-ссылок (например, через Safe Browsing API), удалить опасную ссылку и усилить модерацию.

Сценарий 2: Пессимизация из-за взлома сайта

Ситуация: Корпоративный сайт на устаревшей CMS был взломан. Злоумышленник внедрил скрипт, который пытается установить Malware посетителям.
Действие системы: Google обнаруживает вредоносный скрипт (например, через эмуляцию и поведенческий анализ). Сайт классифицируется как "Содержит Scumware".
Результат: Сайт понижается в ранжировании (demoted) или исключается из выдачи. В SERP появляется строгое предупреждение.
Решение для SEO: Немедленно провести лечение сайта, удалить вредоносный код, устранить уязвимость и запросить повторную проверку через Google Search Console.

Как Google отличает сайт, который содержит вредоносное ПО, от сайта, который просто на него ссылается?

Система анализирует контент и ссылочный граф. Если вредоносный файл или скрипт обнаружен непосредственно на сайте, он классифицируется как "содержащий" угрозу. Если сайт чист, но его исходящие ссылки ведут на зараженный ресурс, он классифицируется как "ссылающийся". Патент подчеркивает, что для этих случаев используются разные метки в индексе и разные визуальные индикаторы в выдаче.

Что такое Scumware в понимании этого патента? Это только вирусы?

Нет, термин Scumware очень широк. Он включает вирусы, трояны, черви, Spyware и Adware. Также к нему относится любое ПО, которое выполняет нежелательные действия: устанавливается без разрешения, изменяет настройки безопасности или браузера, показывает агрессивную рекламу, которую нельзя закрыть, сопротивляется удалению или скрытно передает данные пользователя.

Влияет ли наличие Scumware на ранжирование напрямую или только на отображение предупреждений?

Влияет на оба аспекта. В патенте прямо указано, что поисковая система может учитывать наличие Scumware при ранжировании, например, путем исключения (excluding) или понижения (demoting) зараженных сайтов в результатах поиска, независимо от их релевантности. Кроме того, используются визуальные индикаторы.

Что означает метрика "кратчайшее количество ссылок до scumware" (Shortest Number of Links)?

Это метрика для сайтов, которые сами не содержат Scumware, но ссылаются на него. Она показывает минимальное число кликов, необходимое пользователю, чтобы добраться от текущего сайта до вредоносного контента. Эта информация может отображаться в браузерных тулбарах для оценки риска.

Какие методы Google использует для обнаружения Scumware согласно патенту?

Используется комбинация методов. Статический анализ включает сопоставление имен, размеров, дат, издателей и сигнатур файлов с базой угроз. Динамический анализ включает эвристические методы, анализ скриптов на предмет эксплуатации уязвимостей и эмуляцию посещения сайта для отслеживания изменений в системе (например, в реестре).

Может ли использование агрессивных рекламных сетей привести к маркировке сайта как Scumware?

Да. Если рекламная сеть использует практики, описанные как признаки Scumware (например, всплывающие окна, которые нельзя закрыть, или попытки скрытой установки ПО), весь сайт может быть классифицирован как распространитель Adware и пессимизирован в поиске. Владелец сайта несет ответственность за весь контент, включая рекламу.

Насколько актуальна описанная интеграция с Тулбаром (Toolbar)?

Хотя отдельные тулбары сейчас менее распространены, описанная функциональность полностью интегрирована в современные браузеры (например, Chrome) через Google Safe Browsing. Браузер выполняет роль "тулбара", запрашивая у Google данные о безопасности сайта и отображая предупреждения.

Что делать, если мой сайт взломали и разместили вредоносный код?

Это будет расценено как наличие Scumware. Необходимо как можно быстрее устранить угрозу: удалить вредоносный код и закрыть уязвимость. После очистки сайта нужно запросить повторную проверку через Google Search Console в разделе "Проблемы безопасности".

Упоминается ли в патенте очистка кэшированных страниц?

Да. Патент указывает, что поисковая система может очищать Scumware из кэшированных копий документов. Это позволяет гарантировать пользователям, что просмотр кэшированной версии безопасен, даже если оригинальный документ заражен.

Как SEO-специалисту контролировать исходящие ссылки на предмет безопасности?

Необходимо регулярно проводить аудит исходящих ссылок. Для больших сайтов, особенно с UGC-контентом, рекомендуется использовать автоматизированные решения, такие как Google Safe Browsing API, для проверки репутации целевых URL. Также важна строгая модерация пользовательского контента.

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя

Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.

US8600993B1
2013-12-03

Структура сайта
Персонализация
Техническое SEO

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче

Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.

US9002832B1
2015-04-07

Ссылки
Антиспам
SERP

Как Google идентифицирует сайты, поддерживающие удаление контента, и ускоряет обновление индекса после запроса на удаление

Google разработал систему для идентификации контент-провайдеров, которые поддерживают стандартизированный процесс удаления контента (например, по DMCA или законам о приватности). Поисковая система обнаруживает эту возможность через Sitemap или проверку URL, помечает такие результаты в выдаче специальным индикатором и может ранжировать их выше. После запроса пользователя на удаление, система ускоряет повторное сканирование сайта и обновление индекса.

US8510286B1
2013-08-13

Индексация
Краулинг
SERP

Как Google идентифицирует сайты-трамплины (Bounce Pads/Дорвеи) и исключает их из индекса при выборе канонической версии

Google использует механизм для обнаружения «Bounce Pads» — сайтов, основная цель которых — перенаправление пользователей на другие ресурсы. Система анализирует долю редиректов на сайте (Redirect Score) и разнообразие внешних целей перенаправления (Spam Score). Обнаруженные сайты-трамплины помечаются и исключаются из рассмотрения при выборе канонической (главной) версии страницы среди дубликатов, что предотвращает их попадание в поисковую выдачу.

US8037073B1
2011-10-11

Индексация
Антиспам
Техническое SEO

Как Google определяет и показывает похожие сайты с помощью визуальных превью и функции "related:"

Google патентует интерфейс для показа связанных сайтов во время просмотра пользователем веб-страницы. Система определяет похожие сайты на основе текстового и визуального сходства. Результаты отображаются в виде миниатюр (превью), которые при наведении увеличивают ключевые области (например, логотип или навигацию), чтобы помочь пользователю быстро оценить релевантность сайта.

US8812500B2
2014-08-19

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса

Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.

US8392443B1
2013-03-05

Семантика и интент
Поведенческие сигналы

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google перенаправляет пользователей на «идеальные» запросы (KHRQ), анализируя поведение и удовлетворенность

Google анализирует логи запросов, чтобы определить «известные высокоранжированные запросы» (KHRQ) — те, которые пользователи вводят часто и которыми остаются довольны (редко переформулируют или долго изучают результаты). Система вычисляет вероятность того, что исходный запрос пользователя лучше заменить на KHRQ, основываясь на сходстве запросов и исторических цепочках переформулировок. Это позволяет направлять пользователей к наиболее эффективным формулировкам.

US7870147B2
2011-01-11

Семантика и интент
Поведенческие сигналы
SERP

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе

Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество
Ссылки

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента

Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.

US10303684B1
2019-05-28

Поведенческие сигналы
Семантика и интент
SERP