Как Google анализирует исполняемый код для поиска схожих файлов и выявления вариантов вредоносного ПО

CODE SIMILARITY SEARCH (Поиск сходства кода)

US20220129417A1
Google LLC
2020-10-22
2022-04-28

Патент Google описывает систему для анализа схожести программного кода на субфайловом уровне. Система изолирует только исполняемые части файла, игнорируя метаданные и ресурсы, разбивает код на логические блоки и хеширует их. Сравнивая хеши, Google может эффективно находить схожие фрагменты кода в разных файлах, что используется для обнаружения вариантов вредоносного ПО или идентификации повторно используемого кода.

Какую проблему решает

Патент решает проблему эффективного и точного определения сходства между файлами, содержащими исполняемый код (например, программным обеспечением или вредоносным ПО). Традиционные методы сравнения (например, хеширование всего файла) неэффективны, поскольку злоумышленники могут легко изменить неисполняемые части файла (изображения, текст, иконки), чтобы избежать обнаружения, даже если вредоносный исполняемый код (malware) остается идентичным. Система направлена на сравнение исключительно функциональной (исполняемой) части кода.

Что запатентовано

Запатентована система и метод для поиска сходства кода на субфайловом уровне. Изобретение фокусируется исключительно на исполняемых частях (Executable Portions) файла, игнорируя неисполняемые части (Non-Executable Portions). Исполняемый код разбивается на логические блоки (Code Blocks), каждый из которых хешируется. Файл сохраняется как последовательность этих хешей. Сходство между двумя файлами определяется наличием хотя бы одного совпадающего хеша, что указывает на идентичный блок исполняемого кода.

Как это работает

Система (Code Manager) работает следующим образом:

Изоляция кода: Система получает файл и идентифицирует Executable Portions, отфильтровывая Non-Executable Portions.
Опциональная дизассембляция: Бинарные файлы могут быть дизассемблированы в язык ассемблера (assembly language source code) для сравнения кода, скомпилированного под разные архитектуры.
Разбивка на блоки: Исполняемый код делится на Code Blocks в точках разрыва логики выполнения (например, в местах условных переходов или прыжков).
Хеширование: Для каждого блока генерируется Hash (например, криптографический хеш фиксированной длины, такой как SHA-256).
Сравнение: Чтобы найти похожие файлы, система сравнивает хеши анализируемого файла с хешами файлов в базе данных. Если хотя бы один Hash совпадает, файлы считаются похожими.

Актуальность для SEO

Высокая (в контексте кибербезопасности и анализа кода). Патент опубликован в 2022 году. Методы эффективного и масштабируемого сравнения кода для выявления вариантов вредоносного ПО и идентификации повторного использования кода (code reuse) остаются критически важными задачами для технологических компаний (например, для Google Play Protect, Safe Browsing, VirusTotal).

Важность для SEO

Патент имеет минимальное значение для SEO-стратегий, направленных на ранжирование веб-контента (1/10). Это чисто технический патент, описывающий внутренние процессы Google для анализа исполняемых файлов (программ, приложений, бинарных файлов), а не алгоритмы ранжирования веб-страниц. Он не дает прямых рекомендаций для SEO-специалистов по оптимизации сайтов. Его ценность заключается в понимании технологических возможностей Google в области глубокого анализа файлов, что применяется в системах безопасности, но не в алгоритмах веб-поиска.

Термины и определения

Assembly Language Source Code (Исходный код на языке ассемблера): Низкоуровневый язык программирования. Система может дизассемблировать машинно-исполняемый код в ассемблер для анализа инструкций, что позволяет сравнивать код, скомпилированный под разные архитектуры.
Code Block (Блок кода): Фрагмент исполняемого кода. Executable Portion файла делится на последовательность таких блоков в точках изменения потока выполнения.
Code Manager (Менеджер кода): Основная система, реализующая логику изобретения. Включает компоненты Block Builder (построитель блоков), Hasher (хешер) и Analyzer (анализатор).
Cryptographic Hash Function (Криптографическая хеш-функция): Алгоритм (например, SHA-256), используемый для генерации необратимого хеша фиксированной длины (например, 256-бит). Идентичные блоки кода всегда имеют идентичный хеш.
Executable Portions (Исполняемые части): Части файла, содержащие инструкции кода, которые выполняются процессором (машинный код).
File Database (База данных файлов): Хранилище, где файлы хранятся не в исходном виде, а как последовательность хешей (Hashes), представляющих их Code Blocks.
Hash (Хеш): Уникальная строка значений (дайджест) фиксированной длины, сгенерированная для Code Block.
Non-Executable Portions (Неисполняемые части): Части файла, которые не содержат исполняемых инструкций, например, изображения, текст, иконки, метаданные. Эти части игнорируются системой.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения сходства кода.

Система получает множество файлов.
Для каждого файла выполняется обработка:
1. Идентификация Executable Portions.
2. Разделение Executable Portions на Code Blocks.
3. Генерация Hash для каждого Code Block.
4. Сохранение файла в File Database как последовательности хешей.
Система получает запрос на проверку сходства первого файла с другими файлами в базе.
Система определяет, совпадает ли какой-либо Hash из последовательности первого файла с каким-либо Hash из последовательности любого другого файла.
Если обнаружено совпадение хеша между первым и вторым файлом, система генерирует ответ, указывающий, что второй файл похож на первый.

Claim 2 и 3 (Зависимые): Детализируют процесс разделения на блоки (Claim 2) и определяют критерии для этого разделения (Claim 3).

Разделение происходит путем идентификации одной или нескольких локаций в последовательности инструкций. Эти локации определяются как места, где инструкции определяют, следует ли продолжать последовательность инструкций или перейти к другой части инструкций (т.е. изменения потока управления, такие как переходы и ветвления). В этих локациях обозначается конец одного блока и начало следующего.

Claim 4 (Зависимый): Уточняет, что идентификация Executable Portions включает удаление по крайней мере одной Non-Executable Portion файла.

Claim 5, 8 и 9 (Зависимые): Уточняют характеристики хеширования. Хеш генерируется с фиксированной длиной (Claim 5). Используется Cryptographic Hash Function (Claim 8), например, генерирующая 256-битный хеш (Claim 9).

Claim 7 (Зависимый): Описывает важную возможность предварительной обработки.

Система может дизассемблировать файл из машинно-исполняемого кода (бинарного) в assembly language source code. Это позволяет сравнивать функциональность кода, даже если он был скомпилирован для разных процессорных архитектур.

Где и как применяется

Этот патент описывает технологию анализа файлов, которая не вписывается в стандартную архитектуру веб-поиска (Crawling, Indexing, Ranking), предназначенную для обработки веб-контента и ранжирования сайтов.

Это специализированная система анализа исполняемого кода, которая, вероятно, используется во внутренних инструментах Google, связанных с безопасностью и управлением кодом, таких как:

Безопасность (Security Analysis): Анализ приложений в Google Play, вложений в Gmail или файлов, скачиваемых через Chrome (Safe Browsing), для выявления известных фрагментов вредоносного кода.
Управление кодом (Code Management): Идентификация повторного использования кода или использования open-source библиотек.

Если рассматривать процесс в контексте общей обработки данных:

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает файлы для анализа (например, файлы, собранные краулерами, специализирующимися на поиске бинарных файлов или приложений).

INDEXING – Индексирование и извлечение признаков
Основная работа системы. Block Builder анализирует файлы, извлекает исполняемый код и разбивает его на блоки. Hasher генерирует хеши (признаки файла). Эти признаки сохраняются в File Database.

Входные данные:

Файлы, потенциально содержащие исполняемый код (например, бинарные файлы, приложения, библиотеки).

Выходные данные:

Идентификация файлов, которые имеют сходство (т.е. содержат хотя бы один идентичный блок исполняемого кода).

На что влияет

Конкретные типы контента: Влияет исключительно на файлы, содержащие исполняемый код (приложения, бинарные файлы, библиотеки DLL/SO). Не влияет на стандартный веб-контент (HTML, текст, изображения), если только он не используется для доставки исполняемого кода.
Конкретные ниши или тематики: Применяется в нишах распространения программного обеспечения, кибербезопасности и анализа вредоносного ПО.

Когда применяется

Условия работы: Применяется при необходимости сравнить функциональность двух или более файлов, независимо от их метаданных или ресурсов.
Триггеры активации: Загрузка нового файла в систему для индексации или целенаправленный запрос (query) на анализ сходства конкретного файла с базой данных.

Пошаговый алгоритм

Процесс А: Обработка и сохранение файла (Индексация)

Получение файла: Система получает файл для анализа.
Идентификация и Фильтрация: Block Builder идентифицирует все Executable Portions. Non-Executable Portions удаляются или игнорируются.
(Опционально) Дизассемблирование: Если файл представлен в машинном коде, он может быть дизассемблирован в язык ассемблера.
Разделение на блоки: Block Builder анализирует поток выполнения инструкций. В точках изменения потока (например, переходы, ветвления) код разделяется на последовательные Code Blocks.
Хеширование блоков: Hasher обрабатывает каждый Code Block и генерирует для него криптографический Hash фиксированной длины.
Сохранение: Файл сохраняется в File Database как упорядоченная последовательность сгенерированных хешей.

Процесс Б: Анализ сходства (Обработка запроса)

Получение запроса: Система получает запрос на проверку сходства Первого Файла.
Сравнение хешей: Analyzer сравнивает каждый Hash из последовательности Первого Файла со всеми хешами всех других файлов в File Database.
Идентификация совпадения: Система проверяет наличие точного совпадения хешей.
Определение сходства: Если хотя бы один Hash Первого Файла совпадает с хешем Второго Файла, система определяет, что файлы похожи.
Генерация ответа: Система возвращает ответ (response), указывающий на сходство Первого и Второго файлов.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на анализе структуры и содержания файлов.

Технические факторы (Исполняемый код): Ключевыми данными являются последовательности инструкций в Executable Portions файла (машинный код или язык ассемблера). Анализируется поток управления кодом (Control Flow).

Все остальные типы факторов (контентные, ссылочные, поведенческие, временные, географические, пользовательские и т.д.) в данном патенте не упоминаются, не используются и/или явно исключаются из анализа (как Non-Executable Portions).

Какие метрики используются и как они считаются

Hash Value: Основная метрика, вычисляемая для каждого Code Block. Используются криптографические хеш-функции (например, SHA256), генерирующие дайджест фиксированной длины (например, 256 бит).
Сходство (Similarity): Бинарная метрика на уровне файла. Два файла считаются похожими, если у них есть хотя бы одно точное совпадение Hash Value. Патент не описывает расчет степени сходства (например, процент совпадающих блоков), только факт наличия сходства.

Патент является чисто техническим и описывает внутренние процессы Google для анализа кода, без прямых рекомендаций для SEO.

Фокус на исполняемом коде: Система целенаправленно игнорирует все неисполняемые части файла (ресурсы, метаданные), концентрируясь только на функциональной логике. Это обеспечивает устойчивость к методам обфускации, которые не затрагивают логику работы кода.
Гранулярный анализ: Сходство определяется на уровне отдельных блоков кода (Code Blocks), разделенных по логике выполнения, а не на уровне всего файла. Достаточно совпадения одного блока кода (одного хеша), чтобы система признала два файла похожими.
Эффективность и Масштабируемость: Использование криптографических хешей фиксированной длины позволяет быстро и эффективно сравнивать миллионы файлов на наличие идентичных фрагментов кода.
Кросс-архитектурный анализ: Возможность дизассемблирования машинного кода в язык ассемблера позволяет системе сравнивать код, скомпилированный для разных платформ.
Отсутствие связи с SEO: Механизмы, описанные в патенте, не имеют отношения к алгоритмам ранжирования веб-поиска, анализу контента веб-страниц, E-E-A-T, ссылочным или поведенческим факторам.

Патент является инфраструктурным и связан с кибербезопасностью. Он не дает практических выводов для SEO-специалистов, работающих над продвижением сайтов в веб-поиске.

Best practices (это мы делаем)

В контексте SEO-продвижения сайтов прямые рекомендации на основе этого патента отсутствуют.

Если рассматривать патент в контексте безопасности сайтов (которая косвенно влияет на SEO):

Мониторинг безопасности файлов: Если сайт распространяет программное обеспечение или исполняемые файлы, важно понимать, что Google обладает мощными инструментами для анализа этих файлов на предмет наличия вредоносного кода. Необходимо следить за чистотой распространяемых файлов, чтобы избежать санкций со стороны систем безопасности Google (например, Safe Browsing).

Worst practices (это делать не надо)

В контексте SEO-продвижения сайтов прямые рекомендации на основе этого патента отсутствуют.

В контексте безопасности:

Распространение взломанного или вредоносного ПО: Попытки скрыть вредоносный код путем изменения метаданных или ресурсов файла неэффективны против описанной системы, так как она анализирует только исполняемую часть.

Стратегическое значение

Стратегическое значение для SEO минимально. Патент подтверждает высокий уровень компетенции Google в области статического анализа кода и обработки больших объемов данных для задач кибербезопасности. Это укрепляет понимание того, что системы безопасности Google (которые могут косвенно влиять на SEO через пессимизацию зараженных сайтов) используют сложные и гранулярные методы анализа.

Практические примеры

Практических примеров для SEO нет.

Технический пример работы системы (не SEO):

Сценарий: Обнаружение варианта вредоносного ПО

Файл А (Известное Вредоносное ПО): Содержит исполняемый код и ресурсы (иконка, текст). Система обработала его и сохранила как последовательность хешей H1, H2, H3. Хеш H2 соответствует вредоносной функции.
Файл Б (Новый Вариант): Злоумышленник взял Файл А, полностью изменил иконку и текст, но оставил вредоносную функцию без изменений.
Анализ Файла Б: Система игнорирует измененные ресурсы (Non-Executable Portions). Она анализирует исполняемый код.
Результат: Система генерирует хеши для Файла Б: H4, H2, H5.
Сравнение: Analyzer обнаруживает, что хеш H2 присутствует как в Файле А, так и в Файле Б.
Вывод: Система маркирует Файл Б как похожий на Файл А (Известное Вредоносное ПО), несмотря на внешние различия файлов.

Имеет ли этот патент отношение к ранжированию сайтов в Google Поиске?

Нет. Этот патент описывает систему для анализа схожести исполняемого программного кода, например, для обнаружения вредоносного ПО или идентификации повторно используемых библиотек. Он не описывает алгоритмы, используемые для оценки релевантности, качества или авторитетности веб-страниц в контексте веб-поиска.

Может ли эта технология использоваться для поиска дубликатов контента на веб-страницах?

Нет. Описанный метод специфичен для анализа исполняемого кода (машинного кода или ассемблера) и основан на разбивке кода по точкам изменения потока выполнения. Он не предназначен для анализа текста, HTML или медиаконтента. Для поиска дубликатов текста используются другие технологии (например, шинглирование).

Анализирует ли эта система JavaScript код на моем сайте?

Патент в первую очередь фокусируется на анализе бинарных файлов, машинного кода и языка ассемблера. Хотя JavaScript является исполняемым кодом, методы его анализа обычно отличаются от анализа скомпилированных программ. В патенте не упоминается применение этой технологии к JavaScript, поэтому маловероятно, что именно эта система используется для анализа JS на веб-страницах в контексте ранжирования.

В чем основное отличие этого метода от сравнения хеша всего файла?

Сравнение хеша всего файла (например, MD5 или SHA256 файла целиком) требует полного совпадения файлов. Если изменить хотя бы один байт (даже в неисполняемой части, например, в иконке), хеш всего файла изменится. Описанный метод хеширует отдельные блоки только исполняемого кода. Это позволяет найти сходство, даже если неисполняемые части файлов сильно различаются.

Что такое "Executable Portions" и "Non-Executable Portions"?

Executable Portions — это части файла, содержащие инструкции для процессора (функциональная логика программы). Non-Executable Portions — это данные, которые не выполняются напрямую, например, изображения, текстовые строки, иконки, метаданные. Система игнорирует вторые и анализирует только первые.

Как система определяет границы блоков кода (Code Blocks)?

Система анализирует поток выполнения инструкций. Границы блоков устанавливаются в местах, где выполнение может измениться, например, при условных переходах (if/else), циклах или вызовах функций (Claims 2 и 3). Это позволяет изолировать отдельные логические фрагменты кода.

Зачем в патенте упоминается дизассемблирование в язык ассемблера (Claim 7)?

Машинный код специфичен для архитектуры процессора (например, x86, ARM). Дизассемблирование переводит машинный код в более абстрактное представление (язык ассемблера). Это позволяет системе сравнивать функциональность кода, даже если он был скомпилирован для разных платформ.

Если мой сайт был взломан и на него загрузили вредоносный файл, поможет ли эта система Google это обнаружить?

Косвенно да. Если Google сканирует ваш сайт и загружает этот файл (например, в рамках работы системы Safe Browsing), эта технология может быть использована для анализа файла. Если система обнаружит в нем блоки кода, совпадающие с известным вредоносным ПО, ваш сайт может быть помечен как опасный. Это подчеркивает важность безопасности сайта для SEO.

Достаточно ли совпадения одного блока кода для признания файлов похожими?

Да, согласно патенту (Claim 1). Если хотя бы один Hash, представляющий один Code Block, совпадает у двух файлов, система генерирует ответ, что файлы похожи. Это позволяет выявлять даже небольшие фрагменты повторно используемого или украденного кода.

Какую практическую пользу этот патент несет Senior SEO специалисту?

Практическая польза для задач SEO-продвижения отсутствует. Ценность заключается в расширении технического кругозора: понимании того, насколько глубоко Google анализирует файлы для обеспечения безопасности своих платформ. Это знание важно при работе с сайтами, распространяющими ПО, но не влияет на стратегию контент-маркетинга или линкбилдинга.

Как Google создает цифровые отпечатки контента для выявления почти дубликатов страниц в масштабе интернета

Google использует метод для эффективного обнаружения почти дубликатов документов. Система генерирует компактный цифровой отпечаток (fingerprint) для каждого документа путем выборки перекрывающихся блоков текста (shingling), вычисления контрольных сумм и их сжатия. Сравнивая эти отпечатки с использованием расстояния Хэмминга, Google может быстро определить, являются ли два документа практически идентичными, что критично для каноникализации и экономии ресурсов индекса.

US7707157B1
2010-04-27

Индексация
SERP

Как Google использует алгоритмы "Shingling" для эффективного обнаружения дубликатов и похожего контента в масштабах веба

Патент описывает эффективные алгоритмы (Shingling) для создания цифровых отпечатков веб-страниц. Разбивая контент на перекрывающиеся последовательности (шинглы) и выбирая репрезентативное подмножество, Google может быстро сравнивать миллиарды документов для выявления дубликатов, почти дубликатов (near-duplicates) и шаблонного контента.

US8131751B1
2012-03-06

Индексация

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов

Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.

US8266115B1
2012-09-11

Индексация

Как Google использует нейронные сети для создания «прощающих» хешей и эффективного поиска похожего мультимедийного контента

Google использует метод машинного обучения для создания «прощающих» (forgiving) хеш-функций. Этот механизм позволяет эффективно находить похожий или почти идентичный контент (аудио, изображения, видео) в огромных базах данных. Система группирует похожие элементы вместе, даже если они имеют небольшие различия, что критически важно для выявления около-дубликатов и масштабируемого поиска мультимедиа.

US7831531B1
2010-11-09

Индексация
Мультимедиа

Как Google оптимизирует индексы для распознавания контента с помощью хешей переменной длины

Патент описывает инфраструктурный механизм оптимизации индексов, используемых для сопоставления контента (например, аудио/видео). Система динамически регулирует длину хеш-значений (LSH bands). Если хеш слишком общий и имеет много совпадений, его длина увеличивается для повышения точности. Это повышает эффективность поиска совпадений, но не влияет на алгоритмы ранжирования.

US9236056B1
2016-01-12

Индексация
Мультимедиа
Техническое SEO

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе

Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент
EEAT и качество
SERP

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)

Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.

US9317605B1
2016-04-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google использует данные о поведении пользователей и длительность кликов для улучшения и переписывания поисковых запросов

Google использует систему для автоматического переписывания запросов пользователей. Система анализирует миллионы прошлых поисковых сессий, чтобы определить, как пользователи уточняли свои запросы и насколько они были удовлетворены результатами (измеряя длительность кликов). На основе этого рассчитывается «Ожидаемая полезность» (Expected Utility) для предложенных вариантов запросов, что позволяет Google предлагать пользователю те формулировки, которые с наибольшей вероятностью приведут к качественному ответу.

US7617205B2
2009-11-10

Поведенческие сигналы
Семантика и интент
SERP

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей

Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.

US9552430B1
2017-01-24

Local SEO
Поведенческие сигналы

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений

Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.

US9645980B1
2017-05-09

Индексация
Ссылки
Техническое SEO

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции

Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.

US8938463B1
2015-01-20

Поведенческие сигналы
SERP