Как Google анализирует веб-формы и фильтры для эффективного сканирования «Глубокого интернета» (Deep Web)

ANALYZING A FORM PAGE FOR INDEXING (Анализ страницы формы для индексирования)

US8484566B2
Google LLC
2007-10-15
2013-07-09

Google использует метод для эффективного сканирования контента, скрытого за веб-формами (Deep Web). Вместо перебора всех возможных комбинаций полей ввода система определяет, какие поля являются «информативными» — то есть, изменение каких полей приводит к генерации страниц с существенно различным контентом. Это позволяет индексировать уникальный контент, избегая дубликатов и экономя ресурсы сканирования.

Какую проблему решает

Патент решает проблему эффективного обнаружения и индексирования контента, скрытого за HTML-формами (так называемый Deep Web или Hidden Web). Стандартные краулеры часто не могут получить доступ к этому контенту, так как не умеют заполнять формы. Попытка перебора всех возможных комбинаций значений ввода (декартово произведение) неэффективна: это создает огромную нагрузку, приводит к генерации множества дубликатов, несуществующих страниц или страниц с незначительными вариациями контента.

Что запатентовано

Запатентован метод систематического анализа страниц веб-форм (Form Page) для определения того, какие элементы управления вводом (Input Controls) являются «информативными» (Informative). Элемент считается информативным, если изменение его значения приводит к генерации целевых страниц (Target Pages) с существенно различным контентом. Система итеративно тестирует элементы и их комбинации, чтобы сосредоточить ресурсы сканирования только на URL, ведущих к уникальному контенту.

Как это работает

Система (Form Processing Module) работает итеративно:

Тестирование отдельных элементов: Система изменяет значение одного элемента управления, сохраняя другие в значениях по умолчанию. Полученные целевые страницы загружаются.
Оценка различий: Страницы сравниваются с использованием модуля определения различий (Difference Determination) на соответствие предопределенному стандарту (Difference Standard).
Определение информативности: Если страницы существенно различаются (например, >25% уникальны), элемент помечается как Informative.
Тестирование комбинаций (Tuples): Система тестирует комбинации (пары, тройки и т.д.). Для оптимизации тестируются только те комбинации, которые расширяют уже известные информативные наборы (например, пара тестируется, только если хотя бы один элемент в ней информативен).
Обновление индексации: Запись индексирования (Indexing Record) обновляется, чтобы включить URL, сгенерированные информативными комбинациями.

Актуальность для SEO

Высокая. Эффективное сканирование контента, доступного через формы и фасетную навигацию (E-commerce, базы данных, агрегаторы), остается критически важной задачей. Описанные принципы — определение информативности параметров для избежания комбинаторного взрыва и дубликатов — являются фундаментальными для управления бюджетом сканирования (Crawl Budget) и обеспечения полноты индекса.

Важность для SEO

Патент имеет высокое значение (7.5/10) для технического SEO на крупных сайтах. Он не описывает факторы ранжирования, но критически важен для этапов CRAWLING и INDEXING. Понимание того, как Google определяет «информативные» фильтры, позволяет SEO-специалистам оптимизировать архитектуру сайта и фасетную навигацию, гарантируя, что уникальный контент будет обнаружен, а ресурсы сканирования не будут потрачены на дубликаты.

Термины и определения

Deep Web / Hidden Web (Глубокий / Скрытый Интернет): Контент, скрытый за HTML-формами, доступ к которому требует заполнения или выбора значений в полях ввода.
Difference Determination (Определение различий): Модуль или процесс, который сравнивает две или более целевые страницы для оценки их схожести или различия.
Form Page (Страница формы): Веб-страница, содержащая форму с элементами управления вводом, используемая для запроса целевых страниц.
Indexing Record (Запись индексирования): Запись, связанная со страницей формы, которая обновляется для отражения того, какие элементы управления являются информативными. Содержит URL для сканирования.
Informative (Информативный): Характеристика элемента управления вводом (или их комбинации). Элемент считается информативным, если изменение его значения приводит к получению целевых страниц, удовлетворяющих Predefined Difference Standard (т.е. генерирует существенно разный контент).
Input Control (Элемент управления вводом): Поле ввода на странице формы (например, текстовое поле, выпадающий список, радиокнопка).
Predefined Difference Standard (Предопределенный стандарт различий): Критерий для определения того, являются ли целевые страницы достаточно разными. Например, требование, чтобы определенная доля (например, 25%) полученных страниц имела различное содержание.
Relevancy Criterion (Критерий релевантности): Критерий, используемый для извлечения наиболее значимых слов со страницы при оценке различий в контенте (например, на основе частоты, размещения в заголовках или выделения слов), чтобы игнорировать шаблонный контент.
Target Pages (Целевые страницы): Страницы, получаемые в результате отправки формы с определенным набором значений ввода.
Tuple (Кортеж): Комбинация нескольких элементов управления вводом (например, пара, тройка).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод анализа страницы формы, включая критически важную оптимизацию процесса тестирования.

Идентификация страницы формы с несколькими элементами управления.
Ввод первого набора значений (включая V1 для элемента A) и получение первой целевой страницы.
Ввод второго набора значений (включая V2 для элемента A) и получение второй целевой страницы.
Выполнение первого сравнения страниц относительно Predefined Difference Standard.
Обновление Indexing Record.
[Оптимизация Шаг 1] Определение элементов, которые удовлетворяют стандарту (т.е. являются информативными).
[Оптимизация Шаг 2] Определение пар элементов управления так, чтобы хотя бы один элемент в каждой паре уже был определен как информативный.
Выполнение второго сравнения для этих определенных пар.
Обновление Indexing Record на основе результатов для пар.

Ядро изобретения — это итеративное тестирование информативности и использование результатов предыдущих тестов для радикального сокращения пространства поиска (избегание тестирования комбинаций, где ни один элемент не показал себя информативным).

Claim 8 (Зависимый от 1): Описывает итеративное расширение тестирования за пределы пар (Iterative Deepening).

Формирование кортежей (Input control tuples), путем расширения тех пар, которые были признаны информативными, еще одним элементом управления (например, до троек).
Выполнение третьего сравнения для этих кортежей.
Обновление Indexing Record.

Claim 10 (Зависимый от 9): Уточняет, как определяется различие в содержании.

Различие определяется путем извлечения слов с полученных страниц в соответствии с Relevancy Criterion. Это означает, что система фокусируется на значимом контенте, а не на незначительных изменениях HTML или шаблона.

Claim 12 (Зависимый от 1): Описывает обработку неинформативных элементов.

Если элемент управления идентифицирован как неинформативный (не удовлетворяет стандарту).
Для него выбирается значение по умолчанию (default value).
Это значение фиксируется в Indexing Record и используется во время сбора страниц для индексирования.

Где и как применяется

Изобретение находится на стыке процессов сканирования и индексирования, фокусируясь на эффективном обнаружении контента (Content Discovery) в Deep Web.

CRAWLING – Сканирование и Сбор данных
Это основная область применения. Алгоритм используется краулером или модулем обработки форм (Form Processing Module) для интеллектуальной генерации набора URL за формой. Это позволяет обнаружить контент, недоступный по прямым ссылкам, и напрямую влияет на управление бюджетом сканирования (Crawl Budget Management), предотвращая сканирование дубликатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система выполняет анализ контента целевых страниц для Difference Determination. Это включает извлечение признаков (например, релевантных слов согласно Relevancy Criterion) и вычисление сигнатур страниц для сравнения их со стандартом. Результаты этого анализа определяют, какие URL будут добавлены в Indexing Record для последующего полноценного индексирования.

Входные данные:

HTML-код страницы формы (Form Page).
Возможные значения Input Controls (извлеченные из HTML для списков или сгенерированные для текстовых полей).
Predefined Difference Standard (системная конфигурация).

Выходные данные:

Обновленный Indexing Record со списком URL целевых страниц (Target Pages), соответствующих информативным комбинациям.
Значения по умолчанию для неинформативных элементов.

На что влияет

Конкретные типы контента и ниши: Критично для сайтов, где контент доступен через формы поиска, фильтры или конфигураторы: E-commerce (фасетная навигация), недвижимость, авто-порталы, сайты с базами данных.
Техническая реализация форм: Механизм лучше всего работает с традиционными HTML-формами, особенно использующими метод GET, где комбинации ввода явно формируют URL с параметрами.

Когда применяется

Триггеры активации: Алгоритм активируется, когда система обнаруживает страницу с HTML-формой, потенциально ведущую к множеству целевых страниц.
Пороговые значения: Ключевым порогом является Predefined Difference Standard. В описании патента упоминается примерный порог: ввод считается информативным, если количество различных сигнатур веб-страниц составляет не менее 25% от общего числа сгенерированных веб-страниц.
Исключения: Если при тестировании возникают ошибки HTML/HTTP, система может прекратить анализ, так как это указывает на недействительные комбинации или проблемы с доступностью.

Пошаговый алгоритм

Итеративный алгоритм для определения минимального набора URL, охватывающего уникальный контент за формой.

Инициализация: Идентифицировать страницу формы и все элементы управления вводом (K). Выбрать значения по умолчанию для каждого из K элементов.
Тестирование индивидуальной информативности (Фаза 1):
- Для каждого элемента управления (I):
  - Сгенерировать набор URL, перебирая значения для I, сохраняя остальные элементы (K-1) в значениях по умолчанию.
  - Получить целевые страницы (возможно, выборку).
  - Выполнить Difference Determination: вычислить сигнатуры страниц (используя Relevancy Criterion) и сравнить их со стандартом.
  - Если стандарт удовлетворен (>25% уникальных), пометить I как индивидуально информативный.
Инициализация Кандидатов (Фаза 2): Создать начальный набор кандидатов (Cand), состоящий из всех индивидуально информативных элементов.
Итеративное расширение и тестирование кортежей (Фаза 3 - Iterative Deepening):
- Пока набор кандидатов (Cand) не пуст:
  - Расширение (NewCand): Создать новые кандидаты (кортежи большего размера), расширяя каждый кортеж в Cand дополнительными элементами управления. (Например, расширить информативную пару {A, B} до {A, B, C}).
  - Тестирование (NewCand): Для каждого нового кортежа сгенерировать URL, перебирая комбинации значений элементов в кортеже, сохраняя остальные элементы по умолчанию. Получить страницы и выполнить Difference Determination.
  - Определение информативности кортежа: Кортеж информативен, если он генерирует достаточное количество уникальных страниц, в том числе уникальных относительно уже проанализированных страниц этой формы.
  - Обновление Кандидатов: Cand становится набором кортежей из NewCand, которые были признаны информативными.
Финализация: Обновить Indexing Record, включив в него URL, сгенерированные всеми найденными информативными кортежами.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных:

Технические факторы: HTML-код страницы формы, URL действия формы (action), типы и имена Input Controls (select, text, radio), значения ввода (извлеченные из HTML или сформулированные для текстовых полей). Коды ответа HTTP (для обнаружения ошибок).
Контентные факторы: Содержимое полученных Target Pages. Используется для анализа уникальности.

Какие метрики используются и как они считаются

Сигнатура страницы (Page Signature): Краткое представление контента страницы, используемое для сравнения. Вычисляется путем анализа содержимого.
Relevancy Criterion: Метод для вычисления сигнатуры путем извлечения наиболее релевантных слов, игнорируя шаблонный контент. Учитывает:
- Частоту слов (Frequency).
- Размещение слов (Placement, например, в заголовках).
- Выделение слов (Emphasis, например, капитализация, подсветка).
Predefined Difference Standard: Порог для определения информативности. Измеряется как доля различных страниц в общем наборе сгенерированных страниц. Пример порога из патента: 25%.

Эффективность сканирования — главный приоритет: Google не будет перебирать все комбинации форм (brute-force). Система разработана для поиска минимального набора URL, который репрезентативно покрывает уникальный контент, чтобы оптимизировать Crawl Budget.
Ключевое понятие — «Информативность»: Система классифицирует поля ввода (фильтры/параметры) как информативные или нет. Информативность определяется исключительно способностью поля генерировать существенно различный контент, согласно Predefined Difference Standard.
Оценка различий фокусируется на релевантном контенте: Система использует Relevancy Criterion для сравнения страниц, фокусируясь на значимых словах и игнорируя шаблонный текст (boilerplate). Изменения только в шаблоне не сделают элемент информативным.
Итеративная оптимизация пространства поиска (Iterative Deepening): Запатентован конкретный метод оптимизации: система тестирует комбинации (пары, тройки), только если их подмножества уже были признаны информативными. Это значительно сокращает количество необходимых тестов.
Обработка неинформативных полей: Поля, которые не генерируют различный контент (например, сортировка), помечаются как неинформативные, и для них фиксируется значение по умолчанию.

Best practices (это мы делаем)

Рекомендации критически важны для сайтов с фасетной навигацией (E-commerce, агрегаторы).

Обеспечение существенных различий для важных фильтров: Убедитесь, что фильтры, которые вы хотите индексировать («информативные»), генерируют страницы с действительно уникальным контентом. Различия должны быть значительными, чтобы удовлетворить Difference Standard (>25% уникальности).
Уникализация контента целевых страниц: Используйте уникальные Title, H1 и мета-описания для страниц, сгенерированных фильтрами. Это поможет системе применить Relevancy Criterion и распознать различия в контенте.
Использование GET для индексируемых форм: Для навигации и фильтров используйте метод GET. Это генерирует явные URL с параметрами, что упрощает анализ для поисковой системы по сравнению с POST-запросами.
Корректная обработка ошибок и пустых результатов: Убедитесь, что валидные комбинации фильтров возвращают код 200 OK. Наличие ошибок HTML/HTTP при тестировании может привести к прекращению анализа формы системой.
Управление неинформативными параметрами: Помогайте системе, используя canonical или robots.txt для параметров, которые не меняют контент (сортировка, ID сессии), чтобы они не тратили ресурсы на анализ.

Worst practices (это делать не надо)

Генерация массовых дубликатов через формы/фильтры: Создание уникальных URL для фильтров, которые незначительно меняют контент. Система классифицирует их как неинформативные, потратив при этом ресурсы на анализ.
Минимальные различия контента: Если при смене важного параметра (например, цвета товара) меняется только изображение, а текст, заголовки и характеристики остаются идентичными, система может посчитать этот параметр неинформативным.
Использование сложных JavaScript-форм для навигации: Реализация фильтров через сложный JS без генерации уникальных, доступных для сканирования URL затрудняет применение описанного механизма.
Использование POST для навигации по контенту: Скрытие индексируемого контента за формами POST усложняет его обнаружение и индексацию.

Стратегическое значение

Патент подчеркивает стремление Google к эффективности сканирования на фундаментальном уровне. Для крупных сайтов это подтверждает, что управление фасетной навигацией и Crawl Budget является критической частью SEO-стратегии. Система Google автоматически попытается определить, какие фасеты сканировать, а какие игнорировать, основываясь на уникальности контента. Стратегия должна заключаться в том, чтобы привести архитектуру сайта и шаблоны страниц в соответствие с этой логикой.

Практические примеры

Сценарий: Оптимизация фасетной навигации интернет-магазина одежды

Магазин имеет фильтры: Категория (I), Размер (J), Цвет (K), Сортировка (L).

Анализ системы (Фаза 1):
- Система тестирует L (Сортировка). Контент страниц идентичен, меняется только порядок. L признан неинформативным. Для L фиксируется значение по умолчанию.
- Система тестирует I (Категория), J (Размер), K (Цвет). Все признаны информативными, так как существенно меняют список товаров и заголовки.
Анализ системы (Фаза 3):
- Система тестирует пары (IJ, IK, JK). Все признаны информативными. (Например, «Платья Размер M» уникальны).
- Система тестирует тройку (IJK). Признана информативной. (Например, «Красные Платья Размер M» уникальны).
Действия SEO-специалиста:
- Обеспечить уникальность: Проверить, что страницы «Красные Платья Размер M» имеют уникальный H1 («Красные платья размера M») и Title, отличающийся от «Платья Размер M». Это гарантирует, что система увидит различия через Relevancy Criterion.
- Техническая реализация: Убедиться, что фильтры реализованы через GET-запросы (/catalog?cat=dress&size=M&color=red).
Ожидаемый результат: Google эффективно сканирует все валидные комбинации Категория+Размер+Цвет, но не тратит ресурсы на сканирование разных вариантов сортировки для каждой из этих комбинаций.

Что такое «информативный» элемент управления (Input Control) согласно патенту?

Информативный элемент управления — это поле формы или фильтр, изменение значения которого приводит к генерации целевых страниц с существенно различным контентом. Например, фильтр «Категория товара» обычно информативен, так как ведет к разным товарам. Фильтр «Порядок сортировки» обычно нет, так как контент страницы остается тем же.

Как система определяет, что контент существенно различается?

Система сравнивает полученные страницы, используя Predefined Difference Standard. Для этого она может применять Relevancy Criterion, который фокусируется на извлечении значимых слов (на основе их частоты, размещения в заголовках, выделения) и игнорирует шаблонный контент (boilerplate). Если сигнатуры страниц отличаются, они считаются разными.

Какой порог используется для определения информативности (Difference Standard)?

Difference Standard измеряет долю уникальных страниц в общем наборе. В патенте упоминается примерный порог в 25%. Если при тестировании элемента генерируется 100 страниц и из них 25 или более существенно отличаются друг от друга, элемент считается информативным.

Тестирует ли Google все возможные комбинации полей в форме или фильтров?

Нет, это ключевая оптимизация патента. Система использует итеративный подход (Iterative Deepening), чтобы избежать полного перебора. Сначала тестируются отдельные поля. Затем тестируются только те пары, в которых хотя бы один элемент уже признан информативным. Далее тестируются только те тройки, которые являются расширением информативных пар, и так далее.

Что происходит с полями, которые признаны неинформативными?

Если поле признано неинформативным (генерирует дубликаты), система выбирает для него значение по умолчанию (default value) и использует только его во время сбора страниц для индексирования. Это позволяет экономить ресурсы сканирования (Crawl Budget).

Как этот патент влияет на управление фасетной навигацией в E-commerce?

Он напрямую связан с управлением фасетной навигацией. SEO-специалистам следует обеспечивать, чтобы важные фасеты генерировали действительно уникальный контент, помогая системе признать их информативными. Неинформативные фасеты (сортировка и т.п.) следует обрабатывать так, чтобы они не тратили бюджет сканирования.

Что делать, если важный фильтр генерирует страницы с очень похожим контентом?

Если контент похож (например, меняется только цвет товара на фото, а текст идентичен), система может посчитать фильтр неинформативным. Необходимо увеличить уникальность контента на целевых страницах — убедиться, что заголовки (H1, Title), описания и ключевые характеристики отличаются и хорошо структурированы.

Работает ли этот механизм с формами на JavaScript или POST-запросами?

Патент описывает механизм в контексте стандартных HTML-форм, где отправка генерирует URL (особенно удобно для GET-запросов). Хотя система может пытаться обрабатывать POST-запросы, сложные формы на JavaScript без генерации стандартных HTTP-запросов с параметрами значительно сложнее для анализа этим методом.

Что происходит, если отправка формы возвращает ошибку?

Если при тестировании значений URL возвращают ошибки HTML/HTTP (например, 404 или 500), это сигнализирует системе, что данная комбинация недействительна. Это может привести к прекращению анализа для данной комбинации или всей формы, поэтому важна корректная обработка запросов на сервере.

Влияет ли этот патент на ранжирование?

Нет, патент не описывает сигналы ранжирования. Он описывает исключительно процесс обнаружения (Discovery), сканирования (Crawling) и выбора URL для индексирования из Deep Web. Он определяет, попадет ли страница в индекс, но не то, как высоко она будет ранжироваться.

Как Google находит, классифицирует и ранжирует контент «Глубокой паутины» (Deep Web), скрытый за веб-формами

Google использует систему для доступа к контенту, скрытому за веб-формами («Глубокая паутина»). Система сканирует веб, идентифицирует формы, классифицирует их по тематикам (используя «Поисковую онтологию») и понимает, какие поля заполнять. При поиске Google анализирует запрос пользователя, находит релевантные формы, ранжирует их и может автоматически заполнить форму для пользователя или показать уже извлеченный контент.

US8037068B2
2011-10-11

Индексация
Краулинг
Семантика и интент

Как Google автоматически определяет и удаляет неважные URL-параметры для каноникализации и эффективного сканирования

Google использует систему для автоматического определения канонической формы URL. Система активно тестирует различные комбинации параметров в URL, чтобы определить, какие из них влияют на контент, а какие нет (например, tracking-коды или session ID). Неважные параметры удаляются с помощью правил перезаписи, что позволяет свести множество дублирующихся URL к единой канонической версии, экономя краулинговый бюджет.

US7827254B1
2010-11-02

Краулинг
Техническое SEO
Индексация

Как Google использует сравнение DOM и Render Tree для обнаружения и девальвации скрытого текста при генерации сниппетов и ранжировании

Google использует механизм для точного определения, какой текст на веб-странице виден пользователю при загрузке, а какой скрыт. Система сравнивает весь код страницы (DOM Tree) с тем, что фактически отображается (Render Tree). Обнаруженный скрытый текст (например, в меню, скрытый через CSS или цветом фона) получает понижающий коэффициент (Weighting Factor), что снижает вероятность его попадания в сниппет и может влиять на оценку страницы.

US8639680B1
2014-01-28

Техническое SEO
Индексация
SERP

Как Google автоматически обнаруживает и удаляет идентификаторы сессий из URL для оптимизации сканирования и предотвращения дублирования

Google использует механизм для автоматического обнаружения идентификаторов сессий в URL-адресах во время сканирования. Система анализирует подстроки, которые выглядят случайными и повторяются в нескольких URL с одного сайта. Эти идентификаторы удаляются для создания «чистых» версий URL. Это позволяет поисковой системе распознавать дублирующийся контент и избегать повторного сканирования одних и тех же страниц, оптимизируя краулинговый бюджет.

US7886032B1
2011-02-08

Краулинг
Техническое SEO
Индексация

Как Google использует машинное обучение для обнаружения дубликатов, анализируя контент до и после рендеринга

Google использует комплексную систему для обнаружения дубликатов, которая сравнивает как исходный HTML-код (Fetched Body), так и финальную версию страницы после выполнения JavaScript (Synthetic Body). Система вычисляет множество сигналов сравнения, включая основанные на контексте запроса (сниппеты), и использует модель машинного обучения для определения вероятности того, что страницы являются дубликатами.

US20140188919A1
2014-07-03

Индексация
SERP
Краулинг

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска

Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.

US20150006290A1
2015-01-01

Поведенческие сигналы
Персонализация
Local SEO

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов

Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO
Поведенческие сигналы
Семантика и интент

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google собирает и структурирует данные о поведении пользователей в Поиске по картинкам (включая ховеры, клики и 2D-позицию)

Патент Google описывает инфраструктуру для детального сбора данных в Поиске по картинкам. Система фильтрует общие логи, фиксируя не только клики, но и наведение курсора (ховеры), длительность взаимодействия и точное 2D-расположение (строка/столбец) изображения на выдаче. Эти данные агрегируются в Модель Запросов Изображений для оценки релевантности.

US8898150B1
2014-11-25

Поведенческие сигналы
SERP
Мультимедиа

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP

Как Google выбирает, сортирует и форматирует динамические Sitelinks на основе типа контента и свежести страниц

Патент Google описывает систему генерации Sitelinks (саб-ссылок), которые ведут непосредственно на конечный контент (статьи, видео, товары), а не на разделы сайта. Система определяет категорию контента и применяет специфические правила сортировки (например, по свежести для новостей), которые отличаются от стандартного ранжирования. Также используется специальное форматирование для улучшения навигации в SERP.

US9081832B2
2015-07-14

Ссылки
SERP
Свежесть контента

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту

Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.

US9244985B1
2016-01-26

EEAT и качество
Поведенческие сигналы
SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче

Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.

US8631001B2
2014-01-14

Персонализация
Поведенческие сигналы
SERP