SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google автоматически генерирует правила нормализации слов и поиска вариантов с помощью суффиксных деревьев

STATISTICAL STEMMING (Статистический стемминг)
  • US8352247B2
  • Google LLC
  • 2012-04-23
  • 2013-01-08
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и использует алгоритмы оптимизации, чтобы определить, когда эти правила применимы, а когда нет. Это обеспечивает точность обработки языка даже для редких слов.

Описание

Какую проблему решает

Патент решает задачу автоматического создания точных и масштабируемых правил для стемминга (stemming), нормализации слов и генерации словоформ. Он устраняет ограничения традиционных подходов: ручные словари не покрывают редкие слова, а простые алгоритмические стеммеры часто допускают ошибки (over-stemming или under-stemming) и не учитывают контекстуальные исключения. Изобретение позволяет генерировать правила статистически, основываясь на реальных данных о словоупотреблении.

Что запатентовано

Запатентована система статистического стемминга, которая генерирует оптимизированный набор правил перезаписи суффиксов (Suffix-Rewriting Rules) из наблюдаемых пар «слово-вариант». Ключевым механизмом является использование Суффиксных деревьев (Suffix Trees) и сложного алгоритма оптимизации («раскраски дерева» — Tree Coloring). Этот алгоритм определяет минимальный набор правил (Minimum Colored Subset), который точно описывает исходные данные, находя баланс между обобщением и учетом исключений.

Как это работает

Система работает в несколько этапов:

  • Извлечение правил: Анализируются известные пары слов (например, "biking" и "bike") и из них извлекаются Канонические правила (Canonical Suffix-Rewriting Rules), например, "-ing" -> "-e".
  • Построение дерева: Слова организуются в Suffix Tree, где узлы представляют общие суффиксы.
  • Оптимизация (Tree Coloring): Алгоритм определяет, каким узлам нужно назначить правило («цвет»). Система стремится обобщить правила (разместить их выше в дереве), но создает уточнения (размещает ниже), если обобщение приводит к ошибкам.
  • Генерация финальных правил: На основе оптимизированного дерева создается финальный набор правил для использования в поиске.

Актуальность для SEO

Высокая. Глубокое понимание морфологии и нормализация слов остаются фундаментальными задачами в информационном поиске для обеспечения полноты (Recall). Хотя нейронные сети (BERT, MUM) улучшили понимание контекста, эффективная и точная нормализация по-прежнему критически важна на этапах индексирования и первичного отбора кандидатов (Retrieval), особенно в морфологически богатых языках.

Важность для SEO

Влияние на SEO умеренное (6/10) и инфраструктурное. Патент не описывает факторы ранжирования, но раскрывает механизмы, лежащие в основе того, как Google понимает и сопоставляет различные формы слов. Для SEO это означает, что система учета словоформ у Google является статистически обоснованной и устойчивой. Это снижает необходимость в оптимизации под каждую конкретную морфологическую форму ключевого слова и подтверждает важность использования естественного языка.

Детальный разбор

Термины и определения

Applicable/Non-Applicable Words (Применимые/Неприменимые слова)
Слова, к которым конкретное правило должно или не должно применяться соответственно. Используются для валидации и уточнения правил.
Canonical Suffix-Rewriting Rule (Каноническое правило перезаписи суффикса)
Базовое правило, извлеченное непосредственно из конкретной пары "слово-вариант" путем удаления самого длинного общего префикса.
Confidence Measure (Мера уверенности)
Статистическая оценка качества или надежности правила или исходной пары "слово-вариант".
First Colored Ancestor (Первый раскрашенный предок)
Ближайший узел выше по иерархии дерева (или сам лист), которому назначено правило («цвет») или статус. Определяет, какое правило применяется к данному слову.
Flow (Поток) и Size (Размер)
Метрики, используемые в алгоритме оптимизации. Flow — количество листьев (слов) под узлом, поддерживающих данное правило. Size — количество исключений. Цель — максимизировать Flow и минимизировать Size.
Minimum Colored Subset (Минимальное раскрашенное подмножество)
Минимальный набор узлов и листьев суффиксного дерева, которым назначено правило («цвет») или статус, достаточный для корректной интерпретации всех слов (листьев) в дереве.
Suffix Tree (Суффиксное дерево)
Древовидная структура данных, организующая набор слов на основе их общих суффиксов. Листья соответствуют словам, узлы — общим суффиксам.
Tree Coloring (Раскраска дерева)
Алгоритмический процесс (основанный на динамическом программировании) назначения правил или статусов узлам суффиксного дерева для определения Minimum Colored Subset.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных метода генерации правил с использованием Tree Coloring.

Метод 1: Обобщение множества правил (Claim 1, Независимый)

Описывает процесс генерации оптимального набора финальных правил из множества канонических правил.

  1. Получение набора Canonical Suffix-Rewriting Rules, связанных с конкретными словами.
  2. Построение Suffix Tree из этих слов.
  3. Выбор Minimum Colored Subset узлов и назначение им оптимальных правил («цветов»).
  4. Ключевое условие: Производное правило для каждого листа (слова), унаследованное от его First Colored Ancestor, должно точно совпадать с исходным каноническим правилом этого листа.
  5. Генерация финальных правил на основе узлов из этого минимального подмножества.

Это алгоритм оптимизации, который стремится присвоить правила узлам как можно выше в дереве (максимальное обобщение), минимизируя общее количество правил, но без потери точности на уровне конкретных слов. Это позволяет системе обрабатывать новые слова, применяя к ним наиболее подходящее обобщенное правило.

Метод 2: Уточнение и валидация одного правила (Второй основной метод патента)

Описывает процесс уточнения области применения конкретного правила.

  1. Для одного канонического правила система получает набор Applicable Words (где правило работает) и Non-Applicable Words (где правило дает ошибку).
  2. Построение Suffix Tree из обоих наборов слов.
  3. Выбор Minimum Colored Subset, где узлам присваивается оптимальный статус (например, Valid или Invalid).
  4. Ключевое условие: Производный статус для Applicable Words должен быть Valid, а для Non-Applicable Words — Invalid.
  5. Генерация финальных правил только для узлов со статусом Valid.

Этот механизм позволяет создавать точные исключения. Если общее правило (например, стемминг суффикса "-ing") не работает для определенного контекста (например, слов, заканчивающихся на "-ring"), система пометит этот узел как Invalid, предотвращая ошибки нормализации.

Где и как применяется

Процесс генерации правил, описанный в патенте, выполняется офлайн. Сгенерированные правила затем используются поисковой системой на следующих этапах:

INDEXING – Индексирование и извлечение признаков
На этом этапе правила применяются для нормализации (стемминга) слов в сканированных документах. Это позволяет хранить в индексе базовые формы слов, обеспечивая сопоставление разных словоформ.

QUNDERSTANDING – Понимание Запросов
На этом этапе правила применяются к запросу пользователя для его нормализации и/или для генерации вариантов запроса (расширение запроса, Query Expansion), включая различные словоформы терминов.

RANKING – Ранжирование (L1 Retrieval)
На этапе первичного отбора кандидатов (Retrieval) используются нормализованные формы как из индекса, так и из запроса для быстрого сопоставления документов.

Входные данные (для системы генерации правил):

  • Наборы пар «слово-вариант» (Word-Variant Pairs).
  • Меры уверенности (Confidence Measures), связанные с этими парами.

Выходные данные (из системы генерации правил):

  • Оптимизированный (минимальный и точный) набор правил перезаписи суффиксов (Final Suffix-Rewriting Rules).

На что влияет

  • Типы контента и запросов: Влияет на обработку всех типов контента и запросов. Система улучшает способность поиска сопоставлять запрос с контентом, даже если они используют разные словоформы.
  • Редкие слова: Метод позволяет обрабатывать редкие или ранее неизвестные слова, если они следуют общим морфологическим паттернам, выявленным системой.
  • Языковые ограничения: Метод особенно актуален для языков с богатой морфологией (флективных языков, таких как русский), где количество словоформ велико и существует множество исключений.

Когда применяется

  • Генерация правил: Выполняется офлайн, вне контекста обработки конкретного запроса. Запускается периодически для обновления лингвистических моделей на основе новых данных.
  • Применение правил: Происходит постоянно — при индексировании контента и при обработке каждого поискового запроса.

Пошаговый алгоритм

Описание процесса генерации общего набора правил (Метод 1).

  1. Сбор данных и Генерация Канонических Правил: Получение пар (Слово, Вариант). Для каждой пары определяется Canonical Suffix-Rewriting Rule путем удаления самого длинного общего префикса.
  2. Построение Суффиксного Дерева: Все исходные слова добавляются в Suffix Tree. Каждый лист помечается («окрашивается») соответствующим ему каноническим правилом.
  3. Раскраска Дерева (Tree Coloring) - Фаза 1 (Снизу вверх): Система обходит дерево от листьев к корню. Для каждого узла V и каждого возможного цвета C предка рассчитывается оптимальный условный цвет для V. Это делается путем сравнения двух опций: оставить V без цвета (унаследовать от предка) или назначить V новый цвет X. Выбор основывается на функции оптимизации F(V,C)F(V, C)F(V,C), которая стремится минимизировать количество правил (Size) и максимизировать точность (Flow).
  4. Раскраска Дерева (Tree Coloring) - Фаза 2 (Сверху вниз): Выбирается оптимальный цвет для корня дерева. Затем, двигаясь вниз, для каждого узла фиксируется его оптимальный цвет, исходя из цвета его первого раскрашенного предка (используя условные данные, рассчитанные в Фазе 1).
  5. Идентификация Minimum Colored Subset: Узлы, которым был назначен цвет в Фазе 2.
  6. Генерация Финальных Правил: Для каждого узла в Minimum Colored Subset создается финальное правило перезаписи суффикса.

Какие данные и как использует

Данные на входе

Система полагается на предварительно собранные данные о взаимосвязях слов.

  • Контентные/Поведенческие факторы: Исходные данные — это пары Word-Variant Pairs. В патенте упоминается, что эти пары могут быть получены из анализа совместной встречаемости (co-occurrence) слов в документах или анализа логов поисковых запросов пользователей.
  • Системные данные: Confidence Measures, связанные с исходными парами, которые оценивают надежность связи между словами.

Какие метрики используются и как они считаются

Патент фокусируется на метриках, используемых в процессе оптимизации (Tree Coloring).

  • Size (Размер): Для узла V и цвета C, это количество узлов и листьев ниже V в дереве, которые не имеют цвета C. Система стремится минимизировать этот показатель.
  • Flow (Поток): Для узла V и цвета C, это количество листьев ниже V в дереве, которые ассоциированы с каноническим правилом цвета C. Система стремится максимизировать этот показатель.
  • Функция оптимизации F(V, C): Комбинация Size и Flow, используемая для оценки качества назначения цвета C узлу V. В патенте приводится пример формулы: F(V,C)=size(V,C)−A×flow(V,C)F(V, C) = size(V, C) - A \times flow(V, C)F(V,C)=size(V,C)−A×flow(V,C) (где A — константа). Система стремится найти минимальное значение F.
  • Positive Score и Negative Score: Используются в Методе 2 (Валидация правила). Рассчитываются рекурсивно для определения, должен ли узел быть помечен как Valid или Invalid, на основе сравнения этих оценок с порогами.

Выводы

  1. Автоматизация и масштабируемость лингвистики: Патент демонстрирует, как Google автоматизирует сложную задачу понимания морфологии, используя статистические методы и эффективные структуры данных (Suffix Trees). Это позволяет уйти от ручного составления словарей к автоматически генерируемым моделям.
  2. Баланс обобщения и точности: Ключевая идея Minimum Colored Subset заключается в поиске оптимального баланса. Система стремится создавать максимально обобщенные правила (применимые ко многим словам), но при этом сохраняет точность, создавая более специфичные правила или блокируя применение правил (статус Invalid) для исключений.
  3. Важность контекста суффикса: Использование Suffix Tree позволяет системе учитывать контекст, предшествующий окончанию. Правило нормализации для окончания "-ing" может быть разным для слов, заканчивающихся на "-ting" и "-ring", если это подтверждается статистикой.
  4. Обработка редких слов: Статистический подход позволяет обрабатывать редкие или новые слова, которые отсутствуют в словарях, при условии, что они подчиняются общим морфологическим закономерностям, выявленным системой.
  5. Инфраструктурный характер: Это патент о внутренней работе лингвистических компонентов Google (Statistical Stemming). Он не предоставляет прямых рычагов для SEO, но дает понимание того, как система обрабатывает язык на базовом уровне.

Практика

ВАЖНО: Патент является инфраструктурным и описывает внутренние механизмы Google для генерации лингвистических правил. Он не дает прямых рекомендаций для тактического SEO.

Best practices (это мы делаем)

  • Использование естественной и грамматически правильной морфологии: Поскольку система обучается статистически на больших объемах данных, она ожидает увидеть корректные формы слов. Правильное словоупотребление в контенте помогает системе верно ассоциировать различные формы ключевых слов на вашем сайте.
  • Фокус на интенте и семантике, а не на формах слов: Не нужно пытаться использовать все возможные морфологические формы ключевого слова в тексте. Понимание этого патента подтверждает, что Google обладает мощными механизмами нормализации и сможет связать различные формы слова, если они являются стандартными и употреблены естественно.

Worst practices (это делать не надо)

  • Использование неестественных конструкций ("SEO-копирайтинг"): Использование слов в неправильных падежах или формах для достижения точного вхождения (например, "купить автомобиль Москва дешево") контрпродуктивно. Система нормализации может не распознать такие формы корректно или посчитать их признаком низкого качества.
  • Перенасыщение текста разными формами ключей (Keyword Stuffing): Попытки повысить релевантность за счет перечисления всех падежей или чисел ключевого слова неэффективны, так как система приводит их к Normalized Form на этапах Indexing и Query Understanding.

Стратегическое значение

Патент подтверждает стратегический приоритет Google на глубоком лингвистическом анализе и автоматизации. Для SEO это означает, что попытки манипулировать релевантностью на уровне конкретных словоформ окончательно уступают место работе с семантикой, интентом и качеством контента. Google инвестирует в масштабируемые, статистические инструменты для понимания языка, которые со временем становятся только точнее.

Практические примеры

Практических примеров применения для SEO нет, так как патент описывает внутренний офлайн-механизм генерации лингвистических правил Google, на который SEO-специалисты не могут повлиять напрямую.

Вопросы и ответы

Что такое стемминг и чем он отличается от нормализации (лемматизации)?

Стемминг (Stemming) — это более грубый процесс отсечения окончаний и суффиксов для получения основы слова (стема), которая может и не являться реальным словом. Нормализация (или лемматизация) приводит слово к его канонической, словарной форме (лемме). Патент описывает методы генерации правил перезаписи суффиксов (Statistical Stemming), которые могут быть использованы для реализации обеих задач с высокой точностью.

Стоит ли SEO-специалисту беспокоиться о точном вхождении всех форм ключевого слова в текст?

Нет, это становится менее важным. Наличие таких продвинутых систем статистического стемминга и нормализации означает, что Google с высокой вероятностью сможет связать различные морфологические формы слова в запросе пользователя с формами, использованными в вашем контенте. Фокус должен быть на естественности языка и раскрытии интента.

Что такое суффиксное дерево (Suffix Tree) и зачем оно нужно в этом контексте?

Suffix Tree — это структура данных, которая эффективно группирует слова по их окончаниям. Например, оно позволяет системе видеть, что у слов "biking" и "hiking" общее окончание "-iking". Это критически важно для определения того, можно ли применить одно и то же правило нормализации или требуются разные правила в зависимости от контекста, предшествующего окончанию.

Что означает "Минимальное раскрашенное подмножество" (Minimum Colored Subset)?

Это результат оптимизации. Система ищет наименьшее количество правил, необходимое для корректной обработки всех известных вариантов слов. Алгоритм стремится назначать правила как можно выше в суффиксном дереве (т.е. обобщать их), и создает исключения (назначает правила на более низких уровнях), только когда это необходимо для поддержания точности.

Как этот механизм помогает в обработке редких слов?

Он позволяет применять паттерны словоизменения, изученные на частотных словах, к редким словам. Если редкое слово имеет такой же суффикс, как и группа частотных слов, и этот суффикс был идентифицирован в суффиксном дереве как валидный для определенного правила, система сможет корректно обработать редкое слово, даже если оно никогда ранее не встречалось.

Влияет ли этот механизм на ранжирование напрямую?

Он влияет косвенно. Механизм работает на этапах Indexing, Query Understanding и первичном отборе кандидатов (Retrieval). Если система правильно нормализует слова в запросе и на странице, она сможет точнее сопоставить их. Это влияет на расчет базовой релевантности, которая затем используется на этапе Ranking.

Работает ли этот алгоритм одинаково для всех языков?

Да, метод является статистическим и не зависит от конкретного языка. Он автоматически выявляет закономерности на основе предоставленных данных. Этот подход особенно эффективен для языков с богатой морфологией (флективных и агглютинативных), где количество словоформ велико и их сложно описать вручную.

Как система обрабатывает исключения из правил?

Исключения обрабатываются в процессе Tree Coloring. Если общее правило, присвоенное верхнему узлу, неверно для группы слов ниже в дереве, алгоритм присвоит этой группе (на более низком узле) другое, более специфичное правило. Также используется механизм валидации (Метод 2), который может пометить определенные суффиксы как Invalid для применения правила.

Актуален ли этот патент в эпоху нейронных сетей и BERT?

Да, актуален. Хотя модели типа BERT и MUM лучше понимают контекст и семантику через векторные представления, базовые NLP-задачи, такие как нормализация, по-прежнему важны для эффективности (скорости) и полноты поиска (Recall). Эти методы могут использоваться в комбинации с нейросетевыми подходами или на ранних этапах обработки.

Особенно ли важен этот патент для SEO на русском языке?

Да, для морфологически богатых языков, таких как русский, наличие надежной системы стемминга критически важно из-за сложной системы падежей, спряжений и родов. Этот патент описывает масштабируемый и статистически обоснованный метод для обработки такой сложности, что делает поиск на русском языке более эффективным и менее зависимым от точного совпадения словоформ.

Похожие патенты

Как Google находит и предлагает более эффективные формулировки запросов через каноникализацию и оценку полезности
Google использует механизм для улучшения поисковых подсказок (Autocomplete). Система определяет запросы, которые имеют идентичную каноническую форму (тот же базовый интент после нормализации), но структурно отличаются от вводимого текста. Среди этих альтернатив выбираются те, которые исторически приводили к более высокой удовлетворенности пользователей (Query Utility Score), и предлагаются для повышения качества поиска.
  • US8868591B1
  • 2014-10-21
  • Семантика и интент

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
  • US7475063B2
  • 2009-01-06
  • Мультиязычность

  • Семантика и интент

  • Индексация

Как Google использует анализ окончаний запросов (суффиксов) для улучшения работы Автокомплита, игнорируя начало запроса
Google использует механизм для улучшения подсказок Автокомплита (Search Suggest), фокусируясь на окончании (суффиксе) запроса. Если начало запроса редкое или неоднозначное, система ищет популярные прошлые запросы с похожими окончаниями, но разными началами. Это позволяет предлагать релевантные подсказки, основываясь на том, как пользователи обычно заканчивают схожие по структуре запросы.
  • US8417718B1
  • 2013-04-09
Как Google стандартизирует словоформы в индексе для ускорения поиска и повышения полноты выдачи
Google повышает эффективность поиска, обрабатывая словоформы (например, «голосовать» и «голосование») на этапе индексирования, а не во время выполнения запроса. Система определяет корень слова (стемму), выбирает наиболее частотную «репрезентативную» форму и сохраняет в индексе как исходное слово, так и этот вариант. Это позволяет быстрее находить все релевантные документы без необходимости перебирать варианты слов в момент поиска.
  • US11423029B1
  • 2022-08-23
  • Индексация

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов
Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.
  • US9183297B1
  • 2015-11-10
  • Семантика и интент

Популярные патенты

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.
  • US8645390B1
  • 2014-02-04
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует исторические паттерны CTR для предсказания сезонных и циклических изменений интента пользователя
Google анализирует исторические данные о кликах (CTR) для выявления предсказуемых изменений в интересах пользователей по неоднозначным запросам. Если интент меняется в зависимости от сезона, дня недели или времени суток, система корректирует ранжирование, чтобы соответствовать доминирующему в данный момент интенту. Например, по запросу "turkey" в ноябре приоритет получат рецепты, а не информация о стране.
  • US8909655B1
  • 2014-12-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google генерирует "Свежие связанные запросы" на основе анализа трендов и новостного контента
Google анализирует недавние поисковые логи, чтобы выявить запросы, демонстрирующие резкий рост популярности или отклонение от ожидаемой частоты. Эти "свежие" запросы проходят обязательную валидацию: они должны возвращать достаточное количество новостных результатов и иметь хорошие показатели вовлеченности (CTR). Это позволяет Google динамически обновлять блок "Связанные поиски", отражая актуальные события и тренды.
  • US8412699B1
  • 2013-04-02
  • Свежесть контента

  • Поведенческие сигналы

  • SERP

Как Google определяет, действительно ли новость посвящена сущности, и строит хронологию событий
Google использует систему для определения релевантности новостей конкретным объектам (сущностям, событиям, темам). Система анализирует кластеры новостных статей (коллекции), оценивая общий интерес к объекту (поисковые запросы, социальные сети) и значимость объекта внутри коллекции (упоминания в заголовках, центральность в тексте). Ключевой механизм — оценка уместности событий: система проверяет, соответствует ли событие типу объекта (например, «новый метод лечения» для болезни), чтобы отфильтровать мимолетные упоминания и создать точную хронологию новостей.
  • US9881077B1
  • 2018-01-30
  • Семантика и интент

  • Поведенческие сигналы

Как Google определяет скрытый локальный интент в запросах для повышения релевантности местных результатов
Google использует механизм для определения того, подразумевает ли запрос (например, «ресторан») поиск локальной информации, даже если местоположение не указано. Система анализирует агрегированное поведение пользователей для расчета «степени неявной локальной релевантности» запроса. Если этот показатель высок, Google повышает в ранжировании результаты, соответствующие местоположению пользователя.
  • US8200694B1
  • 2012-06-12
  • Local SEO

  • Поведенческие сигналы

  • Семантика и интент

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов
Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.
  • US8868565B1
  • 2014-10-21
  • Поведенческие сигналы

  • SERP

Как Google (YouTube) ранжирует видео, повышая те, которые начинают сессию просмотра и приводят внешний трафик ("Lead Video")
Google использует систему ранжирования для видеоплатформ, которая идентифицирует "ведущее видео" (Lead Video), инициирующее сессию просмотра. Система применяет повышающие коэффициенты (Scaling Factors) ко времени просмотра этого видео. Видео, привлекшие пользователя на платформу из внешних источников (например, из социальных сетей или поиска Google), получают значительно больший коэффициент, чем те, что были найдены через внутренние рекомендации.
  • US10346417B2
  • 2019-07-09
  • Мультимедиа

  • Поведенческие сигналы

  • SERP

seohardcore