Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи

INDEX UPDATING USING SEGMENT SWAPPING (Обновление индекса с использованием подмены сегментов)

US7702614B1
Google LLC
2007-03-30
2010-04-20

Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.

Какую проблему решает

Патент решает несколько фундаментальных проблем масштабируемых поисковых систем:

Ограничения пословного индексирования: Традиционные системы индексируют отдельные слова, упуская концепции, выраженные фразами (например, "тёмная материя"), и страдают от неточности Boolean-поиска.
Вычислительная сложность: Попытка проиндексировать все возможные комбинации слов (N-граммы) невозможна из-за экспоненциального роста объема данных.
Эффективность и скорость обработки запросов: Необходимость снижения вычислительных затрат и межсерверных коммуникаций при обработке запросов в распределенной системе.
Свежесть и доступность индекса: Сложность быстрого обновления огромного индекса (Index Freshness) без прерывания обслуживания запросов (Availability).

Что запатентовано

Запатентована комплексная архитектура информационно-поисковой системы, использующая фразы для индексирования и поиска. Описание патента раскрывает методы эффективного извлечения "настоящих" фраз из документов, организацию индекса в виде списков фраз (Phrase Posting Lists), распределенных по многоуровневой (Tiers) и сегментированной (Shards) структуре. Также детально описана интерпретация запросов (Query Phrasification) и механизм обновления индекса (Segment Swapping), на котором сфокусирована формула изобретения (Claims).

Как это работает

Система функционирует в нескольких ключевых областях:

Извлечение фраз (Phrase Extraction): Анализируются структурные и семантические границы в документах (заголовки, шрифты, концы предложений — Text Breaks) для выявления и оценки значимости фраз.
Структура индекса: Фразы распределяются по уровням (Tiers) в зависимости от стоимости их обработки. Каждый список делится на шарды (Shards) для параллельной обработки.
Обработка запросов: Запрос разбивается на возможные комбинации фраз (Phrasification). Создается оптимизированный план выполнения (Query Schedule), минимизирующий затраты.
Обновление индекса: Индекс делится на Segments. Обновления происходят инкрементально, после чего новые данные сливаются и "подменяются" (Swapping) в основном индексе без остановки поиска.

Актуальность для SEO

Высокая. Принципы, заложенные в патенте, являются фундаментальными для современных поисковых систем. Акцент на фразах (концепциях) соответствует направлению развития семантического поиска. Архитектурные решения для обеспечения скорости обработки и свежести (Freshness) остаются критически важными задачами для Google в 2025 году.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он детально описывает механизмы (в разделе Description), с помощью которых Google идентифицирует значимые фразы в контенте, основываясь на структурных сигналах (заголовки, форматирование, семантические разрывы). Понимание процесса Phrase Extraction дает конкретные рекомендации по структурированию контента для лучшей интерпретации поисковой системой. Патент подтверждает переход от пословного анализа к концептуальному.

Термины и определения

Bifurcated Scoring (Бифуркационная модель оценки): Модель ранжирования, где релевантность рассчитывается в два этапа: на этапе индексации (Phrase Relevance Score — релевантность фразы документу) и на этапе выполнения запроса.
Phrase (Фраза): Последовательность слов, идентифицированная системой как значимая семантическая единица ("настоящая фраза"), а не случайное сочетание.
Phrase Extraction (Извлечение фраз): Процесс идентификации валидных фраз в корпусе документов на основе структурных, статистических и семантических сигналов.
Phrase Posting List (Постинг-лист фразы): Инвертированный индекс для конкретной фразы, содержащий список документов, в которых эта фраза встречается.
Query Phrasification (Фразификация запроса): Процесс интерпретации поискового запроса путем генерации всех возможных разбиений запроса на фразы и выбора наилучших комбинаций.
Segments (Сегменты): Разделение корпуса документов на подмножества для целей обновления индекса. Используется в механизме Segment Swapping.
Shards (Шарды): Вертикальное разделение Phrase Posting Lists. Документы внутри списка распределяются по шардам с помощью функции (Shard Assignment Function), гарантирующей, что один и тот же документ всегда попадает в один и тот же шард.
Text Breaks (Текстовые разрывы): Семантические границы в документе (конец предложения, параграфа, заголовок, изменение шрифта), используемые для определения границ потенциальных фраз.
Hit Position (Позиция попадания): Категоризация позиции фразы относительно Text Breaks: Initial (начальная), Final (конечная), Exact (точное совпадение с границами), Medial (серединная). Используется при оценке значимости фразы.
Tiers (Уровни): Горизонтальное группирование Phrase Posting Lists. Фразы назначаются на уровни на основе стоимости их обработки (Query Processing Cost), например, длины списка.
Typeface (Характеристики шрифта): Визуальные характеристики текста (стиль, размер, капитализация), используемые как сигнал при оценке значимости фразы.

Ключевые утверждения (Анализ Claims)

Важное замечание: Описание патента (Description) очень обширно и описывает полную архитектуру поисковой системы на основе фраз (извлечение, Tiers, Shards, Phrasification). Однако формула изобретения (Claims 1-10) этого конкретного патента узко сфокусирована только на механизме обновления индекса (Index Maintenance).

Claim 1 (Независимый пункт): Описывает метод поддержания индекса фраз.

Предоставление набора Phrase Posting Lists.
Создание нескольких сегментов (Segments), каждый из которых связан с подмножеством документов.
Периодическое обновление каждого сегмента путем:
- Идентификации фраз в документах сегмента и обновления соответствующих списков.
- Разделения (Sharding) обновленных списков на Segment Shards (шарды сегмента).
- Ассоциации каждого Segment Shard с Index Shard (шардом индекса). Один Index Shard связан с несколькими Segment Shards.
Определение недавно обновленного сегмента.
Для обслуживаемого Index Shard:
- Определение связанных с ним обновленных Segment Shards.
- Слияние (Merging) обновленных Segment Shards с Index Shard для формирования обновленного Index Shard.
Замена (Swapping) текущего Index Shard на обновленный.

Ядро изобретения, защищенное этим патентом, — это инфраструктурный механизм для непрерывных, инкрементальных обновлений распределенного индекса. Обновляя индекс пакетами (Segments) и объединяя изменения, система избегает полных перестроек индекса и обеспечивает высокую доступность и свежесть данных.

Где и как применяется

Патент охватывает практически все ключевые этапы работы поисковой системы, описанные в документе.

INDEXING – Индексирование и извлечение признаков
Основной этап применения:

Phrase Extraction: Phrase Identification Server анализирует контент для выявления валидных фраз, используя Text Breaks и Typeface.
Phrase Scoring: Рассчитываются метрики значимости фраз (Document Phrase Score) и, возможно, предварительные оценки релевантности (в рамках Bifurcated Scoring).
Index Structuring: Индекс организуется в Tiers (по стоимости) и Shards (по документам).
Index Updating: Механизм Segment Swapping (описанный в Claims) управляет обновлением индекса.

QUNDERSTANDING – Понимание Запросов
Применяется Query Phrasification для интерпретации запроса пользователя как набора фраз, преобразуя исходное дерево слов в Boolean Phrase Tree.

RANKING – Ранжирование (Этап Retrieval)
Query Scheduling Module создает оптимизированный план выполнения (Query Schedule), используя структуру Tiers и Shards для эффективного извлечения документов и минимизации межсерверных коммуникаций.

На что влияет

Структура контента: Механизм Phrase Extraction напрямую зависит от структуры документа. Четко структурированный контент с явными семантическими границами (заголовки, абзацы, списки, выделения шрифтом) позволяет системе точнее идентифицировать ключевые фразы.
Типы контента: Влияет на все типы текстового контента, особенно там, где важны концепции и точные формулировки.
Свежесть (Freshness): Механизм Segment Swapping напрямую влияет на скорость попадания нового или обновленного контента в индекс.

Когда применяется

Индексация и Извлечение Фраз: Постоянно, при обработке новых и обновленных документов.
Обновление индекса (Segment Swapping): Периодически или непрерывно, после обработки нового сегмента и слияния данных.
Обработка запроса (Phrasification, Scheduling): В реальном времени при каждом запросе пользователя.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов. Рассмотрим ключевой процесс для SEO — Извлечение Фраз, детально описанный в Description.

Процесс: Извлечение Фраз (Phrase Extraction)

Сканирование документа: Система итерирует по документу, поддерживая буфер последних N слов (например, N=5-20).
Идентификация кандидатов: Кандидат во фразу (содержимое буфера) фиксируется, когда буфер заполнен или обнаружен текстовый разрыв (Text Break) — семантическая граница (конец предложения, абзаца, заголовок, изменение шрифта).
Сбор данных о кандидате: Для каждой фразы-кандидата фиксируется её расположение (title, body), позиция относительно границ (Initial, Final, Exact, Medial) и характеристики шрифта (Typeface).
Первичная оценка (Scoring): Каждой фразе присваивается оценка (Phrase Score). Exact и Initial попадания, а также расположение в заголовке или выделение шрифтом повышают оценку.
Анализ подфраз (Devolution): Если оценка фразы не превышает порог "сильной фразы" (Strong Phrase Threshold), её оценка распределяется между её подфразами по определенным правилам, чтобы избежать двойного учета. Если порог превышен, оценка не распределяется.
Агрегация по документам: Для каждой фразы собираются её оценки (Document Phrase Scores) по всем документам.
Комбинированная оценка: Рассчитывается общая оценка (Combined Score) фразы на основе всех её Document Phrase Scores.
Валидация фразы: Фраза признается валидной, если выполняется одно из условий:
- Сильная поддержка (хотя бы в одном документе фраза очень значима).
- Умеренная поддержка (общая оценка выше порога).
- Широкая поддержка (фраза встречается в большом количестве документов).
Постобработка: Удаление избыточных фраз и применение лингвистических эвристик.

Какие данные и как использует

Данные на входе

Система активно использует структурные и визуальные данные для извлечения фраз.

Контентные факторы: Текст документа (body), заголовки (title), текст ссылок (anchors).
Структурные факторы: Семантические границы (Text Breaks): конец предложения, конец абзаца, позиционные границы (конец заголовка). Видимые HTML элементы (таблицы, горизонтальные линии).
Мультимедиа (Форматирование): Характеристики шрифта (Typeface): стиль (например, жирный), размер, капитализация (для идентификации имен собственных).
Технические факторы: Идентификаторы документов (Document IDs) используются для шардирования (Shard Assignment Function).
Пользовательские факторы: Логи поисковых запросов (search query logs) упоминаются как дополнительный источник для извлечения фраз.

Какие метрики используются и как они считаются

Document Phrase Score: Оценка значимости фразы внутри документа. Рассчитывается на основе расположения, позиции (Exact>Initial>Medial/Final) и форматирования.
Combined Phrase Score: Агрегированная оценка значимости фразы по всему корпусу.
Query Processing Cost: Метрика стоимости обработки запроса к списку фразы (например, длина Phrase Posting List). Используется для распределения фраз по уровням (Tiers) и для планирования запросов (Query Scheduling).
Phrase Probability (P(p)): Вероятность встретить фразу в индексе. Используется при Query Phrasification.

Формулы:

Shard Assignment Function (Пример): $Shard ID = Document ID (Mod S)$ .
Phrase Scoring Function (для Query Phrasification): $S = f(N) * \prod (P(pi) * C(pi))$ (Оценка варианта фразификации зависит от функции количества фраз f(N) и произведения вероятностей и уверенности (C(pi)) для каждой фразы).

Фундаментальный сдвиг к Phrase-Based Indexing: Патент описывает архитектуру, полностью построенную вокруг фраз. Это подтверждает стратегический переход Google от индексации отдельных слов к пониманию концепций.
Структура контента критически важна для интерпретации: Процесс Phrase Extraction детально показывает, что Google идентифицирует значимые фразы не только по частоте, но и по их расположению относительно семантических границ (Text Breaks) — заголовков, начал предложений, абзацев и форматирования (Typeface).
Интерпретация запросов как фраз (Phrasification): Google активно пытается интерпретировать запрос как набор наиболее вероятных фраз, а не просто ищет слова из запроса.
Свежесть и доступность как архитектурный приоритет: Механизм Segment Swapping (который является ядром Claims) показывает, как Google решает проблему быстрого обновления индекса без простоя, обеспечивая высокую свежесть (Freshness) выдачи.
Эффективность через сложность архитектуры: Использование Tiers и Shards — это инфраструктурное решение для оптимизации скорости ответа и минимизации вычислительных затрат в распределенной системе.

Best practices (это мы делаем)

Оптимизация под фразы и концепции: Сместить фокус с отдельных ключевых слов на естественные фразы и словосочетания, которые выражают концепции в нише. Стратегия должна строиться вокруг покрытия кластера связанных фраз, так как индекс основан на них.
Критическая важность структуры контента: Использовать четкую и логичную структуру документа. Заголовки (H1-Hn), абзацы, списки и таблицы создают семантические границы (Text Breaks), которые помогают системе идентифицировать ключевые фразы и их границы.
Акцентирование ключевых фраз в значимых позициях: Размещать наиболее важные фразы в заголовках, начале абзацев (Initial Hit) или как отдельные короткие предложения/пункты списка (Exact Hit). Система придает этим позициям больший вес при Phrase Extraction.
Использование форматирования (Typeface): Патент явно указывает, что характеристики шрифта (размер, стиль) учитываются при оценке фраз. Использование логического выделения (например, bold) для ключевых концепций может повысить их Document Phrase Score.
Анализ Anchor Text: При построении ссылок (внутренних и внешних) использовать естественные фразы, так как патент упоминает учет Anchor Text при извлечении и оценке фраз.

Worst practices (это делать не надо)

Keyword Stuffing и неестественные конструкции: Перечисление ключевых слов или использование неестественных формулировок неэффективно. Система ищет валидные фразы в естественном контексте, ограниченном семантическими границами, а не случайные наборы слов.
"Стена текста" (Wall of Text): Публикация длинных блоков текста без форматирования, абзацев и подзаголовков. Это минимизирует количество Text Breaks, снижая шансы на идентификацию важных фраз как Initial или Exact Hits; большинство фраз будут классифицированы как менее значимые Medial Hits.
Фокус только на точное вхождение запроса: Из-за Query Phrasification система может по-разному интерпретировать запрос пользователя. Оптимизация только под одну узкую формулировку является рискованной.

Стратегическое значение

Этот патент является одним из фундаментальных документов, подтверждающих переход от лексического поиска к семантическому (начиная с фраз и двигаясь к сущностям). Он демонстрирует, что единица индексации и поиска — это концепция. Для долгосрочной SEO-стратегии это означает, что создание тематического авторитета (Topical Authority) через глубокое раскрытие темы с использованием всего спектра релевантных фраз является ключевым. Также патент подчеркивает, что структура и оформление контента напрямую влияют на его семантическую интерпретацию.

Практические примеры

Сценарий: Оптимизация статьи для идентификации ключевых фраз (Phrase Extraction)

Задача: Убедиться, что система корректно идентифицирует фразу "архитектура поисковой системы" как ключевую концепцию статьи.

Применение (на основе патента):

Title/H1 (Высокий вес, Exact Hit): Использовать фразу в заголовке: "Современная архитектура поисковой системы Google".
Начало абзаца (Initial Hit): Начать ключевой абзац с этой фразы: "Архитектура поисковой системы должна решать задачи масштабируемости..."
Форматирование (Typeface): Выделить фразу жирным шрифтом в тексте: "Ключевым элементом является архитектура поисковой системы."
Пункт списка (Exact Hit): Использовать фразу как отдельный пункт списка при перечислении тем:
- Извлечение фраз
- Архитектура поисковой системы
- Обновление индекса

Ожидаемый результат: За счет использования структурных сигналов (Text Breaks) и форматирования (Typeface) фраза получит высокий Document Phrase Score в процессе индексации, что увеличит её значимость для ранжирования.

Означает ли этот патент, что Google индексирует фразы, а не отдельные слова?

Да, описание патента детально раскрывает архитектуру системы информационного поиска, которая полностью построена на основе индексации фраз (Phrase-based indexing). Для каждой идентифицированной значимой фразы создается свой постинг-лист (Phrase Posting List). Это фундаментальное отличие от систем, индексирующих только отдельные слова.

Как, согласно патенту, Google определяет, является ли последовательность слов «настоящей» фразой?

Google использует процесс Phrase Extraction, анализируя, как часто и каким образом фраза используется в документах. Ключевую роль играют структурные сигналы: расположение в заголовках, позиция относительно начала/конца предложения или абзаца (Text Breaks), а также форматирование (Typeface). Если фраза часто появляется в таких значимых позициях, она получает высокий Document Phrase Score и признается валидной.

Влияет ли форматирование текста (жирный шрифт, размер) на индексацию фраз?

Да, согласно описанию процесса извлечения фраз. Характеристики шрифта (Typeface characteristics) используются при расчете Document Phrase Score. Фразы с выделенным форматированием (например, больший размер, полужирный шрифт) получают более высокую оценку, что повышает их значимость.

Что означают позиции Initial, Exact и Medial Hits при извлечении фраз?

Это классификация позиции фразы относительно семантических границ (Text Breaks). Exact Hit — фраза точно совпадает с границами (например, это весь заголовок или отдельное предложение). Initial Hit — фраза в начале границы (начало абзаца). Medial Hit — фраза в середине текста. Exact и Initial получают больший вес, поэтому важно использовать ключевые фразы в начале абзацев или в заголовках.

Что такое Query Phrasification и почему это важно для SEO?

Это процесс интерпретации запроса пользователя. Google генерирует все возможные комбинации фраз из запроса и оценивает, какая комбинация наиболее вероятна. Например, запрос "New York restaurants" может быть интерпретирован как ["New York" AND "restaurants"]. Это важно, потому что система ищет концепции, и оптимизация должна учитывать, как Google может интерпретировать целевые запросы.

На чем именно сфокусирована формула изобретения (Claims) этого патента?

Несмотря на очень широкое описание всей архитектуры в тексте патента, Claims защищают только механизм обновления индекса — Segment Swapping. Это инфраструктурный метод, позволяющий Google непрерывно обновлять распределенный индекс без остановки работы поиска, что обеспечивает высокую свежесть выдачи.

Что такое Tiers и Shards и как они влияют на SEO?

Tiers (Уровни) и Shards (Шарды) — это элементы инфраструктуры Google для оптимизации скорости поиска и снижения нагрузки. Tiers группируют фразы по частотности, а Shards разделяют списки документов. Напрямую на SEO-тактики они не влияют, но они обеспечивают эффективность системы, которая обрабатывает фразы.

Что такое бифуркационная модель оценки (Bifurcated Scoring)?

Это модель, где оценка релевантности разделена на два этапа. Первый этап (Phrase Relevance Score) происходит во время индексации и определяет, насколько фраза релевантна документу. Второй этап происходит во время поиска. Это позволяет значительно ускорить процесс финального ранжирования.

Как этот патент связан с современным фокусом Google на сущностях (Entities)?

Этот патент можно рассматривать как ранний и фундаментальный шаг к семантическому поиску. Индексация фраз — это переход от слов к концепциям. Современный поиск по сущностям является логическим развитием этой идеи, где идентифицированные концепции (фразы) связываются с конкретными объектами реального мира в Графе Знаний.

Какова главная мысль этого патента для Senior SEO-стратега?

Главная мысль заключается в том, что структура и семантика контента неразрывно связаны. Google индексирует и ищет концепции (фразы), а не слова. Для успешного продвижения необходимо создавать четко структурированный контент, который помогает поисковой системе точно идентифицировать ключевые фразы темы, используя заголовки, абзацы и форматирование для выделения семантических границ.

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента

Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.

US7693813B1
2010-04-06

Индексация
Семантика и интент

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз

Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.

US8166045B1
2012-04-24

Индексация
Семантика и интент

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности

Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.

US7567959B2
2009-07-28

Индексация
Семантика и интент

Как Google разбирает запрос на значимые фразы, предпочитая длинные концепции отдельным словам

Google использует систему для интерпретации поисковых запросов, которая разбивает текст запроса на все возможные комбинации фраз (фразификации). Система оценивает эти комбинации, используя вероятность существования фразы в индексе и предпочитая интерпретации с меньшим количеством длинных фраз. Это позволяет поисковой системе понимать запрос как набор концепций, а не просто набор ключевых слов.

US8166021B1
2012-04-24

Семантика и интент
Индексация

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные

Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.

US20150242512A1
2015-08-27

Персонализация
Поведенческие сигналы
SERP

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования

Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.

US8538989B1
2013-09-17

Семантика и интент
Индексация
Структура сайта

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

US8762363B1
2014-06-24

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы