SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи

INDEX UPDATING USING SEGMENT SWAPPING (Обновление индекса с использованием подмены сегментов)
  • US7702614B1
  • Google LLC
  • 2007-03-30
  • 2010-04-20
  • Индексация
  • Свежесть контента
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.

Описание

Какую проблему решает

Патент решает несколько фундаментальных проблем масштабируемых поисковых систем:

  • Ограничения пословного индексирования: Традиционные системы индексируют отдельные слова, упуская концепции, выраженные фразами (например, "тёмная материя"), и страдают от неточности Boolean-поиска.
  • Вычислительная сложность: Попытка проиндексировать все возможные комбинации слов (N-граммы) невозможна из-за экспоненциального роста объема данных.
  • Эффективность и скорость обработки запросов: Необходимость снижения вычислительных затрат и межсерверных коммуникаций при обработке запросов в распределенной системе.
  • Свежесть и доступность индекса: Сложность быстрого обновления огромного индекса (Index Freshness) без прерывания обслуживания запросов (Availability).

Что запатентовано

Запатентована комплексная архитектура информационно-поисковой системы, использующая фразы для индексирования и поиска. Описание патента раскрывает методы эффективного извлечения "настоящих" фраз из документов, организацию индекса в виде списков фраз (Phrase Posting Lists), распределенных по многоуровневой (Tiers) и сегментированной (Shards) структуре. Также детально описана интерпретация запросов (Query Phrasification) и механизм обновления индекса (Segment Swapping), на котором сфокусирована формула изобретения (Claims).

Как это работает

Система функционирует в нескольких ключевых областях:

  • Извлечение фраз (Phrase Extraction): Анализируются структурные и семантические границы в документах (заголовки, шрифты, концы предложений — Text Breaks) для выявления и оценки значимости фраз.
  • Структура индекса: Фразы распределяются по уровням (Tiers) в зависимости от стоимости их обработки. Каждый список делится на шарды (Shards) для параллельной обработки.
  • Обработка запросов: Запрос разбивается на возможные комбинации фраз (Phrasification). Создается оптимизированный план выполнения (Query Schedule), минимизирующий затраты.
  • Обновление индекса: Индекс делится на Segments. Обновления происходят инкрементально, после чего новые данные сливаются и "подменяются" (Swapping) в основном индексе без остановки поиска.

Актуальность для SEO

Высокая. Принципы, заложенные в патенте, являются фундаментальными для современных поисковых систем. Акцент на фразах (концепциях) соответствует направлению развития семантического поиска. Архитектурные решения для обеспечения скорости обработки и свежести (Freshness) остаются критически важными задачами для Google в 2025 году.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он детально описывает механизмы (в разделе Description), с помощью которых Google идентифицирует значимые фразы в контенте, основываясь на структурных сигналах (заголовки, форматирование, семантические разрывы). Понимание процесса Phrase Extraction дает конкретные рекомендации по структурированию контента для лучшей интерпретации поисковой системой. Патент подтверждает переход от пословного анализа к концептуальному.

Детальный разбор

Термины и определения

Bifurcated Scoring (Бифуркационная модель оценки)
Модель ранжирования, где релевантность рассчитывается в два этапа: на этапе индексации (Phrase Relevance Score — релевантность фразы документу) и на этапе выполнения запроса.
Phrase (Фраза)
Последовательность слов, идентифицированная системой как значимая семантическая единица ("настоящая фраза"), а не случайное сочетание.
Phrase Extraction (Извлечение фраз)
Процесс идентификации валидных фраз в корпусе документов на основе структурных, статистических и семантических сигналов.
Phrase Posting List (Постинг-лист фразы)
Инвертированный индекс для конкретной фразы, содержащий список документов, в которых эта фраза встречается.
Query Phrasification (Фразификация запроса)
Процесс интерпретации поискового запроса путем генерации всех возможных разбиений запроса на фразы и выбора наилучших комбинаций.
Segments (Сегменты)
Разделение корпуса документов на подмножества для целей обновления индекса. Используется в механизме Segment Swapping.
Shards (Шарды)
Вертикальное разделение Phrase Posting Lists. Документы внутри списка распределяются по шардам с помощью функции (Shard Assignment Function), гарантирующей, что один и тот же документ всегда попадает в один и тот же шард.
Text Breaks (Текстовые разрывы)
Семантические границы в документе (конец предложения, параграфа, заголовок, изменение шрифта), используемые для определения границ потенциальных фраз.
Hit Position (Позиция попадания)
Категоризация позиции фразы относительно Text Breaks: Initial (начальная), Final (конечная), Exact (точное совпадение с границами), Medial (серединная). Используется при оценке значимости фразы.
Tiers (Уровни)
Горизонтальное группирование Phrase Posting Lists. Фразы назначаются на уровни на основе стоимости их обработки (Query Processing Cost), например, длины списка.
Typeface (Характеристики шрифта)
Визуальные характеристики текста (стиль, размер, капитализация), используемые как сигнал при оценке значимости фразы.

Ключевые утверждения (Анализ Claims)

Важное замечание: Описание патента (Description) очень обширно и описывает полную архитектуру поисковой системы на основе фраз (извлечение, Tiers, Shards, Phrasification). Однако формула изобретения (Claims 1-10) этого конкретного патента узко сфокусирована только на механизме обновления индекса (Index Maintenance).

Claim 1 (Независимый пункт): Описывает метод поддержания индекса фраз.

  1. Предоставление набора Phrase Posting Lists.
  2. Создание нескольких сегментов (Segments), каждый из которых связан с подмножеством документов.
  3. Периодическое обновление каждого сегмента путем:
    • Идентификации фраз в документах сегмента и обновления соответствующих списков.
    • Разделения (Sharding) обновленных списков на Segment Shards (шарды сегмента).
    • Ассоциации каждого Segment Shard с Index Shard (шардом индекса). Один Index Shard связан с несколькими Segment Shards.
  4. Определение недавно обновленного сегмента.
  5. Для обслуживаемого Index Shard:
    • Определение связанных с ним обновленных Segment Shards.
    • Слияние (Merging) обновленных Segment Shards с Index Shard для формирования обновленного Index Shard.
  6. Замена (Swapping) текущего Index Shard на обновленный.

Ядро изобретения, защищенное этим патентом, — это инфраструктурный механизм для непрерывных, инкрементальных обновлений распределенного индекса. Обновляя индекс пакетами (Segments) и объединяя изменения, система избегает полных перестроек индекса и обеспечивает высокую доступность и свежесть данных.

Где и как применяется

Патент охватывает практически все ключевые этапы работы поисковой системы, описанные в документе.

INDEXING – Индексирование и извлечение признаков
Основной этап применения:

  • Phrase Extraction: Phrase Identification Server анализирует контент для выявления валидных фраз, используя Text Breaks и Typeface.
  • Phrase Scoring: Рассчитываются метрики значимости фраз (Document Phrase Score) и, возможно, предварительные оценки релевантности (в рамках Bifurcated Scoring).
  • Index Structuring: Индекс организуется в Tiers (по стоимости) и Shards (по документам).
  • Index Updating: Механизм Segment Swapping (описанный в Claims) управляет обновлением индекса.

QUNDERSTANDING – Понимание Запросов
Применяется Query Phrasification для интерпретации запроса пользователя как набора фраз, преобразуя исходное дерево слов в Boolean Phrase Tree.

RANKING – Ранжирование (Этап Retrieval)
Query Scheduling Module создает оптимизированный план выполнения (Query Schedule), используя структуру Tiers и Shards для эффективного извлечения документов и минимизации межсерверных коммуникаций.

На что влияет

  • Структура контента: Механизм Phrase Extraction напрямую зависит от структуры документа. Четко структурированный контент с явными семантическими границами (заголовки, абзацы, списки, выделения шрифтом) позволяет системе точнее идентифицировать ключевые фразы.
  • Типы контента: Влияет на все типы текстового контента, особенно там, где важны концепции и точные формулировки.
  • Свежесть (Freshness): Механизм Segment Swapping напрямую влияет на скорость попадания нового или обновленного контента в индекс.

Когда применяется

  • Индексация и Извлечение Фраз: Постоянно, при обработке новых и обновленных документов.
  • Обновление индекса (Segment Swapping): Периодически или непрерывно, после обработки нового сегмента и слияния данных.
  • Обработка запроса (Phrasification, Scheduling): В реальном времени при каждом запросе пользователя.

Пошаговый алгоритм

Патент описывает несколько взаимосвязанных процессов. Рассмотрим ключевой процесс для SEO — Извлечение Фраз, детально описанный в Description.

Процесс: Извлечение Фраз (Phrase Extraction)

  1. Сканирование документа: Система итерирует по документу, поддерживая буфер последних N слов (например, N=5-20).
  2. Идентификация кандидатов: Кандидат во фразу (содержимое буфера) фиксируется, когда буфер заполнен или обнаружен текстовый разрыв (Text Break) — семантическая граница (конец предложения, абзаца, заголовок, изменение шрифта).
  3. Сбор данных о кандидате: Для каждой фразы-кандидата фиксируется её расположение (title, body), позиция относительно границ (Initial, Final, Exact, Medial) и характеристики шрифта (Typeface).
  4. Первичная оценка (Scoring): Каждой фразе присваивается оценка (Phrase Score). Exact и Initial попадания, а также расположение в заголовке или выделение шрифтом повышают оценку.
  5. Анализ подфраз (Devolution): Если оценка фразы не превышает порог "сильной фразы" (Strong Phrase Threshold), её оценка распределяется между её подфразами по определенным правилам, чтобы избежать двойного учета. Если порог превышен, оценка не распределяется.
  6. Агрегация по документам: Для каждой фразы собираются её оценки (Document Phrase Scores) по всем документам.
  7. Комбинированная оценка: Рассчитывается общая оценка (Combined Score) фразы на основе всех её Document Phrase Scores.
  8. Валидация фразы: Фраза признается валидной, если выполняется одно из условий:
    • Сильная поддержка (хотя бы в одном документе фраза очень значима).
    • Умеренная поддержка (общая оценка выше порога).
    • Широкая поддержка (фраза встречается в большом количестве документов).
  9. Постобработка: Удаление избыточных фраз и применение лингвистических эвристик.

Какие данные и как использует

Данные на входе

Система активно использует структурные и визуальные данные для извлечения фраз.

  • Контентные факторы: Текст документа (body), заголовки (title), текст ссылок (anchors).
  • Структурные факторы: Семантические границы (Text Breaks): конец предложения, конец абзаца, позиционные границы (конец заголовка). Видимые HTML элементы (таблицы, горизонтальные линии).
  • Мультимедиа (Форматирование): Характеристики шрифта (Typeface): стиль (например, жирный), размер, капитализация (для идентификации имен собственных).
  • Технические факторы: Идентификаторы документов (Document IDs) используются для шардирования (Shard Assignment Function).
  • Пользовательские факторы: Логи поисковых запросов (search query logs) упоминаются как дополнительный источник для извлечения фраз.

Какие метрики используются и как они считаются

  • Document Phrase Score: Оценка значимости фразы внутри документа. Рассчитывается на основе расположения, позиции (Exact>Initial>Medial/Final) и форматирования.
  • Combined Phrase Score: Агрегированная оценка значимости фразы по всему корпусу.
  • Query Processing Cost: Метрика стоимости обработки запроса к списку фразы (например, длина Phrase Posting List). Используется для распределения фраз по уровням (Tiers) и для планирования запросов (Query Scheduling).
  • Phrase Probability (P(p)): Вероятность встретить фразу в индексе. Используется при Query Phrasification.

Формулы:

  • Shard Assignment Function (Пример): ShardID=DocumentID(ModS)Shard ID = Document ID (Mod S)ShardID=DocumentID(ModS).
  • Phrase Scoring Function (для Query Phrasification): S=f(N)∗∏(P(pi)∗C(pi))S = f(N) * \prod (P(pi) * C(pi))S=f(N)∗∏(P(pi)∗C(pi)) (Оценка варианта фразификации зависит от функции количества фраз f(N) и произведения вероятностей и уверенности (C(pi)) для каждой фразы).

Выводы

  1. Фундаментальный сдвиг к Phrase-Based Indexing: Патент описывает архитектуру, полностью построенную вокруг фраз. Это подтверждает стратегический переход Google от индексации отдельных слов к пониманию концепций.
  2. Структура контента критически важна для интерпретации: Процесс Phrase Extraction детально показывает, что Google идентифицирует значимые фразы не только по частоте, но и по их расположению относительно семантических границ (Text Breaks) — заголовков, начал предложений, абзацев и форматирования (Typeface).
  3. Интерпретация запросов как фраз (Phrasification): Google активно пытается интерпретировать запрос как набор наиболее вероятных фраз, а не просто ищет слова из запроса.
  4. Свежесть и доступность как архитектурный приоритет: Механизм Segment Swapping (который является ядром Claims) показывает, как Google решает проблему быстрого обновления индекса без простоя, обеспечивая высокую свежесть (Freshness) выдачи.
  5. Эффективность через сложность архитектуры: Использование Tiers и Shards — это инфраструктурное решение для оптимизации скорости ответа и минимизации вычислительных затрат в распределенной системе.

Практика

Best practices (это мы делаем)

  • Оптимизация под фразы и концепции: Сместить фокус с отдельных ключевых слов на естественные фразы и словосочетания, которые выражают концепции в нише. Стратегия должна строиться вокруг покрытия кластера связанных фраз, так как индекс основан на них.
  • Критическая важность структуры контента: Использовать четкую и логичную структуру документа. Заголовки (H1-Hn), абзацы, списки и таблицы создают семантические границы (Text Breaks), которые помогают системе идентифицировать ключевые фразы и их границы.
  • Акцентирование ключевых фраз в значимых позициях: Размещать наиболее важные фразы в заголовках, начале абзацев (Initial Hit) или как отдельные короткие предложения/пункты списка (Exact Hit). Система придает этим позициям больший вес при Phrase Extraction.
  • Использование форматирования (Typeface): Патент явно указывает, что характеристики шрифта (размер, стиль) учитываются при оценке фраз. Использование логического выделения (например, bold) для ключевых концепций может повысить их Document Phrase Score.
  • Анализ Anchor Text: При построении ссылок (внутренних и внешних) использовать естественные фразы, так как патент упоминает учет Anchor Text при извлечении и оценке фраз.

Worst practices (это делать не надо)

  • Keyword Stuffing и неестественные конструкции: Перечисление ключевых слов или использование неестественных формулировок неэффективно. Система ищет валидные фразы в естественном контексте, ограниченном семантическими границами, а не случайные наборы слов.
  • "Стена текста" (Wall of Text): Публикация длинных блоков текста без форматирования, абзацев и подзаголовков. Это минимизирует количество Text Breaks, снижая шансы на идентификацию важных фраз как Initial или Exact Hits; большинство фраз будут классифицированы как менее значимые Medial Hits.
  • Фокус только на точное вхождение запроса: Из-за Query Phrasification система может по-разному интерпретировать запрос пользователя. Оптимизация только под одну узкую формулировку является рискованной.

Стратегическое значение

Этот патент является одним из фундаментальных документов, подтверждающих переход от лексического поиска к семантическому (начиная с фраз и двигаясь к сущностям). Он демонстрирует, что единица индексации и поиска — это концепция. Для долгосрочной SEO-стратегии это означает, что создание тематического авторитета (Topical Authority) через глубокое раскрытие темы с использованием всего спектра релевантных фраз является ключевым. Также патент подчеркивает, что структура и оформление контента напрямую влияют на его семантическую интерпретацию.

Практические примеры

Сценарий: Оптимизация статьи для идентификации ключевых фраз (Phrase Extraction)

Задача: Убедиться, что система корректно идентифицирует фразу "архитектура поисковой системы" как ключевую концепцию статьи.

Применение (на основе патента):

  1. Title/H1 (Высокий вес, Exact Hit): Использовать фразу в заголовке: "Современная архитектура поисковой системы Google".
  2. Начало абзаца (Initial Hit): Начать ключевой абзац с этой фразы: "Архитектура поисковой системы должна решать задачи масштабируемости..."
  3. Форматирование (Typeface): Выделить фразу жирным шрифтом в тексте: "Ключевым элементом является архитектура поисковой системы."
  4. Пункт списка (Exact Hit): Использовать фразу как отдельный пункт списка при перечислении тем:
    • Извлечение фраз
    • Архитектура поисковой системы
    • Обновление индекса

Ожидаемый результат: За счет использования структурных сигналов (Text Breaks) и форматирования (Typeface) фраза получит высокий Document Phrase Score в процессе индексации, что увеличит её значимость для ранжирования.

Вопросы и ответы

Означает ли этот патент, что Google индексирует фразы, а не отдельные слова?

Да, описание патента детально раскрывает архитектуру системы информационного поиска, которая полностью построена на основе индексации фраз (Phrase-based indexing). Для каждой идентифицированной значимой фразы создается свой постинг-лист (Phrase Posting List). Это фундаментальное отличие от систем, индексирующих только отдельные слова.

Как, согласно патенту, Google определяет, является ли последовательность слов «настоящей» фразой?

Google использует процесс Phrase Extraction, анализируя, как часто и каким образом фраза используется в документах. Ключевую роль играют структурные сигналы: расположение в заголовках, позиция относительно начала/конца предложения или абзаца (Text Breaks), а также форматирование (Typeface). Если фраза часто появляется в таких значимых позициях, она получает высокий Document Phrase Score и признается валидной.

Влияет ли форматирование текста (жирный шрифт, размер) на индексацию фраз?

Да, согласно описанию процесса извлечения фраз. Характеристики шрифта (Typeface characteristics) используются при расчете Document Phrase Score. Фразы с выделенным форматированием (например, больший размер, полужирный шрифт) получают более высокую оценку, что повышает их значимость.

Что означают позиции Initial, Exact и Medial Hits при извлечении фраз?

Это классификация позиции фразы относительно семантических границ (Text Breaks). Exact Hit — фраза точно совпадает с границами (например, это весь заголовок или отдельное предложение). Initial Hit — фраза в начале границы (начало абзаца). Medial Hit — фраза в середине текста. Exact и Initial получают больший вес, поэтому важно использовать ключевые фразы в начале абзацев или в заголовках.

Что такое Query Phrasification и почему это важно для SEO?

Это процесс интерпретации запроса пользователя. Google генерирует все возможные комбинации фраз из запроса и оценивает, какая комбинация наиболее вероятна. Например, запрос "New York restaurants" может быть интерпретирован как ["New York" AND "restaurants"]. Это важно, потому что система ищет концепции, и оптимизация должна учитывать, как Google может интерпретировать целевые запросы.

На чем именно сфокусирована формула изобретения (Claims) этого патента?

Несмотря на очень широкое описание всей архитектуры в тексте патента, Claims защищают только механизм обновления индекса — Segment Swapping. Это инфраструктурный метод, позволяющий Google непрерывно обновлять распределенный индекс без остановки работы поиска, что обеспечивает высокую свежесть выдачи.

Что такое Tiers и Shards и как они влияют на SEO?

Tiers (Уровни) и Shards (Шарды) — это элементы инфраструктуры Google для оптимизации скорости поиска и снижения нагрузки. Tiers группируют фразы по частотности, а Shards разделяют списки документов. Напрямую на SEO-тактики они не влияют, но они обеспечивают эффективность системы, которая обрабатывает фразы.

Что такое бифуркационная модель оценки (Bifurcated Scoring)?

Это модель, где оценка релевантности разделена на два этапа. Первый этап (Phrase Relevance Score) происходит во время индексации и определяет, насколько фраза релевантна документу. Второй этап происходит во время поиска. Это позволяет значительно ускорить процесс финального ранжирования.

Как этот патент связан с современным фокусом Google на сущностях (Entities)?

Этот патент можно рассматривать как ранний и фундаментальный шаг к семантическому поиску. Индексация фраз — это переход от слов к концепциям. Современный поиск по сущностям является логическим развитием этой идеи, где идентифицированные концепции (фразы) связываются с конкретными объектами реального мира в Графе Знаний.

Какова главная мысль этого патента для Senior SEO-стратега?

Главная мысль заключается в том, что структура и семантика контента неразрывно связаны. Google индексирует и ищет концепции (фразы), а не слова. Для успешного продвижения необходимо создавать четко структурированный контент, который помогает поисковой системе точно идентифицировать ключевые фразы темы, используя заголовки, абзацы и форматирование для выделения семантических границ.

Похожие патенты

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента
Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.
  • US7693813B1
  • 2010-04-06
  • Индексация

  • Семантика и интент

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз
Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.
  • US8166045B1
  • 2012-04-24
  • Индексация

  • Семантика и интент

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google разбирает запрос на значимые фразы, предпочитая длинные концепции отдельным словам
Google использует систему для интерпретации поисковых запросов, которая разбивает текст запроса на все возможные комбинации фраз (фразификации). Система оценивает эти комбинации, используя вероятность существования фразы в индексе и предпочитая интерпретации с меньшим количеством длинных фраз. Это позволяет поисковой системе понимать запрос как набор концепций, а не просто набор ключевых слов.
  • US8166021B1
  • 2012-04-24
  • Семантика и интент

  • Индексация

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Популярные патенты

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании
Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.
  • US8719276B1
  • 2014-05-06
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы
Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.
  • US11769017B1
  • 2023-09-26
  • EEAT и качество

  • Ссылки

  • SERP

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные
Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.
  • US20150242512A1
  • 2015-08-27
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Как Google автоматически определяет важность различных частей веб-страницы (DOM-узлов) для ранжирования
Google анализирует коллекции похожих структурированных документов (например, товарных карточек) и создает общую модель (DOM). Затем система изучает логи запросов и кликов, чтобы понять, какие части структуры (заголовки, основной контент, реклама) чаще всего содержат ключевые слова из успешных запросов. Этим частям присваивается больший вес при расчете релевантности.
  • US8538989B1
  • 2013-09-17
  • Семантика и интент

  • Индексация

  • Структура сайта

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
  • US8392429B1
  • 2013-03-05
  • Ссылки

  • SERP

  • EEAT и качество

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов
Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.
  • US8762363B1
  • 2014-06-24
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы
Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.
  • US20150261858A1
  • 2015-09-17
  • Local SEO

  • Семантика и интент

  • Поведенческие сигналы

seohardcore