SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента

INDEX SERVER ARCHITECTURE USING TIERED AND SHARDED PHRASE POSTING LISTS (Архитектура индексных серверов с использованием многоуровневых и шардированных списков фраз)
  • US7693813B1
  • Google LLC
  • 2007-03-30
  • 2010-04-06
  • Индексация
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.

Описание

Какую проблему решает

Патент решает две фундаментальные проблемы. Во-первых, он преодолевает ограничения традиционного индексирования по отдельным словам, которое неэффективно для понимания концепций, выраженных фразами. Во-вторых, он решает сложную инфраструктурную задачу: как масштабируемо хранить массивный индекс фраз и быстро обрабатывать запросы, не перегружая серверы и сеть. Система снижает время ответа и минимизирует межсерверный трафик (inter-server communication).

Что запатентовано

Запатентована система информационного поиска, использующая фразы для индексирования и поиска документов. Система включает метод извлечения "реальных" фраз (Phrase Extraction) из контента и архитектуру для хранения индекса, использующую Уровни (Tiers) и Шарды (Shards). Tiers группируют фразы по стоимости обработки, а Shards распределяют данные по серверам. Также описан процесс интерпретации запросов (Phrasification) и оптимизации их выполнения (Query Scheduling).

Как это работает

Система функционирует в несколько этапов:

  • Извлечение фраз (Phrase Extraction): Анализ документов для выявления устойчивых словосочетаний. Система оценивает кандидатов на основе их расположения в документе (заголовки), форматирования и статистической значимости.
  • Индексирование (Tiering и Sharding): Создаются списки документов (Phrase Posting Lists). Они назначаются на разные уровни (Tiers) в зависимости от их длины/стоимости и делятся на части (Shards) для распределенного хранения.
  • Понимание запроса (Phrasification): Входящие запросы разбиваются на наиболее вероятные комбинации известных фраз.
  • Выполнение запроса (Query Scheduling/Execution): Создается оптимизированный план выполнения, который использует архитектуру Tiers и Shards для быстрого поиска пересечений документов с минимальным обменом данными.

Актуальность для SEO

Высокая. Концепции фразового индексирования, шардирования и многоуровневой архитектуры являются фундаментальными для современных поисковых систем. Хотя методы извлечения фраз эволюционировали (например, с помощью нейронных сетей), описанные принципы построения масштабируемого семантического поиска остаются центральными для Google.

Важность для SEO

Патент имеет высокое стратегическое и умеренное тактическое значение (7/10). Хотя большая его часть посвящена инфраструктуре (Tiers/Shards), он детально описывает процесс Phrase Extraction. Это дает конкретные указания на то, какие сигналы в контенте (структура, форматирование) помогают Google идентифицировать значимые фразы. Понимание этого механизма критически важно для создания контента, ориентированного на концепции, а не на ключевые слова.

Детальный разбор

Термины и определения

Phrase (Фраза)
Последовательность слов, идентифицированная системой как устойчивое словосочетание или концепция («реальная фраза»), а не случайная комбинация слов.
Phrase Extraction (Извлечение фраз)
Процесс идентификации валидных фраз в коллекции документов на основе структурных и статистических сигналов.
Text Breaks (Разрывы текста)
Семантические маркеры в документе (границы предложений, абзацев, HTML-элементы, изменения шрифта), используемые для определения границ кандидатов в фразы.
Document Phrase Score (Оценка фразы в документе)
Метрика, отражающая вероятность того, что кандидат является реальной фразой, на основе его использования внутри одного документа (позиция, форматирование).
Phrase Posting List (Список документов фразы)
Структура в индексе, содержащая список документов, включающих данную фразу.
Tiers (Уровни)
Логические группы индексных серверов. Фразы назначаются на уровни на основе стоимости их обработки (Query Cost), например, длины списка.
Shards (Шарды)
Партиции (разделы) Phrase Posting List. Документы внутри списка распределяются по шардам.
Shard Assignment Function (Функция назначения шарда)
Алгоритм (например, DocID Mod S), гарантирующий, что данный документ всегда назначается одному и тому же шарду.
Phrasification (Фразификация)
Процесс анализа входного запроса и его разделения на набор возможных интерпретаций, состоящих из фраз.
Query Schedule (План выполнения запроса)
Оптимизированное дерево запроса, аннотированное информацией о том, на каких индексных серверах должны выполняться его узлы.

Ключевые утверждения (Анализ Claims)

Патент в первую очередь защищает архитектуру хранения индекса (Tiers и Shards), но его описание раскрывает всю систему, включая извлечение фраз и обработку запросов.

Claim 1 (Независимый пункт): Описывает метод индексирования с многоуровневой архитектурой, основанной на длине списков фраз.

  1. Система определяет длину phrase posting list.
  2. Если длина меньше первого порога (T1), список назначается серверам первого уровня (first tier).
  3. Если длина больше T1, список делится на шарды (Shards) и назначается серверам второго уровня (second tier).
  4. Если длина больше второго порога (T2 > T1), список делится на шарды и назначается серверам третьего уровня (third tier).
  5. Ключевое условие: Количество серверов (и шардов) третьего уровня является целым кратным (integer multiple) количества серверов второго уровня.

Это условие является ядром инфраструктурной оптимизации. Оно гарантирует, что сервер на уровне N должен взаимодействовать только с ограниченным, предсказуемым набором серверов на уровне N+1. Это минимизирует сетевой трафик и ускоряет обработку запросов, требующих данных с разных уровней.

Claim 8 (Независимый пункт): Обобщает архитектуру для M уровней.

  1. Определяется M уровней (Tiers).
  2. Каждому уровню назначается минимальная длина L (увеличивается с уровнем) и количество шардов S.
  3. Условие кратности: S уровня M является целым кратным S уровня M-1.
  4. Списки назначаются на уровни в зависимости от их длины.
  5. Списки делятся на S шардов с использованием Shard Assignment Function, которая гарантирует, что документ всегда попадает в один и тот же шард.

Где и как применяется

Изобретение описывает комплексную систему и затрагивает несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
Это ключевой этап. Здесь происходит:

  • Phrase Extraction: Система анализирует контент и структуру документов для идентификации валидных фраз.
  • Архитектура индекса: Построение Phrase Posting Lists и их распределение по инфраструктуре Tiers и Shards на основе длины/стоимости.

QUNDERSTANDING – Понимание Запросов
На этом этапе применяется Phrasification. Входящий запрос анализируется для определения наилучшего набора фраз, который отражает интент пользователя.

RANKING – Ранжирование (Этапы Retrieval/Отбора кандидатов)
Архитектура напрямую влияет на скорость отбора кандидатов. Процессы Query Scheduling и Query Optimization используют знание о расположении данных в Tiers и Shards для минимизации задержек и сетевого трафика при поиске релевантных документов.

Входные данные:

  • Сырой контент документов (для Phrase Extraction).
  • Идентификаторы документов (для Sharding).
  • Запрос пользователя (для Phrasification и Scheduling).

Выходные данные:

  • База данных валидных фраз.
  • Распределенный индекс (Tiers/Shards).
  • Оптимизированный план выполнения запроса (Query Schedule).

На что влияет

  • Все типы контента и запросов: Патент описывает фундаментальную единицу индексирования (фразы) и архитектуру доступа к индексу, поэтому он влияет на обработку всех документов и запросов.
  • Структура и форматирование контента: Механизм Phrase Extraction явно использует структурные сигналы (заголовки, форматирование, семантические границы) для идентификации фраз, что делает структуру контента важным фактором для правильной индексации концепций.

Когда применяется

  • Во время индексирования: Процесс Phrase Extraction применяется при обработке каждого документа. Логика Tiers/Shards применяется при сохранении данных в индекс.
  • Во время обработки запроса: Процессы Phrasification, Query Scheduling и Query Execution применяются при каждом запросе пользователя.

Пошаговый алгоритм

Процесс А: Извлечение фраз (Phrase Extraction)

  1. Извлечение кандидатов: Система сканирует документ, сохраняя буфер последних N слов. Кандидаты генерируются при заполнении буфера или при обнаружении Text Breaks (семантических границ: конец предложения/абзаца, HTML-элементы, смена шрифта).
  2. Сбор информации о кандидате: Для каждого кандидата фиксируется его позиция (Initial, Final, Exact, Medial), местоположение (Title, Body) и характеристики шрифта (typeface characteristics).
  3. Начальный скоринг: Кандидату присваивается Document Phrase Score. Оценка повышается за позицию Exact, расположение в Title, выделение шрифтом или использование в анкорном тексте (hyperlink anchor).
  4. Анализ субфраз (Devolution): Если фраза не классифицирована как "сильная" (Strong Phrase, оценка выше порога), ее оценка распределяется (devolves) на ее субфразы. Если фраза "сильная", оценка субфраз может быть пессимизирована, чтобы избежать двойного учета.
  5. Междокументная оценка: Document Phrase Scores агрегируются по всему корпусу в Combined Score.
  6. Валидация фразы: Фраза признается валидной, если она имеет: (1) сильную поддержку хотя бы в одном документе, ИЛИ (2) умеренную общую поддержку (высокий Combined Score), ИЛИ (3) очень широкую поддержку (встречается в большом количестве документов).

Процесс Б: Индексирование (Tiering и Sharding)

  1. Определение стоимости: Для валидной фразы определяется Query Cost (например, длина ее Phrase Posting List).
  2. Назначение уровня (Tier Assignment): Фраза назначается на уровень (Tier) в соответствии с ее стоимостью.
  3. Шардирование (Sharding): Список документов делится на S шардов (количество S определяется уровнем и кратно S предыдущего уровня). Используется Shard Assignment Function (например, DocID Mod S) для консистентного распределения документов.
  4. Хранение: Шарды сохраняются на индексных серверах соответствующего уровня.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Активно используются на этапе Phrase Extraction. Учитываются:
    • Текстовые последовательности.
    • Местоположение (Title, Body).
    • Анкорный текст (Anchor text).
  • Структурные факторы: Критически важны для Phrase Extraction. Учитываются Text Breaks:
    • Границы предложений и абзацев.
    • Видимые HTML-элементы (таблицы, разделители).
    • Форматирование (typeface characteristics: шрифт, размер, стиль).
  • Технические факторы: Идентификаторы документов (Document Identifiers) используются для Shard Assignment Function.

Какие метрики используются и как они считаются

  • Document Phrase Score: Рассчитывается на основе взвешивания позиции (Exact, Initial, Medial, Final), местоположения и форматирования кандидата в фразы.
  • Strong Phrase Threshold (Порог сильной фразы): Используется для контроля анализа субфраз (devolution).
  • Combined Score: Агрегация (сумма или среднее) Document Phrase Scores по корпусу.
  • Query Cost: Метрика для назначения Tiers и оптимизации запросов. Может быть длиной Phrase Posting List или расчетной стоимостью обработки.
  • Вероятность фразы (P(pi)): Используется при Phrasification для оценки интерпретаций запроса.
  • Shard Assignment Function: Функция для распределения документов, например, DocID (Mod S)DocID\ (Mod\ S)DocID (Mod S).
  • Tier Relationship Formula: Sn=k∗Sn−1S_n = k * S_{n-1}Sn​=k∗Sn−1​ (количество шардов на уровне n кратно количеству шардов на уровне n-1).

Выводы

  1. Фундаментальный сдвиг к фразовому индексированию: Патент описывает не просто архитектуру хранения, а целую систему, спроектированную вокруг фраз как основной единицы индексирования и поиска. Это подтверждает стратегический фокус на понимании концепций, а не только ключевых слов.
  2. Важность структурных сигналов для извлечения фраз: Процесс Phrase Extraction явно использует структурные и визуальные элементы документа (заголовки, форматирование, Text Breaks) для идентификации и оценки значимости фраз. Это имеет прямые последствия для SEO-оптимизации контента.
  3. Инфраструктура для масштабирования (Tiers и Shards): Tiers (группировка по стоимости) и Shards (партиционирование данных) — это инженерные решения, которые делают фразовый поиск быстрым и масштабируемым, минимизируя межсерверное взаимодействие.
  4. Оптимизация понимания запросов (Phrasification): Система активно интерпретирует запросы, разбивая их на наиболее вероятные комбинации известных фраз, что позволяет точнее определить интент пользователя.
  5. Консистентное шардирование как ключ к эффективности: Гарантия того, что документ всегда находится в одном и том же шарде (Shard Assignment Function), критически важна для быстрого пересечения списков документов при сложных запросах.

Практика

Best practices (это мы делаем)

Хотя патент описывает инфраструктуру (Tiers/Shards), на которую SEO не влияет, он также детализирует процесс Phrase Extraction, который имеет прямые тактические применения.

  • Оптимизация под Phrase Extraction: Активно используйте структурные сигналы для выделения ключевых концепций. Патент указывает, что расположение в заголовке (Title) и в начале документа повышает Document Phrase Score.
  • Использование форматирования для выделения фраз: Применяйте локальное форматирование (например, , ). Патент явно упоминает, что характеристики шрифта (typeface characteristics: стиль, размер) учитываются при оценке значимости фраз.
  • Четкая семантическая структура (Text Breaks): Используйте чистый HTML, ясные заголовки, абзацы и списки. Эти элементы служат как Text Breaks — семантические границы, которые система использует для определения начала и конца кандидатов в фразы. Четкая структура облегчает извлечение концепций.
  • Использование фраз в анкорном тексте: Патент подтверждает, что использование фразы в качестве анкора (hyperlink anchor) также увеличивает ее оценку при извлечении.
  • Стратегический фокус на концепциях: Создавайте контент, ориентированный на естественные фразы и устойчивые словосочетания. Понимайте, что система спроектирована для индексирования именно этих элементов.

Worst practices (это делать не надо)

  • Игнорирование структуры контента: Создание «стены текста» без четкой иерархии, форматирования и семантических границ затрудняет процесс Phrase Extraction и снижает способность системы идентифицировать ключевые фразы страницы.
  • Keyword Stuffing и неестественный язык: Попытки манипулировать плотностью отдельных слов контрпродуктивны. Система ищет когерентные фразы, подтвержденные структурными сигналами и статистикой корпуса, а не случайные наборы слов.
  • Неестественное разделение фраз: Разбивка устойчивых словосочетаний версткой или неестественным синтаксисом может помешать их распознаванию как единой концепции.

Стратегическое значение

Патент подтверждает, что инфраструктура Google изначально оптимизирована для работы с фразами как с базовыми единицами смысла. Это демонстрирует долгосрочную стратегию перехода к семантическому поиску задолго до появления современных моделей NLP. Для SEO это подчеркивает первостепенную важность работы над контентом, который четко структурирован и естественно использует язык для передачи концепций.

Практические примеры

Сценарий: Оптимизация статьи для улучшения Phrase Extraction

Задача: Улучшить индексацию ключевых концепций в статье о "регенеративной медицине".

  1. Идентификация фраз: Определить ключевые устойчивые фразы: "стволовые клетки", "тканевая инженерия", "факторы роста", "внеклеточный матрикс".
  2. Стратегическое размещение: Убедиться, что основные фразы присутствуют в Title и H1.
  3. Структурное выделение: Использовать фразы в подзаголовках (H2/H3). Например, вместо "Использование матрикса" использовать заголовок "Роль внеклеточного матрикса".
  4. Локальное форматирование: При первом упоминании ключевой фразы в абзаце применить выделение (например, внеклеточный матрикс). Согласно патенту, это повышает Document Phrase Score.
  5. Обеспечение Text Breaks: Убедиться, что после ключевых абзацев и разделов есть четкие семантические границы (например, не использовать
    вместо

    для разделения мыслей), чтобы облегчить определение границ фраз.

  6. Ожидаемый результат: Система с большей вероятностью идентифицирует эти словосочетания как валидные фразы и присвоит им более высокую значимость для данного документа.

Вопросы и ответы

Что такое Phrase Extraction и как он влияет на мой контент?

Phrase Extraction — это процесс, с помощью которого Google идентифицирует устойчивые словосочетания («реальные фразы») в тексте. Патент указывает, что система использует структурные сигналы: расположение фразы (Title, начало документа), форматирование (шрифт, стиль) и семантические границы (абзацы, предложения). Оптимизация структуры и выделение ключевых концепций помогает Google правильно извлечь и оценить фразы на вашей странице.

Означает ли этот патент, что нужно отказаться от оптимизации под ключевые слова?

Он означает, что оптимизация должна сместиться от плотности отдельных слов к использованию естественных фраз и концепций. Система индексирует именно фразы. Ваша стратегия должна фокусироваться на том, чтобы помочь системе распознать эти фразы как значимые, используя четкую структуру и естественный язык.

Что такое Tiers и Shards и как они влияют на ранжирование?

Tiers (Уровни) и Shards (Шарды) — это внутренняя инфраструктура Google для эффективного хранения индекса и ускорения поиска. Tiers группируют фразы по частотности, а Shards распределяют данные по серверам. Они не влияют на ранжирование напрямую, но обеспечивают техническую возможность для работы быстрого и масштабируемого фразового поиска.

Что такое "Text Breaks" и почему они важны для SEO?

Text Breaks — это семантические границы в тексте: конец предложения, абзаца, заголовок, элементы списка или изменение форматирования. Они критически важны, потому что алгоритм Phrase Extraction использует их для определения начала и конца потенциальных фраз. Четкая и логичная структура текста помогает системе правильно выделить ключевые концепции.

Стоит ли использовать жирный шрифт () для выделения фраз?

Да, согласно патенту. В описании процесса Phrase Extraction указано, что характеристики шрифта (typeface characteristics), такие как стиль и размер, учитываются при расчете Document Phrase Score. Выделение ключевых фраз может повысить их значимость в глазах системы на этапе индексации.

Что такое Phrasification (Фразификация) запроса?

Это процесс интерпретации запроса пользователя. Система не ищет отдельные слова, а пытается разбить запрос на наиболее вероятную комбинацию известных ей фраз. Например, запрос "apple pie recipe" скорее всего будет интерпретирован как ["apple pie"] AND ["recipe"]. Это позволяет точнее понять интент.

В чем заключается ключевая оптимизация инфраструктуры в этом патенте?

Ключевая оптимизация — это иерархическое шардирование, где количество шардов на верхнем уровне кратно количеству шардов на нижнем уровне. В сочетании с консистентной функцией шардирования (документ всегда в одном шарде), это значительно сокращает объем данных, передаваемых между серверами при выполнении запроса.

Как система определяет, является ли фраза "сильной" (Strong Phrase)?

Фраза считается "сильной", если ее Document Phrase Score превышает определенный порог. Это обычно происходит, если фраза встречается в очень значимых местах (например, в Title) или имеет сильное форматирование. "Сильные" фразы с меньшей вероятностью будут разбиты на субфразы при анализе.

Актуален ли этот патент, учитывая развитие BERT и MUM?

Да, актуален. BERT и MUM улучшили понимание языка и контекста, но им по-прежнему нужна эффективная инфраструктура для хранения и доступа к индексу. Концепции фразового индексирования, шардирования и многоуровневого хранения остаются фундаментальными для масштабируемости поиска.

Какова роль Анны Паттерсон (Anna Patterson) в этом патенте?

Анна Паттерсон — один из ключевых изобретателей и известный эксперт в области информационного поиска, внесшая значительный вклад в развитие семантического поиска и архитектуры поисковых систем. Ее участие подчеркивает важность этого патента для перехода Google к системам, ориентированным на понимание фраз и концепций.

Похожие патенты

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
  • US7702614B1
  • 2010-04-20
  • Индексация

  • Свежесть контента

  • Семантика и интент

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз
Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.
  • US8856138B1
  • 2014-10-07
  • Индексация

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи
Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.
  • US8407239B2
  • 2013-03-26
  • Семантика и интент

Как Google использует гибридную архитектуру индекса (Hybrid Sharding) для баланса скорости, эффективности и обновления поиска
Google использует гибридную архитектуру индекса (Hybrid-Sharded Index), комбинирующую шардирование по документам и по терминам. Это позволяет оптимизировать баланс между операциями ввода-вывода и сетевым трафиком. Патент также описывает сложный механизм обновления этого распределенного индекса, позволяющий поддерживать доступность и согласованность данных (атомарность) во время внесения изменений.
  • US9501506B1
  • 2016-11-22
  • Индексация

Популярные патенты

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные
Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.
  • US20150242512A1
  • 2015-08-27
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах
Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.
  • US20180113919A1
  • 2018-04-26
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска
Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.
  • US20170277702A1
  • 2017-09-28
  • Семантика и интент

  • Local SEO

  • Персонализация

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска
Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.
  • US8959083B1
  • 2015-02-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок
Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.
  • US7509344B1
  • 2009-03-24
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов
Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.
  • US7610282B1
  • 2009-10-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

seohardcore