Как Google использует многоуровневую архитектуру индекса (Standard и Extended) для баланса скорости, стоимости и полноты поиска

SYSTEM AND METHOD FOR SEARCHING AN EXTENDED DATABASE (Система и метод поиска в расширенной базе данных)

US7174346B1
Google LLC
2003-09-30
2007-02-06

Индексация

Патент Google описывает архитектуру поиска с двумя уровнями индексации. Standard Index (основной, быстрый) содержит авторитетные документы (высокий PageRank) и обрабатывает большинство запросов. Extended Index (дополнительный, медленный) содержит менее важные или редкие документы. Система обращается к Extended Index только тогда, когда в Standard Index недостаточно качественных результатов, обеспечивая баланс скорости и максимального охвата.

Какую проблему решает

Патент решает фундаментальную проблему баланса между полнотой поискового индекса (Recall), скоростью ответа (Latency) и стоимостью инфраструктуры. Поиск по всему объему проиндексированных данных при каждом запросе требует огромных ресурсов и увеличивает задержку. Изобретение предлагает архитектуру, которая позволяет быстро обрабатывать большинство запросов, используя высокопроизводительный основной индекс, и обращаться к более полному, но менее реплицированному индексу только при необходимости.

Что запатентовано

Запатентована архитектура поисковой системы с многоуровневым индексом (Tiered Indexing). Индекс разделен на Standard Index (Стандартный) и Extended Index (Расширенный). Standard Index многократно реплицируется для скорости и содержит высокоприоритетные документы. Extended Index менее реплицирован, содержит менее распространенные или «obscure» (малоизвестные) документы. Ключевым является механизм условного поиска: Extended Index задействуется только если результаты стандартного поиска не соответствуют определенным критериям (predefined criteria).

Как это работает

Система работает по каскадному принципу:

Приоритезация (Индексирование): Документы распределяются по индексам. Патент указывает, что документы в Extended Index в среднем имеют более низкий Page Rank.
Стандартный поиск: Запрос сначала обрабатывается быстрым Standard Backend.
Оценка Сигнала: Компонент Mixer анализирует результаты и генерирует Signal (например, количество результатов, их Query Scores).
Условный Расширенный Поиск: Если Signal соответствует критериям (например, результатов мало), инициируется поиск в Extended Backend.
Оптимизация: В Extended Backend используется Partition Index для направления запроса только на те серверы, которые содержат нужные термины.
Агрегация: Результаты из обоих индексов объединяются и возвращаются пользователю.

Актуальность для SEO

Высокая (Концептуально). Хотя патент подан в 2003 году, фундаментальный принцип многоуровневого индексирования (Tiered Indexing) — разделение данных на «горячие» (быстрые, важные) и «холодные» (медленные, менее важные) — остается критически важным для крупномасштабных систем. Учитывая ключевых изобретателей (Jeffrey Dean, Sanjay Ghemawat), эти концепции лежат в основе инфраструктуры Google.

Важность для SEO

Патент имеет высокое стратегическое значение для понимания инфраструктуры индексации. Он не описывает алгоритмы ранжирования, но демонстрирует, что Google архитектурно разделяет документы по важности, используя для этого Page Rank. Понимание разделения на Standard и Extended Index (часто ассоциируемый с Supplemental Index) критически важно для стратегий индексации и авторитетности. Оно подтверждает, что не все проиндексированные страницы имеют одинаковый статус и доступность для ранжирования.

Термины и определения

Standard Index (Стандартный индекс) / Standard Backend: Основной индекс системы. Высоко реплицирован (multiple instances) для скорости и отказоустойчивости. Содержит приоритетные документы. Патент указывает, что партиции с документами, имеющими высокий Page Rank, могут реплицироваться чаще.
Extended Index (Расширенный индекс) / Extended Backend: Дополнительный индекс. Содержит «относительно необычные или малоизвестные документы» (uncommon or obscure documents). Имеет значительно меньше реплик, чем Standard Index. Документы в этом индексе в среднем имеют более низкий Page Rank.
Mixer (Смеситель): Компонент управления поиском. Направляет запросы, анализирует результаты из Standard Index, генерирует Signal, принимает решение о запуске поиска в Extended Index и агрегирует финальные результаты.
Signal (Сигнал): Данные, полученные в результате поиска по Standard Index. Используются для принятия решения о необходимости расширенного поиска.
Predefined Criteria / Signal Threshold Value (Предопределенные критерии): Условия активации расширенного поиска. Примеры: мало результатов, низкие Query Scores, неудовлетворенность пользователя, низкая нагрузка на систему.
Page Rank: Явно упоминается в патенте. Используется как критерий для организации индексов (влияет на репликацию в Standard и характеризует документы в Extended) и для усечения (truncation) результатов поиска при их избытке.
Query Score (Оценка запроса): Оценка релевантности документа запросу. Используется для сортировки и как один из возможных сигналов.
Partition Index (Индекс партиций): Структура данных (используется в Extended Balancer), которая мапирует термины на суб-партиции индекса. Указывает, какие суб-партиции содержат определенные термины.
Balancer Filter (Фильтр балансировщика): Механизм, использующий Partition Index для направления запроса только на релевантные индексные серверы, повышая эффективность поиска в Extended Index.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод условного расширенного поиска в системе с разным уровнем репликации.

Получение запроса.
Поиск в Standard Index (который многократно реплицирован).
Обнаружение сигнала (detecting a signal) на основе этого поиска.
Если сигнал соответствует предопределенным критериям (predefined criteria):
1. Выполняется поиск в Extended Index. Ключевое условие: Количество инстансов Extended Index меньше, чем Standard Index.
2. Получение и передача расширенных результатов.

Claim 2 (Зависимый от 1): Уточняет ключевой сигнал.

Обнаружение сигнала включает определение того, что поиск в Standard Index дал меньше предопределенного числа результатов.

Claim 5 (Зависимый от 1): Уточняет сигнал поведения пользователя.

Сигнал может основываться на определении неудовлетворенности пользователя стандартными результатами (например, когда пользователь повторно выбирает кнопку «следующий набор результатов»).

Claims 3, 4, 6 (Зависимые от 1): Уточняют сигналы, связанные с ресурсами.

Сигнал может основываться на оценке стоимости (cost) выполнения расширенного поиска (Claim 3, 4) или текущей нагрузки (load) на Extended Index (Claim 6). Поиск выполняется, если они ниже порога.

Claim 9 (Зависимый от 8): Уточняет сигнал качества.

Сигнал может основываться на том, что Query Score стандартных результатов ниже предопределенного лимита.

Claim 18 (Независимый пункт): Описывает архитектуру распределенной системы.

Множество стандартных поисковых движков (каждый с локальным Standard Index) используют общий (shared) Extended Index, обращаясь к нему при срабатывании сигнала. Это подчеркивает, что один Extended Index обслуживает множество Standard Backends.

Где и как применяется

Изобретение описывает фундаментальную архитектуру, затрагивающую несколько этапов поиска.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит классификация документов и их распределение между Standard Index и Extended Index. Патент указывает, что это решение связано с важностью документов: документы в Extended Index в среднем имеют более низкий Page Rank. Документы с высоким Page Rank в Standard Index могут реплицироваться чаще.

RANKING – Ранжирование (Этап Retrieval/Отбор кандидатов)
Первоначальный отбор кандидатов всегда выполняется в Standard Index.

METASEARCH – Метапоиск и Смешивание
Ключевой этап применения логики. Компонент Mixer анализирует результаты стандартного поиска (Signal).

Принятие решения: Если Signal соответствует критериям, Mixer инициирует второй поиск в Extended Backend.
Оптимизация Расширенного Поиска: Extended Balancer использует Balancer Filter и Partition Index для эффективного поиска только в релевантных партициях.
Смешивание (Blending): Mixer агрегирует результаты из обоих индексов для формирования финальной выдачи.

Входные данные:

Поисковый запрос.
Результаты из Standard Index (документы, Query Scores).
(Опционально) Данные о поведении пользователя и нагрузке системы.

Выходные данные:

Агрегированный список результатов поиска из одного или обоих индексов.

На что влияет

Специфические запросы: Наибольшее влияние на длиннохвостые (long-tail), редкие и ультра-нишевые запросы, по которым в основном индексе мало информации.
Конкретные типы контента: Влияет на видимость контента, классифицированного как менее важный (низкий Page Rank), малоизвестный («obscure») или новый. Такой контент с большей вероятностью находится в Extended Index.

Когда применяется

Поиск в Extended Index применяется условно, при срабатывании триггеров (Signal meets Predefined Criteria):

Недостаток количества: Когда Standard Index возвращает меньше порогового числа результатов (например, < 10). (Claim 2)
Недостаток качества: Когда Query Scores топовых результатов из Standard Index ниже порога. (Claim 9)
Неудовлетворенность пользователя: Когда фиксируются поведенческие сигналы, например, запрос следующих страниц выдачи. (Claim 5)
Ресурсы системы: Когда нагрузка на Extended Backend низкая или стоимость выполнения запроса приемлема. (Claims 3, 4, 6)

Пошаговый алгоритм

Процесс обработки запроса

Получение запроса: Query Server передает запрос в Mixer.
Стандартный Поиск: Mixer проверяет Cache. Если нет, запрос направляется в Standard Backend. Standard Index Servers возвращают результаты.
Оценка Сигнала: Mixer анализирует результаты (количество, Query Scores) и генерирует Signal.
Принятие решения: Mixer сравнивает Signal с Predefined Criteria.
- Если НЕТ (результаты ОК): Перейти к шагу 8.
- Если ДА (результаты не ОК): Инициировать расширенный поиск (Шаг 5).
Расширенный Поиск: Mixer направляет запрос в Extended Mixer. Проверяется Extended Cache.
Оптимизация (Фильтрация): Если в кэше нет, запрос идет в Extended Balancer, который использует Partition Index и Balancer Filter.
1. Для каждого термина определяется карта суб-партиций (Map), содержащих термин.
2. Карты объединяются булевой логикой запроса (Combined Map).
3. Запрос направляется только на Extended Index Servers, указанные в Combined Map.
Получение Расширенных Результатов: Результаты возвращаются в основной Mixer.
Агрегация: Mixer объединяет стандартные и расширенные результаты.
Генерация сниппетов и Возврат: Запрашиваются сниппеты у Document Servers (Standard и/или Extended), и финальная выдача возвращается пользователю.

Какие данные и как использует

Данные на входе

Ссылочные факторы (Авторитетность): Page Rank. Критически важен. Используется для: (1) Распределения документов между Standard Index (высокий PR) и Extended Index (низкий PR); (2) Усечения результатов поиска (выбор Топ-N по PR).
Контентные факторы: Термины (Terms) из документов используются для построения всех индексов, включая Partition Index.
Поведенческие факторы: Поведение пользователя (например, запрос следующих страниц выдачи) может использоваться как Signal для активации расширенного поиска (Claim 5).
Системные данные: Текущая нагрузка (load) на Extended Backend и расчетная стоимость (cost) запроса могут использоваться как Signal (Claims 3, 4, 6).

Какие метрики используются и как они считаются

Query Score (Оценка запроса): Оценка релевантности документа. Используется для сортировки и как Signal (если оценки низкие).
Количество результатов: Подсчет документов в Standard Index. Ключевой Signal (если мало результатов).
Partition Map (Карта партиций): Битовая карта или список, указывающий наличие термина в суб-партиции. Используется для оптимизации поиска в Extended Index.
Signal Threshold Value (Пороговые значения): Предопределенные значения для количества результатов, Query Score, нагрузки системы.

Подтверждение многоуровневого индекса (Tiered Indexing): Google фундаментально разделяет свой индекс на уровни (Standard и Extended) для балансировки ресурсов, скорости и полноты охвата.
PageRank как архитектурный фильтр: Авторитетность (Page Rank) используется не только как сигнал ранжирования, но и как критерий для определения, в каком сегменте индекса будет обрабатываться документ. Standard Index приоритизирует документы с высоким Page Rank.
Условный доступ к полному индексу: Google не ищет по всему индексу для каждого запроса. Доступ к Extended Index (и контенту с низким авторитетом) предоставляется только тогда, когда основной индекс не справляется (условный поиск).
Ключевые триггеры глубокого поиска: Недостаток количества или качества (low query scores) результатов, а также неудовлетворенность пользователя являются основными триггерами для активации Extended Index. Это критично для long-tail запросов.
Инфраструктурная оптимизация: Система использует сложные механизмы (Partition Index, Balancer Filter) для эффективного поиска даже в огромном Extended Index, направляя запросы только туда, где есть релевантные данные.

Best practices (это мы делаем)

Фокус на попадании в Standard Index (Наращивание Авторитетности): Стратегический приоритет — повышение авторитетности сайта и ключевых страниц (Page Rank, E-E-A-T). Это критически важно для обеспечения нахождения контента в Standard Index, что гарантирует быстрое и стабильное ранжирование.
Улучшение внутреннего ссылочного графа: Эффективная перелинковка помогает распределить Page Rank по сайту, увеличивая шансы большего числа страниц попасть в Standard Index.
Управление качеством индексируемого контента: Необходимо фокусироваться на качестве, избегая создания большого количества низкокачественных или дублирующихся страниц. Такие страницы с высокой вероятностью будут отнесены к Extended Index и не принесут стабильного трафика.
Стратегия Long-Tail для нишевых сайтов: Патент подтверждает важность стратегии длинного хвоста. Если по редкому запросу в Standard Index мало результатов, активируется Extended Index. Качественный нишевый контент может быть найден именно через этот механизм, даже при невысокой общей авторитетности сайта.

Worst practices (это делать не надо)

Игнорирование авторитетности (PageRank): Фокусировка только на контенте без работы над ссылочным профилем и авторитетностью рискует тем, что сайт останется в Extended Index. Такой контент будет показываться только при отсутствии альтернатив в Standard Index.
Массовая генерация низкокачественного контента: Создание большого объема страниц с низкой добавленной ценностью почти гарантированно приведет к их попаданию в Extended Index из-за низкого Page Rank.
Стратегия «Индексировать всё» без контроля: Открытие для индексации огромного количества технических страниц или страниц с низким спросом (например, избыточных фасеток) в надежде на трафик. Этот контент попадет в Extended Index и не даст стабильного результата.

Стратегическое значение

Патент раскрывает фундаментальную архитектуру индексирования и объясняет, почему авторитетность (Page Rank) имеет критическое значение не только для позиций, но и для того, *как* Google хранит и обрабатывает сайт. Существует прямая зависимость между авторитетностью и приоритетом обработки. Патент объясняет, почему «Проиндексировано» не равно «Ранжируется». Долгосрочная SEO-стратегия должна быть направлена на перемещение максимального количества страниц в Standard Index.

Практические примеры

Сценарий 1: Управление индексацией крупного E-commerce сайта (Фасеточная навигация)

Ситуация: Интернет-магазин имеет 10,000 товаров и 500,000 страниц фасеточной навигации (фильтры).

Анализ по патенту:

Приоритезация: Страницы товаров и основные категории имеют более высокий Page Rank и попадают в Standard Index.
Вторичный контент: Большинство страниц фильтров имеют низкий Page Rank и попадают в Extended Index.
Поведение в поиске: По запросу «синие джинсы Levis» система ищет в Standard Index и показывает основную категорию.
Активация Extended Index: По ультра-специфическому запросу «синие джинсы Levis размер 32W 34L с потертостями», если в Standard Index нет ответов (Signal срабатывает), система ищет в Extended Index и может показать специфическую страницу фильтра.

SEO-действие: Необходимо консолидировать сигналы. Закрыть от индексации низкочастотные страницы фильтров и сосредоточить вес на ключевых страницах, чтобы они оставались в Standard Index, вместо того чтобы полагаться на нестабильный трафик из Extended Index.

Сценарий 2: Ранжирование по ультра-специфическому запросу (Long-Tail)

Запрос: Пользователь ищет редкую техническую спецификацию: "[Brand Y Model Z] протокол обмена данными 1998".
Стандартный поиск: В Standard Index найдено 0 результатов.
Активация триггера: Количество результатов ниже порога. Mixer активирует расширенный поиск.
Расширенный поиск: В Extended Index находится PDF-файл на архивном сайте с низким авторитетом.
Результат: Система показывает этот PDF в выдаче.

В чем основное различие между Standard Index и Extended Index?

Standard Index — это основной, быстрый индекс, содержащий авторитетные документы (с высоким Page Rank). Он многократно реплицируется для скорости. Extended Index — это дополнительный, медленный индекс для менее важных, редких или документов с низким Page Rank. Он меньше реплицируется и используется как резерв.

Всегда ли Google ищет в обоих индексах?

Нет. Поиск всегда начинается в Standard Index. Поиск в Extended Index запускается условно — только если результаты стандартного поиска признаны неудовлетворительными (например, найдено слишком мало документов или их Query Scores низкие) или если есть свободные вычислительные ресурсы.

Насколько важен PageRank в контексте этого патента?

Критически важен. В патенте Page Rank явно упоминается как фактор, влияющий на организацию индекса. Высокий Page Rank способствует попаданию в Standard Index, а низкий — в Extended Index. Это подчеркивает, что авторитетность влияет не только на ранжирование, но и на приоритет обработки контента.

Является ли Extended Index тем же самым, что и «Supplemental Index»?

Да, концептуально это одно и то же. Термин «Supplemental Index» (Дополнительный индекс) использовался Google в прошлом для обозначения вторичного хранилища менее важных документов. Описанный в патенте Extended Index соответствует этой концепции и механизму работы.

Как переместить страницы сайта из Extended Index в Standard Index?

Необходимо повысить важность и авторитетность этих страниц. Это достигается путем улучшения качества контента, получения качественных внешних ссылок и оптимизации внутренней перелинковки для передачи большего веса (Page Rank) на эти документы.

Если моя страница находится в Extended Index, это плохо?

Это не оптимально для ключевых страниц. Это означает, что Google считает страницу менее важной. Она сможет ранжироваться, но только тогда, когда в Standard Index нет лучших ответов. Для стратегического роста необходимо стремиться к перемещению важных страниц в Standard Index.

Что такое "Сигнал" (Signal), который активирует расширенный поиск?

Основной сигнал — недостаточное количество результатов в Standard Index. Другие сигналы: низкие Query Scores стандартных результатов, признаки неудовлетворенности пользователя (частый переход на вторую страницу выдачи) или низкая текущая нагрузка на инфраструктуру расширенного индекса.

Что такое Partition Index и как он работает?

Это механизм оптимизации поиска в Extended Index. Он содержит информацию о том, какие термины присутствуют в каких партициях (частях) индекса. Это позволяет системе (используя Balancer Filter) не отправлять запрос на серверы, которые заведомо не содержат искомых терминов, экономя ресурсы и ускоряя поиск.

Актуален ли этот патент, учитывая, что он подан в 2003 году?

Архитектурная концепция многоуровневого индексирования (Tiered Indexing) остается фундаментальной. Хотя реализации эволюционировали, базовый принцип балансировки скорости, стоимости и полноты охвата за счет разделения индекса по важности документов остается актуальным.

Как этот патент влияет на SEO для новых сайтов?

Новые сайты обычно имеют низкий авторитет и, скорее всего, изначально попадают в Extended Index. Это объясняет трудности с ранжированием по конкурентным запросам на старте. Стратегия должна включать активное наращивание авторитетности для скорейшего перемещения в Standard Index.

Как Google использует гибридную архитектуру индекса (Hybrid Sharding) для баланса скорости, эффективности и обновления поиска

Google использует гибридную архитектуру индекса (Hybrid-Sharded Index), комбинирующую шардирование по документам и по терминам. Это позволяет оптимизировать баланс между операциями ввода-вывода и сетевым трафиком. Патент также описывает сложный механизм обновления этого распределенного индекса, позволяющий поддерживать доступность и согласованность данных (атомарность) во время внесения изменений.

US9501506B1
2016-11-22

Индексация

Как Google оптимизирует инфраструктуру своего индекса для ускорения поиска подстрок и фраз

Этот патент описывает инфраструктурную оптимизацию поискового индекса Google. В нем представлена «гибридная структура данных», которая ускоряет извлечение информации (например, местоположение фраз в документах) путем объединения бинарных деревьев с таблицами поиска и использования высокоэффективных методов сортировки. Это делает поиск быстрее, но не влияет на алгоритмы ранжирования.

US8856138B1
2014-10-07

Индексация

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности

Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.

US7567959B2
2009-07-28

Индексация
Семантика и интент

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google строит инфраструктуру поиска на основе фраз и оптимизирует извлечение концепций из контента

Патент описывает комплексную систему поиска, которая индексирует документы на основе фраз, а не отдельных слов. Он детализирует процесс извлечения фраз (Phrase Extraction), учитывающий структуру и форматирование контента. Для хранения этого индекса используется многоуровневая (Tiers) и шардированная (Shards) архитектура, которая оптимизирует скорость поиска и снижает нагрузку на серверы.

US7693813B1
2010-04-06

Индексация
Семантика и интент

Как Google автоматически превращает текст на странице в ссылки на результаты поиска для монетизации контента

Патент Google описывает технологию автоматического анализа контента веб-страницы для выявления ключевых тем и терминов. Система генерирует релевантные поисковые запросы и динамически встраивает гиперссылки в текст страницы. При клике пользователь перенаправляется на страницу результатов поиска (SERP). Ключевая особенность: система приоритизирует термины с высоким потенциалом дохода от рекламы.

US7788245B1
2010-08-31

Ссылки
SERP
Семантика и интент

Как Google выбирает модель визуальной релевантности для сложных запросов в Поиске по картинкам

Google решает проблему ранжирования изображений для сложных или редких запросов, для которых нет специализированной модели релевантности. Система тестирует существующие модели, созданные для частей запроса (подзапросов), и выбирает ту, которая лучше всего соответствует поведению пользователей (кликам) по исходному запросу. Это позволяет улучшить визуальную релевантность в Image Search.

US9152652B2
2015-10-06

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)

Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.

US8280881B1
2012-10-02

Поведенческие сигналы
Семантика и интент
Мультимедиа

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google использует внешние сигналы (соцсети, новости, блоги) для верификации реальной популярности контента и фильтрации накруток

Google верифицирует популярность контента (например, видео) проверяя, упоминается ли он на внешних источниках: блогах, новостных сайтах и в социальных сетях. Это позволяет формировать списки "популярного", отражающие подлинный широкий интерес, отфильтровывая контент с искусственно завышенными просмотрами или узконишевой популярностью. Система также учитывает географическую релевантность внешних упоминаний.

US9465871B1
2016-10-11

Антиспам
SERP
Ссылки

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций

Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.

US10140286B2
2018-11-27

Knowledge Graph
Семантика и интент
Персонализация

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует генеративный ИИ для создания динамических и гиперперсонализированных бизнес-профилей

Google разрабатывает систему, которая заменяет статические бизнес-профили динамическими «курируемыми профилями», генерируемыми ИИ (например, LLM). Эти профили адаптируются в реальном времени под конкретного пользователя, учитывая его запрос, предпочтения, историю поиска и демографию, чтобы показать наиболее релевантный контент, продукты и описания бренда.

US20250054045A1
2025-02-13

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)

Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google рассчитывает оценку авторитетности сайта, используя соотношение Независимых Ссылок и Брендовых Запросов

Google рассчитывает метрику авторитетности для веб-сайтов на основе соотношения количества независимых входящих ссылок к количеству брендовых (референсных) запросов. Сайты, имеющие много независимых ссылок относительно их поисковой популярности, получают преимущество. Напротив, популярные сайты с недостаточным количеством внешних ссылок могут быть понижены в ранжировании по общим запросам.

US8682892B1
2014-03-25

Ссылки
EEAT и качество
SERP