Как Google определяет и фильтрует дубликаты в выдаче, сравнивая релевантные запросу сниппеты вместо целых страниц

DETECTING QUERY-SPECIFIC DUPLICATE DOCUMENTS (Обнаружение дубликатов документов на основе запроса)

US6615209B1
Google LLC
2000-10-06
2003-09-02

SERP

Google использует механизм для улучшения разнообразия поисковой выдачи, предотвращая показ нескольких результатов с идентичным контентом по конкретному запросу. Вместо сравнения документов целиком, система извлекает только те части (сниппеты), которые релевантны запросу. Если эти сниппеты у разных документов слишком похожи, они считаются дубликатами для данного запроса, и менее релевантные результаты фильтруются.

Какую проблему решает

Патент решает проблему избыточности в результатах поиска. Пользователи не хотят видеть несколько ссылок, ведущих на одну и ту же информацию, даже если документы, содержащие эту информацию, не являются полными копиями (например, из-за разного форматирования, агрегации контента, разных шаблонов сайта или наличия зеркал). Традиционные методы обнаружения дубликатов, сравнивающие документы целиком, могут пропустить такие случаи. Изобретение повышает разнообразие SERP и улучшает пользовательский опыт.

Что запатентовано

Запатентована система и метод для обнаружения дубликатов, специфичных для запроса (Query-Specific Duplicate Documents). Суть изобретения заключается в том, что схожесть документов определяется не путем сравнения всего их содержимого, а путем сравнения только тех частей (Query Relevant Information (QRI) или snippets), которые релевантны введенному запросу. Если эти релевантные части достаточно похожи, документы считаются дубликатами в контексте данного запроса.

Как это работает

Система работает на этапе формирования финальной выдачи:

Генерация кандидатов: Стандартный поисковый процесс возвращает ранжированный набор кандидатов (Candidate Results Set).
Извлечение QRI: Для каждого документа-кандидата система извлекает фрагменты (snippets), которые наиболее релевантны запросу.
Итеративное сравнение: Система проходит по списку кандидатов. Топ-1 результат всегда попадает в финальный набор. Каждый последующий кандидат сравнивается только с теми результатами, что уже находятся в финальном наборе.
Определение схожести и фильтрация: Сравнение происходит между извлеченными QRI. Если QRI кандидата слишком похож на QRI документа, уже добавленного в финальный набор, кандидат подавляется (suppressed) и не включается в итоговую выдачу.

Актуальность для SEO

Высокая. Хотя патент датирован 2003 годом, описанный принцип является фундаментальным для обеспечения разнообразия SERP (SERP Diversity). Концепция определения схожести на основе контекста запроса (а не только статического анализа документов) критически важна для качества поиска. Методы извлечения сниппетов и определения схожести, вероятно, эволюционировали (например, с использованием эмбеддингов и нейронных сетей), но базовая архитектура остается актуальной.

Важность для SEO

Патент имеет высокое значение (85/100) для SEO. Он объясняет, как Google оценивает уникальность контента в контексте конкретного запроса, а не на уровне всего документа. Это напрямую влияет на стратегии синдикации контента, управления шаблонным контентом (например, в e-commerce или локальном SEO) и агрегации. Понимание этого механизма критично для разработки эффективной контент-стратегии и обеспечения видимости страниц в SERP.

Термины и определения

Candidate Results (CR) (Результаты-кандидаты): Предварительный ранжированный список документов, возвращенный поисковым процессом в ответ на запрос, до удаления дубликатов.
Duplicate Removal Management Process (Процесс управления удалением дубликатов): Основной процесс, который управляет извлечением релевантных частей и сравнением схожести для формирования финального набора.
Feature Vector (Вектор признаков): Векторное представление текста (например, сниппета), где измерения соответствуют словам, а величина — частоте их встречаемости. Используется для расчета cosine distance.
Final Set (Финальный набор): Итоговый набор результатов поиска после удаления дубликатов, который предоставляется пользователю.
Query Relevant Information (QRI) / Query Relevant Part(s) (QR) (Релевантные запросу части): Извлеченные фрагменты текста из документа-кандидата, которые релевантны запросу. Синоним Snippet. Именно эти части используются для сравнения схожести.
Repository (Репозиторий): Хранилище (декомпрессированных) документов, из которого система может быстро получить полный текст документа для извлечения сниппетов.
Shingle (Шингл): Непрерывная последовательность слов или символов в документе. Используется в одном из методов определения схожести (shingling или метод Бродера).
Similarity Metric (Метрика схожести): Метод для количественной оценки схожести между двумя QRI (например, точное совпадение, редакционное расстояние, косинусное расстояние, метод шинглов).

Ключевые утверждения (Анализ Claims)

Основное ядро изобретения сосредоточено в независимых пунктах 3, 15 и 26, которые описывают процесс фильтрации и метод определения схожести на основе запроса.

Claim 3 и 15 (Независимые пункты): Описывают основной метод обработки результатов поиска.

Система принимает результаты поиска и ключевые слова из запроса.
Генерируется финальный набор результатов. Этот процесс включает:
1. Определение того, является ли кандидат похожим на результат, уже находящийся в финальном наборе, используя ключевые слова запроса.
2. Если кандидат похож, он НЕ добавляется в финальный набор (Claim 3) ИЛИ добавляется ТОЛЬКО если он не похож ни на один результат в финальном наборе (Claim 15).
Определение схожести (пункт 2.i) включает:
1. Извлечение релевантной части из кандидата (Первый QRI).
2. Извлечение релевантной части из результата в финальном наборе (Второй QRI).
3. Определение схожести между Первым и Вторым QRI.

Ключевой аспект — схожесть определяется между частями (A и B), извлеченными на основе запроса, а не между документами в целом. Формулировка Claim 15 критически важна для избегания транзитивной схожести (сравнение только с принятыми результатами).

Claim 26 (Независимый пункт): Описывает метод определения схожести двух документов в контексте запроса.

Метод включает принятие запроса, извлечение Query-relevant information из первого и второго документа на основе этого запроса, и последующее сравнение этой извлеченной информации. Если извлеченная информация похожа, документы считаются похожими для данного запроса.

Зависимые пункты (Claims 4-13, 16-25, 27-36): Детализируют методы извлечения QRI.

Метод скользящего окна: Окно фиксированного размера (например, 100 символов) применяется к документу. Подсчитывается количество ключевых слов запроса (hit count) в каждом окне. Выбирается Топ-N окон с наибольшим количеством попаданий.
Метод сегментации: Документ делится на предложения или абзацы. Сегмент добавляется в QRI, если он содержит хотя бы одно ключевое слово, определенное количество ключевых слов или определенное количество различных ключевых слов.

Где и как применяется

Изобретение применяется на финальных стадиях обработки запроса, после основного ранжирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна обеспечить хранение полных (или декомпрессированных) версий документов в Repository, чтобы они были доступны для извлечения сниппетов в реальном времени.

RANKING – Ранжирование
Search Process генерирует первоначальный ранжированный список кандидатов (Candidate Results Set). Этот список является входными данными для системы удаления дубликатов.

RERANKING – Переранжирование (Twiddlers)
Основное применение патента. Duplicate Removal Management Process активируется после этапа RANKING и до финального формирования SERP. Он действует как механизм фильтрации (Twiddler), который удаляет элементы из списка.

Он взаимодействует с Repository для получения полных текстов.
Он использует Query Relevant Information Extraction Process для генерации сниппетов на лету, используя текущий запрос.
Он использует Query Dependent Similarity Process для сравнения сгенерированных сниппетов.

Входные данные:

Исходный запрос (Query Keywords).
Ранжированный набор кандидатов (Candidate Results Set).
Доступ к полным текстам документов (Repository).
Параметры извлечения и схожести.

Выходные данные:

Финальный набор результатов без дубликатов (Final Set).

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, который часто дублируется или имеет незначительные вариации: новостные статьи (синдикация), зеркала сайтов, агрегированный контент, документы с разными шаблонами, но одинаковым основным содержанием, разные версии документа (например, plain text vs HTML).
Конкретные ниши или тематики: Влияет на ниши, где распространено копирование контента или использование стандартных описаний (e-commerce, базы данных, FAQ, новостные агрегаторы).

Когда применяется

Условия работы алгоритма: Алгоритм применяется динамически при обработке поискового запроса, после получения первичного списка ранжированных результатов.
Временные рамки и частота применения: Процесс выполняется в реальном времени, что требует быстрого доступа к репозиторию и эффективных алгоритмов сравнения.

Пошаговый алгоритм

Процесс управления удалением дубликатов (Duplicate Removal Management)

Инициализация: Принять список кандидатов (CR). Добавить первый результат (CR1) в финальный набор (Final Set).
Начало цикла по кандидатам: Начать итерацию со следующего кандидата (CRi).
Извлечение QRI: Извлечь QRI (QRIi) для текущего кандидата (CRi). Это включает:
1. Получение документа из Репозитория.
2. Применение метода извлечения (скользящее окно или сегментация по предложениям) для поиска фрагментов с наибольшей релевантностью запросу.
3. Выбор лучших фрагментов в качестве QRIi.
Начало цикла сравнения: Начать итерацию по результатам (CRj), уже находящимся в Final Set.
Применение метрики схожести: Сравнить QRIi с QRIj, используя выбранную метрику (например, Shingling или Cosine Distance).
Проверка условия схожести: Являются ли QRIi и QRIj похожими (выше порога)?
1. Если ДА: Пометить CRi как дубликат, прекратить цикл сравнения и перейти к шагу 7.
2. Если НЕТ: Продолжить цикл сравнения со следующим результатом в Final Set.
Обработка кандидата:
- Если CRi помечен как дубликат: Подавить CRi.
- Если цикл сравнения завершен и дубликат не найден: Добавить CRi в Final Set.
Завершение: Продолжать цикл по кандидатам, пока не будет набрано достаточное количество результатов в Final Set или пока не закончатся кандидаты.

Какие данные и как использует

Данные на входе

Контентные факторы: Полный текст документа (полученный из Repository). В частности, используются слова, предложения и абзацы для извлечения Query Relevant Parts. Упоминается возможность использования заголовка (Title) документа как части QRI. Коды форматирования (например, HTML) могут быть удалены перед анализом.
Пользовательские факторы (Факторы запроса): Ключевые слова из запроса пользователя (Query Keywords) являются критически важными, так как они определяют, какие части документа будут извлечены. Стоп-слова могут исключаться.

Какие метрики используются и как они считаются

Система использует метрики для двух задач: извлечения сниппетов (QRI) и определения их схожести.

Метрики извлечения QRI:

Hit Count (Количество попаданий): Количество ключевых слов запроса в определенном фрагменте (окне или сегменте). Используется для ранжирования фрагментов.
Window Size (Размер окна): Предопределенное количество символов (например, 100) или слов (например, 15).
Пороги для сегментов: Минимальное количество ключевых слов, необходимое для включения сегмента (предложения/абзаца) в QRI.

Метрики схожести (Similarity Metrics):

Патент предлагает несколько взаимозаменяемых методов:

Exact Match (Точное совпадение): QRI должны быть идентичны.
Edit Distance (Редакционное расстояние): Измерение количества операций (вставок, удалений), необходимых для преобразования одного QRI в другой.
Cosine Distance (Косинусное расстояние): Создаются векторы частотности слов (feature vectors) для каждого QRI. Вычисляется косинус угла между нормализованными векторами. Чем ближе к 1, тем больше схожесть (игнорирует порядок слов).
Shingling (Метод шинглов): QRI разбивается на последовательности (шинглы). Схожесть рассчитывается как размер пересечения наборов шинглов, деленный на размер их объединения (учитывает порядок слов).

Similarity Threshold (Порог схожести): Настраиваемый параметр. Результат метрики схожести сравнивается с этим порогом для принятия бинарного решения (похож / не похож). Патент отмечает, что при сравнении QRI порог можно установить достаточно высоко.

Определение дубликатов зависит от запроса: Патент устанавливает, что схожесть документов не является статическим свойством. Два документа могут считаться дубликатами по одному запросу и уникальными по другому, в зависимости от того, какие их части (QRI) релевантны запросу.
Сравнение на основе сниппетов, а не целых документов: Система сравнивает только Query Relevant Parts. Это позволяет эффективно обнаруживать дубликаты даже в документах, которые сильно различаются в целом (например, из-за шаблонов или агрегации), но содержат одинаковую релевантную информацию.
Фильтрация происходит на лету (Real-Time): Обнаружение дубликатов происходит во время обработки запроса (Reranking), а не на этапе индексации, что позволяет учитывать контекст запроса.
Избегание транзитивной схожести: Алгоритм сравнивает кандидата только с документами, уже добавленными в финальный набор. Это гарантирует разнообразие: если A похож на B, а B похож на C, но A не похож на C, то и A, и C могут быть показаны в выдаче (так как B будет удален при сравнении с A).
Приоритет более высокого ранжирования: Если два документа признаны дубликатами, система всегда предпочитает тот, который имел более высокий изначальный ранг. Дубликат с более низким рангом подавляется.

Best practices (это мы делаем)

Обеспечение уникальности релевантных фрагментов: При создании страниц, которые могут пересекаться по тематике (например, разные страницы товаров с похожими характеристиками или локализованные страницы услуг), убедитесь, что фрагменты текста, которые будут релевантны целевым запросам (вероятные сниппеты/QRI), существенно различаются.
Мониторинг сниппетов в выдаче: Анализируйте, какие фрагменты вашего контента Google выбирает в качестве сниппетов по ключевым запросам. Если сниппеты разных страниц вашего сайта выглядят идентично, это может привести к их фильтрации как дубликатов по этому запросу.
Стратегическое управление синдикацией: Если вы синдицируете контент, помните, что если релевантные части оригинала и копии идентичны, в выдаче останется только одна версия (наиболее высоко ранжирующаяся). Используйте каноникализацию или добавляйте существенную уникальную ценность к синдицированному контенту.
Уникализация шаблонного контента: Для страниц с большим количеством шаблонного текста (boilerplate) убедитесь, что основной контент достаточно объемен и уникален, чтобы сгенерированные Query Relevant Parts отличались от других страниц вашего или чужих сайтов.

Worst practices (это делать не надо)

Создание множества страниц с минимальными отличиями (Doorways): Генерация большого количества страниц, отличающихся только названием города или одним параметром. Если по целевому запросу Query Relevant Parts этих страниц будут идентичны (например, описание услуги), они будут отфильтрованы как дубликаты.
Поверхностный рерайтинг и спиннинг: Легкое переписывание контента неэффективно против метрик типа Shingling или Feature Vectors. Если информационное ядро не меняется, страницы будут признаны дубликатами.
Использование одинаковых описаний для разных сущностей: Использование одного и того же текста для описания разных товаров или услуг. Это приведет к тому, что по запросам, связанным с этим описанием, будет показана только одна из страниц.
Надежда на уникальный дизайн/шаблон: Полагаться на уникальность HTML-шаблона, навигации или футера для дифференциации контента. Патент указывает, что эти элементы игнорируются при извлечении и сравнении QRI.

Стратегическое значение

Патент подчеркивает важность уникальности контента не на уровне URL или технической реализации, а на уровне предоставляемой информации в контексте запроса. Он подтверждает, что Google стремится показывать разнообразную информацию (SERP Diversity). Для SEO-стратегии это означает, что фокус должен быть на создании действительной добавленной ценности в тех частях документа, которые отвечают на интент пользователя, а не на технических методах обхода проверок уникальности.

Практические примеры

Сценарий 1: Фильтрация дубликатов в E-commerce (Описание от производителя)

Ситуация: Десятки интернет-магазинов используют стандартное описание товара от производителя.
Запрос: "[Название товара] характеристики".
Работа алгоритма: Система извлекает QRI (блок с характеристиками) для всех сайтов. QRI идентичны.
Результат: В выдаче остается только один или два наиболее авторитетных/релевантных магазина. Остальные подавляются как дубликаты по этому запросу.
SEO-действие: Дополнить страницу уникальным контентом (собственные обзоры, тесты, сравнения), чтобы дифференцировать свои QRI от конкурентов.

Сценарий 2: Локальное SEO и шаблонные страницы

Ситуация: Компания создает страницы для разных городов с идентичным описанием услуги, меняя только название города.
Запрос: "[Название услуги]".
Работа алгоритма: Система извлекает QRI (описание услуги). Если название города не попало в сниппет или метрика схожести игнорирует это различие, QRI признаются идентичными.
Результат: В выдаче остается только одна страница компании (наиболее релевантная), остальные фильтруются.
SEO-действие: Уникализировать описание услуги для каждого города, добавив локальную специфику (кейсы, отзывы), чтобы гарантировать генерацию различных QRI.

Означает ли этот патент, что два совершенно разных документа могут быть признаны дубликатами?

Да. Если два документа сильно различаются в целом (например, один — короткая статья, а второй — большая компиляция, включающая эту статью), но фрагменты (QRI), которые система сочтет наиболее релевантными конкретному запросу, идентичны или очень похожи, они будут считаться дубликатами для этого запроса. Схожесть определяется контекстом запроса.

Как система определяет, какие части документа являются "Query Relevant Information" (QRI)?

Патент предлагает несколько методов. Основные — это метод скользящего окна, где ищутся фрагменты фиксированной длины с наибольшей плотностью ключевых слов из запроса, и метод сегментации, где анализируются предложения или абзацы на наличие определенного количества ключевых слов. На практике это те фрагменты, которые вы видите в сниппетах выдачи.

Чем этот механизм отличается от каноникализации (rel=canonical)?

Каноникализация работает на этапе индексирования и объединяет сигналы для идентичных страниц с разными URL. Описанный механизм работает на этапе формирования выдачи (Reranking) в ответ на конкретный запрос и фильтрует страницы, которые могут не быть полными дубликатами, но являются таковыми в контексте запроса.

Как этот механизм влияет на синдикацию контента или пресс-релизы?

Он напрямую влияет на них. Если пресс-релиз опубликован на 10 сайтах дословно, то Query Relevant Parts будут идентичны. Система определит их как дубликаты и покажет только один результат (обычно наиболее авторитетный или тот, что ранжируется выше), подавив остальные. Это объясняет, почему сложно ранжироваться по синдицированному контенту без добавления уникальной ценности.

Что такое "избегание транзитивной схожести" и почему это важно?

Это означает, что система сравнивает текущий результат только с теми, которые уже приняты в финальный набор. Если А похож на Б, а Б похож на В, но А не похож на В. Система примет А, удалит Б (так как он похож на А). Затем она сравнит В с А. Так как В не похож на А, он также попадет в выдачу. Это увеличивает разнообразие (diversity) SERP.

Если я изменю порядок предложений в статье, поможет ли это избежать определения дубликата?

Это зависит от метода сравнения схожести. Если используется косинусное расстояние (Cosine Distance), то изменение порядка не поможет, так как этот метод учитывает только частотность слов. Если используется метод шинглов (Shingling), который учитывает последовательности слов, то изменение порядка может увеличить различие и помочь пройти порог схожести.

Может ли этот механизм отфильтровать оригинальный контент в пользу копии?

Да, это возможно. Механизм работает на основе ранжированного списка. Если копия по каким-то причинам ранжируется выше оригинала (например, у сайта копии выше авторитетность), оригинал будет обработан позже. При сравнении сниппетов оригинал будет признан дубликатом копии (которая уже в финальном наборе) и отфильтрован.

Как этот патент влияет на локальное SEO и страницы филиалов?

Влияние значительно. Если страницы для разных локаций используют шаблонный текст и отличаются только названием города, существует риск, что по общему запросу система сгенерирует одинаковые сниппеты. В этом случае большинство страниц будет отфильтровано. Необходимо уникализировать контент локальных страниц.

Актуальны ли описанные методы схожести (Cosine Distance, Shingling) в 2025 году?

Хотя базовые принципы актуальны, современные системы Google, вероятно, используют более продвинутые методы, основанные на нейронных сетях (например, сравнение векторных эмбеддингов текста, сгенерированных моделями типа MUM). Эти методы лучше понимают семантическую близость, а не только совпадение слов или фраз.

Как этот патент связан с кластеризацией результатов (indented results) в выдаче?

Этот механизм может быть основой для кластеризации. Вместо того чтобы полностью удалять дубликат из выдачи, система может сгруппировать его под основным результатом с отступом. Решение о фильтрации или кластеризации, вероятно, зависит от степени схожести сниппетов и того, принадлежат ли результаты одному домену.

Как Google динамически меняет сниппеты для повторяющихся результатов во время одной поисковой сессии

Google использует механизм адаптации выдачи в реальном времени для улучшения пользовательского опыта. Если документ повторно появляется в результатах поиска в рамках одной сессии (например, после уточнения запроса), система генерирует для него новый, альтернативный сниппет. Это направлено на предоставление пользователю свежего взгляда на контент, особенно если предыдущий сниппет был проигнорирован.

US8145630B1
2012-03-27

Поведенческие сигналы
SERP

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)

Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.

US10007731B2
2018-06-26

SERP
Техническое SEO
Индексация

Как Google использует семантические сигнатуры на основе фраз для выявления и удаления дубликатов контента

Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.

US7711679B2
2010-05-04

Семантика и интент
Индексация
SERP

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования

Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.

US8316292B1
2012-11-20

Индексация
Техническое SEO

Как Google выборочно подсвечивает ключевые слова в заголовках и сниппетах для более чистого вида SERP

Google использует метод выборочной подсветки ключевых слов в результатах поиска. Ключевые слова, найденные в заголовке (Title), подсвечиваются там, но затем специально исключаются из подсветки в сниппете (Snippet). Это призвано уменьшить визуальный шум и улучшить читабельность, гарантируя, что каждое релевантное ключевое слово будет выделено как минимум один раз.

US9767169B1
2017-09-19

SERP

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей

Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.

US9116957B1
2015-08-25

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

US7296016B1
2007-11-13

Персонализация
Поведенческие сигналы
SERP

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google создает и использует базу «идеальных» ответов (Canonical Content Items) для ответов на вопросы пользователей

Google использует систему для идентификации и создания «канонических элементов контента» — образцовых объяснений тем, часто в формате вопрос-ответ. Система анализирует огромные массивы существующего контента, кластеризует похожие вопросы и ответы и выбирает или синтезирует идеальную версию. Когда пользователь задает вопрос, система сопоставляет его с этой базой данных, чтобы мгновенно предоставить высококачественный, модельный ответ.

US9396263B1
2016-07-19

Семантика и интент
EEAT и качество

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2011-10-04

Ссылки
Индексация
Краулинг

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса

Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.

US9454621B2
2016-09-27

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP