Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности

INFORMATION RETRIEVAL SYSTEM FOR ARCHIVING MULTIPLE DOCUMENT VERSIONS (Система поиска информации для архивирования нескольких версий документов)

US7702618B1
Google LLC
2005-01-25
2010-04-20

Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.

Какую проблему решает

Патент решает проблему ограничений традиционных поисковых систем, которые обычно индексируют и хранят данные о релевантности только для текущей версии документа. Это не позволяет пользователям искать предыдущие версии страниц или находить контент, который был актуален в определенный исторический период. Кроме того, это мешает поисковой системе использовать информацию об истории изменений документа (например, частоту обновлений или эволюцию релевантности) при ранжировании.

Что запатентовано

Запатентована система и метод для создания архивного индекса (archival index), который хранит несколько версий (instances или versions) одного и того же документа. Каждая версия связана с определенным диапазоном дат (date range), в течение которого она была актуальна. Для каждого диапазона дат система хранит специфичные для этой версии данные о релевантности (relevance data), включая фразы, содержащиеся в документе.

Как это работает

Система работает на этапе индексирования. Когда система обнаруживает документ, она определяет, изменился ли он с момента предыдущего индексирования. Если изменений нет, текущие данные сохраняются. Если документ изменился:

Система закрывает предыдущий диапазон дат актуальности для старой версии.
Документ повторно индексируется для получения текущих данных о релевантности (например, фраз, ссылок).
Новая версия сохраняется с новым текущим диапазоном дат.
Старая версия и ее данные о релевантности сохраняются в архиве, связанные с закрытым диапазоном дат.

Это позволяет поисковой системе иметь доступ к истории документа и его релевантности в разные периоды времени.

Актуальность для SEO

Высокая. Хотя патент подан в 2005 году, описанная в нем инфраструктура для отслеживания изменений контента во времени является фундаментальной для современных поисковых систем. Механизмы оценки свежести контента (Freshness), частоты обновлений и анализа временной релевантности критически важны в 2025 году и опираются на возможность хранить и анализировать исторические данные о документах.

Важность для SEO

Патент имеет важное стратегическое значение для SEO. Он описывает не алгоритм ранжирования, а инфраструктуру, которая позволяет Google точно измерять, как, когда и насколько существенно меняется контент. Это предоставляет данные, необходимые для работы алгоритмов, чувствительных к свежести и частоте обновлений. Понимание этого механизма критично для разработки стратегий обновления контента и управления жизненным циклом страниц.

Термины и определения

Archival Index (Архивный индекс): Индекс, который хранит данные для нескольких версий документа, позволяя осуществлять поиск по историческим данным.
Date Range (Диапазон дат): Период времени, в течение которого конкретная версия документа считается действительной (valid). Состоит из даты начала (open date) и даты окончания (closed date) или статуса "open"/"current" для текущей версии.
Document Instance/Version (Экземпляр/Версия документа): Конкретное состояние контента документа в определенный период времени.
Good Phrase (Хорошая фраза): Фраза (включая отдельные слова), которая встречается в корпусе достаточно часто и предсказывает появление других фраз. Используется как основная единица индексирования в системе, описанной в патенте.
Information-Retrieval Relevance Data (Данные о релевантности для поиска информации): Данные, извлеченные из документа и используемые для оценки его релевантности. Включают фразы, содержащиеся в документе, а также могут включать PageRank, количество входящих ссылок (inlinks), длину документа, частоту терминов и типы HTML-разметки.
Topics (Темы): Набор тем документа, определяемый на основе содержащихся в нем фраз и связанных фраз. Изменение в наборе тем может служить триггером для признания документа измененным.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает метод создания архивного индекса документов, индексированных по фразам.

Поддержание индекса, связывающего фразы с содержащими их документами.
Доступ к документу и определение, изменился ли он с предыдущей даты индексирования.
Если документ изменился:
- Указание первого диапазона дат (first date range), включающего предыдущую дату, в течение которого документ был действителен.
- Индексирование документа для получения текущих данных о релевантности (current information-retrieval relevance data), включая фразы в текущей версии.
- Сохранение текущих данных о релевантности в ассоциации с текущим диапазоном дат (current date range).
- Сохранение предыдущих данных о релевантности (previous information-retrieval relevance data), включая фразы из старой версии, в ассоциации с первым диапазоном дат.

Ядро изобретения — это процесс сохранения отдельных наборов данных о релевантности (включая фразы) для разных версий одного документа, каждая из которых привязана к своему диапазону дат актуальности.

Claim 6 (Зависимый от 1): Уточняет метод определения того, изменился ли документ.

Идентификация текущего набора тем (current set of topics) для документа во время индексирования.
Определение того, что документ изменился, на основании изменения в текущем наборе тем по сравнению с предыдущим набором тем (prior set of topics).

Это указывает на то, что система может использовать семантические изменения (изменение тематики), а не только поверхностные правки, для распознавания новой версии.

Claim 16 (Независимый пункт): Описывает процесс обновления диапазонов дат при обнаружении изменений.

Поддержание индекса, где каждый документ связан с текущим диапазоном дат и текущими данными о релевантности. (Отмечается, что у документа также могут быть предыдущие диапазоны дат).
Доступ к ранее проиндексированному документу.
Если документ изменился с первой даты текущего диапазона:
- Обновление текущего диапазона дат до нового предыдущего диапазона (new prior date range) с указанием даты закрытия (closed date).
- Сохранение текущих данных о релевантности как данных для этого нового предыдущего диапазона.
- Установление нового текущего диапазона дат (new current date range) с текущей датой в качестве даты открытия (open date).
- Обновление текущих данных о релевантности (включая фразы) и их сохранение в ассоциации с новым текущим диапазоном дат.

Этот пункт детализирует механизм управления жизненным циклом версий документа в индексе.

Где и как применяется

Изобретение является инфраструктурным и затрагивает основные этапы сбора и хранения данных.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает доступ к документу и фиксирует дату доступа, что необходимо для последующего анализа версий.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Во время индексирования система:

Сравнивает текущий контент с предыдущей версией, чтобы определить, изменился ли документ (например, путем сравнения набора тем).
Если документ изменился, система выполняет извлечение признаков (Relevance Data, включая фразы, PageRank, inlinks) для новой версии.
Управляет Date Ranges: закрывает старый диапазон и открывает новый.
Сохраняет в индексе обе версии (старую и новую) с их соответствующими признаками и диапазонами дат.

RANKING / RERANKING – Ранжирование / Переранжирование
Хотя патент не описывает алгоритмы ранжирования, он предоставляет данные, которые могут использоваться на этих этапах:

Свежесть и частота обновлений: Система ранжирования может использовать количество версий документа за период времени для оценки частоты обновлений.
Временная релевантность: Система может повышать или понижать версии документа в зависимости от их возраста или близости к дате, указанной в запросе.
Исторический анализ: Система может анализировать эволюцию сигналов релевантности (например, рост или падение PageRank или ссылок) между разными версиями.

Входные данные:

Текущий контент документа.
Данные предыдущей версии документа из индекса (предыдущие Relevance Data, предыдущий Date Range).

Выходные данные:

Обновленный индекс, содержащий записи для нескольких версий документа.
Каждая запись содержит Relevance Data (фразы, признаки) и соответствующий Date Range.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, который часто обновляется (новости, главные страницы порталов, блоги, страницы товаров с отзывами или ценами).
Специфические запросы: Влияет на запросы, чувствительные ко времени (QDF - Query Deserves Freshness), или запросы, включающие конкретные даты или периоды.
Конкретные ниши или тематики: Влияет на быстро меняющиеся ниши (технологии, финансы, новости) и YMYL-тематики, где актуальность информации критична.

Когда применяется

При каких условиях работает алгоритм: Алгоритм архивирования активируется каждый раз, когда система повторно индексирует документ.
Триггеры активации: Ключевой триггер для создания новой версии — обнаружение изменений в документе по сравнению с последней проиндексированной версией.
Исключения и особые случаи: Если документ не изменился, новая версия не создается, и существующие данные о релевантности сохраняются.

Пошаговый алгоритм

Процесс архивного индексирования документа

Доступ к документу: Система получает доступ к документу во время процесса индексирования.
Определение изменений: Система определяет, изменился ли документ с предыдущей даты индексирования. Это может включать сравнение текущих Relevance Data или текущего набора тем (Topics) с данными предыдущей версии.
Проверка условия изменения:
- Если НЕТ (не изменился): Процесс завершается, существующие данные сохраняются.
- Если ДА (изменился): Перейти к шагу 4.
Закрытие предыдущей версии: Система указывает первый диапазон дат (first date range) для предыдущей версии, включая предыдущую дату индексирования и недавнюю дату (например, вчерашний день), в течение которых старая версия была действительна.
Индексирование новой версии: Документ индексируется для получения текущих данных о релевантности (current relevance data), включая извлечение фраз из текущего контента.
Сохранение новой версии: Текущие данные о релевантности сохраняются в ассоциации с новым текущим диапазоном дат (current date range), который начинается с сегодняшней даты и имеет статус "открыт".
Поддержание архива: Предыдущие данные о релевантности сохраняются в индексе в ассоциации с первым (теперь закрытым) диапазоном дат.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании следующих типов данных для индексирования версий и определения изменений:

Контентные факторы (Фразы и Темы): Система индексирует документы на основе Good Phrases. Изменение в наборе фраз и, как следствие, в наборе тем (Topics) документа используется для определения того, что документ изменился (Claim 6).
Временные факторы (Даты): Даты индексирования используются для определения границ диапазонов дат (Date Ranges).
Факторы Релевантности (Relevance Data): Патент упоминает (Claims 3, 4, 5), что Relevance Data, сохраняемые для каждой версии, могут включать:
- Длину документа.
- Частоту терминов (term frequency).
- Типы HTML-разметки.
- PageRank документа.
- Количество входящих ссылок (inlinks).

Какие метрики используются и как они считаются

Метрика изменения документа: Патент не определяет точную формулу, но предлагает методы определения изменений. Один из ключевых методов — сравнение набора тем. В описании патента упоминается, что если процент изменения тем превышает порог (например, M%, такой как 5%), документ считается измененным.
Частота обновлений: Может быть рассчитана путем подсчета количества созданных версий (количества уникальных Date Ranges) за определенный период времени.
Диапазон дат (Date Range): Метрика, определяющая период актуальности версии. Рассчитывается как [Дата_Индексирования_Версии; Дата_Индексирования_Следующей_Версии - 1 день].

Инфраструктура для Freshness: Патент описывает фундаментальный механизм, позволяющий Google точно отслеживать историю изменений документа. Это не алгоритм ранжирования по свежести, но это система сбора данных, которая делает возможной работу таких алгоритмов.
Точное измерение частоты обновлений: Система позволяет не просто знать, что документ обновился, но и точно измерять частоту создания новых версий (Frequency of Updates). Это позволяет отличать сайты, которые обновляются часто и существенно, от тех, что обновляются редко.
Определение существенности изменений: Патент предполагает использование семантических критериев (изменение Topics) для определения того, является ли изменение достаточно существенным для создания новой версии. Это позволяет системе игнорировать незначительные правки (например, изменение футера или даты).
Историческая релевантность и эволюция сигналов: Сохранение Relevance Data (включая фразы, PageRank, ссылки) для каждой версии позволяет Google анализировать, как менялась релевантность и авторитетность документа во времени. Документ мог быть авторитетным в прошлом, но потерять актуальность сейчас, и наоборот.
Возможность временного поиска: Механизм позволяет реализовать поиск контента, который был актуален в определенный исторический период, даже если текущая версия документа уже не релевантна запросу.

Best practices (это мы делаем)

Регулярные и существенные обновления важного контента: Поскольку система точно отслеживает создание новых версий и может оценивать существенность изменений (через изменение тем), важно регулярно обновлять ключевые страницы (особенно в YMYL и быстро меняющихся нишах). Обновления должны влиять на основную тематику страницы, добавляя новую информацию или актуализируя данные.
Поддержание актуальности "вечнозеленого" контента: Для статей, рассчитанных на долгий срок, необходимо периодически проводить ревизию и актуализацию. Создание новой значимой версии в индексе Google может дать сигнал о свежести и привести к повышению позиций.
Мониторинг частоты обновления конкурентов: Анализируйте, как часто конкуренты обновляют свой контента в вашей нише. Если Google видит высокую частоту существенных обновлений в тематике, стагнация вашего контента может привести к пессимизации.
Использование дат публикации и обновления: Четко указывайте даты создания и последнего обновления контента (в тексте и метаданных/Schema.org). Это помогает пользователям и может коррелировать с датами, которые Google фиксирует в своих Date Ranges.

Worst practices (это делать не надо)

Поверхностные обновления (Fake Freshness): Изменение даты публикации без реального изменения контента, правки в футере, перестановка абзацев или незначительные изменения текста. Патент предполагает, что система использует анализ изменения тем (Topics) для фиксации новой версии. Если темы не меняются, система может не засчитать обновление как существенное.
Чрезмерно частые незначительные правки: Постоянное внесение мелких правок может создать "шум" в истории версий, но не даст преимуществ в ранжировании, если не несет реальной ценности и не меняет тематику документа.
Удаление старого контента без анализа: Удаление старых страниц может привести к потере исторической релевантности и накопленных сигналов. Механизм архивации показывает, что Google хранит историю. Лучше архивировать или существенно обновлять старый контент, если он потерял актуальность, но имеет ценность.

Стратегическое значение

Этот патент подтверждает долгосрочную стратегию Google по пониманию контента во временном контексте. Для SEO-специалистов это подчеркивает переход от разовой оптимизации к управлению жизненным циклом контента. Стратегия должна включать не только создание нового контента, но и планирование регулярной и существенной актуализации существующего. Понимание того, что Google хранит историю версий и связанных с ними сигналов, должно влиять на принятие решений об обновлении, консолидации или удалении контента.

Практические примеры

Сценарий: Актуализация годового обзора

Ситуация: У вас есть страница "Лучшие смартфоны 2024 года". Наступил 2025 год.
Действие (Плохое): Изменить заголовок на "Лучшие смартфоны 2025 года" и поменять даты в тексте, оставив обзор моделей 2024 года.
- Результат по патенту: Система может определить, что основные темы (Topics) и фразы (названия моделей) не изменились. Обновление может быть проигнорировано как несущественное.
Действие (Хорошее): Существенно переписать страницу: добавить обзоры новых моделей 2025 года, обновить сравнительные таблицы, добавить новые тренды. Старые модели оставить для сравнения или убрать.
- Результат по патенту: Система обнаруживает значительное изменение в наборе тем и фраз. Она закрывает Date Range для версии 2024 года и создает новую версию для 2025 года с новыми Relevance Data. Это дает сильный сигнал свежести для запросов о смартфонах.

Описывает ли этот патент алгоритм Google Freshness (QDF)?

Нет, этот патент не описывает сам алгоритм ранжирования по свежести. Он описывает инфраструктуру индексирования, которая необходима для работы таких алгоритмов. Патент объясняет, как Google собирает и хранит данные об изменениях документов во времени (историю версий и их даты актуальности), которые затем могут использоваться алгоритмами ранжирования для оценки свежести.

Как система определяет, что документ изменился?

Патент предлагает несколько методов. Ключевой метод, упомянутый в Claim 6, — это анализ изменения набора тем (Topics) документа. Если текущий набор тем существенно отличается от предыдущего (например, более чем на 5%, как упомянуто в описании), документ считается измененным. Также упоминаются другие возможные метрики: изменение длины документа, частоты терминов или HTML-разметки.

Что означает, что система использует изменение "Тем" (Topics) для фиксации обновления?

Это означает, что система оценивает семантическое содержание страницы. Если вы добавили новый раздел, удалили старый блок текста или актуализировали данные, это, скорее всего, изменит ключевые фразы и темы страницы. Если же вы просто поменяли дату в футере или исправили опечатку, основные темы останутся прежними, и система может не посчитать это существенным обновлением.

Стоит ли часто вносить мелкие правки на страницу, чтобы она выглядела свежей?

Исходя из этого патента, такая тактика, скорее всего, неэффективна. Поскольку система стремится определить существенные изменения (например, через изменение тем), мелкие правки могут игнорироваться и не приводить к созданию новой значимой версии в индексе. Фокусироваться следует на существенных обновлениях, которые добавляют ценность и актуализируют информацию.

Хранит ли Google все версии страницы, которые когда-либо существовали?

Патент описывает механизм для хранения нескольких версий (multiple versions) документа и связанных с ними данных о релевантности. Он не утверждает, что хранятся абсолютно все изменения, но подтверждает наличие архивного индекса, хранящего историю значимых версий документа.

Как этот патент влияет на контент, который не должен меняться (например, исторические документы)?

Если контент не меняется, система просто подтверждает это при повторном индексировании и не создает новые версии (Claim 1). Это нормально. Однако, если ниша предполагает свежесть, отсутствие обновлений может быть расценено алгоритмами ранжирования (использующими эти данные) как негативный сигнал.

Может ли старая версия страницы ранжироваться лучше, чем текущая?

Да. Патент указывает, что система может повышать старые версии, если они более релевантны запросу, особенно если запрос содержит указание даты в прошлом. Также упоминается, что если релевантность документа достигла пика в прошлом, а затем снизилась, старая версия может быть предпочтительнее.

Сохраняются ли ссылочные сигналы и PageRank для старых версий?

Да. Патент явно упоминает, что Relevance Data, сохраняемые для каждой версии, могут включать PageRank и количество входящих ссылок (inlinks) (Claim 4, 5). Это позволяет системе отслеживать авторитетность документа именно в тот период времени, когда версия была актуальна.

Влияет ли частота сканирования (Crawl Rate) на работу этого механизма?

Да, напрямую. Чтобы обнаружить изменения и создать новую версию, Googlebot должен сначала посетить и проиндексировать страницу. Если страница сканируется редко, система не сможет оперативно отслеживать ее обновления, и актуальная версия может попадать в индекс с задержкой.

Что происходит, когда я обновляю контент на уже существующем URL?

Происходит именно то, что описано в патенте. Google сравнивает новый контент со старым. Если изменения существенны, старая версия архивируется с закрытой датой актуальности, а новая версия становится текущей. Сигналы релевантности пересчитываются для новой версии, но при этом сохраняется история предыдущих версий этого URL.

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google адаптирует ранжирование контента под частоту посещений пользователя, балансируя между важностью и новизной

Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.

US9477376B1
2016-10-25

Персонализация
Поведенческие сигналы
Свежесть контента

Как Google объединяет основной индекс и свежие изменения пользователя для персонализированного поиска

Google использует механизм для уменьшения задержки между изменением контента пользователем и его появлением в поиске. Система отслеживает изменения (добавления, удаления, модификации), сделанные пользователем, и объединяет их с результатами основного индекса. Это гарантирует, что пользователь может немедленно найти контент, который он только что изменил, даже если основной индекс еще не обновился.

US7818324B1
2010-10-19

Персонализация
Свежесть контента
Индексация

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

US8090717B1
2012-01-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google оптимизирует индекс, сохраняя только те части документов, которые отвечают на запросы пользователей

Google может оптимизировать размер и скорость своего индекса, анализируя, какие части документа использовались для ответа на запросы пользователей. Части, которые редко используются, удаляются из индекса, а сохраняются только наиболее востребованные фрагменты.

US8655886B1
2014-02-18

Индексация
Техническое SEO

Как Google предсказывает ваш следующий запрос на основе контента, который вы просматриваете, и истории поиска других пользователей

Google использует систему контекстной информации, которая анализирует контент на экране пользователя (например, статью или веб-страницу) и предсказывает, что пользователь захочет искать дальше. Система не просто ищет ключевые слова на странице, а использует исторические данные о последовательностях запросов (Query Logs). Она определяет, что другие пользователи искали после того, как вводили запросы, связанные с текущим контентом, и предлагает эти последующие запросы в качестве рекомендаций.

US20210232659A1
2021-07-29

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google комбинирует визуальное сходство и поведение пользователей для переранжирования поиска по картинкам

Google использует механизм для перекрестной проверки релевантности изображений, объединяя поведенческие сигналы (клики) с визуальным анализом. Если изображение часто кликают и оно визуально похоже на другие релевантные изображения по запросу (совместная релевантность), его рейтинг агрессивно повышается. Если оно редко кликается и визуально отличается (совместная нерелевантность), его рейтинг понижается. Это защищает выдачу от кликбейта.

US8209330B1
2012-06-26

Поведенческие сигналы
SERP
Мультимедиа

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google модифицирует PageRank, используя модель «Разумного серфера» для взвешивания ссылок на основе вероятности клика

Google использует машинное обучение для прогнозирования вероятности клика по ссылкам на основе их характеристик (позиция, размер шрифта, анкор) и реального поведения пользователей. Эта модель («Разумный серфер») модифицирует алгоритм PageRank, придавая больший вес ссылкам, которые с большей вероятностью будут использованы, и уменьшая вес игнорируемых ссылок.

US7716225B1
2010-05-11

Ссылки
Поведенческие сигналы
SERP

Как Google масштабирует расчет кратчайших путей в графе ссылок от авторитетных сайтов («Seed Nodes»)

Патент описывает инфраструктуру Google для распределенного вычисления кратчайших путей в огромных графах, таких как веб-граф. Система позволяет эффективно и отказоустойчиво рассчитывать расстояние от любого узла до ближайших авторитетных «Seed Nodes». Это foundational технология, которая делает возможным применение алгоритмов ранжирования, основанных на анализе ссылочного графа и распространении авторитетности (например, типа TrustRank) в масштабах всего интернета.

US8825646B1
2014-09-02

Ссылки

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок

Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.

US8577893B1
2013-11-05

Антиспам
Ссылки
Семантика и интент

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования

Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.

US7925498B1
2011-04-12

Семантика и интент
Поведенческие сигналы