Как Google выбирает каноническую (основную) версию документа, основываясь на авторитетности источника и полноте контента

IDENTIFYING A PRIMARY VERSION OF A DOCUMENT (Идентификация основной версии документа)

US8095876B1
Google LLC
2005-11-18
2012-01-10

Google использует систему для выбора канонической (основной) версии документа среди его дубликатов. Система присваивает «приоритет авторитетности» каждой версии, основываясь на источнике (например, официальный издатель) и праве публикации. Основной версией выбирается та, которая имеет высокий авторитет и является полной. При отсутствии идеального варианта выбирается версия с наибольшим объемом информации (например, самая длинная или с наибольшим PageRank).

Какую проблему решает

Патент решает проблему наличия множества версий одного и того же документа в интернете (например, полные тексты, аннотации, зеркальные копии на разных сайтах). Это приводит к дублированию контента в результатах поиска, что снижает разнообразие выдачи и затрудняет пользователю понимание того, какая версия является наиболее авторитетной или полной. Цель изобретения — идентифицировать одну «основную версию» (Primary Version), которая будет представлять документ в поиске.

Что запатентовано

Запатентована система для выбора канонической (основной) версии документа из множества его вариантов. Система использует иерархический подход к выбору. На первом этапе приоритет отдается версиям, которые удовлетворяют критериям как авторитетности источника (Priority of Authority), так и полноты контента (Qualified Length). Если идеальная версия не найдена, система переходит ко второму этапу и выбирает версию с «наибольшим объемом информации» (на основе Information Measure).

Как это работает

Ключевой механизм работы системы:

Определение авторитетности: Каждой версии присваивается Priority of Authority. Этот приоритет основан на источнике документа и правах публикации (например, источник с эксклюзивными правами получает высший приоритет).
Оценка полноты: Проверяется, соответствует ли длина документа критерию Qualified Length (чтобы отсеять аннотации и краткие версии).
Выбор (Этап 1): Система ищет версию, которая имеет как квалифицированный приоритет (Qualified Priority), так и квалифицированную длину. Если такая версия найдена, она становится основной.
Выбор (Этап 2): Если на Этапе 1 ничего не найдено, система выбирает версию с наибольшим объемом информации, используя такие метрики, как длина документа, PageRank, количество цитирований или дата модификации.
Консолидация сигналов: Сигналы, такие как цитирования, агрегируются от всех версий к основной (Total Citation Count).

Актуальность для SEO

Высокая. Каноникализация является фундаментальным процессом в работе поисковых систем. Хотя конкретные методы обнаружения дубликатов и сигналы выбора канонической версии могли эволюционировать с момента подачи патента (2005 год), заложенные принципы — предпочтение авторитетных источников и полноты контента — остаются центральными в SEO и работе Google. Описанная логика лежит в основе таких систем, как Google Scholar.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO. Понимание того, как Google выбирает каноническую версию, критически важно, поскольку именно она будет индексироваться и ранжироваться. Патент раскрывает, что авторитетность домена (источника) и полнота контента являются ключевыми факторами в этом процессе. Это особенно важно для стратегий синдикации контента, управления пресс-релизами и публикации исследований на разных платформах.

Термины и определения

Exclusive Publication Right (Эксклюзивное право публикации): Право источника на эксклюзивную публикацию документа. Источники с таким правом получают наивысший Priority of Authority.
Information Measure (Мера информации): Метрика для определения версии с «наибольшим объемом информации». Используется как резервный механизм. Может основываться на длине, PageRank, цитируемости (Citation Count), количестве ссылок в документе (Reference Count) или дате модификации.
Primary Version (Основная версия): Выбранная (каноническая) версия документа, которая используется для представления группы схожих документов в результатах поиска.
Priority of Authority (Приоритет авторитетности): Оценка, присваиваемая версии документа на основе ее источника (source). Определяется правилами приоритета (Priority Rule), например, на основе прав публикации или предопределенного списка Source-Priority List.
Qualified Length (Квалифицированная длина): Критерий полноты документа. Определяется сравнением длины версии с минимальным порогом (minimum length threshold), чтобы предпочесть полные тексты аннотациям или кратким версиям.
Qualified Priority (Квалифицированный приоритет): Критерий авторитетности. Версия имеет квалифицированный приоритет, если ее Priority of Authority выше определенного порога или является наивысшим в группе.
Source-Priority List (Список приоритетов источников): Список источников (например, доменов или баз данных), каждому из которых присвоен соответствующий Priority of Authority. Может формироваться на основе репутации источника, размера корпуса публикаций и т.д.
Total Citation Count (Общее количество цитирований): Сумма количества цитирований всех идентифицированных версий документа.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации основной версии документа.

Для каждой версии документа определяется Priority of Authority на основе источника (source) этой версии.
Приоритет выбирается из Source-Priority List.
Ключевое условие: более высокий Priority of Authority присваивается версии, источник которой обладает Exclusive Publication Right (эксклюзивным правом публикации) на документ.
Основная версия (Primary Version) выбирается на основе этого Priority of Authority.

Ядром изобретения является использование авторитетности источника, конкретно привязанной к правам публикации, для выбора канонической версии.

Claim 3 (Зависимый от 1): Уточняет критерии выбора основной версии.

Выбор осуществляется путем определения версии, которая имеет И Qualified Priority (на основе меры приоритета), И Qualified Length (на основе меры длины).

Это подтверждает, что идеальная основная версия должна быть одновременно авторитетной и полной.

Claim 5 (Зависимый от 3): Описывает резервный механизм (Fallback).

Если ни одна из версий не имеет одновременно Qualified Priority и Qualified Length, выбирается версия с наибольшей длиной (greatest length).

Claims 6, 7, 8 (Зависимые от 3): Описывают альтернативные резервные механизмы, если основные критерии не выполнены. Выбор может основываться на:

Claim 6: Reference Count (количество документов, на которые ссылается данная версия).
Claim 7: Modification Time (время модификации) в сочетании с Qualified Length.
Claim 8: Citation Count (количество документов, цитирующих данную версию) в сочетании с Qualified Length.

Claim 9 (Зависимый от 1): Описывает консолидацию сигналов.

Вычисляется общее количество цитирований (Total Citation Count) на основе Citation Count каждой версии документа в группе.

Где и как применяется

Изобретение применяется на этапе индексирования для обработки обнаруженного контента и выбора канонической версии.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются различные версии документов и их метаданные из разных источников (веб-сайты, базы данных).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Indexing System выполняет следующие шаги:

Группировка версий: Подсистема сопоставления документов (Document Matching Subsystem) идентифицирует разные версии одного и того же документа.
Извлечение признаков (Feature Extraction): Извлекаются метаданные: источник (URL), длина, дата модификации, права публикации, счетчики цитирования. Также используются предварительно рассчитанные данные, такие как PageRank и Source-Priority List.
Каноникализация (Canonicalization): Подсистема идентификации основной версии (Primary Version Identification Subsystem) применяет описанный алгоритм для выбора Primary Version.
Консолидация сигналов: Сигналы, такие как цитирование, агрегируются (Total Citation Count) и ассоциируются с основной версией.

RANKING – Ранжирование
На этапе ранжирования используется только выбранная Primary Version, которая наследует консолидированные сигналы.

PRESENTATION (Отображение результатов)
Система отображает Primary Version в качестве основного результата. Также могут предоставляться ссылки на другие версии и отображаться Total Citation Count (как показано на примере интерфейса Google Scholar в патенте).

Входные данные:

Группа версий одного документа.
Метаданные для каждой версии (источник, длина, автор, заголовок, дата публикации, время модификации).
Данные о правах публикации (Exclusive Publication Right, Licensing Right).
Source-Priority List.
Ссылочные данные (PageRank, Citation Count, Reference Count).

Выходные данные:

Идентификация одной Primary Version.
Total Citation Count для документа.

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, который часто публикуется на разных платформах. В патенте явно упоминается научная литература (scholarly literature) как основной кандидат из-за наличия четких метаданных об источнике. Также влияет на синдицированный контент, пресс-релизы, описания продуктов в e-commerce.
Определенные форматы контента: Влияет на выбор между полным текстом и рефератом (абстрактом), а также между разными форматами (например, PDF, HTML), если они распознаны как версии одного документа.
Конкретные ниши или тематики: Академические исследования, издательское дело, новости, PR.

Когда применяется

Условия работы алгоритма: Алгоритм активируется в процессе индексирования, когда система идентифицирует более одной версии одного и того же документа.
Триггеры активации: Наличие дубликатов или близких версий контента.

Пошаговый алгоритм

Процесс выбора основной версии документа.

Инициализация: Система получает набор различных версий одного документа, предварительно идентифицированных системой сопоставления.
Присвоение приоритета: Для каждой версии определяется Priority of Authority. Это делается на основе источника версии, используя Priority Rule (проверка Source-Priority List или определение прав публикации, где приоритет отдается эксклюзивным правам).
Оценка квалификации (Этап 1): Система проверяет, существует ли хотя бы одна версия, которая удовлетворяет двум условиям одновременно:
- Имеет Qualified Priority (приоритет выше порога или наивысший в наборе).
- Имеет Qualified Length (длина выше минимального порога для полнотекстовых документов).
Выбор по Этапу 1:
- Если ДА: Версия (или версии), удовлетворяющая обоим условиям, выбирается как Primary Version. При наличии нескольких таких версий могут использоваться тай-брейкеры (например, PageRank, наивысший приоритет, наибольшая длина).
- Если НЕТ: Перейти к Этапу 2.
Выбор по Этапу 2 (Резервный механизм): Система выбирает версию с наибольшим объемом информации на основе Information Measure. Метрика может быть настроена по-разному:
- Выбор версии с наибольшей длиной.
- Выбор версии с наибольшим Reference Count.
- Выбор версии с наибольшим Citation Count среди версий с Qualified Length.
- Выбор версии с наибольшим PageRank среди версий с Qualified Length.
- Выбор версии с самой последней датой модификации среди версий с Qualified Length.
Постобработка: После выбора Primary Version система вычисляет агрегированные метрики, например, Total Citation Count путем суммирования цитирований всех версий.
Завершение: Выбранная Primary Version используется для индексации и ранжирования.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных для принятия решения о каноникализации:

Технические факторы:
- URL-структура / Источник (Source): Критически важен для идентификации домена и определения Priority of Authority.
- Размер страницы / Длина документа (Length): В байтах, словах и т.д. Используется для оценки полноты.
- Время последней модификации (Last Modified).
Контентные факторы (Метаданные):
- Имена авторов, заголовок.
- Издатель, дата публикации, место публикации.
- Ключевые слова, язык.
- Идентификаторы статей (DOI, PubMed Identifier, SICI, ISBN).
Ссылочные и Авторитетные факторы:
- PageRank: Явно упоминается как мера важности и может использоваться как Information Measure.
- Citation Count: Количество документов, цитирующих данную версию (входящие цитирования).
- Reference Count: Количество документов, на которые ссылается данная версия (исходящие цитирования).
Данные об источнике и правах (Системные данные):
- Source-Priority List: Предварительно составленный список авторитетности источников.
- Exclusive Publication Right (Эксклюзивное право публикации).
- Licensing Right (Право лицензирования).

Какие метрики используются и как они считаются

Priority of Authority: Числовая оценка авторитетности источника. Вычисляется на основе Priority Rule. Пример правила: Если источник имеет Exclusive Publication Right, приоритет наивысший; если Licensing Right, приоритет средний; иначе низкий. Или же приоритет берется напрямую из Source-Priority List.
Qualified Priority: Определяется Priority Measure. Может быть пороговым значением (например, приоритет должен быть >= X) или относительным (например, наивысший приоритет среди всех версий).
Qualified Length: Определяется Length Measure. Сравнение длины документа с минимальным порогом (minimum length threshold).
Information Measure: Метрика для резервного выбора. Не является единой формулой; система может использовать разные метрики в зависимости от контекста (например, Максимальная Длина, Максимальный PageRank, Максимальный Citation Count).
Total Citation Count: Сумма Citation Count всех версий в группе.

Авторитетность источника и полнота контента — главные критерии каноникализации: Google стремится выбрать версию, которая является одновременно наиболее авторитетной (опубликована на надежном источнике, в идеале — первоисточником с эксклюзивными правами) и наиболее полной (полный текст, а не аннотация).
Явное использование прав публикации: Патент четко указывает на использование Exclusive Publication Right и Licensing Right для определения Priority of Authority. Это подчеркивает важность статуса контента при определении его канонической версии.
Гибкие резервные механизмы (Fallback): Если идеальная версия не найдена (например, авторитетная версия неполная), система переключается на выбор «лучшей доступной» версии. Для этого используются сильные сигналы ранжирования: PageRank, цитируемость, длина контента и его свежесть (Modification Time).
Полнота может перевесить авторитетность (в резервном сценарии): Если авторитетный источник предоставляет только аннотацию, а менее авторитетный — полный текст, система может выбрать полный текст в качестве Primary Version в рамках резервного механизма.
PageRank как фактор каноникализации: PageRank явно упоминается как один из возможных критериев выбора основной версии в резервном механизме. Это подтверждает, что ссылочная авторитетность может определить, какая из версий будет выбрана канонической.
Консолидация сигналов (Signal Consolidation): Патент описывает механизм агрегации сигналов (Total Citation Count) из всех версий документа. Это подтверждает, что Google стремится консолидировать авторитет вокруг выбранной основной версии.

Best practices (это мы делаем)

Публикация наиболее полной версии: Убедитесь, что версия контента на вашем сайте является наиболее полной (соответствует Qualified Length). Если вы публикуете только аннотацию или краткое содержание, а полный текст доступен в другом месте, ваш URL вряд ли станет каноническим.
Повышение авторитетности источника: Работайте над общей авторитетностью домена (E-E-A-T). Это увеличивает вероятность того, что ваш сайт будет иметь высокий Priority of Authority, что является первичным фактором выбора при каноникализации.
Концентрация ссылочных сигналов: Направляйте внешние и внутренние ссылки на предпочитаемую версию документа. Поскольку PageRank и Citation Count используются как тай-брейкеры или в резервном механизме, версия с большим количеством ссылок имеет больше шансов стать Primary Version.
Управление синдикацией контента: Если вы синдицируете контент, убедитесь, что ваша оригинальная версия является наиболее авторитетной и полной. Используйте технические средства и организационные меры (например, требуйте ссылки на оригинал), чтобы ваша версия была идентифицирована как основная.
Актуализация контента: Поддерживайте контент в актуальном состоянии. Modification Time используется как один из критериев выбора в резервном механизме, поэтому более свежая версия (при условии полноты) может быть предпочтительнее.

Worst practices (это делать не надо)

Размещение неполных версий контента: Публикация только частичных данных (например, только метаданных товара или аннотации статьи) при наличии полных версий на других сайтах минимизирует шансы стать каноническим источником.
Синдикация на более авторитетные ресурсы без контроля: Размещение вашего контента на сайтах с более высоким Priority of Authority без четких сигналов каноникализации может привести к тому, что версия на партнерском сайте станет Primary Version.
Игнорирование технических дублей с разной полнотой: Наличие на сайте полной версии и технического дубля с усеченным контентом (например, версия для печати) создает риск неправильного выбора канонической версии, если усеченная версия по ошибке получит больше сигналов.
Распыление сигналов по дубликатам: Создание множества копий контента и попытка их независимого продвижения неэффективна. Система сгруппирует их и консолидирует сигналы на одной выбранной версии.

Стратегическое значение

Патент демонстрирует, что каноникализация — это не просто технический процесс устранения точных дубликатов, а стратегическое решение, основанное на оценке авторитетности источника и качества контента. Он подтверждает важность построения авторитетного бренда (источника), который имеет право на «владение» каноническим статусом своего контента. Для SEO-стратегии это означает, что для закрепления за собой трафика необходимо быть либо первоисточником с эксклюзивными правами, либо наиболее полным и авторитетным ресурсом.

Практические примеры

Сценарий 1: Публикация научного исследования (Основной механизм)

Исследователь публикует статью в трех местах:

(A) Личный блог (полный текст, низкий авторитет).
(B) Сайт университета (аннотация, средний авторитет).
(C) Научный журнал (полный текст, высокий авторитет, эксклюзивные права).

Действие системы: Система присваивает наивысший Priority of Authority версии C. Затем она проверяет Qualified Length. Версия C полная.
Результат: Версия C (журнал) выбирается как Primary Version, так как удовлетворяет обоим критериям. Все цитирования версий A, B и C консолидируются для версии C.

Сценарий 2: Новостная статья (Резервный механизм)

Срочная новость опубликована:

(A) Сайт крупного СМИ (Высокий авторитет), но только краткая аннотация (не удовлетворяет Qualified Length).
(B) Сайт небольшого нишевого издания (Средний авторитет), полный текст (удовлетворяет Qualified Length).

Действие системы: Ни одна версия не удовлетворяет обоим критериям одновременно (A не имеет длины, B может не иметь достаточного приоритета). Система переходит к Этапу 2 (резервный механизм).
Результат: Если Information Measure настроена на максимальную длину, сайт нишевого издания (B) будет выбран как Primary Version, несмотря на более низкую авторитетность.

Что такое «Priority of Authority» и как он определяется?

Priority of Authority — это оценка авторитетности версии документа, основанная на ее источнике. Патент предлагает два основных метода: использование предопределенного списка Source-Priority List (где доменам заранее присвоены оценки авторитетности) или анализ прав публикации. Источник с эксклюзивными правами (Exclusive Publication Right) получает наивысший приоритет, за ним следуют источники с лицензионными правами.

Что важнее для выбора основной версии: авторитетность источника или полнота текста?

В идеале Google ищет сочетание обоих факторов. Алгоритм сначала ищет версии, которые удовлетворяют пороговым значениям и авторитетности (Qualified Priority), и полноты (Qualified Length). Однако, если такой идеальной версии нет, система переходит к резервному механизму, где полнота текста часто становится решающим фактором (например, выбирается самая длинная версия).

Что произойдет, если самая авторитетная версия документа неполная (например, только аннотация)?

Если версия с наивысшим Priority of Authority не удовлетворяет критерию Qualified Length, она не будет выбрана на первом этапе. Система перейдет к резервному механизму и выберет версию с «наибольшим объемом информации». Это может быть менее авторитетная версия, но которая является полной и имеет сильные сигналы (например, самую большую длину или наивысший PageRank).

Как этот патент влияет на стратегии синдикации контента?

Влияние критическое. Если вы синдицируете контент на платформу, которая имеет более высокий Priority of Authority, чем ваш сайт, и ваша версия не обладает явными преимуществами, версия на партнерском сайте может быть выбрана как основная. Необходимо гарантировать, что ваша оригинальная версия является наиболее полной и концентрирует на себе максимум сигналов авторитетности.

Влияет ли PageRank на выбор основной (канонической) версии?

Да, PageRank явно упоминается в патенте. Он используется в резервном механизме (Information Measure) для выбора основной версии, если ни одна версия не удовлетворяет одновременно критериям авторитетности и длины. Версия с наибольшим PageRank (среди полных версий) может быть выбрана как основная.

Применяется ли этот патент только для Google Scholar?

Хотя в патенте в качестве примеров часто используется научная литература (scholarly literature) и интерфейс похож на Google Scholar, описанные механизмы являются общими для идентификации основных версий документов. Принципы применимы к любому типу контента, где существуют множественные версии, включая новости, блоги, e-commerce и т.д.

Подтверждает ли патент, что ссылочный вес дубликатов передается канонической версии?

Да, патент явно подтверждает консолидацию сигналов. В нем описан расчет Total Citation Count путем суммирования цитирований всех версий документа. Логично предположить, что аналогичный подход применяется и к другим ссылочным сигналам, таким как PageRank, которые агрегируются и приписываются выбранной Primary Version.

Как Google узнает, у кого есть «эксклюзивные права публикации»?

Патент предполагает, что эта информация может быть найдена в метаданных, связанных с версией документа. Также упоминается возможность использования списка правообладателей (document-right holder list), составленного из реестров авторских прав/собственности или из библиографических цитирований.

Как этот патент соотносится с тегом rel=canonical?

Патент (подан в 2005 г.) описывает алгоритмический способ выбора канонической версии, основанный на анализе контента, источника и ссылок. Тег rel=canonical (введен в 2009 г.) предоставляет вебмастерам способ явно указать предпочтительную версию. Можно предположить, что современные системы используют указания вебмастеров как сильный сигнал, но алгоритмы, подобные описанному в патенте, используются для принятия окончательного решения, особенно когда указания отсутствуют или противоречивы.

Что делать, если Google выбрал не мой сайт в качестве Primary Version?

Проанализируйте ситуацию по двум основным критериям патента. 1) Авторитетность: Возможно, Google считает домен конкурента более авторитетным источником (Priority of Authority). 2) Полнота: Убедитесь, что ваша версия контента не короче и не менее полная, чем версия конкурента (Qualified Length). Работайте над улучшением этих двух аспектов и концентрацией ссылочных сигналов.

Как Google динамически выбирает и ранжирует факты об объектах в зависимости от запроса пользователя (Основы Knowledge Graph)

Патент описывает создание и использование репозитория фактов (предшественника Knowledge Graph). Система извлекает факты из интернета и связывает их с объектами (сущностями). При поиске Google не просто возвращает список объектов, а динамически выбирает и ранжирует наиболее релевантные факты для каждого объекта, основываясь на конкретном запросе пользователя, а также метриках достоверности и важности.

US7774328B2
2010-08-10

Knowledge Graph
Семантика и интент
SERP

Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование

Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.

US8983970B1
2015-03-17

EEAT и качество
Свежесть контента
SERP

Как Google обнаруживает точные дубликаты во время сканирования и выбирает каноническую версию на основе PageRank и гистерезиса

Патент Google, описывающий систему (Dupserver) для обнаружения точных дубликатов контента на этапе сканирования. Система использует фингерпринты контента и URL для группировки дубликатов. Каноническая версия выбирается на основе наивысшего независимого от запроса показателя (например, PageRank). Для предотвращения частого переключения канонической версии используется механизм гистерезиса. Также описана обработка 301 и 302 редиректов.

US7627613B1
2009-12-01

Краулинг
Индексация
Техническое SEO

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)

Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.

US8811742B2
2014-08-19

Мультимедиа
EEAT и качество

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню

Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.

US9053177B1
2015-06-09

SERP
Ссылки
Структура сайта

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует историю кликов пользователей для определения интента, связанного с физическим адресом, и таргетинга рекламы

Google анализирует, какие поисковые запросы исторически приводят к наибольшему количеству кликов по бизнесам, расположенным по определенному адресу. Когда пользователь ищет этот адрес (или смотрит его на карте), Google использует этот «Самый популярный поисковый термин» (Most-Popular Search Term), чтобы определить намерение пользователя и показать релевантную информацию и рекламу.

US20150261858A1
2015-09-17

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам

Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).

US9135317B2
2015-09-15

Поведенческие сигналы
Мультимедиа
Семантика и интент

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)

Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.

US9223868B2
2015-12-29

Поведенческие сигналы
SERP
Антиспам

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи

Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы
Персонализация
EEAT и качество