Как Google определяет оригинальность контента для расчета Авторского Ранга (Author Rank) и влияния на ранжирование

RANKING CONTENT USING CONTENT AND CONTENT AUTHORS (Ранжирование контента с использованием контента и авторов контента)

US8983970B1
Google LLC
2012-04-16
2015-03-17

Google использует систему для идентификации оригинального контента и повышения авторитета его создателей. Система разбивает документы на фрагменты (content pieces) и отслеживает их первое появление. Авторы (включая домены) ранжируются на основе количества созданного ими оригинального контента и частоты его копирования другими. Ранг автора затем используется для повышения в выдаче документов этого автора, особенно свежих публикаций.

Какую проблему решает

Патент решает проблему идентификации оригинального контента среди множества дубликатов и копий в поисковой выдаче. Цель — снизить видимость повторяющегося контента и повысить в ранжировании оригинальные источники. Кроме того, патент предлагает механизм оценки репутации авторов (или источников) на основе их способности создавать оригинальный контент, чтобы использовать эту репутацию как сигнал ранжирования для их будущих публикаций.

Что запатентовано

Запатентована система идентификации оригинальности контента и ранжирования авторов. Система фрагментирует документы на content pieces и использует временные метки для определения первого появления каждого фрагмента. Документы и их авторы (которые могут быть доменами или URL) получают оценку (score) на основе оригинальности их контента и того, насколько часто этот контент копируется другими. Итоговый Author Rank используется как фактор ранжирования документов.

Как это работает

Система работает в несколько этапов:

Фрагментация: Документы разбиваются на небольшие фрагменты (content pieces), часто с удалением стоп-слов.
Отслеживание оригинальности: Система определяет самый ранний документ, в котором появился данный фрагмент, используя временные метки (например, дату сканирования или публикации).
Базовый уровень контента (Content Baseline): Устанавливается пороговая дата; контент, появившийся до нее, считается ни оригинальным, ни скопированным, что исключает общеупотребительные фразы.
Оценка контента: Оригинальные фрагменты получают оценку (score), которая может увеличиваться, если этот фрагмент часто копируется другими авторами.
Ранжирование Авторов (Author Rank): Авторы ранжируются на основе оценок их оригинального контента, количества скопированного ими контента и разнообразия источников копирования.
Ранжирование Документов: Ранг документа определяется на основе его оригинальности и/или Ранга его автора. Для новых документов Author Rank может быть основным фактором ранжирования, но его влияние со временем может уменьшаться (rank decay).
Классификация: Анализируется copy history (история копирования) для классификации контента и авторов (например, новости, блоги, реклама).

Актуальность для SEO

Высокая. Идентификация первоисточников и оценка авторитетности авторов/источников (E-E-A-T) являются центральными элементами современных поисковых систем. Хотя концепция Google Authorship в ее первоначальном виде была свернута, механизмы, описанные в этом патенте (где "автор" может означать домен или бренд), остаются крайне актуальными для понимания того, как Google оценивает качество и оригинальность контента, особенно в контексте новостей, синдикации и борьбы с плагиатом.

Важность для SEO

Патент имеет критическое значение для SEO. Он описывает конкретные механизмы, с помощью которых Google может идентифицировать и вознаграждать создателей оригинального контента и пессимизировать тех, кто преимущественно копирует контент. Понимание того, что Author Rank (репутация домена/бренда как оригинального источника) может напрямую влиять на ранжирование, особенно свежего контента, должно формировать долгосрочную контент-стратегию, направленную на создание уникальной ценности и быстрое индексирование.

Термины и определения

Author (Автор): Сущность, связанная с документом. Может быть фактическим создателем контента, но также может определяться по альтернативной информации, если авторство не установлено. Важно: в контексте веба "автором" может выступать доменное имя (server name) или URL документа.
Author Rank (Ранг Автора): Оценка репутации автора, рассчитываемая на основе характеристик контента, который ему приписывается (оригинальность, частота копирования другими, количество скопированного им самим контента).
Content Baseline (Базовый уровень контента): Набор фрагментов контента, появившихся до определенной пороговой даты (threshold date). Фрагменты из этого набора считаются ни оригинальными, ни скопированными. Используется для фильтрации общеупотребительных фраз или исторического контента.
Content Piece (Фрагмент контента): Часть контента документа, полученная в результате фрагментации (например, последовательность из четырех слов). Часто создается после "конденсации" контента (удаления стоп-слов).
Copy History (История копирования): Запись о том, как часто и когда оригинальный фрагмент контента появляется в последующих документах. Отражает скорость распространения контента с течением времени.
Corpus of documents (Корпус документов): Коллекция документов (например, веб-индекс).
Earliest Occurrence (Самое раннее появление): Первый документ в корпусе, в котором зафиксирован определенный content piece. Определяется по временной метке документа.
Rank Decay (Затухание ранга): Механизм, при котором влияние Author Rank на ранг конкретного документа уменьшается с течением времени, позволяя документу ранжироваться на основе его собственных характеристик.
Score (Оценка фрагмента): Показатель качества (figure of merit) фрагмента контента. Зависит от его оригинальности и количества последующих копий.

Ключевые утверждения (Анализ Claims)

Патент US8983970B1 является продолжением (Continuation) более ранней заявки. Описание (Description) патента охватывает широкую систему ранжирования авторов и оригинальности. Однако конкретные Claims (Формула изобретения) в этом документе фокусируются на механизме Content Baseline.

Claim 1 (Независимый пункт): Описывает метод определения авторства с учетом исторического контекста.

Система определяет Content Baseline, устанавливая пороговую дату. Авторство контента, появившегося до этой даты, никому не приписывается.
Идентифицируются два или более документа, содержащие один и тот же content piece.
Определяется, появился ли самый ранний из этих документов до даты Content Baseline. (Контент до этой даты считается ни оригинальным, ни скопированным).
Принимается решение об атрибуции авторства этого фрагмента в более позднем документе:
- (i) Приписать автору самого раннего документа, ИЛИ
- (ii) Не приписывать никому.
Решение принимается на основе того, появился ли самый ранний документ до или после даты Content Baseline.

Claim 8 (Зависимый от 1): Уточняет сценарий, когда контент старый.

Если самый ранний документ появился ДО Content Baseline, то авторство этого фрагмента (даже в более поздних документах) никому не приписывается.

Claim 9 (Зависимый от 1): Уточняет сценарий, когда контент новый.

Если самый ранний документ появился ПОСЛЕ Content Baseline, то авторство этого фрагмента приписывается автору этого самого раннего документа.

Claim 10 (Зависимый от 1): Связывает атрибуцию с ранжированием.

После определения атрибуции (кому приписывается фрагмент), система может определить ранг другого документа этого же автора, основываясь на количестве content pieces, атрибутированных этому автору.

Где и как применяется

Изобретение охватывает несколько этапов поисковой архитектуры, от сканирования до ранжирования.

CRAWLING – Сканирование и Сбор данных

Система использует Author Rank для управления краулингом. Документы высокоранговых авторов могут сканироваться чаще (frequency) и на большую глубину (depth).
На этом этапе фиксируется временная метка (time associated with a document), которая критически важна для определения оригинальности (например, время первого обнаружения документа краулером).

INDEXING – Индексирование и извлечение признаков

Основной этап работы алгоритма. Происходит фрагментация документов (Document Fragmentation) и конденсация контента (удаление стоп-слов).
Модуль отслеживания фрагментов (Piece Tracker) сравнивает новые фрагменты с существующим индексом для идентификации Earliest Occurrence.
Рассчитывается Copy History для оригинальных фрагментов.
На основе этих данных вычисляются и сохраняются Author Rank и классификация авторов/документов (Doc/Author Classifier).

RANKING – Ранжирование

Модуль ранжирования документов (Document Ranker) использует данные об оригинальности контента документа и/или Author Rank как сигналы ранжирования.
Система может передавать ранг (например, основанный на ссылках) от копирующих документов к оригинальному источнику.

RERANKING – Переранжирование

Для свежих документов Author Rank может использоваться для немедленного бустинга в выдаче, до того как документ наберет собственные сигналы (с последующим Rank Decay).

На что влияет

Конкретные типы контента: Наибольшее влияние на контент, который часто копируется или синдицируется: новостные статьи, посты в блогах, обзоры, рекламные тексты.
Специфические запросы: Влияет на запросы, где важна свежесть и авторитетность источника (например, новостные или экспертные запросы).
Конкретные ниши или тематики: Критично для медиа, издательского дела и любых ниш, где остро стоит проблема плагиата и агрегации контента.

Когда применяется

При индексации: Алгоритм определения оригинальности и расчета Author Rank применяется постоянно по мере добавления новых документов в корпус.
При ранжировании: Author Rank и оценки оригинальности используются при расчете релевантности документа запросу.
Триггеры активации (Content Baseline): Механизм Content Baseline активируется, когда система обнаруживает фрагмент контента в нескольких документах и должна решить вопрос об атрибуции, учитывая пороговую дату.
Триггеры активации (Классификация): Классификация активируется, когда Copy History фрагмента соответствует одному из предопределенных паттернов (например, паттерн новостной синдикации).

Пошаговый алгоритм

Процесс А: Обработка и Индексация Документа

Сбор данных: Краулер обнаруживает документ. Фиксируется временная метка и определяется Автор (например, домен).
Конденсация контента: Из документа извлекается текст, стандартизируется, удаляются стоп-слова.
Фрагментация: Контент разбивается на content pieces (например, по 4 слова).
Проверка оригинальности: Каждый фрагмент сравнивается с репозиторием известных фрагментов.
Применение Content Baseline:
- Если фрагмент уже существует, определяется дата его первого появления.
- Если первое появление было ДО пороговой даты Content Baseline, фрагмент помечается как нейтральный (не оригинальный и не скопированный).
- Если первое появление было ПОСЛЕ пороговой даты, текущий документ помечается как содержащий копию, а авторство приписывается источнику первого появления. Обновляется Copy History фрагмента.
Идентификация нового контента: Если фрагмент не найден в репозитории, он помечается как оригинальный в текущем документе. Авторство приписывается автору документа.
Оценка фрагментов: Оригинальным фрагментам присваивается Score.

Процесс Б: Расчет Рангов и Классификация (Асинхронный процесс)

Анализ Copy History: Система анализирует скорость и паттерны распространения оригинальных фрагментов.
Классификация: Фрагменты, документы и авторы классифицируются на основе паттернов копирования (например, Новости, Блог, Реклама).
Пересчет оценок фрагментов: Score оригинальных фрагментов может быть увеличен пропорционально количеству копий или количеству уникальных авторов, скопировавших его.
Расчет Author Rank: Ранг автора пересчитывается на основе агрегированных оценок его оригинальных фрагментов, а также метрик копирования (сколько скопировал автор, из скольких источников).
Расчет Document Rank (Метрики оригинальности): Ранг документа пересчитывается на основе оценок его оригинальных фрагментов, пропорции скопированного контента и количества источников копирования.

Процесс В: Ранжирование Документа (Во время запроса)

Получение кандидатов: Стандартный процесс отбора документов.
Применение сигналов оригинальности: К рангу документа добавляются (или вычитаются) значения, основанные на метриках оригинальности документа (Процесс Б, шаг 5).
Применение Author Rank: К рангу документа применяется Author Rank.
Учет времени (Rank Decay): Если документ новый, влияние Author Rank максимально. Если документ старый, влияние Author Rank снижается.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документа используется для фрагментации. Стоп-слова игнорируются.
Технические факторы: URL или доменное имя могут использоваться для идентификации Автора.
Временные факторы: Критически важные данные. Используется временная метка документа (дата создания, модификации или первого сканирования) для определения Earliest Occurrence и расчета Copy History. Также используется пороговая дата для Content Baseline.

Какие метрики используются и как они считаются

Патент описывает несколько метрик для оценки документов и авторов.

Метрики Документов:

Score of Original Content: Сумма или среднее оценок всех оригинальных content pieces в документе. Оценка фрагмента увеличивается, если он часто копируется.
Number of Sources of Copied Content: Количество уникальных источников, из которых был скопирован контент в документ. (Документы, копирующие из многих источников, могут ранжироваться выше, чем копирующие из одного).
Proportion of Copied Content: Процент контента в документе, который является копией. (Ранг может ухудшаться пропорционально этому значению).

Метрики Авторов (Author Rank):

Score of Attributed Content: Сумма или среднее оценок всех оригинальных content pieces, приписанных автору. Может быть взвешено по количеству документов автора, содержащих оригинальный контент.
Number of Sources Copied by the Author: Количество уникальных источников или авторов, контент которых копирует данный автор.
Proportion of Content Copied by the Author: Общая пропорция скопированного контента во всех документах автора.
Rank of the Author's Documents: Агрегированный ранг документов автора (включая ранг, основанный на ссылках или других сигналах).

Другие метрики:

Copy History Patterns: Сравнение скорости распространения контента с предопределенными паттернами для классификации (Новости, Блог, Реклама).

Оригинальность как основа репутации: Патент детально описывает инфраструктуру для определения оригинальности контента в масштабе веба. Создание оригинального контента является фундаментом для построения Author Rank (репутации источника).
Временные метки критичны: Система полагается на временные метки (дату публикации или первого сканирования) для определения первоисточника. Быть первым — ключевое условие для получения преимуществ от этого алгоритма.
"Автор" трактуется широко: Author Rank не обязательно привязан к человеку. В патенте явно указано, что "автором" может быть домен или URL. Это означает, что система оценивает репутацию сайтов как источников оригинального контента.
Копирование вознаграждается (если копируют вас): Оценка оригинального контента (и, следовательно, Author Rank) увеличивается, если этот контент впоследствии копируется другими. Это стимулирует создание вирального или синдицируемого контента.
Копирование наказывается (если копируете вы): Авторы и документы, которые преимущественно состоят из скопированного контента, могут быть понижены в ранге, особенно если они копируют контент из одного источника.
Бустинг свежего контента через Author Rank: Author Rank позволяет системе быстро ранжировать новые документы от авторитетных авторов, даже до того, как эти документы получат собственные сигналы (например, ссылки). Однако это влияние может затухать со временем (Rank Decay).
Content Baseline защищает от "ложного плагиата": Механизм Content Baseline гарантирует, что использование общеупотребительных фраз или цитирование исторических текстов не будет ошибочно расценено как плагиат.
Передача ранга источнику: Патент предлагает механизм, при котором ранг (например, ссылочный вес), полученный копиями, может быть передан оригинальному документу.

Best practices (это мы делаем)

Фокус на создании уникального контента: Стратегически важно инвестировать в создание контента, который ранее не существовал в индексе. Это напрямую влияет на построение Author Rank (репутации домена).
Обеспечение максимально быстрого индексирования: Поскольку оригинальность определяется по временной метке первого обнаружения контента, критически важно, чтобы ваш контент попадал в индекс Google раньше, чем его скопируют. Используйте XML Sitemaps, Indexing API и обеспечьте высокую скорость сканирования сайта.
Ясное указание дат публикации: Используйте корректную микроразметку (например, datePublished в Schema.org) и указывайте даты на странице, чтобы помочь Google точнее определить временную метку контента.
Стратегия синдикации и виральности: Создавайте контент, который стимулирует копирование или цитирование (например, исследования, новости, уникальные данные). Система вознаграждает авторов, чей контент широко распространяется.
Управление краулинговым бюджетом на основе авторитетности: Патент подтверждает, что Google может использовать Author Rank для определения частоты и глубины сканирования. Повышение авторитетности домена ведет к более эффективному сканированию.
Использование агрегации с добавленной ценностью: Если вы агрегируете контент, делайте это из множества источников и добавляйте значительную уникальную ценность (анализ, комментарии). Патент указывает, что копирование из многих источников может оцениваться лучше, чем полное копирование из одного.

Worst practices (это делать не надо)

Публикация неуникального контента (Плагиат/Скрапинг): Эта тактика напрямую противоречит целям патента. Система активно идентифицирует скопированный контент и может понижать ранг как документа, так и автора (домена).
Медленное индексирование оригинального контента: Если ваш оригинальный контент индексируется медленно, есть риск, что скраперы проиндексируют его первыми, и система ошибочно посчитает их первоисточником.
Синдикация без контроля каноникализации: При синдикации контента на другие платформы необходимо убедиться, что поисковые системы понимают, что ваш сайт является оригинальным источником (например, через cross-domain canonical или требуя от партнеров ссылаться на оригинал).
Поверхностный рерайтинг: Поскольку система использует фрагментацию (content pieces), простой замены слов может быть недостаточно, чтобы обойти обнаружение копий, если структура предложений и ключевые фразы остаются неизменными.

Стратегическое значение

Этот патент является одним из фундаментальных документов, описывающих переход Google от оценки отдельных страниц к оценке репутации источников (Авторов/Доменов). Он закладывает основу для систем, которые вознаграждают экспертизу и оригинальность (часть E-E-A-T). Стратегическое значение заключается в том, что долгосрочный успех в SEO требует построения репутации сайта как надежного источника уникальной информации. Это также объясняет, почему авторитетные новостные сайты часто мгновенно занимают высокие позиции по свежим запросам — их высокий Author Rank гарантирует им видимость.

Практические примеры

Сценарий: Защита оригинального исследования от копирования

Действие: Компания публикует масштабное исследование рынка с уникальными данными.
Подготовка к публикации: Перед публикацией настраивается Indexing API или подготавливается XML Sitemap.
Момент публикации: Исследование публикуется на сайте, и немедленно отправляется запрос на индексацию. Google сканирует страницу и фиксирует временную метку. Система фрагментирует контент и помечает его как оригинальный, приписывая авторство домену компании.
Распространение: Новостные сайты и блогеры начинают цитировать данные и копировать фрагменты текста из исследования.
Реакция системы: Google идентифицирует эти фрагменты как копии. Copy History оригинального исследования растет.
Результат: Score оригинальных фрагментов увеличивается. Author Rank домена компании растет. Оригинальное исследование получает буст в ранжировании. Система может передать часть ранга (ссылочного веса) от копий к оригиналу.

Как система определяет "Автора"? Означает ли это, что нужно использовать разметку авторства (Authorship markup)?

Патент определяет "Автора" очень широко. Это может быть фактический создатель контента, но если он не установлен, система может использовать альтернативные идентификаторы. В патенте прямо указано, что Автором может считаться доменное имя (server name) или URL. Это значит, что система строит репутацию не только людей, но и сайтов или разделов сайтов как источников контента.

Насколько важна скорость индексации в контексте этого патента?

Скорость индексации критически важна. Оригинальность определяется по самому раннему появлению фрагмента контента в индексе (Earliest Occurrence). Если скрапер скопирует ваш контент и проиндексирует его раньше вас, система может ошибочно посчитать его первоисточником. Поэтому использование инструментов для быстрого индексирования (Indexing API, XML Sitemaps) является обязательным.

Что такое "Content Baseline" и как он влияет на SEO?

Content Baseline — это механизм защиты от ложных срабатываний системы определения плагиата. Система устанавливает пороговую дату, и весь контент, появившийся до этой даты, считается нейтральным. Это позволяет использовать общеупотребительные фразы, идиомы или цитаты из классической литературы, не получая пенальти за неуникальный контент.

Как патент предлагает бороться с плагиатом и скрапингом?

Патент предлагает два основных механизма. Во-первых, документы, состоящие преимущественно из скопированного контента, могут быть понижены в ранге. Во-вторых, авторы (домены), которые систематически копируют контент, получают низкий Author Rank, что негативно сказывается на ранжировании всех их документов, особенно свежих публикаций.

Выгодно ли, чтобы мой контент копировали другие сайты?

Да, это выгодно, при условии, что система корректно идентифицировала вас как первоисточник. Патент указывает, что оценка (Score) оригинального контента увеличивается пропорционально количеству его последующих копий другими авторами. Это увеличивает ваш Author Rank и может улучшить ранжирование оригинальной статьи.

Что такое "Rank Decay" и как он работает?

Rank Decay (Затухание ранга) относится к влиянию Author Rank на конкретный документ. Когда авторитетный автор публикует новый документ, система может сразу дать ему высокий ранг, основываясь на репутации автора. Однако со временем это влияние уменьшается, и документ начинает ранжироваться на основе его собственных метрик (ссылок, поведенческих факторов и т.д.).

Как система определяет схожесть контента? Достаточно ли сделать рерайт?

Система использует фрагментацию: текст разбивается на небольшие последовательности слов (content pieces), часто с удалением стоп-слов. Если два документа содержат достаточное количество одинаковых фрагментов, они считаются копиями. Поверхностный рерайт может не помочь, если основные фразы и структура контента сохраняются.

Как работает классификация контента на основе "Copy History"?

Система анализирует скорость распространения контента. Например, быстрое и широкое распространение с последующим резким спадом характерно для новостей (синдикация). Постепенный рост популярности и медленное затухание характерно для блогов. Быстрое распространение, которое не затухает долгое время, может быть классифицировано как реклама. Эта классификация может влиять на ранжирование.

Может ли ссылочный вес, идущий на копию моей статьи, быть передан моему оригиналу?

Да, в патенте описан такой механизм. Если система идентифицирует, что документ Б является копией документа А, то ранг (например, основанный на явных ссылках), полученный документом Б, может быть использован при определении ранга документа А. Это позволяет первоисточнику аккумулировать сигналы, даже если пользователи ссылаются на копии.

Как этот патент влияет на агрегаторы контента?

Агрегаторы рискуют получить низкий Author Rank, если они просто копируют контент. Однако патент упоминает, что документы, которые копируют контент из множества разных источников, могут ранжироваться лучше, чем те, что копируют из одного источника. Это предполагает, что качественная агрегация с добавленной ценностью может быть приемлемой стратегией.

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента

Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.

US8090717B1
2012-01-03

EEAT и качество
Свежесть контента
Семантика и интент

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности

Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.

US7568148B1
2009-07-28

Свежесть контента
EEAT и качество

Как Google определяет тематическую авторитетность источников ("каналов") и агрессивно продвигает их свежий контент

Google идентифицирует "каналы" (сайты, блоги, разделы), которые исторически создают высококачественный контент по определенным темам. Система рассчитывает тематическую авторитетность, учитывая качество контента и сфокусированность канала. Когда авторитетный канал публикует новый контент по своей теме, Google может агрессивно повысить его в выдаче, даже если у контента еще нет ссылок или поведенческих сигналов.

US8874558B1
2014-10-28

EEAT и качество
Свежесть контента
Индексация

Как Google планировал использовать цифровые подписи для расчета репутации авторов (Agent Rank) независимо от сайта публикации

Патент Google, описывающий концепцию "Agent Rank". Система предлагает авторам (агентам) использовать цифровые подписи для подтверждения авторства контента. Это позволяет рассчитывать репутационный рейтинг агента, используя алгоритмы, подобные PageRank, на основе того, кто ссылается на их подписанный контент. Этот рейтинг затем используется для влияния на ранжирование, независимо от того, где контент опубликован.

US7565358B2
2009-07-21

EEAT и качество
Ссылки

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация

Как Google использует данные о посещаемости, уникальных пользователях и длине URL для ранжирования документов

Фундаментальный патент Google, описывающий использование поведенческих факторов в ранжировании. Система рассчитывает Usage Score на основе частоты посещений и количества уникальных пользователей, фильтруя ботов и взвешивая данные по географии. Этот балл комбинируется с текстовой релевантностью (IR Score) и длиной URL (Path Length Score) для определения итоговой позиции документа.

US8001118B2
2011-08-16

Поведенческие сигналы
SERP

Как Google использует генеративный ИИ для создания чата с конкретным сайтом прямо в поисковой выдаче и предоставления глубинных ссылок

Google патентует механизм, позволяющий пользователям взаимодействовать с конкретным результатом поиска через интерфейс чата (prompt input interface) прямо на странице выдачи. Искусственный интеллект анализирует запрос пользователя и его последующий промпт, определяет намерение (поиск информации, действие или навигация) и предоставляет глубинные ссылки (deep links) на конкретные внутренние страницы этого же домена в виде conversational response.

US12353458B2
2025-07-08

Ссылки
Семантика и интент
SERP

Как Google использует повторные клики, прямой трафик и время на сайте для расчета оценки качества домена и корректировки ранжирования

Google анализирует поведение пользователей на уровне домена (группы ресурсов) для вычисления модификатора ранжирования. Ключевые метрики включают долю повторных кликов (Repeat Click Fraction), долю прямого трафика (Deliberate Visit Fraction) и среднюю продолжительность визита (Average Duration). Эти данные используются для корректировки исходных оценок страниц сайта, понижая ресурсы с низкими показателями пользовательской лояльности и вовлеченности.

US9684697B1
2017-06-20

Поведенческие сигналы
SERP

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)

Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.

US8510285B1
2013-08-13

Семантика и интент
Персонализация
Поведенческие сигналы