SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам

LINK BASED CLUSTERING OF HYPERLINKED DOCUMENTS (Кластеризация гиперссылочных документов на основе ссылок)
  • US7213198B1
  • Google LLC
  • 2000-08-10
  • 2007-05-01
  • Ссылки
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).

Описание

Какую проблему решает

Патент решает проблему неоднозначности поисковых запросов (полисемии). Когда запрос имеет несколько значений (например, "Saturn" может означать планету, автомобиль или игровую систему), стандартный поиск возвращает смешанный набор результатов по всем этим темам, что затрудняет навигацию для пользователя. Изобретение призвано автоматически сгруппировать (кластеризовать) результаты поиска по конкретным темам, используя структуру ссылок в интернете, обеспечивая более когерентную выдачу.

Что запатентовано

Запатентован метод для автоматической кластеризации гиперссылочных документов (например, результатов поиска) на основе анализа ссылочного графа. Основной механизм — это анализ со-цитирования (Co-citation): если на два документа (А и Б) одновременно ссылается много других страниц, то документы А и Б, вероятно, посвящены одной теме. Система использует иерархическую кластеризацию и вводит специфическую метрику сходства (Similarity Measure), которая активно нормализует влияние очень популярных сайтов, чтобы избежать ложных тематических связей.

Как это работает

Система работает следующим образом:

  • Сбор и Расширение: Получается набор результатов поиска, который может быть расширен за счет включения соседних документов (Expanded Search Set).
  • Анализ Со-цитирования: Система идентифицирует внешние страницы (Back Link List), которые ссылаются на два или более документа из этого набора.
  • Расчет Сходства: Вычисляется Similarity Measure между парами документов. Эта метрика увеличивается при высоком Co-citation, но уменьшается (нормализуется), если документы очень популярны (имеют много входящих ссылок), чтобы отфильтровать случайные совпадения.
  • Иерархическая Кластеризация: Документы с наивысшим показателем сходства итеративно объединяются в группы. Процесс останавливается, когда сходство между оставшимися группами падает ниже порогового значения.
  • Вывод: Результаты поиска отображаются сгруппированными по темам.

Актуальность для SEO

Высокая (концептуально). Патент подан в 2000 году, и конкретные математические методы, вероятно, эволюционировали в сторону машинного обучения и векторных представлений. Однако заложенные в нем принципы остаются фундаментальными. Использование структуры ссылок, концепция "ссылочного соседства" и со-цитирования для определения тематической близости критически важны для понимания того, как Google интерпретирует Topical Authority.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он демонстрирует, что ссылочный профиль используется не только для передачи авторитета (как в PageRank), но и для определения тематики и контекста документа. Это подчеркивает критическую важность получения ссылок из правильного "тематического соседства" — от страниц-хабов, которые также ссылаются на другие авторитетные ресурсы в вашей нише. Стратегии построения ссылок должны фокусироваться на интеграции сайта в релевантные тематические кластеры ссылочного графа.

Детальный разбор

Термины и определения

Back Link List (Список обратных ссылок)
Набор документов, которые содержат прямые ссылки (forward links) на документы из Expanded Search Set. Используются для анализа со-цитирования.
Co-citation (Со-цитирование)
Ситуация, когда один документ ссылается на два других документа (или группы) одновременно. Co-citation number — это количество документов, которые со-цитируют данную пару.
Expanded Search Set (Расширенный набор поиска)
Исходный набор результатов поиска, дополненный документами из ближайшего ссылочного окружения (теми, что ссылаются на исходный набор, или теми, на которые ссылается исходный набор).
Hierarchical Clustering (Иерархическая кластеризация)
Алгоритм группировки, при котором каждый документ изначально считается отдельной группой, а затем наиболее близкие группы итеративно объединяются.
NumBL (Number of Back Links)
Общее количество входящих ссылок на документ или группу документов. Используется как показатель популярности для нормализации.
Similarity Measure (Метрика сходства)
Числовое значение, определяющее степень тематической близости между двумя документами или группами. Рассчитывается на основе Co-citation и NumBL.
W (или ω) (Web size estimate)
Оценка общего количества страниц в Интернете. Используется в формуле Similarity Measure для расчета ожидаемого случайного со-цитирования.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод кластеризации документов.

  1. Идентификация набора документов.
  2. Определение сходства между первым и вторым документами на основе: (А) количества документов, ссылающихся на оба документа (Co-citation), и (Б) количества обратных ссылок (NumBL) первого и второго документов.
  3. Ключевое условие: результат определения сходства обратно пропорционален количеству обратных ссылок (NumBL).
  4. Формирование группы, если документы признаны схожими.

Ядро изобретения — это обязательная нормализация (обратная пропорциональность) по популярности. Это предотвращает ситуацию, когда очень популярные, но тематически не связанные сайты кластеризуются вместе из-за случайных общих ссылок.

Claim 4 (Зависимый от 1): Уточняет расчет сходства.

Определение сходства основано на вычитании произведения количества обратных ссылок первого и второго документов из количества документов, ссылающихся на оба.

Это описывает числитель формулы Similarity Measure, где из фактического со-цитирования вычитается ожидаемое случайное со-цитирование.

Claim 13 (Зависимый от 1): Описывает структуру формулы сходства.

Сходство определяется путем деления первого значения (основанного на Co-citation и NumBL) на второе значение (основанное только на NumBL).

Это подтверждает использование сложной дроби, где числитель учитывает скорректированное со-цитирование, а знаменатель используется для нормализации.

Claim 17 (Независимый пункт): Описывает применение метода к группам (иерархическая кластеризация).

  1. Каждый документ определяется как группа.
  2. Определяется тематическое сходство двух групп на основе Co-citation и NumBL групп.
  3. Условие: сходство обратно пропорционально NumBL групп.
  4. Группы объединяются, если они признаны схожими.

Это позволяет применять базовый механизм итеративно для построения иерархии кластеров.

Где и как применяется

Изобретение применяется на финальных этапах обработки запроса для организации выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе система анализирует ссылочный граф и рассчитывает данные о входящих ссылках (NumBL) для каждого документа. Патент также упоминает возможность предварительной кластеризации (preclustering) всего интернета офлайн.

RANKING – Ранжирование
На этом этапе генерируется исходный набор результатов поиска (Search Set).

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Основное применение патента. После получения исходных результатов система активирует механизм кластеризации:

  1. Анализ окружения: Исходный набор может быть расширен (Expanded Search Set) и извлекается список обратных ссылок (Back Link List).
  2. Кластеризация: Выполняется иерархическая кластеризация с использованием Similarity Measure.
  3. Формирование SERP: Результаты перегруппировываются для отображения пользователю в виде тематических кластеров.

Входные данные:

  • Исходный набор результатов поиска (Search Set).
  • Данные ссылочного графа (кто на кого ссылается).
  • Показатели NumBL для документов.

Выходные данные:

  • Сгруппированные по темам результаты поиска.

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на неоднозначные (ambiguous) запросы, имеющие несколько различных интентов или значений (например, "Jaguar", "Saturn", "Apple").
  • Типы контента: Влияет на любые типы гиперссылочных документов, интегрированных в ссылочный граф интернета.

Когда применяется

  • Условия работы: Алгоритм применяется к набору результатов поиска для их тематической организации.
  • Триггеры активации: Наличие достаточного количества данных о со-цитировании среди результатов поиска. Если ссылок мало, кластеризация на основе ссылок будет неэффективной. Вероятно, активируется, когда система идентифицирует запрос как неоднозначный.

Пошаговый алгоритм

Процесс кластеризации результатов поиска:

  1. Получение исходного набора: Система получает исходный Search Set.
  2. Расширение набора (Опционально): Search Set расширяется за счет документов из ближайшего окружения, формируя Expanded Search Set.
  3. Генерация обратных ссылок: Формируется Back Link List документов, которые ссылаются на документы в Expanded Search Set.
  4. Расчет исходного сходства: Для пар документов рассчитывается Co-citation number и вычисляется Similarity Measure. Изначально каждый документ считается отдельной группой.
  5. Идентификация кандидатов на слияние: Система сортирует пары групп по убыванию Similarity Measure и определяет наиболее схожие пары. Для эффективности одновременно выбирается множество пар.
  6. Слияние групп: Выбранные пары объединяются в новые, более крупные группы.
  7. Перерасчет сходства: Вычисляется Similarity Measure для новых групп. Для эффективности может использоваться аппроксимация путем суммирования предыдущих показателей Co-citation (как описано в патенте при обсуждении FIG. 17).
  8. Проверка условия остановки: Система проверяет, остались ли группы с показателем сходства выше порогового значения (например, больше 0). Если нет, процесс завершается. Если да, повторяются шаги 5-7.
  9. Отображение результатов: Исходные результаты поиска отображаются сгруппированными в соответствии с финальными кластерами.

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на использовании структуры ссылок.

  • Ссылочные факторы: Это единственные факторы, используемые в данном изобретении. Анализируются входящие ссылки (Back Links) и исходящие ссылки (Forward Links) для документов в исходном наборе и их окружении. Анкорный текст или контент не используются.

Какие метрики используются и как они считаются

Система вычисляет следующие ключевые метрики:

  • NumBL (A): Количество входящих ссылок на документ (или группу) А. Показатель популярности.
  • Co-citation (A, B): Количество документов, которые одновременно ссылаются и на А, и на Б. Показатель связи.
  • Similarity Measure (A, B): Основная метрика для кластеризации.

Формула расчета Similarity Measure (A, B) (согласно FIG. 13):

Similarity(A,B)=Co-citation(A,B)−α⋅NumBL(A)⋅NumBL(B)WNumBL(A)⋅NumBL(B)\text{Similarity}(A, B) = \frac{\text{Co-citation}(A, B) - \frac{\alpha \cdot \text{NumBL}(A) \cdot \text{NumBL}(B)}{W}}{\sqrt{\text{NumBL}(A) \cdot \text{NumBL}(B)}}

Где:

  • α\alpha (Alpha) — константа (например, 10), гарантирующая, что слияние происходит только при статистически значимом превышении случайного уровня со-цитирования.
  • WW — оценка размера Интернета.

Интерпретация формулы:

  • Числитель: Вычитает ожидаемое количество случайных со-цитирований (которое тем выше, чем популярнее страницы А и Б) из фактического количества.
  • Знаменатель: Нормализует результат (штрафует популярность), чтобы страницы с большим количеством ссылок не доминировали в процессе кластеризации.

Выводы

  1. Ссылки определяют тематику (Link-Based Context): Патент подтверждает, что Google использует ссылочный граф не только для оценки авторитетности (PageRank), но и для определения тематических связей между документами. Структура ссылок служит заменой человеческому знанию при группировке контента.
  2. Со-цитирование как ключевой сигнал связи: Основным механизмом определения тематической близости является Co-citation. Документы, на которые часто ссылаются одни и те же источники, считаются тематически связанными.
  3. Критическая важность нормализации популярности: Изобретение вводит сложную метрику Similarity Measure, специально разработанную для нейтрализации влияния чрезмерно популярных сайтов. Сходство обратно пропорционально количеству входящих ссылок (NumBL). Это означает, что важна не масса ссылок, а их структура и контекст.
  4. Иерархический подход к темам: Использование иерархической кластеризации позволяет системе строить тематические группы итеративно, что повышает точность и решает проблему транзитивности (когда А связано с Б, Б связано с В, но А не имеет прямой связи с В).
  5. Важность ссылочного окружения (Link Neighborhood): Тематика документа определяется его положением в ссылочном графе. То, кто ссылается на вас, и на кого еще ссылаются эти источники, определяет вашу «ссылочную окрестность».

Практика

Best practices (это мы делаем)

  • Интеграция в тематические ссылочные кластеры: Стратегия линкбилдинга должна быть направлена на получение ссылок со страниц, которые также ссылаются на другие авторитетные и тематически близкие ресурсы в вашей нише. Это создает сильный профиль со-цитирования.
  • Приоритет тематических Хабов: Фокусируйтесь на получении ссылок от страниц-хабов (например, отраслевые обзоры, каталоги, авторитетные списки ресурсов). Ссылки из таких источников помогают поисковой системе правильно кластеризовать ваш контент вместе с лидерами ниши.
  • Анализ со-цитирования конкурентов: Изучайте, какие источники одновременно ссылаются на нескольких ваших топовых конкурентов. Эти источники являются ключевыми целями для аутрич-кампаний, так как ссылка от них имеет высокую стратегическую ценность для подтверждения тематической релевантности.
  • Использование исходящих ссылок для контекстуализации: Патент упоминает (FIG 6A/6B), что прямые ссылки между страницами также могут учитываться как форма со-цитирования. Размещение исходящих ссылок на авторитетные, тематически связанные ресурсы может помочь определить контекст вашей страницы.

Worst practices (это делать не надо)

  • Нерелевантный линкбилдинг и PBN: Получение ссылок с сайтов, которые не имеют тематической связи с вашим контентом или ссылаются на случайный набор ресурсов (например, некачественные PBN). Такие ссылки не помогут установить тематическую связь через механизм Co-citation.
  • Фокус только на количестве ссылок или Метриках Авторитетности (DA/DR): Метрики типа DA/DR не отражают структуру со-цитирования. Патент показывает, что система нормализует популярность (NumBL), поэтому фокус на массе ссылок без учета их структуры неэффективен.
  • Изоляция в ссылочном графе: Получение ссылок только со страниц, которые больше ни на кого в вашей нише не ссылаются. Такие ссылки могут передавать вес, но слабо помогают в формировании тематического кластера.

Стратегическое значение

Этот патент является одним из фундаментальных документов, объясняющих концепцию Topical Authority с точки зрения ссылочного графа. Он подтверждает, что для Google критически важно, в каком контексте и окружении находится сайт. Долгосрочная SEO-стратегия должна включать построение сильного, тематически сфокусированного ссылочного профиля, который четко позиционирует сайт внутри определенного тематического кластера интернета. Это подтверждает переход от анализа отдельных ссылок к анализу паттернов и структур в ссылочном графе.

Практические примеры

Сценарий: Построение Topical Authority для сайта о веганском питании

  1. Анализ кластера: SEO-специалист идентифицирует ключевые авторитетные сайты в нише (например, VeganSociety.com, NutritionFacts.org).
  2. Анализ Со-цитирования: Используя инструменты анализа ссылок, специалист находит страницы (например, университетские исследования, крупные новостные статьи о питании), которые одновременно ссылаются на VeganSociety.com и NutritionFacts.org. Это тематические хабы.
  3. Стратегия Аутрич: Специалист проводит аутрич-кампанию, нацеленную на получение ссылок именно с этих тематических хабов (или страниц аналогичного типа) на свой сайт.
  4. Ожидаемый результат: Получив ссылки с этих страниц, новый сайт начинает со-цитироваться вместе с авторитетами ниши. Алгоритм Google, основанный на принципах патента, идентифицирует высокую тематическую связь (Similarity Measure) и начинает рассматривать новый сайт как часть авторитетного тематического кластера "Веганское питание".

Вопросы и ответы

Что такое со-цитирование (Co-citation) простыми словами и почему оно важно для SEO?

Со-цитирование происходит, когда одна страница (Источник) ссылается на две другие страницы (Цель А и Цель Б) одновременно. Согласно патенту, это сильный сигнал того, что Цель А и Цель Б тематически связаны. Для SEO это означает, что получение ссылок с источников, которые также ссылаются на авторитетов в вашей нише, помогает поисковой системе понять тематику вашего сайта и укрепить его Topical Authority.

Как система защищается от влияния очень популярных сайтов вроде Wikipedia или новостных порталов?

Система использует специальную метрику сходства (Similarity Measure), которая нормализует популярность. Сходство рассчитывается как обратно пропорциональное количеству входящих ссылок (NumBL). Если сайт очень популярен, ожидается, что он будет иметь много случайных со-цитирований. Формула вычитает это ожидаемое случайное значение, чтобы популярность не искажала тематическую кластеризацию.

Что такое "Расширенный набор поиска" (Expanded Search Set) и зачем он нужен?

Expanded Search Set — это исходные результаты поиска плюс документы из их ближайшего ссылочного окружения (те, кто ссылается на них, и те, на кого они ссылаются). Это позволяет системе собрать больше данных о ссылочной структуре вокруг результатов поиска. Анализ этого "соседства" дает более точную картину связей и улучшает качество кластеризации.

Использует ли этот алгоритм анализ текста или ключевые слова для кластеризации?

Нет. Данный патент описывает метод, основанный исключительно на анализе структуры ссылок (Link-Based Clustering). Он не использует контент документов для определения тематического сходства. Это позволяет группировать документы, даже если они используют разную терминологию для описания одной и той же темы.

Что означает иерархическая кластеризация в контексте этого патента?

Это итеративный процесс. Сначала каждый документ считается отдельной группой. На каждом шаге система находит две наиболее похожие группы (на основе Similarity Measure) и объединяет их в одну более крупную группу. Процесс повторяется до тех пор, пока сходство между оставшимися группами не станет слишком низким. Это позволяет выявлять сложные тематические связи.

Как этот старый патент (подан в 2000 году) актуален для современного SEO?

Хотя конкретные алгоритмы Google эволюционировали, принципы, заложенные в этом патенте, фундаментальны. Концепция того, что ссылочное окружение и со-цитирование определяют тематический контекст сайта, лежит в основе современного понимания Topical Authority и E-E-A-T. Понимание этих механизмов критически важно для разработки эффективных стратегий линкбилдинга.

Могут ли исходящие ссылки с моего сайта помочь в кластеризации?

Да. Патент упоминает (FIG 6A/6B), что прямая ссылка со страницы А на страницу Б может рассматриваться как форма со-цитирования (страница А со-цитирует саму себя и страницу Б). Размещение исходящих ссылок на авторитетные, тематически релевантные ресурсы может помочь определить контекст вашей страницы и способствовать её правильной интеграции в тематический кластер.

Что важнее: получить ссылку с очень авторитетного сайта (например, BBC) или с менее авторитетного, но тематически сфокусированного хаба?

Для целей тематической кластеризации более ценной может быть ссылка с тематического хаба, который активно со-цитирует другие ресурсы в вашей нише. Ссылка с BBC даст авторитет, но если она находится в статье, не связанной с вашей тематикой и не со-цитирующей других игроков рынка, она мало поможет в определении вашей тематической принадлежности через этот механизм.

Как система определяет, когда остановить процесс кластеризации?

Процесс останавливается, когда метрика сходства (Similarity Measure) между любыми двумя оставшимися группами падает ниже определенного порога (например, становится отрицательной). По мере того как группы становятся больше, их популярность (NumBL) растет, и формула сходства начинает сильнее "штрафовать" за это, что естественным образом приводит к остановке процесса.

Что такое "preclustering" (предварительная кластеризация), упомянутая в патенте?

Это офлайн-процесс, при котором Google может заранее проанализировать весь интернет и сгруппировать связанные страницы в предварительные кластеры. При получении запроса система может кластеризовать не отдельные документы, а эти предварительные кластеры. Это значительно ускоряет обработку запроса в реальном времени, хотя и может несколько снизить точность.

Похожие патенты

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска
Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.
  • US8612411B1
  • 2013-12-17
  • Ссылки

  • SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)
Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
  • US8650196B1
  • 2014-02-11
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует тематические векторы, косинусное сходство и анализ когезии кластеров для автоматической классификации контента
Патент Google, описывающий технологию автоматической организации документов. Система создает тематическую сигнатуру документа (вектор тем и их весов) и сравнивает её с существующими наборами документов, используя Cosine Similarity. Затем вычисляется Оценка Уверенности на основе среднего сходства и однородности набора. Патент раскрывает фундаментальные механизмы Information Retrieval, которые Google использует для понимания семантики и оценки тематической когезии контента.
  • US8458194B1
  • 2013-06-04
  • Семантика и интент

Как Google использует клики по изображениям для определения схожести запросов и картинок (Поведенческая схожесть)
Google анализирует поведение пользователей в поиске по картинкам, чтобы определить схожесть двух запросов (или двух изображений). Если пользователи часто кликают на одни и те же изображения в ответ на разные запросы, эти запросы считаются похожими. Этот механизм (Коллаборативная фильтрация) позволяет находить связи независимо от языка или типа запроса (текст/изображение) и используется для генерации рекомендаций.
  • US8280881B1
  • 2012-10-02
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Популярные патенты

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей
Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.
  • US8732187B1
  • 2014-05-20
  • Ссылки

  • Мультимедиа

  • Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов
Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.
  • US9436709B1
  • 2016-09-06
  • EEAT и качество

  • Поведенческие сигналы

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм
Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.
  • US9767157B2
  • 2017-09-19
  • Семантика и интент

  • Техническое SEO

  • EEAT и качество

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов
Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).
  • US8060405B1
  • 2011-11-15
  • Антиспам

  • Ссылки

  • SERP

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

seohardcore