SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google идентифицирует перемещенный контент при сравнении версий веб-страниц во время индексации

DETERMINING DIFFERENCES BETWEEN DOCUMENTS (Определение различий между документами)
  • US8121989B1
  • Google LLC
  • 2008-03-07
  • 2012-02-21
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует итеративный алгоритм сравнения (например, LCS) для анализа изменений между старой и новой версиями веб-страницы. Система не просто определяет добавленный или удаленный контент, но и точно идентифицирует блоки, которые были перемещены в другое место. Используя метрику «Information Content», Google отличает существенные изменения контента от реорганизации макета.

Описание

Какую проблему решает

Патент решает проблему неточности стандартных инструментов сравнения (diff tools) при анализе документов, в которых контент был перемещен. Традиционные инструменты часто идентифицируют перемещенный блок как «удаленный» из исходного места и «вставленный» в новое, хотя содержание блока не изменилось. Это затрудняет точный анализ эволюции документа, будь то программный код или веб-страницы в поисковом индексе.

Что запатентовано

Запатентован итеративный метод сравнения двух версий документа для точного обнаружения перемещенного контента. Система многократно идентифицирует наборы совпадающих элементов (sets of matching elements), концептуально удаляет их и повторяет поиск в оставшихся частях. Это позволяет находить контент, присутствующий в обеих версиях, но в разных местах. Для оценки значимости совпадений используется метрика Information Content.

Как это работает

Система работает итеративно:

  • Итеративное сравнение: Используется техника, такая как Longest-Common-Subsequence (LCS), для поиска совпадений. Найденные совпадения удаляются, и процесс повторяется на остатках документов до тех пор, пока совпадения не закончатся.
  • Идентификация перемещений: Совпадения, найденные на первом проходе, обычно находятся на тех же местах. Совпадения, найденные на последующих проходах, часто указывают на перемещенный контент.
  • Вычисление Information Content: Для каждого совпадения вычисляется его значимость, чтобы отфильтровать тривиальные совпадения (например, пустые строки).
  • Присвоение меток: На основе местоположения и Information Content блокам присваиваются метки: 'Unchanged', 'Moved' или 'Changed'.

Актуальность для SEO

Высокая. Эффективное сканирование и индексирование требует точного понимания того, как эволюционирует контент. Способность отличать редизайн или реструктуризацию макета от фактического обновления контента является фундаментальной задачей для инфраструктуры индексирования. Патент прямо упоминает применение к документам, собранным из сети (веб-страницам).

Важность для SEO

Влияние на SEO умеренное (6/10), преимущественно инфраструктурное. Патент не описывает сигналы ранжирования, но критически важен для понимания того, как Google технически обрабатывает обновления и редизайны. Он показывает, что система способна распознать перемещение контента, что позволяет ей отличать реальное обновление (влияющее на сигналы свежести) от простой реорганизации макета.

Детальный разбор

Термины и определения

Additional Sets of Matching Elements (Дополнительные наборы совпадающих элементов)
Совпадающие элементы, идентифицированные во время последующих (не первых) итераций процесса сравнения. Если их местоположение отличается в двух документах, они соответствуют перемещенному контенту.
Information Content (Информационное содержание)
Метрика значимости набора совпадающих элементов. Рассчитывается для фильтрации тривиальных совпадений. Может основываться на количестве символов или взвешенной сумме, где разные символы (например, пробелы) имеют разный вес.
Labels (Метки)
Классификаторы, присваиваемые элементам документа. Основные метки: 'Unchanged' (не изменен), 'Moved' (перемещен), 'Changed' (изменен), а также 'Moved and Changed' (перемещен и изменен).
Longest-Common-Subsequence (LCS) (Наибольшая общая подпоследовательность)
Алгоритмическая техника, упомянутая как метод для поиска самых длинных последовательностей элементов, общих для двух документов.
Marker (Маркер)
Идентификатор, который может быть добавлен в документ на место удаленного совпадения в процессе итеративного анализа для отслеживания изменений.
Set of Matching Elements (Набор совпадающих элементов)
Группа элементов (символов, слов, строк), которая идентична в обоих сравниваемых документах. Часто относится к совпадениям, найденным на первой итерации.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод сравнения.

  1. Идентификация первого набора совпадающих элементов (set of matching elements) и их местоположений в первом и втором документах.
  2. Повторяющаяся идентификация дополнительных наборов (additional sets of matching elements) до тех пор, пока совпадений больше нет. Каждый набор отличается от других.
  3. Вычисление Information Content для заданного набора.
  4. Присвоение меток (Labels) на основе вычисленного Information Content.
  5. Детализация: Метка 'Unchanged' присваивается, если Information Content больше или равен пороговому значению (pre-determined value). Метка 'Changed' присваивается, если меньше.

Claim 6 (Зависимый от 1): Указывает на применение в контексте поисковой системы.

Документы хранятся в репозитории, который включает документы, извлеченные (scraped) с хост-сайтов в сети (например, Интернет).

Claim 10 (Зависимый от 1): Уточняет, что идентификация может выполняться с использованием техники Longest-Common-Subsequence (LCS).

Claim 11 и 12 (Зависимые от 1): Описывают итеративный процесс.

Все экземпляры найденных наборов удаляются из документов перед поиском последующих дополнительных наборов. На место удаленных экземпляров может быть добавлен Marker.

Claim 13 (Зависимый от 1): Определяет возможность перемещения.

Местоположение дополнительного набора в Документе 2 может отличаться от его местоположения в Документе 1.

Claim 18 (Зависимый от 1): Вводит метку 'Moved' для дополнительных наборов.

  1. Метка 'Moved' присваивается экземплярам additional sets, если их Information Content больше или равен другому пороговому значению (another pre-determined value).
  2. Метка 'Changed' присваивается, если меньше этого порога.

Claim 21 (Зависимый): Описывает слияние смежных блоков.

Если два набора с меткой 'Moved' разделены промежуточным набором с меткой 'Changed', они могут быть объединены в единую группу с меткой 'Moved and Changed'.

Где и как применяется

Изобретение применяется на этапе обработки данных после сканирования для эффективного сравнения новой версии документа со старой.

CRAWLING – Сканирование и Сбор данных
На этом этапе система получает новую версию веб-страницы. Этот контент служит входом для механизма сравнения.

INDEXING – Индексирование и извлечение признаков
Основное применение. Система индексирования (например, Caffeine) сравнивает только что сканированный контент с последней версией, хранящейся в репозитории (Claim 6). Это позволяет:

  1. Анализировать эволюцию контента: Система определяет, изменился ли основной контент ('Changed') или произошла реорганизация макета ('Moved'). Это влияет на необходимость переоценки страницы и на сигналы свежести.
  2. Эффективно обновлять индекс: Позволяет обрабатывать только те части страницы, которые действительно изменились.

Входные данные:

  • Первый документ (например, версия веб-страницы из индекса).
  • Второй документ (например, только что сканированная версия).
  • Пороговые значения для Information Content.

Выходные данные:

  • Структурированное представление различий.
  • Метки (Labels) для каждого блока контента ('Moved', 'Changed', 'Unchanged').
  • Контекстная информация (Context Information), включая указатели на старые/новые местоположения перемещенных блоков.

На что влияет

  • Конкретные типы контента: Патент явно упоминает применение к web pages (веб-страницам) (Claim 3) и computer-software instructions (программному коду) (Claim 2).
  • Структура документа: Алгоритм особенно важен для анализа страниц, где часто меняется макет или порядок блоков (например, редизайн, изменение шаблонов, перемещение виджетов).

Когда применяется

  • Условия применения: Алгоритм применяется, когда краулер повторно посещает URL и обнаруживает, что контент изменился с момента последнего сканирования.
  • Триггеры активации: Необходимость сравнить новую версию документа с предыдущей версией, хранящейся в репозитории.

Пошаговый алгоритм

Процесс сравнения Документа 1 (Старый) и Документа 2 (Новый).

  1. Инициализация: Получение двух версий документа.
  2. Итеративная идентификация совпадений (Цикл):
    1. Поиск совпадений: Применение техники (например, LCS) для идентификации совпадающих наборов элементов в текущем состоянии документов.
    2. Маркировка и удаление (Опционально): Найденные совпадения удаляются из документов для следующей итерации, а на их место ставятся маркеры.
    3. Проверка выхода: Если совпадений больше не найдено, выход из цикла. Иначе повторить шаг 2a.
  3. Вычисление Information Content: Для всех идентифицированных наборов (найденных на всех итерациях) вычисляется Information Content (например, взвешенная сумма символов).
  4. Присвоение меток (Labels): Анализ каждого набора с учетом итерации, на которой он был найден, и его Information Content:
    • Наборы первой итерации: Если Information Content выше Порога 1, присвоить 'Unchanged'. Если ниже, 'Changed'.
    • Наборы последующих итераций (Additional Sets): Если Information Content выше Порога 2 (может отличаться от Порога 1), присвоить 'Moved' (так как их местоположение, вероятно, отличается). Если ниже, 'Changed'.
    • Остаток: Элементам, не вошедшим ни в один набор совпадений, присваивается 'Changed'.
  5. Слияние смежных наборов (Опционально): Смежные блоки объединяются. Например, последовательность 'Moved' -> 'Changed' -> 'Moved' может быть объединена в один блок 'Moved and Changed'.
  6. Генерация вывода: Формирование итогового представления с контекстной информацией.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке содержимого документов.

  • Контентные факторы: Основные данные — это содержимое сравниваемых документов. Алгоритм анализирует последовательности элементов, которыми могут быть символы, слова или строки (Claim 8).
  • Структурные факторы: Порядок и расположение (locations) элементов в каждом документе критически важны для обнаружения перемещений.
  • Технические факторы: Упоминается возможность определения языка документа (например, языка программирования), что может влиять на расчет Information Content (Claim 17).

Какие метрики используются и как они считаются

  • Information Content (Информационное содержание): Ключевая метрика значимости совпадения. Методы расчета включают:
    • Количество символов: Базовый расчет (Claim 15).
    • Взвешивание символов: Применение разных весов к разным символам (Claim 16). Например, пробелы и табуляция могут иметь меньший вес, чем текст.
  • Pre-determined values (Пороговые значения): Пороги, используемые для сравнения с Information Content. Определяют, будет ли совпадение помечено как значимое ('Unchanged' или 'Moved') или тривиальное ('Changed'). Пороги могут отличаться для разных итераций.
  • Методы анализа:
    • Longest-Common-Subsequence (LCS): Упоминается как техника для нахождения совпадений (Claim 10).

Выводы

  1. Google точно распознает перемещенный контент: Патент описывает конкретный механизм, позволяющий системе идентифицировать блоки контента, перемещенные в пределах страницы, не помечая их как удаленные и заново добавленные.
  2. Различение реорганизации и обновления: Система способна технически отличить изменение макета (редизайн, перемещение блоков) от фактического обновления содержания текста.
  3. Оценка значимости изменений (Information Content): Вводится метрика Information Content, которая позволяет игнорировать тривиальные изменения и фокусироваться на существенных блоках контента при анализе обновлений.
  4. Применение к индексации веб-страниц: Механизм используется для сравнения веб-страниц, хранящихся в репозитории Google (Claim 6), что подтверждает его применение в конвейере индексации.
  5. Влияние на сигналы свежести: Поскольку система знает, что контент был перемещен ('Moved'), а не обновлен ('Changed'), простое перемещение контента вряд ли активирует сильные сигналы свежести, которые могли бы быть активированы при добавлении аналогичного объема нового контента.

Практика

Best practices (это мы делаем)

  • Уверенное проведение редизайна и реструктуризации: Не стоит опасаться, что перемещение ключевых блоков контента (например, при смене шаблона или улучшении UX) приведет к потере релевантности. Механизм, описанный в патенте, позволяет Google понять, что это тот же самый контент в новом месте (метка 'Moved').
  • Сохранение целостности блоков при перемещении: При реструктуризации старайтесь перемещать блоки контента с минимальными изменениями внутри блока. Это максимизирует Information Content совпадения и гарантирует, что система корректно классифицирует его как 'Moved', а не 'Changed'.
  • Фокус на реальном обновлении контента для свежести: При актуализации страниц вносите существенные изменения в содержание (высокий Information Content изменений), а не просто меняйте порядок абзацев. Это необходимо, чтобы Google распознал обновление как значимое ('Changed').

Worst practices (это делать не надо)

  • Имитация свежести через перемещение контента: Попытки обмануть алгоритмы свежести путем изменения порядка существующих блоков на странице неэффективны. Патент напрямую описывает механизм для обнаружения такого перемещения (метка 'Moved'), и система не будет интерпретировать это как новый контент.
  • Внесение только тривиальных изменений: Обновление страницы путем изменения нескольких незначительных слов или форматирования (низкий Information Content) может быть классифицировано как незначительное изменение и не приведет к существенной переоценке страницы.
  • Полное переписывание во время перемещения: Если блок контента перемещается и одновременно полностью переписывается, система не найдет совпадений и интерпретирует это как удаление старого и добавление нового контента. Если цель — сохранить сигналы старого контента, этого следует избегать без необходимости.

Стратегическое значение

Патент подтверждает, что Google обладает сложными инфраструктурными инструментами для анализа эволюции контента на блочном уровне. Это подчеркивает, что система оценивает не только финальное состояние страницы, но и процесс ее изменения. Стратегически важно понимать, что Google различает перемещение и обновление, что позволяет более уверенно проводить работы по улучшению архитектуры сайта и шаблонов страниц, снижая риски потери накопленных сигналов при редизайне.

Практические примеры

Сценарий 1: Редизайн сайта и изменение макета страницы товара

  1. Ситуация: Проводится редизайн интернет-магазина. Блок с основным описанием перемещается из правой колонки под изображение товара. Текст описания не меняется.
  2. Обработка Google: Система сравнения использует итеративный LCS. Она идентифицирует блок описания как Additional Set of Matching Elements.
  3. Анализ: Так как блок содержит много текста (высокий Information Content), ему присваивается метка 'Moved'.
  4. Результат: Google понимает, что основной контент не изменился, а был реорганизован. Страница не требует полной переоценки релевантности, как если бы этот контент был заменен новым.

Сценарий 2: Попытка «освежить» старую статью

  1. Ситуация: SEO-специалист меняет местами 3-й и 5-й абзацы старой статьи и обновляет дату публикации.
  2. Обработка Google: Система сравнения идентифицирует эти абзацы как перемещенные ('Moved').
  3. Результат: Google видит, что новый контент добавлен не был (нет значимых блоков 'Changed'). Система может проигнорировать сигнал свежести, так как фактическое содержание статьи не обновилось.

Вопросы и ответы

Если я перемещу важный абзац с низа страницы в самый верх, посчитает ли Google это добавлением нового контента?

Нет. Согласно патенту, система использует итеративный анализ (LCS) для идентификации таких блоков. Если содержание абзаца не изменилось и имеет достаточный Information Content, он будет помечен как 'Moved' (перемещенный). Google поймет, что это тот же самый контент в новом месте, а не новый контент.

Что такое «Information Content» и почему это важно?

Information Content — это метрика значимости блока текста. Она может рассчитываться как взвешенное количество символов (например, пробелы весят меньше текста). Это важно, так как позволяет системе игнорировать тривиальные совпадения (например, пустые строки или общие элементы разметки) и фокусироваться на реальном контенте при определении того, что было перемещено или осталось неизменным.

Как этот механизм влияет на редизайн сайта?

Он значительно снижает риски, связанные с редизайном. Если вы меняете шаблон и HTML-структуру, перемещая блоки основного контента, этот механизм позволяет Google понять, что контент остался прежним. Это помогает сохранить релевантность и позиции страницы, несмотря на значительные технические изменения в верстке.

Влияет ли этот патент напрямую на ранжирование?

Напрямую нет, он не описывает расчет Ranking Score. Однако он влияет косвенно, определяя, как Google интерпретирует изменения на странице на этапе индексации. Если система видит существенное обновление контента ('Changed'), это может активировать сигналы свежести. Если же система видит только перемещение блоков ('Moved'), реакция будет иной.

Что произойдет, если я перемещу контент и одновременно немного изменю его?

Патент предусматривает такую ситуацию (Claim 21). Если система обнаруживает смежные блоки, например, 'Moved', затем 'Changed', затем снова 'Moved', она может объединить их в один большой блок и присвоить ему метку 'Moved and Changed' (Перемещено и Изменено). Это позволяет Google понять, что основной массив контента сохранился, но претерпел некоторые изменения.

Как Google определяет пороги значимости (pre-determined values) для Information Content?

Патент не указывает конкретных значений, но упоминает, что они могут быть разными для разных итераций. Например, порог для идентификации 'Moved' может отличаться от порога для 'Unchanged'. В описании упоминаются примеры порогов от 5 до 100 символов, что указывает на настраиваемый характер этих значений.

Применяется ли этот анализ к изображениям или только к тексту?

Патент описывает сравнение «элементов», которые определены как символы, слова или строки (Claim 8). Он не описывает анализ визуального содержания изображений. Однако он применяется к HTML-коду, включая теги изображений и их атрибуты (например, если тег <img> был перемещен).

Как этот патент связан с обработкой boilerplate (сквозных блоков)?

Этот механизм помогает идентифицировать сквозные блоки как 'Unchanged' или 'Moved', если они перемещаются из-за изменения шаблона. Это позволяет системе отделить изменения в основном контенте от изменений в навигации или футере при оценке обновления страницы.

Используется ли этот механизм для обнаружения дубликатов контента между разными сайтами?

Патент фокусируется на сравнении двух версий одного документа (Claim 1), например, для контроля версий или анализа эволюции одного URL (Claim 6). Хотя базовая технология (LCS) может использоваться в системах обнаружения дубликатов, описанный итеративный подход с метками 'Moved'/'Changed' предназначен именно для анализа изменений внутри документа.

Работает ли этот алгоритм в реальном времени во время ранжирования?

Нет. Это сравнение происходит на этапе Индексирования, после того как страница была сканирована и до того, как индекс будет полностью обновлен. Это часть конвейера обработки данных, а не процесса ранжирования в реальном времени.

Похожие патенты

Как Google отслеживает возраст отдельных фрагментов контента на странице и отличает существенные обновления от незначительных правок
Google использует систему для определения даты первой публикации отдельных фрагментов контента (например, предложений или абзацев). Система сегментирует контент и отслеживает его историю в «Карте дат» (Date Map). Используя нечеткое сравнение (Edit Distance) и нормализацию, система игнорирует незначительные правки и точно датирует только существенные обновления контента.
  • US8332408B1
  • 2012-12-11
  • Свежесть контента

  • Индексация

  • Техническое SEO

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)
Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.
  • US7797316B2
  • 2010-09-14
  • Свежесть контента

  • Ссылки

  • Техническое SEO

Как Google использует цифровые отпечатки контента для автоматического выявления и исправления орфографических ошибок в метаданных
Google использует технологию цифровых отпечатков (fingerprinting) для идентификации идентичного контента (например, видео, аудио, изображений), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и орфографические ошибки. Это позволяет улучшить полноту поисковой выдачи, связывая разные варианты написания.
  • US8458156B1
  • 2013-06-04
  • Индексация

  • Мультимедиа

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов
Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.
  • US8266115B1
  • 2012-09-11
  • Индексация

Как Google индексирует и хранит разные версии документа для отслеживания изменений контента и исторической релевантности
Google использует механизм для архивирования и индексирования различных версий веб-страниц по мере их изменения. Система присваивает каждой версии диапазон дат ее актуальности и сохраняет данные о релевантности (включая фразы и сигналы) именно для этой версии. Это позволяет поисковой системе анализировать историю изменений контента, оценивать частоту обновлений и находить документы, которые были релевантны в определенный прошлый период времени.
  • US7702618B1
  • 2010-04-20
  • Индексация

  • Техническое SEO

  • Свежесть контента

Популярные патенты

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
  • US9317605B1
  • 2016-04-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
  • US9208229B2
  • 2015-12-08
  • Knowledge Graph

  • Ссылки

  • EEAT и качество

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google динамически перестраивает SERP в реальном времени, основываясь на взаимодействии пользователя с подзадачами
Google использует специализированные AI-модели для разбивки сложных запросов (задач) на подзадачи. Система отслеживает, с какими подзадачами взаимодействует пользователь, и динамически обновляет выдачу, подгружая больше релевантного контента для этой подзадачи прямо во время скроллинга страницы. Это позволяет уточнять интент пользователя в реальном времени.
  • US20250209127A1
  • 2025-06-26
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует анализ сопутствующих ссылок (co-citation) и нормализацию веса для определения связанных сайтов и конкурентов
Google анализирует структуру ссылок для поиска сайтов, связанных с выбранным документом и находящихся на том же уровне обобщения (например, конкурентов). Система определяет, на какие еще сайты ссылаются источники, цитирующие исходный документ (co-citation). Для повышения точности вес ссылок нормализуется: снижается влияние множественных ссылок с одного хоста и ссылок со страниц-каталогов (хабов).
  • US6754873B1
  • 2004-06-22
  • Ссылки

  • SERP

  • Техническое SEO

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore