SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google обнаруживает неавторизованное использование контента (текст, изображения, видео, аудио), сохраняя конфиденциальность

DUPLICATE CONTENT SEARCH (Поиск дублирующегося контента)
  • US20080288509A1
  • Google LLC
  • 2007-05-16
  • 2008-11-20
  • Индексация
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Система позволяет владельцам контента загружать образцы (текст, изображения, видео, аудио) и проверять, существуют ли совпадения в индексах Google, включая веб-индекс и пользовательские базы данных. Система сообщает о факте наличия совпадения, не раскрывая источник напрямую, и может предоставить зашифрованный идентификатор для дальнейшего расследования.

Описание

Какую проблему решает

Патент решает задачу обнаружения неавторизованного использования контента (плагиат, нарушение авторских прав, утечка приватных данных) в рамках индексированных Google данных, включая публичный веб-контент и Custom Content (пользовательские или закрытые базы данных). Основная проблема — предоставить владельцу контента механизм проверки факта использования его материалов, не нарушая при этом конфиденциальность пользователей, у которых найдено совпадение.

Что запатентовано

Запатентована система (Duplicate Content Search Unit), которая принимает образец контента от пользователя и сравнивает его с обширной базой данных индексированного контента. Система использует специализированные детекторы для текста, изображений, видео и аудио. При обнаружении совпадения система уведомляет пользователя о факте совпадения, но намеренно не раскрывает конкретный документ или его URL, сохраняя конфиденциальность источника.

Как это работает

Система работает следующим образом:

  • Получение образца: Владелец контента загружает образец (текст, изображение, видео или аудио).
  • Проверка порога: Система определяет тип контента и проверяет, достаточен ли объем образца (Threshold Amount) для анализа.
  • Извлечение признаков: Из образца извлекаются ключевые характеристики (например, шинглы для текста, SIFT для изображений, аудио-отпечатки).
  • Сравнение и Оценка: Признаки сравниваются с базой данных. Вычисляется Confidence Score (оценка уверенности).
  • Уведомление с сохранением конфиденциальности: Если Confidence Score превышает порог T, система уведомляет пользователя о наличии совпадения, но скрывает детали. Может быть предоставлен зашифрованный идентификатор (identifier) для инициирования расследования человеком.

Актуальность для SEO

Средняя. Описанные в патенте (2008 год) технологии (шинглинг, SIFT, аудио-фингерпринтинг) являются фундаментальными методами в Information Retrieval и по-прежнему актуальны. Хотя современные системы Google (например, Content ID) значительно эволюционировали, базовые принципы обнаружения дубликатов и защиты конфиденциальности, изложенные здесь, остаются в силе.

Важность для SEO

Влияние на SEO низкое (Инфраструктура). Этот патент не описывает алгоритмы ранжирования или стандартные процессы обработки дубликатов в поиске (например, каноникализацию). Он описывает конкретный инструмент для защиты авторских прав. Основная ценность для SEO-специалистов заключается в понимании конкретных технических методов, которые Google использует для идентификации точных и неточных дубликатов во всех медиаформатах. Это демонстрирует возможности Google по анализу уникальности контента.

Детальный разбор

Термины и определения

Audio Fingerprinting (Аудио-фингерпринтинг)
Техника генерации уникального цифрового отпечатка для сегментов аудио. Используется для сравнения и определения процента совпадения между двумя аудиофайлами.
Confidence Score (Оценка уверенности)
Числовая метрика, указывающая, насколько близко образец контента соответствует элементу контента в базе данных. Если оценка превышает порог (T), фиксируется совпадение.
Custom Content (Пользовательский контент)
Контент, который был загружен пользователем для индексации или идентифицирован пользователем как часть его специфической коллекции (Custom Content Group). Может включать приватные данные или контент по подписке.
Duplicate Content Search Unit (Блок поиска дублирующегося контента)
Основной компонент системы, отвечающий за прием образцов, выполнение сравнения и предоставление результатов.
Duplicate Detector (Детектор дубликатов)
Компонент, выполняющий фактическое сравнение. Включает специализированные модули: Duplicate Text Detector, Duplicate Image Detector, Duplicate Video Detector, Duplicate Audio Detector.
Image Features (Признаки изображения)
Характеристики, извлекаемые из изображений для сравнения. Примеры включают гистограммы интенсивности и цвета, края, текстуру, вейвлет-преобразования.
Shingling (Шинглинг)
Техника анализа текста, при которой создаются наборы последовательных терминов (шинглы), которые затем хешируются и сравниваются для определения процента совпадения (percentage of overlap) между двумя текстами.
SIFT (Scale-Invariant Feature Transform)
Алгоритм для извлечения локальных признаков на изображениях. Признаки инвариантны к масштабу и повороту, что делает их подходящими для надежного сопоставления.
Threshold Amount of Content (Пороговый объем контента)
Минимальный объем образца контента, необходимый для выполнения поиска дубликатов с определенной степенью точности (например, 1-2 абзаца текста, X секунд видео).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс системы с акцентом на конфиденциальность.

  1. Система хранит информацию о контенте, загруженном или идентифицированном первой группой пользователей.
  2. Система получает образец контента от второго пользователя (владельца контента).
  3. Система определяет, совпадает ли образец с одним или несколькими элементами хранимого контента.
  4. Система уведомляет второго пользователя о наличии или отсутствии совпадения, не идентифицируя совпадающие элементы контента второму пользователю.

Ядро изобретения: система действует как слепой оракул, подтверждая совпадение, но защищая конфиденциальность данных (особенно в Custom Content), с которыми произошло совпадение.

Claim 9 (Зависимый от 1): Детализирует механизм определения совпадения.

  1. Выполняется поиск в базе данных на основе образца контента.
  2. Генерируется Confidence Score для множества элементов контента, указывающий меру близости совпадения.
  3. Определяется, превышает ли Confidence Score одного из элементов установленный порог.

Claim 11 (Зависимый от 1): Описывает механизм конфиденциального уведомления.

При уведомлении пользователя система отправляет ему идентификатор (identifier). Этот идентификатор шифрует (скрывает) сетевой адрес (например, URL), связанный с совпадающим контентом, или группу контента (content group), к которой принадлежит совпадение. Это позволяет инициировать расследование человеком, но не раскрывает источник пользователю.

Claim 15 (Зависимый от 1): Описывает альтернативный вариант для повышения конфиденциальности образца.

Образец контента представляет собой хешированный контент (hashed content). Система сравнивает этот хеш с хешами хранимых элементов. Это позволяет пользователю искать дубликаты, не раскрывая сам исходный контент системе Google.

Claim 17 (Независимый пункт, метод): Описывает метод, аналогичный Claim 1, но добавляет проверку объема контента.

  1. Получение образца от пользователя.
  2. Определение, получено ли по крайней мере пороговое количество (threshold amount) образца контента.
  3. Определение наличия совпадений, только если пороговое количество получено.
  4. Уведомление пользователя.

Где и как применяется

Этот патент описывает инфраструктурную систему, которая не является частью стандартного процесса ранжирования поисковой выдачи. Она функционирует как отдельный инструмент или сервис.

CRAWLING – Сканирование и Сбор данных
Система использует данные, собранные стандартным веб-краулером (Web Crawler), а также данные, полученные через API загрузки пользовательского контента (Custom Content Upload API) или специализированный краулер (Custom Content Crawler).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит ключевая подготовка данных. Индексаторы (Web Content Indexer, Custom Content Indexer) должны извлекать и сохранять признаки, необходимые для обнаружения дубликатов:

  • Текст: шинглы или векторы терминов.
  • Изображения: признаки (Image Features), такие как цветовые гистограммы, SIFT.
  • Аудио/Видео: фингерпринты (Fingerprints), транскрипции.
Эти признаки хранятся в Web Search Index и Custom Search Index(es).

RANKING / RERANKING
Не применимо. Система не участвует в ранжировании результатов поиска для пользователей.

Входные данные:

  • Образец контента (текст, изображение, видео, аудио или их хеши) от пользователя.
  • Данные аутентификации пользователя (опционально).

Выходные данные:

  • Уведомление о наличии или отсутствии совпадения (Да/Нет).
  • Непрозрачный/зашифрованный идентификатор (identifier) для инициирования расследования.

На что влияет

  • Типы контента: Влияет на все основные типы контента: текст, изображения, видео и аудио.
  • Защита прав и приватность: Основное влияние — на защиту интеллектуальной собственности, авторских прав и контроль распространения приватного или платного контента, особенно в рамках Custom Content Groups.

Когда применяется

  • Условия работы: Алгоритм применяется исключительно по требованию (on-demand), когда пользователь (владелец контента) загружает образец для проверки.
  • Пороговые значения:
    • Threshold Amount of Content: Образец должен быть достаточного объема (например, 1-2 абзаца текста, X секунд видео/аудио).
    • Порог T: Confidence Score должен превысить этот порог, чтобы система зафиксировала совпадение.

Пошаговый алгоритм

  1. Аутентификация (Опционально): Система может потребовать от пользователя входа в систему для авторизации.
  2. Получение образца контента: Пользователь загружает образец контента (или его хеш) через интерфейс.
  3. Анализ образца и проверка порогов:
    • Система определяет тип контента (текст, изображение, видео, аудио).
    • Проверяется, соответствует ли объем образца минимальному требованию (Threshold Amount of Content).
  4. Извлечение признаков и предварительный поиск (Опционально): Система извлекает ключевые признаки из образца и выполняет предварительный поиск по индексам, чтобы сократить количество кандидатов для детального сравнения.
  5. Детальное сравнение (Duplicate Detection):
    • В зависимости от типа контента активируется соответствующий детектор (например, Duplicate Text Detector).
    • Детектор сравнивает образец с кандидатами, используя специфические техники (Шинглинг, SIFT, Аудио-фингерпринтинг и т.д.).
  6. Расчет оценки уверенности: Для каждого сравнения вычисляется Confidence Score (например, процент совпадения).
  7. Проверка порога совпадения: Система определяет, превышает ли какой-либо Confidence Score заданный порог T.
  8. Формирование результата и уведомление:
    • Если совпадение найдено, система генерирует уведомление.
    • Уведомление намеренно скрывает детали (URL, содержание). Оно может содержать зашифрованный идентификатор (identifier), который связывает результат с деталями совпадения во внутренней таблице.

Какие данные и как использует

Данные на входе

Система использует признаки, извлеченные непосредственно из контента, хранящиеся в индексах.

Контентные факторы (Текст):

  • Shingles: Наборы последовательных терминов.
  • Vectors of terms: Векторное представление терминов.
  • Транскрипция речи или субтитры (для видео и аудио).

Мультимедиа факторы (Изображения):

  • Intensity histograms и Color histograms (RGB, YIQ).
  • Информация о краях (Edges) и текстуре (Texture).
  • Вейвлет-преобразования (Wavelet based techniques).
  • Объекты интереса (Objects of interest), часто определяемые с помощью SIFT (Scale-Invariant Feature Transform).

Мультимедиа факторы (Видео):

  • Признаки отдельных кадров (аналогично изображениям).
  • Spatio-temporal descriptors: Пространственно-временные дескрипторы для коротких клипов.
  • Аудио-признаки звуковой дорожки.

Мультимедиа факторы (Аудио):

  • Audio fingerprints: Цифровые отпечатки аудиосегментов.
  • Частотные характеристики.

Технические факторы:

  • Хеш-значения (Hash values).
  • CRC (Cyclic Redundancy Check).
  • Метаданные или теги (tag information).

Какие метрики используются и как они считаются

  • Confidence Score (Оценка уверенности): Основная метрика схожести. Методы расчета:
    • Текст: Процент перекрытия шинглов или количество совпадающих векторов терминов.
    • Изображения: Результат функции сравнения (comparison function) гистограмм или признаков SIFT.
    • Аудио/Видео: Процент перекрытия фингерпринтов или количество совпадающих кадров/сегментов.
  • Порог T (Threshold T): Заранее определенное значение. Если Confidence Score ≥ T, фиксируется совпадение.
  • Threshold Amount of Content (Пороговый объем контента): Минимальный объем входных данных. Определяется для каждого типа контента.

Выводы

  1. Это инструмент защиты авторских прав, а не патент о ранжировании: Патент не имеет прямого отношения к тому, как Google ранжирует контент в SERP или обрабатывает дубликаты для индексации. Он описывает инструмент для обнаружения плагиата и неавторизованного использования контента.
  2. Мультимодальный анализ и продвинутые техники: Патент демонстрирует, что Google обладает сложными методами для идентификации точных и неточных дубликатов в тексте (Shingling), изображениях (SIFT, гистограммы), видео и аудио (Audio Fingerprinting). Это подтверждает способность Google понимать содержание мультимедийных файлов на основе их внутренних характеристик.
  3. Акцент на конфиденциальности данных: Система спроектирована с учетом защиты конфиденциальности как истца (возможность загрузки хешей вместо контента), так и владельцев индексированного контента (скрытие источника совпадения). Система сообщает о факте совпадения, но требует вмешательства человека для расследования.
  4. Применимость к пользовательским индексам (Custom Content): Система специально разработана для поиска дубликатов не только в основном веб-индексе, но и в закрытых или курируемых пользовательских базах данных.
  5. Требования к объему и качеству данных: Для надежного обнаружения дубликатов требуется минимальный объем контента (Threshold Amount) и высокая степень сходства (Confidence Score выше порога T).

Практика

Практическое применение в SEO

Этот патент является инфраструктурным и не описывает алгоритмы ранжирования. Он не дает прямых рекомендаций для улучшения позиций в поиске. Однако он дает важное понимание технических возможностей Google по анализу уникальности контента.

Best practices (это мы делаем)

  • Приоритет оригинального контента: Патент подтверждает, что Google обладает мощными инструментами для обнаружения дубликатов на техническом уровне (Shingling, Similarity Detection). Стратегия должна фокусироваться на создании уникального контента, поскольку техническое обнаружение плагиата высокоразвито.
  • Уникальность мультимедиа: Не полагайтесь на изменение метаданных или легкое редактирование (обрезка, изменение размера) изображений/видео для уникализации. Система использует извлечение признаков (Image Features, SIFT), которые инвариантны к масштабированию и повороту. Необходимо создавать или лицензировать действительно уникальные медиафайлы.
  • Мониторинг собственного контента: Используйте доступные инструменты (например, обратный поиск по изображениям Google), которые основаны на схожих принципах, для регулярной проверки неавторизованного использования ваших ключевых изображений и инфографики.

Worst practices (это делать не надо)

  • Плагиат и контент-спиннинг: Использование чужого текста с минимальными изменениями (поверхностный рерайтинг) неэффективно. Техники вроде Shingling легко обнаруживают высокий процент совпадения даже при перестановке слов или замене синонимов.
  • Манипуляции с медиа для обхода уникальности: Попытки сделать изображение уникальным путем незначительных изменений (зеркальное отражение, небольшое изменение цвета) могут быть неэффективны против алгоритмов типа SIFT.
  • Использование стоковых медиа как уникальных: Понимание того, как работают детекторы дубликатов, подчеркивает, что широко распространенные стоковые изображения не добавляют уникальной ценности странице с точки зрения контента.

Стратегическое значение

Стратегическое значение патента заключается в демонстрации технической глубины, с которой Google анализирует уникальность контента во всех форматах. Это подтверждает долгосрочный приоритет Google на оригинальность. Для Senior SEO-специалистов это сигнал о том, что попытки обмануть систему с помощью поверхностных изменений контента обречены на провал из-за сложных алгоритмов сравнения признаков.

Практические примеры

Сценарий: Обнаружение кражи уникального изображения (на основе принципов патента)

  1. Ситуация: SEO-специалист работает с сайтом фотографа. Есть подозрение, что конкуренты используют его уникальные фотографии.
  2. Действие: Фотограф использует обратный поиск по изображениям (публичный инструмент, основанный на схожих технологиях).
  3. Анализ системой (Механизм патента): Duplicate Image Detector извлекает признаки SIFT из образца. Эти признаки устойчивы к изменению размера и обрезке.
  4. Сравнение: Система сравнивает эти признаки с индексом. Она находит изображение на другом сайте, которое было обрезано и сжато, но признаки SIFT совпадают. Confidence Score превышает порог T.
  5. Результат: Система показывает совпадения. (В отличие от строгого описания патента, публичный инструмент показывает URL).
  6. Дальнейшие шаги SEO: Специалист анализирует сайты, использующие изображение. Можно связаться с владельцами для простановки ссылки (линкбилдинг) или инициировать DMCA жалобу для удаления контента.

Вопросы и ответы

Описывает ли этот патент, как Google обрабатывает дубликаты контента при индексировании (каноникализация) или ранжировании?

Нет. Этот патент не связан с процессом каноникализации или ранжирования в поисковой выдаче. Он описывает отдельный инструмент, предназначенный для того, чтобы владельцы контента могли находить неавторизованное использование их материалов (плагиат, нарушение авторских прав) в индексах Google, включая закрытые базы данных.

Что такое Shingling (Шинглинг) и как он используется для обнаружения дубликатов текста?

Shingling — это техника, при которой текст разбивается на последовательные наборы слов (шинглы), например, фразы из 5 слов. Система хеширует эти шинглы и сравнивает наборы хешей двух документов. Confidence Score рассчитывается как процент совпадения шинглов, что позволяет эффективно находить даже частично совпадающие тексты и обнаруживать поверхностный рерайтинг.

Как система анализирует изображения? Можно ли ее обмануть, изменив размер или обрезав изображение?

Система использует сложные методы извлечения признаков (Image Features). В патенте упоминаются гистограммы цвета и интенсивности, а также SIFT (Scale-Invariant Feature Transform). SIFT извлекает признаки, которые инвариантны (устойчивы) к масштабированию, повороту и частичному изменению освещения. Поэтому простое изменение размера или обрезка изображения с большой вероятностью не помешает системе идентифицировать его как дубликат.

Почему система не показывает пользователю, где именно найден дубликат?

Это сделано для защиты конфиденциальности. Система ищет совпадения не только в публичном вебе, но и в Custom Content Groups, которые могут содержать частную или платную информацию. Раскрытие источника могло бы нарушить приватность владельцев этих групп. Вместо этого система выдает зашифрованный идентификатор для инициирования расследования человеком.

Что такое Custom Content Groups?

Custom Content Groups — это коллекции контента, которые пользователи сами загрузили в Google для индексации или специально выделили (например, указав определенные сайты). Это могут быть корпоративные базы знаний, платные подписки или тематические коллекции. Система поиска дубликатов проверяет совпадения и в этих специализированных базах данных.

Что означает Threshold Amount of Content?

Это минимальный объем образца, который пользователь должен предоставить для анализа. Система не будет выполнять поиск, если образец слишком мал для надежного сравнения. В патенте приводятся примеры: 1-2 абзаца для текста или несколько секунд для видео/аудио. Это необходимо для обеспечения точности.

Как система обрабатывает видео-контент?

Система использует мультимодальный подход. Она может анализировать отдельные кадры как изображения (используя SIFT и другие признаки), анализировать аудиодорожку (используя Audio Fingerprinting) и анализировать текстовую информацию (субтитры или транскрипцию речи). Также упоминается использование пространственно-временных дескрипторов.

Какова практическая польза этого патента для SEO-специалиста?

Прямая польза для ранжирования минимальна. Однако патент полезен для понимания технических возможностей Google по анализу уникальности контента. Он показывает, что Google может легко идентифицировать поверхностный рерайтинг или попытки уникализировать медиаконтент с помощью простых манипуляций, что подчеркивает важность создания действительно оригинального контента.

Может ли пользователь отправить хеш файла вместо самого файла для проверки?

Да, патент предусматривает такую возможность (Claim 15) для повышения конфиденциальности. Пользователь может вычислить хеш образца локально и отправить его системе. Система сравнит этот хеш с хешами контента в своей базе данных, что позволяет обнаружить дубликаты, не передавая исходный контент Google.

Связан ли этот патент с системой Content ID на YouTube?

Хотя патент напрямую не упоминает Content ID, он описывает базовые технологии и процессы (обнаружение дубликатов аудио и видео, использование отпечатков, система уведомлений о совпадениях), которые лежат в основе работы Content ID. Этот патент можно рассматривать как описание фундаментальной инфраструктуры для защиты авторских прав в экосистеме Google.

Похожие патенты

Как Google использует взвешенную оценку метаданных для выявления дубликатов контента без анализа самих файлов
Патент Google описывает метод идентификации субстантивных дубликатов (например, товаров, видео или сущностей в разных форматах) исключительно путем сравнения их метаданных. Система нормализует данные, вычисляет взвешенную оценку сходства с учетом важности разных атрибутов и помечает контент как дублирующийся, если оценка превышает порог. Этот механизм критичен для согласования сущностей (Entity Reconciliation) в системах Google.
  • US8266115B1
  • 2012-09-11
  • Индексация

Как Google использует цифровые отпечатки контента для автоматического выявления и исправления орфографических ошибок в метаданных
Google использует технологию цифровых отпечатков (fingerprinting) для идентификации идентичного контента (например, видео, аудио, изображений), загруженного разными пользователями. Сравнивая метаданные (заголовки, теги) этих идентичных файлов, система автоматически выявляет распространенные опечатки и орфографические ошибки. Это позволяет улучшить полноту поисковой выдачи, связывая разные варианты написания.
  • US8458156B1
  • 2013-06-04
  • Индексация

  • Мультимедиа

Как Google использует историю поисковых запросов на платформе для выявления пиратского контента, обходящего автоматические фильтры (Content ID)
Google использует механизм для обнаружения медиаконтента (например, видео на YouTube), который обходит стандартные системы контент-анализа (Content ID). Система анализирует историю поисковых запросов, которые приводили пользователей к уже удаленному (пиратскому) контенту. Затем она находит другие материалы, появлявшиеся в тех же результатах поиска, и оценивает их с помощью неконтентных сигналов (возраст канала, история нарушений), чтобы выявить потенциальные копии.
  • US11487806B2
  • 2022-11-01
  • Мультимедиа

Как Google идентифицирует дубликаты и защищенный авторским правом видеоконтент с помощью 3D-отпечатков
Google использует технологию трехмерных цифровых отпечатков для управления большими видеобиблиотеками (например, YouTube). Система анализирует пространственные (внутри кадра) и временные (между кадрами) характеристики видео, создавая уникальный идентификатор. Это позволяет эффективно обнаруживать дубликаты и защищенный контент, даже если видео было изменено (сжато, обрезано, перекодировано).
  • US8094872B1
  • 2012-01-10
  • Индексация

  • Мультимедиа

Как Google использует трехэтапную систему фингерпринтинга (Content ID) для обнаружения дубликатов видео и аудио
Google использует масштабируемую систему для обнаружения полных или частичных совпадений в видео и аудио контенте. Система генерирует компактные цифровые отпечатки (фингерпринты) и применяет трехэтапный процесс: быстрый поиск кандидатов с помощью Locality-Sensitive Hashing (LSH), точная классификация с использованием машинного обучения и объединение результатов. Это позволяет идентифицировать контент даже при изменении качества или скорости воспроизведения.
  • US8238669B2
  • 2012-08-07
  • Мультимедиа

  • Индексация

Популярные патенты

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи
Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).
  • US8972391B1
  • 2015-03-03
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок
Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.
  • US7509344B1
  • 2009-03-24
  • Антиспам

  • Ссылки

  • Техническое SEO

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google консолидирует сигналы ранжирования между мобильными и десктопными версиями страниц, используя десктопный авторитет для мобильного поиска
Патент Google описывает механизм для решения проблемы недостатка сигналов ранжирования в мобильном вебе. Система идентифицирует корреляцию между мобильной страницей и её десктопным аналогом. Если мобильная версия недостаточно популярна сама по себе, она наследует сигналы ранжирования (например, обратные ссылки и PageRank) от авторитетной десктопной версии, улучшая её позиции в мобильном поиске.
  • US8996514B1
  • 2015-03-31
  • Техническое SEO

  • Ссылки

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore