Как Google использует MinHash и кластеризацию для определения и каноникализации дубликатов вакансий в Google Jobs

SYSTEM FOR DE-DUPLICATING JOB POSTINGS (Система дедупликации объявлений о вакансиях)

US20180181609A1
Google LLC
2016-12-28
2018-06-28

SERP

Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается каноническая «главная вакансия» (Master Job Posting), которая и показывается пользователю, устраняя дублирование в выдаче.

Какую проблему решает

Патент решает проблему массового дублирования объявлений о вакансиях в системах агрегации (например, Google Jobs). Это происходит, когда работодатели размещают одну и ту же вакансию через множество каналов (свой сайт, кадровые агентства, дочерние компании). Наличие множества почти идентичных копий (near duplicates) ухудшает пользовательский опыт, засоряя выдачу, и неэффективно расходует ресурсы хранения и обработки данных.

Что запатентовано

Запатентована система для эффективной идентификации и кластеризации почти идентичных объявлений о вакансиях. Система группирует похожие вакансии в Job Posting Cluster и выбирает одну репрезентативную версию — Master Job Posting. Для сравнения используется двухэтапный процесс: быстрая фильтрация по структурированным данным и детальный анализ текстовой схожести с помощью техники создания цифровых отпечатков (MinHashing).

Как это работает

Система работает по следующему принципу:

Извлечение признаков: Система получает новую вакансию и извлекает ключевые характеристики (Название, Локация, Описание и т.д.).
Выбор кандидатов (Binning): На основе структурированных данных (например, Локация и Название) система быстро отбирает существующие кластеры, которые потенциально могут содержать дубликаты.
Генерация отпечатка (MinHashing): Текст описания преобразуется в набор шинглов (Shingles), хэшируется и обрабатывается с помощью правил пермутации для создания компактного отпечатка (Fingerprint).
Сравнение: Отпечаток новой вакансии сравнивается с отпечатками Master Job Postings из кластеров-кандидатов. Рассчитывается Similarity Index (например, коэффициент Жаккара).
Кластеризация: Если схожесть превышает высокий порог (например, 0.9), вакансия добавляется в кластер. Иначе создается новый кластер. Система также может обновить Master Job Posting, если новый источник более авторитетен.

Актуальность для SEO

Высокая. Технологии MinHash и Locality-Sensitive Hashing (LSH) являются стандартом в Information Retrieval для обнаружения почти дубликатов. Учитывая активное развитие вертикали Google Jobs и проблему синдикации контента вакансий, описанные механизмы дедупликации критически важны для обеспечения качества пользовательского опыта и эффективности индексации.

Важность для SEO

Влияние на SEO значительно (8/10 для вертикали Jobs), но узкоспециализировано. Патент не описывает факторы ранжирования, но детально раскрывает механизм каноникализации вакансий. Система определяет, какая версия вакансии станет Master Job Posting и будет отображаться в результатах поиска. Понимание этого механизма критично для SEO-специалистов, работающих с сайтами вакансий, чтобы гарантировать видимость своих объявлений и приоритет своего источника.

Термины и определения

Binning Factors (Факторы группировки): Структурированные характеристики вакансии (например, Название, Локация, Работодатель), используемые на первом этапе для быстрого отбора потенциально похожих кластеров (кандидатов).
Characteristics (Характеристики): Атрибуты объявления: Job ID, Title, Location, Description, Salary, Employment Type, Associated Entity.
Hash Function (Хэш-функция): Алгоритм (например, MD5 упоминается в патенте), преобразующий шингл в числовое значение фиксированной длины (message digest или hash value).
Job Posting Cluster (Кластер объявлений о вакансиях): Группа объявлений, идентифицированных как дубликаты друг друга. Имеет идентификатор (Cluster ID).
Master Job Posting (Главное объявление о вакансии): Одно объявление внутри кластера, выбранное как репрезентативное (каноническое). Используется для сравнения с новыми вакансиями и отображается в результатах поиска.
MinHash (Мин-хэш / Цифровой отпечаток / Fingerprint): Компактное представление текста вакансии, состоящее из набора минимальных хэш-значений, полученных после применения правил пермутации. Используется для быстрой оценки схожести.
Permutation Rules (Правила пермутации): Набор правил для перемешивания хэш-значений при генерации MinHash. В патенте упоминается использование операции XOR (исключающее ИЛИ).
Shingle (Шингл / N-gram): Подстрока документа, представляющая собой последовательность из N токенов (например, фраза из 4 последовательных слов). Базовый элемент для анализа схожести текста.
Similarity Index (Индекс схожести): Числовая метрика схожести двух вакансий. В патенте используется коэффициент Жаккара (Jaccard similarity coefficient), рассчитанный на основе сравнения MinHash отпечатков.
Similarity Threshold (Порог схожести): Предопределенное значение (например, 0.9, 0.95), при превышении которого две вакансии считаются дубликатами.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает базовый метод дедупликации.

Система получает данные о новом объявлении (с характеристиками).
Система обращается к данным существующего Job Posting Cluster.
В кластере есть Master Job Posting, являющееся репрезентативным.
Система определяет, является ли новое объявление дубликатом, сравнивая его с Master Job Posting.
Система сохраняет новое объявление, связывая его с существующим или новым кластером.

Ядром изобретения является использование Master Job Posting как единственной точки сравнения для всего кластера, что повышает эффективность процесса дедупликации.

Claim 5 (Зависимый от 1): Детализирует процесс определения дубликатов (Шаг 4 из Claim 1), описывая реализацию MinHash.

Конвертация данных в набор элементов (шинглов).
Применение permutation rules к этим элементам для создания набора пермутаций (генерация MinHash).
Определение Similarity Index на основе этих пермутаций.
Сравнение Similarity Index с порогом (Similarity Threshold).

Claim 6 (Зависимый от 1): Дополнительно детализирует процесс конвертации.

Включает генерацию элементов данных (шинглов) и применение hash function к каждому элементу.

Claim 9 (Независимый пункт): Описывает систему и добавляет этап предварительного отбора (Binning).

Получение нового объявления.
Доступ к множеству кластеров.
Идентификация кластеров-кандидатов на основе характеристик нового объявления (этап фильтрации/Binning).
Определение дублирования путем сравнения с Master Job Posting кластера-кандидата.

Этот пункт защищает двухэтапный процесс: быстрый отбор кандидатов (Binning) и последующее детальное сравнение (MinHash).

Где и как применяется

Изобретение применяется на этапе обработки и структурирования входящих данных в вертикальном поиске (например, Google Jobs).

CRAWLING – Сканирование и Сбор данных
Система получает сырые данные о вакансиях через краулинг веб-страниц (с микроразметкой JobPosting) или через прямые API/фиды.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексации данных для вертикального индекса происходит:

Извлечение признаков: Парсинг сырых данных и извлечение Characteristics (Title, Location, Description и т.д.).
Дедупликация: Выполнение алгоритма сравнения (Binning и MinHashing).
Кластеризация и Каноникализация: Присвоение Cluster ID и выбор/обновление Master Job Posting.

RANKING / RERANKING
На этапах ранжирования система использует результаты дедупликации. Ранжируется только Master Job Posting как представитель всего кластера, что улучшает качество и чистоту выдачи.

Входные данные:

Сырые данные нового объявления о вакансии.
База данных существующих кластеров и их Master Job Postings (включая их MinHash отпечатки).
Набор предопределенных Permutation Rules и Similarity Threshold.

Выходные данные:

Обработанное объявление с присвоенным Cluster ID (существующим или новым).
Обновленный статус Master Job Posting (если произошла замена).

На что влияет

Конкретные типы контента: Влияет на обработку объявлений о вакансиях (Job Postings). Технология также применима к другим вертикалям с синдицированным контентом (Товары, Недвижимость).
Конкретные ниши или тематики: Индустрия онлайн-рекрутинга, агрегаторы вакансий, карьерные разделы сайтов компаний.

Когда применяется

Условия применения: Алгоритм применяется каждый раз, когда система получает новое или обновленное объявление о вакансии.
Триггеры активации: Запускается конвейером приема данных (data ingestion pipeline). Детальный анализ (MinHash) активируется только при наличии кластеров-кандидатов после этапа Binning.
Асинхронные процессы: Патент также упоминает асинхронный процесс проверки истечения срока действия вакансий (Posting Expiration) и удаления их из кластеров.

Пошаговый алгоритм

Процесс дедупликации объявления о вакансии:

Получение и парсинг: Система получает новое объявление и извлекает его характеристики (Characteristics).
Идентификация кандидатов (Binning): Система использует Binning Factors (например, Title, Location, Employer) для быстрого поиска существующих кластеров, чьи Master Job Postings имеют совпадающие значения. Формируется список кластеров-кандидатов.
Конвертация в шинглы (Shingling): Текстовый контент (например, Description) нового объявления преобразуется в набор шинглов (Shingles). В патенте упоминается использование 4 последовательных токенов (4-grams). Пунктуация удаляется.
Хэширование: К каждому шинглу применяется хэш-функция (например, MD5) для генерации хэш-значений.
Генерация отпечатка (MinHashing):
1. К набору хэш-значений применяется множество предопределенных Permutation Rules (например, с помощью операции XOR).
2. Для каждой пермутации определяется минимальное хэш-значение.
3. Набор этих минимальных значений формирует цифровой отпечаток (Fingerprint) вакансии.
Расчет схожести: Система сравнивает отпечаток новой вакансии с отпечатками Master Job Postings из списка кандидатов. Рассчитывается Similarity Index (коэффициент Жаккара) как доля совпадающих минимальных хэш-значений.
Проверка порога: Similarity Index сравнивается с Similarity Threshold (например, 0.9).
Принятие решения и кластеризация:
1. Если порог превышен: Вакансия признается дубликатом и добавляется в соответствующий кластер. Система оценивает, должна ли новая вакансия заменить текущий Master Job Posting (например, если она из более авторитетного источника или более свежая).
2. Если порог не превышен ни с одним кандидатом: Вакансия признается уникальной. Создается новый кластер, и эта вакансия назначается его Master Job Posting.

Какие данные и как использует

Данные на входе

Система использует комбинацию структурированных и неструктурированных данных, используя разные поля на разных этапах.

Для этапа Binning (Фильтрация кандидатов):

Структурные и Географические факторы (Binning Factors):
- Job Title (Название).
- Job Location (Локация).
- Associated Entity (Работодатель).
- Employment Type (Тип занятости), Salary (Зарплата), Shift/Schedule (График) – используются для более точного отбора.

Для этапа MinHashing (Расчет схожести):

Контентные факторы:
- Job Description (Описание): Основной текст для генерации отпечатка.

Для выбора Master Job Posting:

Технические факторы (Метаданные):
- Источник данных (Source): Сайт работодателя может иметь приоритет перед агентством.
- Время получения/обновления данных.

Какие метрики используются и как они считаются

Шинглы (Shingles / N-grams): Последовательности токенов. В патенте упоминается пример использования 4 последовательных токенов.
Хэш-значения: Результат применения хэш-функции (например, MD5) к шинглам.
MinHash Fingerprint: Набор из N минимальных хэш-значений, полученных после применения N правил пермутации (например, XOR).
Индекс схожести (Similarity Index): Рассчитывается как коэффициент Жаккара между двумя MinHash отпечатками.
J(A,B)=

Выводы

Эффективное обнаружение почти дубликатов (Near-Duplicates): Google использует стандартные и мощные методы Information Retrieval (Shingling и MinHashing) для идентификации вакансий, которые не идентичны посимвольно, но представляют одно и то же предложение. Алгоритм устойчив к незначительным изменениям в тексте.

Двухэтапная проверка для оптимизации скорости: Система применяет двухэтапный подход. Сначала быстрое сужение поиска кандидатов с помощью Binning Factors (структурированные данные), а затем более ресурсоемкое сравнение MinHash отпечатков (неструктурированный текст).

Каноникализация через Master Posting: Ключевым элементом является выбор Master Job Posting, который выступает как каноническая версия для всего кластера дубликатов. Только он участвует в ранжировании и отображается в поиске.

Приоритезация источников контента: Патент указывает, что система имеет правила для выбора и обновления Master Job Posting. Критерии могут включать источник данных (например, приоритет отдается сайту работодателя перед агентством) и время получения данных.

Критичность структурированных данных: Корректная работа механизма Binning напрямую зависит от точности извлечения структурированных характеристик, что подчеркивает важность микроразметки JobPosting.

Практика

Best practices (это мы делаем)

Рекомендации применимы для оптимизации под Google Jobs.

Идеальное внедрение микроразметки (Schema.org/JobPosting): Корректное заполнение всех полей критически важно. Title, Location, hiringOrganization используются как Binning Factors для первичной идентификации. Description используется для детального анализа схожести (MinHash).

Обеспечение доступности и приоритета первоисточника (для работодателей): Поскольку система может предпочесть сайт работодателя при выборе Master Job Posting, необходимо обеспечить быстрое сканирование и высокое качество данных на собственном карьерном сайте.

Четкое разграничение разных вакансий: Если вакансии действительно отличаются (например, Junior vs Senior, или разные смены), убедитесь, что различия очевидны как в структурированных полях (Title, workHours), так и в описании (Description). Необходимо, чтобы Similarity Index был ниже порога (например, <0.9), чтобы избежать ошибочной склейки в один кластер.

Управление жизненным циклом: Своевременно помечайте истекшие вакансии (например, через validThrough в Schema.org). Патент описывает механизм Posting Expiration для поддержания актуальности кластеров.

Worst practices (это делать не надо)

Поверхностный рерайтинг (Spinning) описаний: Попытки уникализировать описание путем незначительной перестановки слов или замены синонимов неэффективны. Алгоритм MinHash устойчив к таким изменениям, и объявление будет признано дубликатом, если схожесть останется высокой.

Манипуляции с Binning Factors: Намеренное искажение названия или локации для избежания группировки. Это может снизить релевантность вакансии по целевым запросам и ухудшить пользовательский опыт.

Использование шаблонных описаний для разных ролей: Использование идентичных описаний для разных позиций увеличивает риск их ошибочной кластеризации, даже если названия отличаются.

Стратегическое значение

Патент иллюстрирует подход Google к обработке синдицированного контента и каноникализации в специализированных вертикалях. Это подтверждает переход к обработке данных как сущностей. Для SEO-стратегии в нише рекрутинга ключевым является не просто индексация, а получение статуса Master Job Posting. Это подтверждает стратегию приоритета первоисточника и критическую важность управления структурированными данными.

Практические примеры

Сценарий 1: Обеспечение каноникализации версии работодателя

Ситуация: Компания А публикует вакансию на своем сайте. Агентство Б копирует ее и публикует на своем портале.

Действия Компании А: Использовать полную разметку JobPosting и обеспечить быструю индексацию (Sitemap/Indexing API).

Работа системы: Google индексирует обе версии. На этапе Binning они идентифицируются как кандидаты. На этапе MinHash определяется высокая схожесть (>0.9). Обе версии попадают в один кластер.

Результат: Система выбирает версию Компании А как Master Job Posting (приоритет источника-работодателя). В Google Jobs отображается ссылка на сайт Компании А.

Сценарий 2: Предотвращение ошибочной склейки

Ситуация: Компания нанимает "Медсестру (Дневная смена)" и "Медсестру (Ночная смена)". Локация и базовые требования идентичны.

Действия Компании: Четко указать разницу в Title и использовать структурированные данные (например, workHours). Существенно уникализировать описание обязанностей для каждой смены.

Работа системы: Если Title и workHours используются как Binning Factors, система может сразу определить их как разные. Если нет, система перейдет к MinHash. Благодаря уникализации описаний, Similarity Index будет ниже порога (например, 0.7).

Результат: Создаются два разных кластера. Обе вакансии отображаются в поиске независимо.

Вопросы и ответы

Что такое Master Job Posting и почему это важно для SEO?

Master Job Posting — это каноническая версия вакансии, выбранная Google из группы дубликатов (кластера). Это критически важно, потому что только Master Job Posting отображается в результатах поиска (Google Jobs) и участвует в ранжировании. Если ваше объявление не выбрано в качестве Мастера, оно не получит видимости.

Как Google выбирает Master Job Posting?

Патент указывает, что выбор основывается на различных критериях. Приоритет может отдаваться времени публикации (свежесть) или источнику данных. Обычно предпочтение отдается первоисточнику — например, вакансии с официального сайта работодателя, а не от агентства. Авторитетная версия может заменить текущий Master Job Posting.

Что такое MinHash и как он определяет дубликаты?

MinHash — это техника для быстрого создания компактного цифрового отпечатка (fingerprint) текста. Текст разбивается на шинглы (фразы), они хэшируются, и после серии перестановок (пермутаций) выбираются минимальные значения хэшей. Схожесть оценивается путем сравнения отпечатков с помощью коэффициента Жаккара. Если доля совпадений высока (например, >0.9), документы считаются дубликатами.

Поможет ли рерайтинг описания вакансии избежать признания ее дубликатом?

Незначительный рерайтинг (перестановка слов, замена синонимов) обычно не помогает, так как MinHash устойчив к таким изменениям. Чтобы система признала вакансию уникальной, необходимо существенно изменить содержание описания, чтобы Similarity Index упал ниже установленного порога (например, ниже 0.9).

Что такое Binning Factors и как они используются?

Binning Factors — это структурированные атрибуты, такие как Название вакансии, Локация или Работодатель. Они используются на первом этапе для быстрого отбора кандидатов на дублирование (Binning). Система сравнивает новую вакансию только с теми кластерами, у которых эти факторы совпадают, что значительно ускоряет процесс.

Как использование структурированных данных (Schema.org/JobPosting) влияет на этот процесс?

Корректная разметка JobPosting критически важна. Она помогает системе точно извлечь Characteristics и Binning Factors. Это обеспечивает правильную работу механизма Binning и точную идентификацию контента (например, поля Description) для анализа MinHash. Ошибки в разметке могут привести к ошибкам кластеризации.

Применяется ли этот механизм в основном веб-поиске Google?

Патент сфокусирован на вакансиях. Однако описанные техники (MinHash, кластеризация на основе схожести) являются универсальными методами дедупликации. Аналогичные механизмы могут применяться для обнаружения почти дубликатов в основном веб-поиске, поиске товаров (Google Shopping) или новостях.

Что делать, если моя вакансия ошибочно сгруппирована с другой, не связанной вакансией?

Такое может произойти, если Binning Factors совпали, а описания оказались слишком похожими (например, из-за шаблонного текста). Необходимо пересмотреть и уникализировать описание вакансии, чтобы снизить индекс схожести, а также убедиться в корректности и уникальности структурированных данных (например, Title).

Как этот патент влияет на стратегию сайтов-агрегаторов вакансий?

Для агрегаторов это означает, что простое копирование вакансий не принесет видимости, так как их контент будет кластеризован под Master Job Posting первоисточника. Агрегаторы должны фокусироваться на добавлении уникальной ценности или агрегации эксклюзивных вакансий.

Что происходит, когда вакансия истекает (Posting Expiration)?

Патент описывает асинхронный процесс проверки срока действия вакансий на основе дат или внешних сигналов. Истекшие вакансии удаляются из кластера. Если истек Master Job Posting, система должна выбрать нового Мастера из оставшихся активных объявлений в кластере.

Похожие патенты

Как Google использует Min-Hashing и Shingling для выявления дубликатов и классификации взаимосвязей между документами в большом корпусе
Google применяет техники Shingling и Min-Hashing для эффективного сравнения миллионов документов (например, книг или веб-страниц). Система кластеризует похожие документы, а затем детально анализирует сходство на уровне фрагментов, чтобы классифицировать их взаимосвязь: являются ли они идентичными, переформатированными версиями или содержат перекрывающийся текст.

US8527516B1
2013-09-03

Индексация

Как Google использует отпечатки документов (Simhash) для выявления и игнорирования дубликатов на этапе сканирования
Google использует механизм для повышения эффективности сканирования интернета. Для каждого документа создается уникальный отпечаток (fingerprint), например, с помощью Simhash. Если новый документ почти идентичен уже просканированному (их отпечатки отличаются минимально), система помечает его как дубликат, игнорирует его исходящие ссылки и может исключить его из дальнейшей обработки, экономя ресурсы.

US8140505B1
2012-03-20

Краулинг

Индексация

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования
Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.

US8316292B1
2012-11-20

Индексация

Техническое SEO

Как Google определяет дублированный и переработанный (spun) контент, анализируя относительный порядок слов
Патент Google, описывающий метод обнаружения похожих или почти дублирующихся документов, устойчивый к локальным изменениям текста (например, замене синонимов или перестановке слов). Вместо анализа последовательных фраз, система анализирует упорядоченные пары слов, которые не обязательно стоят рядом. Это позволяет идентифицировать структурное сходство контента даже при значительном изменении формулировок.

US7734627B1
2010-06-08

Индексация

Антиспам

Как Google использует репрезентативные наборы и Min-Hash для дедупликации видео и аудио в результатах поиска
Google использует масштабируемую систему для борьбы с дублированным и частично дублированным медиаконтентом (видео, аудио). Вместо сравнения всех файлов между собой, система создает компактные «репрезентативные наборы» для каждого элемента, используя фингерпринтинг и хеширование (Min-Hash). При получении запроса система сравнивает эти наборы для быстрого выявления дубликатов и выбора одной канонической версии для показа в выдаче.

US10152479B1
2018-12-11

Мультимедиа

SERP

Индексация

Популярные патенты

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе
Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.

US8631094B1
2014-01-14

EEAT и качество

Ссылки

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа

EEAT и качество

Ссылки

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph

EEAT и качество

Семантика и интент

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация

Поведенческие сигналы

Семантика и интент

Как Google динамически меняет формулы ранжирования, адаптируя веса факторов под контекст запроса и пользователя
Google не использует единую модель ранжирования. Система использует машинное обучение для создания множества специализированных моделей (Predicted Performance Functions), обученных на исторических данных о кликах для разных контекстов (Search Contexts). При получении запроса система определяет контекст (тип запроса, язык, локация пользователя) и применяет ту модель, которая лучше всего предсказывает CTR в этой ситуации, динамически изменяя значимость различных сигналов ранжирования.

US8645390B1
2014-02-04

Персонализация

Поведенческие сигналы

SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.

US10073882B1
2018-09-11

Семантика и интент

Поведенческие сигналы

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам
Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).

US9135317B2
2015-09-15

Поведенческие сигналы

Мультимедиа

Семантика и интент

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.

US11568274B2
2023-01-31

Knowledge Graph

Семантика и интент

EEAT и качество

Как Google определяет язык поискового запроса, используя язык интерфейса, статистику слов и поведение пользователей
Google использует вероятностную модель для точной идентификации языка поискового запроса. Система комбинирует три ключевых фактора: статистику частотности слов в разных языках, язык интерфейса пользователя (например, Google.fr) и исторические данные о том, на какие результаты пользователи кликали ранее. Это позволяет корректно обрабатывать многоязычные и неоднозначные запросы для применения правильных синонимов и стемминга.

US8442965B2
2013-05-14

Мультиязычность

Поведенческие сигналы

Как Google ранжирует сущности (книги, фильмы, людей), анализируя тематичность и авторитетность их упоминаний в вебе
Google использует механизм для оценки значимости конкретных сущностей (например, изданий книг или фильмов). Система анализирует, как эти сущности упоминаются на релевантных веб-страницах, учитывая уверенность распознавания (Confidence) и то, насколько страница посвящена именно этой сущности (Topicality). Эти сигналы агрегируются с учетом авторитетности и релевантности страниц для расчета итоговой оценки сущности, которая затем корректирует ее ранжирование в поиске.

US20150161127A1
2015-06-11

Семантика и интент

EEAT и качество

SERP

seohardcore

Как Google использует MinHash и кластеризацию для определения и каноникализации дубликатов вакансий в Google Jobs

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Какие данные и как использует

Данные на входе

Какие метрики используются и как они считаются

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты