
Google применяет систему для эффективной дедупликации вакансий из разных источников. Используя алгоритмы MinHash и Jaccard Similarity, система создает цифровые отпечатки объявлений и группирует похожие версии в кластеры. Внутри кластера выбирается каноническая «главная вакансия» (Master Job Posting), которая и показывается пользователю, устраняя дублирование в выдаче.
Патент решает проблему массового дублирования объявлений о вакансиях в системах агрегации (например, Google Jobs). Это происходит, когда работодатели размещают одну и ту же вакансию через множество каналов (свой сайт, кадровые агентства, дочерние компании). Наличие множества почти идентичных копий (near duplicates) ухудшает пользовательский опыт, засоряя выдачу, и неэффективно расходует ресурсы хранения и обработки данных.
Запатентована система для эффективной идентификации и кластеризации почти идентичных объявлений о вакансиях. Система группирует похожие вакансии в Job Posting Cluster и выбирает одну репрезентативную версию — Master Job Posting. Для сравнения используется двухэтапный процесс: быстрая фильтрация по структурированным данным и детальный анализ текстовой схожести с помощью техники создания цифровых отпечатков (MinHashing).
Система работает по следующему принципу:
Shingles), хэшируется и обрабатывается с помощью правил пермутации для создания компактного отпечатка (Fingerprint).Master Job Postings из кластеров-кандидатов. Рассчитывается Similarity Index (например, коэффициент Жаккара).Master Job Posting, если новый источник более авторитетен.Высокая. Технологии MinHash и Locality-Sensitive Hashing (LSH) являются стандартом в Information Retrieval для обнаружения почти дубликатов. Учитывая активное развитие вертикали Google Jobs и проблему синдикации контента вакансий, описанные механизмы дедупликации критически важны для обеспечения качества пользовательского опыта и эффективности индексации.
Влияние на SEO значительно (8/10 для вертикали Jobs), но узкоспециализировано. Патент не описывает факторы ранжирования, но детально раскрывает механизм каноникализации вакансий. Система определяет, какая версия вакансии станет Master Job Posting и будет отображаться в результатах поиска. Понимание этого механизма критично для SEO-специалистов, работающих с сайтами вакансий, чтобы гарантировать видимость своих объявлений и приоритет своего источника.
message digest или hash value).Jaccard similarity coefficient), рассчитанный на основе сравнения MinHash отпечатков.Claim 1 (Независимый пункт): Описывает базовый метод дедупликации.
Job Posting Cluster.Master Job Posting, являющееся репрезентативным.Master Job Posting.Ядром изобретения является использование Master Job Posting как единственной точки сравнения для всего кластера, что повышает эффективность процесса дедупликации.
Claim 5 (Зависимый от 1): Детализирует процесс определения дубликатов (Шаг 4 из Claim 1), описывая реализацию MinHash.
permutation rules к этим элементам для создания набора пермутаций (генерация MinHash).Similarity Index на основе этих пермутаций.Similarity Index с порогом (Similarity Threshold).Claim 6 (Зависимый от 1): Дополнительно детализирует процесс конвертации.
Включает генерацию элементов данных (шинглов) и применение hash function к каждому элементу.
Claim 9 (Независимый пункт): Описывает систему и добавляет этап предварительного отбора (Binning).
Master Job Posting кластера-кандидата.Этот пункт защищает двухэтапный процесс: быстрый отбор кандидатов (Binning) и последующее детальное сравнение (MinHash).
Изобретение применяется на этапе обработки и структурирования входящих данных в вертикальном поиске (например, Google Jobs).
CRAWLING – Сканирование и Сбор данных
Система получает сырые данные о вакансиях через краулинг веб-страниц (с микроразметкой JobPosting) или через прямые API/фиды.
INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. В процессе индексации данных для вертикального индекса происходит:
Characteristics (Title, Location, Description и т.д.).Cluster ID и выбор/обновление Master Job Posting.RANKING / RERANKING
На этапах ранжирования система использует результаты дедупликации. Ранжируется только Master Job Posting как представитель всего кластера, что улучшает качество и чистоту выдачи.
Входные данные:
Master Job Postings (включая их MinHash отпечатки).Permutation Rules и Similarity Threshold.Выходные данные:
Cluster ID (существующим или новым).Master Job Posting (если произошла замена).Posting Expiration) и удаления их из кластеров.Процесс дедупликации объявления о вакансии:
Characteristics).Binning Factors (например, Title, Location, Employer) для быстрого поиска существующих кластеров, чьи Master Job Postings имеют совпадающие значения. Формируется список кластеров-кандидатов.Shingles). В патенте упоминается использование 4 последовательных токенов (4-grams). Пунктуация удаляется.Permutation Rules (например, с помощью операции XOR).Fingerprint) вакансии.Master Job Postings из списка кандидатов. Рассчитывается Similarity Index (коэффициент Жаккара) как доля совпадающих минимальных хэш-значений.Similarity Index сравнивается с Similarity Threshold (например, 0.9).Master Job Posting (например, если она из более авторитетного источника или более свежая).Master Job Posting.Система использует комбинацию структурированных и неструктурированных данных, используя разные поля на разных этапах.
Для этапа Binning (Фильтрация кандидатов):
Job Title (Название).Job Location (Локация).Associated Entity (Работодатель).Employment Type (Тип занятости), Salary (Зарплата), Shift/Schedule (График) – используются для более точного отбора.Для этапа MinHashing (Расчет схожести):
Job Description (Описание): Основной текст для генерации отпечатка.Для выбора Master Job Posting:
Binning Factors (структурированные данные), а затем более ресурсоемкое сравнение MinHash отпечатков (неструктурированный текст).Master Job Posting, который выступает как каноническая версия для всего кластера дубликатов. Только он участвует в ранжировании и отображается в поиске.Master Job Posting. Критерии могут включать источник данных (например, приоритет отдается сайту работодателя перед агентством) и время получения данных.JobPosting.Рекомендации применимы для оптимизации под Google Jobs.
Title, Location, hiringOrganization используются как Binning Factors для первичной идентификации. Description используется для детального анализа схожести (MinHash).Master Job Posting, необходимо обеспечить быстрое сканирование и высокое качество данных на собственном карьерном сайте.Similarity Index был ниже порога (например, <0.9), чтобы избежать ошибочной склейки в один кластер.validThrough в Schema.org). Патент описывает механизм Posting Expiration для поддержания актуальности кластеров.Патент иллюстрирует подход Google к обработке синдицированного контента и каноникализации в специализированных вертикалях. Это подтверждает переход к обработке данных как сущностей. Для SEO-стратегии в нише рекрутинга ключевым является не просто индексация, а получение статуса Master Job Posting. Это подтверждает стратегию приоритета первоисточника и критическую важность управления структурированными данными.
Сценарий 1: Обеспечение каноникализации версии работодателя
Master Job Posting (приоритет источника-работодателя). В Google Jobs отображается ссылка на сайт Компании А.Сценарий 2: Предотвращение ошибочной склейки
Title и использовать структурированные данные (например, workHours). Существенно уникализировать описание обязанностей для каждой смены.Title и workHours используются как Binning Factors, система может сразу определить их как разные. Если нет, система перейдет к MinHash. Благодаря уникализации описаний, Similarity Index будет ниже порога (например, 0.7).Что такое Master Job Posting и почему это важно для SEO?
Master Job Posting — это каноническая версия вакансии, выбранная Google из группы дубликатов (кластера). Это критически важно, потому что только Master Job Posting отображается в результатах поиска (Google Jobs) и участвует в ранжировании. Если ваше объявление не выбрано в качестве Мастера, оно не получит видимости.
Как Google выбирает Master Job Posting?
Патент указывает, что выбор основывается на различных критериях. Приоритет может отдаваться времени публикации (свежесть) или источнику данных. Обычно предпочтение отдается первоисточнику — например, вакансии с официального сайта работодателя, а не от агентства. Авторитетная версия может заменить текущий Master Job Posting.
Что такое MinHash и как он определяет дубликаты?
MinHash — это техника для быстрого создания компактного цифрового отпечатка (fingerprint) текста. Текст разбивается на шинглы (фразы), они хэшируются, и после серии перестановок (пермутаций) выбираются минимальные значения хэшей. Схожесть оценивается путем сравнения отпечатков с помощью коэффициента Жаккара. Если доля совпадений высока (например, >0.9), документы считаются дубликатами.
Поможет ли рерайтинг описания вакансии избежать признания ее дубликатом?
Незначительный рерайтинг (перестановка слов, замена синонимов) обычно не помогает, так как MinHash устойчив к таким изменениям. Чтобы система признала вакансию уникальной, необходимо существенно изменить содержание описания, чтобы Similarity Index упал ниже установленного порога (например, ниже 0.9).
Что такое Binning Factors и как они используются?
Binning Factors — это структурированные атрибуты, такие как Название вакансии, Локация или Работодатель. Они используются на первом этапе для быстрого отбора кандидатов на дублирование (Binning). Система сравнивает новую вакансию только с теми кластерами, у которых эти факторы совпадают, что значительно ускоряет процесс.
Как использование структурированных данных (Schema.org/JobPosting) влияет на этот процесс?
Корректная разметка JobPosting критически важна. Она помогает системе точно извлечь Characteristics и Binning Factors. Это обеспечивает правильную работу механизма Binning и точную идентификацию контента (например, поля Description) для анализа MinHash. Ошибки в разметке могут привести к ошибкам кластеризации.
Применяется ли этот механизм в основном веб-поиске Google?
Патент сфокусирован на вакансиях. Однако описанные техники (MinHash, кластеризация на основе схожести) являются универсальными методами дедупликации. Аналогичные механизмы могут применяться для обнаружения почти дубликатов в основном веб-поиске, поиске товаров (Google Shopping) или новостях.
Что делать, если моя вакансия ошибочно сгруппирована с другой, не связанной вакансией?
Такое может произойти, если Binning Factors совпали, а описания оказались слишком похожими (например, из-за шаблонного текста). Необходимо пересмотреть и уникализировать описание вакансии, чтобы снизить индекс схожести, а также убедиться в корректности и уникальности структурированных данных (например, Title).
Как этот патент влияет на стратегию сайтов-агрегаторов вакансий?
Для агрегаторов это означает, что простое копирование вакансий не принесет видимости, так как их контент будет кластеризован под Master Job Posting первоисточника. Агрегаторы должны фокусироваться на добавлении уникальной ценности или агрегации эксклюзивных вакансий.
Что происходит, когда вакансия истекает (Posting Expiration)?
Патент описывает асинхронный процесс проверки срока действия вакансий на основе дат или внешних сигналов. Истекшие вакансии удаляются из кластера. Если истек Master Job Posting, система должна выбрать нового Мастера из оставшихся активных объявлений в кластере.

Индексация

Краулинг
Индексация

Индексация
Техническое SEO

Индексация
Антиспам

Мультимедиа
SERP
Индексация

EEAT и качество
Ссылки

Мультимедиа
EEAT и качество
Ссылки

Knowledge Graph
EEAT и качество
Семантика и интент

Персонализация
Поведенческие сигналы
Семантика и интент

Персонализация
Поведенческие сигналы
SERP

Семантика и интент
Поведенческие сигналы

Поведенческие сигналы
Мультимедиа
Семантика и интент

Knowledge Graph
Семантика и интент
EEAT и качество

Мультиязычность
Поведенческие сигналы

Семантика и интент
EEAT и качество
SERP
