Google разработал систему для автоматического анализа неструктурированных документов о занятости (резюме, CV, профили в соцсетях). Система извлекает информацию о должностях, компаниях, образовании и датах работы, структурируя эти данные в виде графа карьерных переходов. Это демонстрирует возможности Google по оценке профессионального опыта и квалификации людей (E-E-A-T).
Описание
Какую задачу решает
Патент решает задачу предоставления инструментов для планирования карьеры на основе анализа больших данных о реальных траекториях занятости. Система агрегирует и структурирует разрозненную информацию из интернета (резюме, профили), чтобы выявить статистически значимые закономерности и вероятности карьерных переходов между различными должностями и организациями, предлагая пользователям эмпирические данные.
Что запатентовано
Запатентована система и метод для создания и использования специализированной поисковой системы по карьерным путям (Career Path Search Engine). Ядром является автоматизированный анализ массива employment history resources (ресурсов с историей занятости) для построения базы данных career path objects. Эта база данных представляет собой граф, где узлы – это должности, а ребра – переходы между ними, взвешенные по частоте встречаемости и рассчитанной вероятности (observed career path likelihood score).
Как это работает
Система функционирует в два основных этапа:
- Построение базы данных (Офлайн): Компонент Data Structure Build Engine сканирует интернет (социальные сети, сайты с резюме) и собирает документы об истории занятости. Система извлекает career position instances (конкретный человек на конкретной должности в определенное время) и идентифицирует переходы между ними. На основе частоты этих переходов рассчитываются вероятности (likelihood). Эти данные сохраняются в виде графа (career path data structures).
- Обработка запроса (Онлайн): Пользователь вводит career path query (например, начальную и/или конечную должность). Поисковая система находит в базе данных соответствующие пути, ранжирует их на основе рассчитанных likelihood scores и представляет результаты в виде направленных графов (directed graphs), показывающих возможные карьерные траектории и вероятность каждого перехода.
Актуальность для SEO
Высокая. Технологии извлечения информации (Information Extraction) и понимания сущностей, описанные в патенте, являются фундаментальными для построения Knowledge Graph и оценки E-E-A-T (особенно Experience и Expertise). Методы анализа профессионального опыта, образования и навыков из неструктурированных источников активно развиваются и применяются Google.
Важность для SEO
Патент имеет высокое стратегическое значение для SEO (7.5/10). Хотя он описывает специализированный вертикальный поиск, он демонстрирует продвинутые возможности Google по извлечению, нормализации и структурированию данных о профессиональном опыте, образовании и связях между сущностями (люди, организации, должности) из неструктурированного текста. Это напрямую влияет на то, как Google понимает и оценивает авторов контента и экспертов, что критически важно для E-E-A-T и ранжирования в YMYL-тематиках.
Детальный разбор
Термины и определения
- Career Path Data Structures / Objects
- Структуры данных / Объекты карьерного пути. Базовая единица хранения данных. Включает начальный узел (initial node), последующий узел (subsequent node) и элемент пути (path element), представляющий переход между ними.
- Career Path Search Engine
- Специализированная вертикальная поисковая система, описанная в патенте, которая обрабатывает запросы о карьерных путях.
- Career Position Instance
- Экземпляр карьерной позиции. Конкретный факт занятости: человек, занимающий определенную должность (position type) в определенной организации (entity name) в течение определенного периода времени (time duration). Может включать данные об образовании и навыках.
- Data Structure Build Engine
- Механизм построения структур данных. Компонент системы, отвечающий за анализ документов об истории занятости и построение базы данных Career Path Data Structures.
- Employment History Resources/Documents
- Ресурсы/Документы об истории занятости. Источники данных для анализа: резюме (resumes), CV (curricula vitae), страницы профилей в социальных сетях (в патенте упомянуты Google+, Facebook, LinkedIn), сайты компаний и университетов.
- Observed Career Path Likelihood Score
- Оценка вероятности наблюдаемого карьерного пути. Метрика, рассчитываемая на основе количества людей, которые совершили определенный карьерный переход. Используется для ранжирования результатов.
- Path Element
- Элемент пути. Ребро в графе, представляющее карьерный переход (career transition) между двумя узлами. Связан с данными о людях, совершивших этот переход.
- Qualification Information
- Информация о квалификации. Дополнительные данные, такие как образование, сертификаты, лицензии, навыки.
Ключевые утверждения (Анализ Claims)
Claim 1 (Независимый пункт): Описывает основной метод работы системы.
- Пополнение базы данных: Система автоматически анализирует коллекцию employment history resources и наполняет поисковую базу данных career path objects. Каждый объект содержит: (i) начальный узел (наблюдаемая позиция), (ii) последующий узел (наблюдаемая позиция), (iii) элемент пути (переход), связанный с данными, отражающими количество людей, совершивших этот переход.
- Получение запроса: Career path search engine получает запрос, указывающий начальную или конечную позицию.
- Идентификация путей: Система идентифицирует набор объектов, которые при соединении формируют карьерные пути, соответствующие запросу.
- Расчет оценки: Для каждого пути определяется observed career path likelihood score на основе количества людей, совершивших переходы, входящие в этот путь.
- Ранжирование и Выбор: Пути ранжируются по этим оценкам, выбираются Топ-N путей.
- Предоставление результатов: Система предоставляет страницу результатов поиска (SERP), включающую представление выбранных Топ-N путей.
Claim 21 (Зависимый от 1): Детализирует процесс создания базы данных (шаг 1 из Claim 1).
Процесс включает идентификацию документов об истории занятости на веб-сайтах, их анализ для определения данных о наблюдаемых карьерных путях, генерацию career path objects и их сохранение в базе данных.
Claim 23 и 24 (Зависимые от 1): Уточняют содержание узлов графа.
Узлы включают qualification information, представляющую дополнительные квалификации людей, занимавших эти позиции (например, образование (education information), сертификаты, лицензии).
Где и как применяется
Патент описывает полноценную вертикальную поисковую систему (Vertical Search) для карьеры, но используемые технологии извлечения данных критически важны для основных этапов поиска Google.
CRAWLING – Сканирование и Сбор данных
Система активно сканирует интернет для сбора employment history documents. Упоминаются конкретные источники: сайты с резюме/CV, социальные сети (Google+, Facebook, LinkedIn), сайты компаний, больниц, юридических фирм и университетов.
INDEXING – Индексирование и извлечение признаков
Это ключевой этап. Data Structure Build Engine выполняет сложную обработку неструктурированных данных, аналогичную той, что используется для построения Knowledge Graph и оценки E-E-A-T:
- Information Extraction и NLP: Система ищет в документах ключевые термины (например, «Опыт», «Образование», «Навыки») и извлекает сущности: тип должности, название организации, продолжительность работы, образование, навыки.
- Entity Resolution и Связывание: Система определяет связи между извлеченными данными, формируя career position instances, и устанавливает последовательность этих позиций для конкретного человека.
- Структурирование данных: Данные преобразуются в граф (career path data structures), состоящий из узлов и ребер (path elements).
- Вычисление метрик: Рассчитывается частота переходов и likelihood scores для каждого ребра графа.
QUNDERSTANDING – Понимание Запросов
Система обрабатывает специфический тип запросов – career path query. Упоминается возможность обработки неточных совпадений и поиска «лучшего совпадения» (best match), что подразумевает обработку синонимов должностей.
RANKING – Ранжирование
Ранжирование карьерных путей основано на observed career path likelihood scores. Также упоминаются другие возможные параметры ранжирования: кратчайший путь, кратчайший период времени или наименьшее количество карьерных шагов.
На что влияет
- Конкретные типы контента: Влияет на обработку и понимание страниц профилей пользователей, страниц «О нас», биографий авторов, резюме, списков сотрудников, страниц выпускников.
- Сущности (Entities): Напрямую влияет на понимание сущностей типа «Человек», «Организация» (компания, университет), «Должность», «Образовательная степень», «Навык» и связей между ними. Это критически важно для построения Knowledge Graph.
- Оценка E-E-A-T: Извлеченные данные о профессиональном опыте и образовании могут использоваться для оценки опыта (Experience) и экспертизы (Expertise) авторов контента.
Когда применяется
- Офлайн-процессы: Процессы сканирования, анализа документов и построения базы данных карьерных путей (работа Data Structure Build Engine) выполняются постоянно в фоновом режиме.
- Триггеры активации: Онлайн-компонент активируется при получении career path query в специализированной поисковой системе.
Пошаговый алгоритм
Процесс А: Построение базы данных (Офлайн)
- Сбор данных: Сканирование интернета (соцсети, сайты с резюме и т.д.) для сбора employment history documents.
- Извлечение информации: Анализ документов для идентификации карьерных позиций, образования, навыков, организаций и временных рамок. Система ищет заголовки типа «Experience», «Education», «Skills».
- Формирование экземпляров позиций: Создание career position instances, связывающих человека, должность, организацию и время.
- Идентификация переходов: Определение последовательности позиций для каждого человека (на основе дат или порядка следования) и выявление карьерных переходов (career transitions).
- Агрегация и расчет вероятностей: Агрегация данных по всем людям. Расчет likelihood для каждого перехода (например, сколько людей перешло из Позиции А в Позицию Б по отношению ко всем, кто был на Позиции А).
- Построение графа: Генерация career path data structures (узлы и взвешенные ребра) и сохранение их в базе данных.
Процесс Б: Обработка запроса (Онлайн)
- Получение запроса: Прием career path query (начальная и/или конечная позиция).
- Поиск в базе данных: Идентификация набора career path objects, соответствующих запросу (включая точные и лучшие совпадения).
- Генерация путей: Формирование направленных графов из идентифицированных объектов.
- Ранжирование: Расчет observed career path likelihood score для каждого пути и ранжирование результатов.
- Выбор и форматирование: Выбор Топ-N результатов и генерация их графического представления.
- Предоставление результатов: Отправка ответа пользователю.
Какие данные и как использует
Данные на входе
Система использует данные, извлеченные из employment history documents. Патент фокусируется на извлечении следующих типов информации:
- Контентные факторы (Текст): Текст резюме, профилей, биографий. Система анализирует заголовки и содержание разделов для извлечения данных.
- Структурные факторы (внутри документа): Порядок следования блоков информации и близость терминов друг к другу используются для связывания должностей, дат и организаций.
- Временные факторы: Диапазоны дат (в числовом и/или текстовом формате) используются для определения продолжительности работы (time duration) и последовательности карьерных шагов.
- Сущностные данные (Извлекаемые):
- Типы должностей (Position Type).
- Названия организаций (Entity Name) – компании, университеты и т.д.
- Образование (Education history/status).
- Лицензии, сертификаты и навыки (Skill set) – все это относится к Qualification Information.
Какие метрики используются и как они считаются
- Likelihood (Вероятность перехода): Рассчитывается как отношение числа людей, перешедших из первой позиции во вторую, к общему числу людей, перешедших из первой позиции куда-либо. Пример из патента: если из 100 человек на Позиции А один перешел на Позицию Б, вероятность = 1%.
- Observed Career Path Likelihood Score: Агрегированная оценка для всего карьерного пути, основанная на вероятностях отдельных переходов, входящих в этот путь. Используется как основной фактор ранжирования.
- Дополнительные факторы ранжирования (Опционально): Краткость пути (число шагов), общее затраченное время.
- Best Match (Лучшее совпадение): Метрика для определения синонимичности или близости запрошенной должности к тем, что есть в базе данных.
Выводы
- Продвинутое извлечение информации (Information Extraction): Патент демонстрирует способность Google обрабатывать сложные, неструктурированные документы (резюме, биографии) для извлечения детальной информации о профессиональном опыте и образовании. Система не полагается только на структурированную разметку.
- Структурное понимание опыта и экспертизы (E-E-A-T): Описанная технология позволяет Google не просто идентифицировать сущности, но и понимать контекст, временные рамки и последовательность событий в карьере человека. Это формирует структурное понимание «Experience» и «Expertise» в рамках E-E-A-T.
- Графовое представление связей сущностей: Система строит граф, связывающий людей, компании, университеты и должности. Эта методология схожа с принципами построения Knowledge Graph, подтверждая фокус Google на сущностях и связях между ними.
- Автоматизированная оценка квалификации: Система автоматически извлекает и учитывает qualification information (образование, лицензии, навыки) при анализе карьерных путей. Это указывает на возможность автоматизированной оценки квалификации авторов и экспертов.
- Использование внешних источников (включая Социальные Сети): Патент явно подтверждает использование данных из внешних источников, включая LinkedIn, Facebook и Google+, для построения базы знаний о людях и их карьере.
Практика
Best practices (это мы делаем)
Хотя патент описывает специализированную поисковую систему, лежащие в ее основе технологии Information Extraction имеют прямое отношение к SEO, особенно в контексте E-E-A-T и оптимизации сущностей.
- Оптимизация биографий и профилей (E-E-A-T): Обеспечьте четкое, последовательное и полное представление информации об опыте работы и образовании авторов и ключевых сотрудников на сайте (страницы «Об авторе», «Наша команда»). Используйте ясные заголовки (например, «Опыт работы», «Образование»), чтобы облегчить извлечение данных системами, подобными Data Structure Build Engine.
- Точность и полнота данных о занятости: При описании опыта указывайте точные названия должностей, названия организаций и временные рамки (даты начала и окончания работы). Это позволяет системе корректно сформировать career position instances.
- Указание квалификаций: Явно перечисляйте релевантные квалификации: ученые степени, сертификаты, лицензии, ключевые навыки. Патент показывает, что система извлекает эти данные (qualification information) и связывает их с карьерными позициями.
- Использование структурированных данных (Schema.org): Хотя система умеет работать с неструктурированным текстом, использование разметки (например, Person, Occupation, Organization, worksFor, alumniOf, hasCredential) значительно повышает вероятность точного и полного извлечения информации о карьерном пути.
- Согласованность информации (Consistency): Обеспечьте согласованность информации о людях и организациях на всех площадках (сайт компании, профессиональные социальные сети). Патент подтверждает, что эти источники (employment history resources) используются для сбора данных. Согласованность помогает системам Entity Resolution.
Worst practices (это делать не надо)
- Нечеткие или креативные названия должностей: Использование нестандартных названий должностей (например, «Джедай Маркетинга» вместо «Директор по маркетингу») может затруднить их классификацию и корректное сопоставление с базой данных должностей.
- Отсутствие временных рамок: Описание опыта работы без указания дат не позволяет системе определить продолжительность и последовательность карьерных шагов, снижая ценность этой информации для анализа E-E-A-T.
- Сложное форматирование биографий: Использование изображений вместо текста или слишком сложной верстки для представления биографических данных может помешать успешному извлечению информации.
- Игнорирование внешних профилей: Пренебрежение актуальностью профилей сотрудников в профессиональных социальных сетях (например, LinkedIn). Патент явно указывает эти ресурсы как источники данных.
Стратегическое значение
Патент подтверждает стратегическую важность технологий Information Extraction для понимания контента и оценки авторитетности источников. Google активно инвестирует в системы, способные структурировать мировой опыт и знания. Для SEO это означает, что работа над сигналами E-E-A-T должна включать не только создание качественного контента, но и обеспечение машиночитаемости и проверяемости профессионального опыта и квалификации авторов и организаций. Построение сильного и четко описанного профиля сущности (Человека или Организации) становится критически важным фактором успеха.
Практические примеры
Сценарий: Оптимизация страницы автора медицинского сайта (E-E-A-T)
- Задача: Улучшить восприятие Google опыта и экспертизы доктора для повышения ранжирования его статей в YMYL-тематике.
- Действия на основе патента:
- Структурирование биографии: Разбить биографию на четкие разделы: «Образование», «Опыт работы», «Лицензии и Сертификаты».
- Детализация опыта: Вместо общего текста предоставить список: «Клиника А, Кардиолог (2015-2020)», «Клиника Б, Старший кардиолог (2020-Настоящее время)». Это позволит системе извлечь точные career position instances.
- Указание квалификаций: Перечислить все степени с указанием ВУЗов и дат, номера лицензий. Это будет извлечено как qualification information.
- Внедрение микроразметки: Использовать Schema.org/Person с свойствами alumniOf, worksFor, hasOccupation для дублирования информации в машиночитаемом виде.
- Внешняя проверка: Убедиться, что профиль доктора в LinkedIn (упомянут в патенте как источник) содержит ту же информацию.
- Ожидаемый результат: Системы Google (используя технологии, подобные Data Structure Build Engine) более точно извлекают и структурируют карьерный путь доктора, что положительно влияет на оценку его опыта и экспертизы (E-E-A-T) и, как следствие, на ранжирование связанного с ним контента.
Вопросы и ответы
Означает ли этот патент, что Google анализирует профили в LinkedIn для ранжирования сайтов?
Патент явно указывает социальные сети, включая LinkedIn, Facebook и Google+, как источники employment history resources для построения базы данных карьерных путей. Это подтверждает, что Google сканирует и анализирует эти платформы для извлечения структурированных данных о людях, их опыте и образовании. Хотя патент описывает специализированный поиск, извлеченные данные могут использоваться в основном поиске для оценки E-E-A-T авторов и экспертов.
Как этот патент связан с E-E-A-T?
Он напрямую связан с оценкой «Experience» (Опыт) и «Expertise» (Экспертиза). Описанный механизм предоставляет Google технологию для автоматизированного, детального и структурного понимания профессиональной траектории человека на основе анализа его биографии и внешних профилей. Это позволяет оценить глубину и релевантность опыта автора в конкретной тематике.
Насколько важно указывать точные даты работы в биографии автора?
Это критически важно. Патент подчеркивает, что система извлекает временные диапазоны для формирования career position instances и определения последовательности карьерных шагов. Даты позволяют системе понять продолжительность опыта (time duration) и актуальность навыков. Отсутствие дат значительно затрудняет структурный анализ карьерного пути и оценку опыта.
Извлекает ли система данные только из текста или она также использует микроразметку?
Основной фокус патента – это извлечение данных из неструктурированных или полуструктурированных документов (резюме, профили), то есть из текста и его форматирования. Система ищет ключевые заголовки и анализирует близость терминов. Google способен понять эту информацию без микроразметки, однако использование Schema.org всегда рекомендуется для обеспечения максимальной точности интерпретации данных.
Как система понимает, что «Инженер-программист» и «Software Developer» – это одна и та же должность?
В патенте упоминается, что система может обрабатывать неточные совпадения и определять «лучшее совпадение» (best match) для запрошенной должности, включая использование синонимов. Это подразумевает наличие процессов нормализации и разрешения сущностей (Entity Resolution), которые позволяют системе сопоставлять различные названия одной и той же должности или организации.
Что такое «Career Position Instance» и почему это важно для SEO?
Career Position Instance – это структурированное представление факта занятости (Человек + Должность + Организация + Время). Важность для SEO заключается в том, что Google стремится преобразовать текст биографии именно в такие структурированные записи. SEO-специалистам нужно оптимизировать представление информации на сайте так, чтобы облегчить это преобразование, делая опыт автора понятным для машины.
Учитывает ли система образование и сертификаты?
Да, патент явно указывает на извлечение qualification information, включая историю образования, лицензии и наборы навыков. Эта информация связывается с конкретными карьерными позициями и учитывается при анализе путей. Это подчеркивает важность указания релевантного образования и сертификации для подтверждения экспертизы.
Описанный в патенте алгоритм ранжирования используется в основном поиске Google?
Нет. Описанный алгоритм ранжирования основан на observed career path likelihood scores (вероятности карьерных переходов) и специфичен для задачи предсказания и ранжирования карьерных путей в специализированной поисковой системе. В основном поиске используются другие алгоритмы. Однако технологии извлечения данных, лежащие в основе этой системы, могут использоваться в основном поиске для оценки E-E-A-T.
Является ли описанная система частью Knowledge Graph?
Патент не использует термин Knowledge Graph, но описанный механизм построения графа связей между сущностями (люди, компании, должности, университеты, навыки) полностью соответствует принципам работы Knowledge Graph. Логично предположить, что эти данные интегрированы в общую базу знаний Google о мире.
Какова основная ценность этого патента для Senior SEO-специалиста?
Основная ценность заключается в глубоком понимании методов Information Extraction, которые Google использует для структурирования данных о людях и организациях. Это подтверждает стратегическую необходимость смещения фокуса на управление сущностями (Entity Management) и сигналами E-E-A-T, основанными на реальных, верифицируемых и консистентных данных о компании и ее экспертах во всем интернете.