Как Google классифицирует вакансии и запросы с помощью векторов и таксономии профессий для улучшения поиска работы

SEARCH ENGINE (Поисковая система)

US10643183B2
Google LLC
2016-10-18
2020-05-05

Google использует модель идентификации вакансий для преодоления ограничений поиска по ключевым словам в сфере трудоустройства. Система обучается на основе таксономии профессий, генерируя векторы для вакансий с использованием специализированных весовых коэффициентов (Inverse Occupation Frequency и Occupation Derivative). Это позволяет системе понимать, что запросы вроде "Patent Guru" соответствуют профессии "Патентный поверенный", и возвращать релевантные вакансии, даже если ключевые слова не совпадают.

Какую проблему решает

Патент решает проблему ограничений традиционного поиска по ключевым словам в контексте поиска работы (Job Search). Проблема заключается в том, что работодатели часто используют разную терминологию и уникальные названия для одной и той же профессии (например, "Software Guru", "Software Ninja" и "Software Engineer"). Поиск, основанный только на совпадении ключевых слов, не сможет найти релевантные вакансии, если термины в запросе не совпадают с терминами в названии вакансии. Изобретение улучшает качество поиска работы, позволяя системе идентифицировать релевантные вакансии независимо от конкретных ключевых слов.

Что запатентовано

Запатентована система (Job Identification Model), которая использует машинное обучение и обработку естественного языка для классификации названий вакансий и поисковых запросов в соответствии со стандартизированной таксономией профессий (Occupation Taxonomy). Суть изобретения заключается в методе генерации векторов (Occupation Vectors и Query Vectors) с использованием специфических весовых коэффициентов, таких как Inverse Occupation Frequency (обратная частота по профессиям) и Occupation Derivative (производная по профессиям). Эти векторы используются для определения наиболее подходящей профессии для запроса, что позволяет извлекать релевантные вакансии, проиндексированные по этой профессии.

Как это работает

Система работает в два этапа: обучение и выполнение.

Обучение (Офлайн):

Система определяет словарь векторов и таксономию профессий.
Собираются размеченные обучающие данные (название вакансии + соответствующая профессия).
Названия вакансий нормализуются (удаляется шум: зарплата, локация и т.д.).
Для каждого элемента генерируется Occupation Vector с использованием специализированных весовых коэффициентов (Inverse Occupation Frequency и Occupation Derivative).
Эти векторы связываются с соответствующими профессиями в таксономии.

Выполнение (Онлайн):

Система получает поисковый запрос о работе.
Запрос нормализуется и преобразуется в Query Vector.
Similarity Engine сравнивает Query Vector с Occupation Vectors в таксономии и рассчитывает Confidence Scores (оценки уверенности) для каждой профессии.
Выбирается профессия с наивысшей оценкой уверенности.
Система извлекает вакансии, связанные с этой профессией, из индекса вакансий (Job Posting Index) и предоставляет их пользователю.

Актуальность для SEO

Высокая. Патент описывает фундаментальные механизмы, лежащие в основе специализированных вертикальных поисковых систем, таких как Google Jobs. Понимание того, как система классифицирует вакансии и интерпретирует запросы за пределами простого совпадения ключевых слов, критически важно для оптимизации контента в этой вертикали. Методы векторизации и классификации на основе таксономии являются стандартом в современном поиске информации.

Важность для SEO

Влияние на SEO для вертикали поиска работы (Google Jobs) является критическим (8/10). Патент демонстрирует, что релевантность в поиске работы определяется не совпадением ключевых слов, а тем, насколько точно система классифицирует вакансию или запрос в рамках своей Occupation Taxonomy. Для SEO-специалистов, работающих с сайтами вакансий или корпоративными разделами карьеры, понимание этого механизма определяет стратегию создания и оптимизации контента. Успех зависит от того, насколько четко контент вакансии сигнализирует о принадлежности к определенной профессии в таксономии Google.

Термины и определения

Confidence Score (Оценка уверенности): Метрика, рассчитываемая Similarity Engine, которая указывает на вероятность того, что Query Vector правильно классифицирован в рамках определенной профессии в таксономии.
Inverse Occupation Frequency (IDF) (Обратная частота по профессиям): Весовой коэффициент, основанный на количестве профессий в таксономии, в которых присутствует данный термин. Отражает, насколько специфичен термин для конкретной профессии.
Job Identification Model (Модель идентификации вакансий): Основная система, описанная в патенте, которая классифицирует запросы и вакансии для улучшения поиска работы.
Job Posting Index (Индекс вакансий): База данных, которая индексирует известные вакансии на основе типа профессии, используя Occupation Taxonomy.
Occupation Derivative (DD) (Производная по профессиям): Весовой коэффициент, основанный на плотности термина по всем профессиям в таксономии. Отражает, насколько сильно термин может дифференцировать (различать) профессии.
Occupation Taxonomy (Таксономия профессий): Структурированный список предопределенных профессий и соответствующих им кодов (Occupation Codes). Используется для классификации обучающих данных и поисковых запросов.
Occupation Vector (Вектор профессии): Числовое представление размеченного обучающего элемента (например, названия вакансии), сгенерированное с использованием специализированных весовых коэффициентов (IDF, DD). Используется для обучения модели.
Query Vector (Вектор запроса): Числовое представление поискового запроса пользователя, сгенерированное тем же методом, что и Occupation Vector.
Similarity Engine (Механизм оценки схожести): Компонент системы, который сравнивает Query Vector с Occupation Vectors в таксономии для расчета Confidence Scores.
Term Frequency (TF) (Частота термина): Весовой коэффициент, основанный на количестве появлений термина в названии вакансии.
Text Normalization Unit (Блок нормализации текста): Компонент, отвечающий за очистку и стандартизацию названий вакансий и запросов. Удаляет шум, такой как информация о зарплате, графике работы, локации, названии компании и т.д.
Vector Vocabulary (Словарь векторов): Набор терминов (униграммы, биграммы и т.д.), используемых для генерации векторов. Определяется во время обучения и фиксируется для использования в продакшене.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл работы системы для поиска работы.

Определение словаря векторов и таксономии профессий.
Получение размеченных обучающих данных (Название вакансии + Профессия).
Генерация Occupation Vector для каждого элемента. Ключевой момент: весовой коэффициент (feature weight) рассчитывается на основе двух значений: (i) Inverse Occupation Frequency (IDF) и (ii) Occupation Derivative (DD).
Ассоциация каждого Occupation Vector с профессией в таксономии (обучение).
Получение поискового запроса.
Генерация Query Vector (первого вектора) на основе запроса.
Расчет Confidence Score для каждой профессии в таксономии, указывающего, насколько вектор запроса соответствует профессии.
Выбор профессии с наивысшим Confidence Score.
Получение вакансий, используя выбранную профессию.
Предоставление результатов поиска.

Ядро изобретения заключается в использовании комбинации IDF и DD для взвешивания признаков при генерации векторов в контексте классификации коротких текстов (вакансий).

Claim 4 (Зависимый от 1): Уточняет формулу расчета весового коэффициента.

Весовой коэффициент основан на сумме (i) значения, представляющего Inverse Occupation Frequency, и (ii) одной трети значения, представляющего Occupation Derivative.

Формула расчета веса признака: $FW = IDF + DD/3$ . Это конкретная реализация, направленная на оптимизацию классификации коротких текстов вакансий.

Где и как применяется

Этот патент описывает архитектуру специализированной поисковой системы (вертикального поиска), конкретно предназначенной для поиска работы. Он затрагивает несколько этапов стандартной архитектуры поиска.

CRAWLING – Сканирование и Сбор данных
Система собирает данные о вакансиях (Job Posting Data) из множества источников в интернете.

INDEXING – Индексирование и извлечение признаков
Этот этап критически важен и делится на две части: Обучение модели и Индексирование вакансий.

Обучение (Офлайн):

Сбор и разметка: Получение обучающих данных (labeled training data items) и их хранение в Text Corpus.
Нормализация: Обработка названий вакансий с помощью Text Normalization Unit для удаления шума.
Генерация признаков и векторов: Vector Generation Unit создает Occupation Vectors, используя словарь и специфические веса (IDF+DD/3).
Обучение таксономии: Векторы ассоциируются с профессиями в Occupation Taxonomy.

Индексирование (Офлайн/Около-реалтайм):
Новые вакансии обрабатываются, классифицируются с использованием обученной модели и сохраняются в Job Posting Index, организованном по профессиям.

QUNDERSTANDING – Понимание Запросов
Основное применение патента в реальном времени.

Нормализация запроса: Входящий запрос обрабатывается Text Normalization Unit.
Генерация вектора запроса: Vector Generation Unit создает Query Vector.
Классификация запроса: Similarity Engine использует Query Vector и обученную Occupation Taxonomy для определения наиболее вероятной профессии (Occupation) и расчета Confidence Score.

RANKING – Ранжирование (Отбор кандидатов)
На этом этапе система использует результат этапа QUNDERSTANDING (выбранную профессию) для быстрого отбора кандидатов из Job Posting Index. Это заменяет традиционный поиск по ключевым словам.

Входные данные:

Обучающие данные (Названия вакансий, Коды профессий).
Поисковый запрос пользователя.
Сырые данные о вакансиях из интернета.

Выходные данные:

Обученная Occupation Taxonomy с ассоциированными Occupation Vectors.
Классификация запроса (Выбранная профессия).
Набор релевантных вакансий.

На что влияет

Конкретные типы контента: Влияет исключительно на контент, связанный с трудоустройством: вакансии (Job Postings), резюме (упоминаются как возможный источник обучающих данных) и поисковые запросы о работе.
Специфические запросы: Наибольшее влияние оказывается на запросы, где используется нестандартная, креативная или неоднозначная терминология для описания должностей (например, "Гуру", "Ниндзя", "Самурай" в названиях).
Конкретные ниши или тематики: Влияет на все ниши в контексте поиска работы.

Когда применяется

Триггеры активации: Алгоритм активируется при получении поискового запроса, который система идентифицирует как запрос о поиске работы (Job Search Query).
Временные рамки: Обучение модели происходит офлайн периодически. Классификация запросов и извлечение вакансий происходит в реальном времени при каждом запросе.

Пошаговый алгоритм

Процесс А: Обучение модели (Training Phase - Офлайн)

Определение словаря и таксономии: Определяется Vector Vocabulary (на основе корпуса текстов) и Occupation Taxonomy (список профессий).
Сбор данных: Получение размеченных обучающих данных (labeled training data), где каждая запись содержит название вакансии и код профессии.
Нормализация текста: Text Normalization Unit обрабатывает названия вакансий. Удаляется информация о зарплате, графике, локации, компании, знаки препинания, числа и т.д.
Генерация векторов профессий: Vector Generation Unit создает Occupation Vector для каждой записи.
- Рассчитывается Inverse Occupation Frequency (IDF) для каждого термина.
- Рассчитывается Occupation Derivative (DD) для каждого термина.
- Вес признака (Feature Weight) вычисляется по формуле (например, IDF + DD/3).
Ассоциация и обучение: Каждый Occupation Vector связывается с соответствующим кодом профессии в Occupation Taxonomy.

Процесс Б: Обработка запроса (Execution Phase - Онлайн)

Получение запроса: Система получает запрос о работе от пользователя.
Нормализация запроса: Запрос обрабатывается Text Normalization Unit.
Генерация вектора запроса: Vector Generation Unit создает Query Vector, используя тот же словарь и методы взвешивания, что и при обучении.
Расчет схожести и уверенности: Similarity Engine сравнивает Query Vector с Occupation Vectors в таксономии. Для каждой профессии рассчитывается Confidence Score (например, на основе векторного расстояния).
Выбор профессии: Выбирается профессия с наивысшим Confidence Score (или несколько, если они превышают порог).
Извлечение вакансий: Система запрашивает Job Posting Index, используя выбранную профессию, для получения релевантных вакансий.
Предоставление результатов: Полученные вакансии предоставляются пользователю в виде результатов поиска.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке текстовых данных, связанных с вакансиями.

Контентные факторы: Ключевыми данными являются названия вакансий (Job Titles) из обучающих данных и текст поискового запроса (Search Query). В патенте также упоминается, что обучающие данные могут включать описания работы из резюме.
Структурные данные (Разметка): Используются метки профессий (Occupation Codes), присвоенные обучающим данным вручную или автоматически.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для генерации векторов и классификации.

1. Term Frequency (TF)

Описание: Частота появления термина в названии вакансии.
Расчет: Количество вхождений термина W в текст.

2. Inverse Occupation Frequency (IDF)

Описание: Метрика, показывающая, насколько специфичен термин для профессии.
Расчет: Логарифм отношения общего числа профессий (D) к числу профессий, в которых встречается термин (df). $idf_i = log(D/df_i)$ .

3. Occupation Derivative (DD)

Описание: Метрика, показывающая, насколько хорошо термин различает профессии.
Расчет: Анализируется плотность термина (DS) в каждой профессии (отношение числа примеров с термином к общему числу примеров в профессии). Плотности сортируются по убыванию. DD определяется как наибольшая разница между соседними значениями плотности.

4. Feature Weight (Вес признака)

Описание: Итоговый вес термина в векторе.
Расчет: Комбинация IDF и DD. Патент предлагает несколько вариантов, включая FW = IDF + DD, FW = IDF + 3*DD, и конкретно защищает вариант FW = IDF + DD/3 (Claim 4).

5. Confidence Score

Описание: Вероятность того, что запрос принадлежит к определенной профессии.
Расчет: Основан на анализе расстояния между Query Vector и Occupation Vectors в числовом пространстве признаков. Чем меньше расстояние, тем выше оценка уверенности.

Переход от ключевых слов к классификации: В контексте поиска работы Google не полагается на традиционное сопоставление ключевых слов. Вместо этого используется сложная модель машинного обучения (Job Identification Model) для классификации как запроса, так и контента вакансии в рамках стандартизированной Occupation Taxonomy.
Специфические веса для коротких текстов: Патент подчеркивает, что стандартные методы взвешивания (вероятно, имеется в виду TF-IDF) неэффективны для очень коротких документов, таких как названия вакансий. Google разработал и запатентовал специфический гибридный подход, комбинирующий Inverse Occupation Frequency (IDF) и Occupation Derivative (DD).
Важность дифференциации терминов: Occupation Derivative (DD) играет ключевую роль. Эта метрика измеряет, насколько хорошо термин помогает отличить одну профессию от другой. Термины с высоким DD имеют больший вес в классификации.
Нормализация критична: Система агрессивно очищает названия вакансий и запросы от "шума" (зарплата, тип занятости, локация, название компании). Это означает, что основная классификация происходит на основе оставшихся терминов, непосредственно описывающих суть работы.
Таксономия как источник истины: Релевантность определяется тем, насколько хорошо контент соответствует профессии в Occupation Taxonomy. Если вакансия или запрос не могут быть уверенно классифицированы, они могут не появиться в релевантной выдаче.

Best practices (это мы делаем)

Рекомендации применимы к оптимизации сайтов вакансий (Job Boards) и корпоративных разделов карьеры для вертикали Google Jobs.

Используйте четкие и стандартизированные названия должностей: Несмотря на то, что система умеет распознавать креативные названия ("Ниндзя", "Гуру"), использование стандартных, общепринятых названий должностей повышает вероятность правильной классификации (более высокий Confidence Score). Название должно четко отражать суть профессии.
Фокусируйтесь на дифференцирующих терминах в названии: Включайте в название термины, которые имеют высокий Occupation Derivative – те, которые четко отличают эту роль от смежных. Например, "Патентный поверенный" лучше, чем просто "Юрист".
Обеспечьте чистоту данных в JobTitle: Убедитесь, что в поле названия вакансии (и в соответствующем поле микроразметки JobPosting) нет посторонней информации. Зарплата, город, тип занятости (Full-time/Part-time), название компании должны быть вынесены в соответствующие поля. Text Normalization Unit удалит их, но лучше предоставить чистые данные изначально.
Используйте семантически богатые описания: Хотя патент фокусируется на названиях для обучения, полное описание вакансии также важно для общей релевантности и может использоваться системой для подтверждения классификации. Используйте терминологию, синонимы и описания задач, соответствующие стандартному пониманию профессии в Occupation Taxonomy.
Внедряйте полную микроразметку JobPosting: Используйте схему JobPosting максимально полно. Это помогает Google корректно извлекать и интерпретировать данные о вакансии, снижая зависимость от текстовой нормализации.

Worst practices (это делать не надо)

Перегружать название вакансии дополнительной информацией: Включение в название таких элементов как "($100k)", "(Remote)" или "Срочно!" не поможет ранжированию, так как эта информация будет удалена на этапе нормализации и не повлияет на генерацию вектора.
Использовать слишком общие или неоднозначные названия: Названия вроде "Менеджер" или "Специалист" без уточнения области имеют низкий Occupation Derivative и могут быть неправильно классифицированы или получат низкий Confidence Score.
Пытаться манипулировать ключевыми словами (Keyword Stuffing): Повторение ключевых слов в названии (если не используется чисто TF) не даст значительного преимущества, так как веса основаны на IDF и DD, а не только на частоте термина в документе.
Использовать исключительно креативные/брендовые названия без контекста: Если вы называете продавца "Sales Samurai", убедитесь, что остальной контент вакансии четко указывает на то, что это роль в продажах, чтобы помочь системе корректно классифицировать вакансию.

Стратегическое значение

Патент подтверждает стратегию Google по структурированию данных и использованию машинного обучения для понимания контента в специализированных вертикалях. Для поиска работы ключевым фактором успеха является alignment (соответствие) контента вакансии той таксономии профессий, которую использует Google. Долгосрочная стратегия должна фокусироваться на качестве данных, четкости описаний и использовании структурированных данных (Schema.org) для минимизации неопределенности при классификации вакансий.

Практические примеры

Сценарий: Оптимизация названия вакансии для Google for Jobs

Плохой пример названия: "(Срочно!) Ищем Junior/Mid-Level SEO Специалиста в Москве, $1500 (Бонусы)"

Процесс обработки системой:

Нормализация: Text Normalization Unit удаляет шум (пунктуацию, локацию, зарплату, уровень, призывы).
Результат нормализации (вероятный): "SEO Специалист".
Векторизация и Классификация: Система генерирует вектор для "SEO Специалист" и классифицирует его.

Хороший пример названия (в поле title разметки JobPosting): "SEO Специалист (Специалист по поисковой оптимизации)"

Действия SEO-специалиста:

Разместить чистое название в поле title.
Разместить "Москва" в поле jobLocation.
Разместить информацию о зарплате в baseSalary.
Указать уровень (Junior/Mid-Level) в описании.

Ожидаемый результат: Вакансия точно классифицируется по профессии и содержит всю необходимую информацию для сниппета, не мешая работе Job Identification Model.

Означает ли этот патент, что ключевые слова больше не важны при оптимизации вакансий?

Нет, ключевые слова по-прежнему важны, но изменился механизм их использования. Они важны не для прямого сопоставления с запросом, а как признаки для классификации вакансии в Occupation Taxonomy. Система оценивает, насколько комбинация ключевых слов в названии соответствует определенной профессии, используя веса Inverse Occupation Frequency (IDF) и Occupation Derivative (DD).

Что такое Occupation Derivative (DD) и почему это важно?

Occupation Derivative (DD) – это метрика, которая измеряет, насколько хорошо термин помогает отличить одну профессию от другой. Если термин встречается только в одной профессии (высокий DD), он получает больший вес. Если термин встречается во многих профессиях (например, "специалист"), у него низкий DD. Для SEO это означает, что нужно использовать термины, которые максимально точно специфицируют роль.

Как рассчитывается вес признака (Feature Weight) согласно патенту?

Патент предлагает несколько формул, но конкретно защищает (в Claim 4) формулу: Вес = IDF + DD/3. Это означает, что вес термина складывается из его обратной частоты по профессиям (IDF) плюс одна треть его производной по профессиям (DD). Это специфический гибридный подход для классификации коротких текстов.

Как система обрабатывает информацию о зарплате или локации в названии вакансии?

Система использует Text Normalization Unit для агрессивной очистки названий вакансий и запросов. Информация о зарплате, локации, графике работы, типе занятости и названии компании идентифицируется и удаляется перед генерацией вектора. Эта информация не участвует в классификации профессии.

Применяется ли этот механизм в основном поиске Google или только в Google Jobs?

Патент описывает Job Identification Model, специально разработанный для решения проблем поиска работы. Хотя общие принципы векторизации и классификации используются в основном поиске, специфические методы взвешивания (IDF + DD/3) и использование Occupation Taxonomy разработаны именно для вертикали Jobs.

Как узнать, какие профессии есть в Occupation Taxonomy Google?

Патент не раскрывает сам список профессий. Occupation Taxonomy является внутренним ресурсом Google, который создается и обновляется на основе анализа рынка труда и обучающих данных. SEO-специалистам следует ориентироваться на общепринятые стандарты индустрии и анализировать выдачу Google Jobs, чтобы понять, как группируются вакансии.

Что делать, если моя вакансия неправильно классифицируется в Google Jobs?

Необходимо пересмотреть название и описание вакансии. Убедитесь, что название четкое, не содержит шума и использует термины, которые однозначно идентифицируют профессию (высокий DD). Также проверьте корректность микроразметки JobPosting. Изменение названия на более стандартизированное обычно помогает исправить классификацию.

Влияет ли описание вакансии на классификацию, или только название?

В патенте для обучения модели в первую очередь используются размеченные названия вакансий (Job Titles). Однако упоминается, что обучающие данные могут включать и другие источники, например, описания из резюме. Логично предположить, что полное описание вакансии также анализируется системой для подтверждения классификации, основанной на названии.

Как система обрабатывает новые или только появляющиеся профессии?

Система зависит от обучающих данных и Occupation Taxonomy. Чтобы новые профессии были распознаны, они должны быть добавлены в таксономию, и система должна быть переобучена на новых размеченных данных, включающих эти профессии. До этого момента новые роли могут классифицироваться в ближайшие существующие категории.

Могу ли я использовать креативные названия вакансий, такие как "Гуру" или "Ниндзя"?

Да, можете. Система спроектирована так, чтобы распознавать такие названия, если они присутствовали в обучающих данных и были связаны с конкретной профессией. Однако для повышения уверенности системы (Confidence Score) рекомендуется сочетать креативные термины с четкими идентификаторами профессии (например, "Software Ninja" вместо просто "Ninja").

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google идентифицирует и ранжирует людей, связанных с запросом, и различает однофамильцев с помощью контекста

Google использует механизм для определения людей, наиболее релевантных поисковому запросу. Система анализирует контекст вокруг имен в документах, используя «термины классификации» (например, должности, локации, email), чтобы сгруппировать упоминания и различить людей с одинаковыми именами (дисамбигуация). Это позволяет точно идентифицировать сущности и организовать выдачу вокруг них.

US9245022B2
2016-01-26

Семантика и интент
Индексация
SERP

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске

Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент
SERP
Поведенческие сигналы

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google ускоряет нейронный поиск, используя выборочные векторные взаимодействия токенов и механизм импутации

Google патентует высокоэффективную систему нейронного поиска (Contextualized Token Retriever). Она обеспечивает высокую точность за счет анализа взаимодействий на уровне отдельных контекстуализированных токенов между запросом и документом. Ключевое нововведение — механизм импутации, который позволяет рассчитывать релевантность, используя только предварительно извлеченные векторы, что радикально снижает вычислительные затраты.

US20250217373A1
2025-07-03

Семантика и интент
Индексация
SERP

Как Google комбинирует поведенческие сигналы из разных поисковых систем для улучшения ранжирования

Google использует механизм для улучшения ранжирования путем объединения данных о поведении пользователей (клики и время взаимодействия) из разных поисковых систем (например, Веб-поиск и Поиск по Видео). Если в основной системе данных недостаточно, система заимствует данные из другой, применяя весовой коэффициент и фактор сглаживания для контроля смещения и обеспечения релевантности.

US8832083B1
2014-09-09

Поведенческие сигналы
SERP

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам

Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.

US8788477B1
2014-07-22

Поведенческие сигналы
EEAT и качество
SERP

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска

Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.

US8131754B1
2012-03-06

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google понижает в выдаче результаты, которые пользователь уже видел или проигнорировал в рамках одной поисковой сессии

Google использует механизм для улучшения пользовательского опыта во время длительных поисковых сессий. Если пользователь вводит несколько связанных запросов подряд, система идентифицирует результаты, которые уже появлялись в ответ на предыдущие запросы. Эти повторяющиеся результаты понижаются в ранжировании для текущего запроса, чтобы освободить место для новых, потенциально более полезных страниц. Понижение контролируется порогом релевантности, чтобы не скрывать важный контент.

US8051076B1
2011-11-01

SERP
Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google корректирует позиционную предвзятость (Position Bias) при обучении моделей ранжирования на кликах пользователей

Google использует механизм для устранения позиционной предвзятости (Position Bias) при обучении моделей ранжирования (Learning to Rank). Система анализирует, на какой позиции находился кликнутый результат, и присваивает этому клику вес важности. Клики по нижним позициям получают больший вес, чем клики по ТОП-1. Это позволяет модели учиться определять истинную релевантность, а не просто копировать существующий порядок выдачи.

US20210125108A1
2021-04-29

Поведенческие сигналы
SERP

Как Google динамически формирует Панели Знаний, выбирая блоки информации на основе истории поисковых запросов пользователей

Google использует гибридный подход для создания структурированных страниц о сущностях (например, Панелей Знаний). Система анализирует исторические данные о том, что пользователи чаще всего ищут об этой сущности или её классе. На основе этого анализа динамически выбираются блоки информации (например, «Награды», «Саундтрек»), которые дополняют стандартный набор данных, позволяя автоматически адаптировать выдачу под актуальные интересы аудитории.

US10110701B2
2018-10-23

Knowledge Graph
Поведенческие сигналы
Персонализация

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам

Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.

US10481861B2
2019-11-19

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP