SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует редкость сущностей (IDF) для персонализации и повышения интересности контента

DOCUMENT RANKING BASED ON ENTITY FREQUENCY (Ранжирование документов на основе частоты сущностей)
  • US9679018B1
  • Google LLC
  • 2014-02-19
  • 2017-06-13
  • Персонализация
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для персонализации выдачи (например, в Новостях или Рекомендациях), который повышает в ранжировании документы, содержащие сущности, интересующие пользователя, если эти сущности редко встречаются в недавнем корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF). Система продвигает уникальные комбинации тем (группы сущностей), которые могут быть особенно интересны пользователю.

Описание

Какую проблему решает

Патент решает проблему повышения качества персонализированных рекомендаций контента (например, новостных лент). Стандартные системы могут перегружать пользователя популярными или часто повторяющимися материалами, даже если они соответствуют его интересам. Цель изобретения — идентифицировать и продвигать документы, которые не только релевантны интересам пользователя, но и являются редкими или уникальными в текущем информационном потоке, что повышает их потенциальную "интересность" (interestingness).

Что запатентовано

Запатентована система ранжирования документов, которая использует профиль интересов пользователя в сочетании с метрикой редкости тем (сущностей) в корпусе документов. Редкость измеряется с помощью Inverse Document Frequency (IDF), часто рассчитываемой за определенный период времени. Если документ содержит сущность (или группу сущностей), которая интересует пользователя и имеет высокий IDF (т.е. встречается редко), этот документ получает повышение в ранжировании.

Как это работает

Система работает в двух основных режимах: офлайн и онлайн.

  • Офлайн (Предварительный расчет): Система анализирует корпус документов (часто ограниченный по времени, например, новости за последнюю неделю). Для каждой сущности (Entity) и комбинации сущностей (Entity Group) вычисляется Inverse Document Frequency (IDF). Высокий IDF указывает на редкость.
  • Онлайн (Обработка запроса): Система получает запрос на контент (например, загрузка новостной ленты). Она извлекает профиль интересов пользователя (User Interest Profile). Для документов, соответствующих этим интересам, система проверяет IDF связанных с ними сущностей. Если IDF превышает определенный порог редкости, оценка документа (Score) повышается.

Актуальность для SEO

Высокая. С ростом значимости персонализированных лент, таких как Google Discover и обновленный Google News, механизмы, определяющие "интересность" контента за пределами простой релевантности, критически важны. Этот патент описывает конкретный, основанный на сущностях механизм для достижения этой цели.

Важность для SEO

Патент имеет высокое значение для SEO-стратегий, нацеленных на Google Discover, Google News и другие персонализированные поверхности. Он показывает, что простое создание контента по популярной теме недостаточно для гарантированного показа заинтересованным пользователям. Система предпочитает уникальные углы освещения тем или редкие комбинации сущностей (Entity Groups). Это напрямую влияет на контент-стратегию, подчеркивая важность поиска нишевых и уникальных инфоповодов.

Детальный разбор

Термины и определения

Corpus of Documents (Корпус документов)
Набор документов, используемый для анализа и расчета частот. В контексте патента часто подразумевается корпус, ограниченный по времени (например, недавние новости).
Entity (Сущность)
Идентифицируемый объект или концепция (человек, место, вещь, идея), который является темой документа. Используется как единица интереса пользователя и единица анализа частоты.
Entity Annotator (Аннотатор сущностей)
Компонент системы, который анализирует документы, идентифицирует упомянутые в них сущности и может определять основные темы документа.
Entity Group (Группа сущностей)
Комбинация двух или более сущностей, которые совместно встречаются в документе (co-occurring topics). Рассматривается как "псевдо-сущность" для анализа редкости комбинации.
Inverse Document Frequency (IDF, Обратная частота документа)
Метрика, используемая для измерения редкости сущности или группы сущностей в корпусе документов. Высокий IDF указывает на редкость. Рассчитывается как отношение общего числа документов в корпусе к числу документов, содержащих данную сущность (часто с применением логарифмирования).
Interestingness (Интересность)
Предполагаемая ценность документа для пользователя, которая в данном патенте определяется как сочетание релевантности интересам пользователя и редкости (высокого IDF) темы.
Topicality Score (Оценка тематичности)
Вес, присваиваемый сущности в документе, указывающий, насколько эта сущность значима для данного документа (т.е. является ли она основной темой или просто упоминается).
User Interest Profile (Профиль интересов пользователя)
Набор данных, содержащий сущности (темы), которые интересуют пользователя. Может быть сформирован явно (подписки) или неявно (история просмотров).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод ранжирования на основе частоты одной сущности.

  1. Система получает запрос на документы от клиентского устройства.
  2. Получает набор релевантных документов из корпуса.
  3. Получает из профиля пользователя темы (сущности), интересующие его.
  4. Выбирает документ, связанный с интересующей темой.
  5. Получает значение Inverse Document Frequency (IDF) для этой темы в корпусе. Ключевое уточнение: IDF рассчитывается на основе документов, созданных в течение ограниченного периода времени (limited time period) (соотношение числа всех недавних документов к числу недавних документов, упоминающих тему).
  6. Генерируется оценка (Score) для документа на основе этого значения IDF.
  7. Определяется, удовлетворяет ли оценка пороговому значению (threshold score), указывающему на то, что тема является редкой (infrequent topic) в корпусе.
  8. Если ДА, информация о документе передается на клиентское устройство.

Claim 7 (Независимый пункт): Описывает метод ранжирования на основе частоты группы совместно встречающихся сущностей (group of co-occurring topics).

  1. Процесс аналогичен Claim 1, но вместо одной темы система ищет документ, связанный с группой совместно встречающихся тем, которые интересуют пользователя.
  2. Значение IDF получается для этой конкретной группы тем в корпусе документов, также в течение ограниченного периода времени.
  3. Оценка генерируется на основе IDF группы.
  4. Определяется, удовлетворяет ли оценка порогу, указывающему, что эта комбинация тем является редкой (infrequent group of co-occurring topics).
  5. Если ДА, информация о документе передается пользователю.

Где и как применяется

Изобретение затрагивает этапы индексирования (для предварительных расчетов) и ранжирования/переранжирования (для применения логики персонализации).

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые офлайн-процессы:

  • Извлечение сущностей: Entity Annotator обрабатывает документы, извлекает сущности и определяет Topicality Scores.
  • Расчет IDF: Entity Frequency Calculator и Entity Group Frequency Calculator периодически пересчитывают IDF для сущностей и групп сущностей. Важно, что расчеты производятся для разных временных окон (например, IDF за час, день, неделю).

QUNDERSTANDING – Понимание Запросов
Хотя это не традиционный текстовый запрос, система должна интерпретировать "запрос" на персонализированный контент. Это включает загрузку и интерпретацию User Interest Profile.

RANKING / RERANKING – Ранжирование и Переранжирование
Основное применение патента происходит во время формирования выдачи (например, новостной ленты):

  1. Отбор кандидатов: Выбираются документы, соответствующие интересам пользователя.
  2. Применение IDF: Для этих кандидатов извлекаются предварительно рассчитанные значения IDF (соответствующие нужному временному окну).
  3. Корректировка оценки (Scoring): Scoring Engine корректирует оценки документов. Документы с высокими значениями IDF (редкие темы) получают бустинг, если они соответствуют интересу пользователя.

Входные данные:

  • User Interest Profile (список интересующих сущностей).
  • Набор документов-кандидатов.
  • Предварительно рассчитанные значения IDF для сущностей и групп сущностей за определенный период.

Выходные данные:

  • Отсортированный список персонализированных документов с скорректированными оценками ранжирования.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на контент, потребляемый через персонализированные ленты: новостные статьи (Google News), посты в блогах, обновления в социальных сетях (упомянуты в патенте), рекомендации (Google Discover).
  • Специфические запросы: Влияет на неявные запросы (формирование ленты), а не на традиционный поиск по ключевым словам.
  • Временной фактор: Система спроектирована для учета текущей информационной повестки. Сущность может быть редкой сегодня, но частой завтра.

Когда применяется

  • Триггеры активации: Механизм активируется, когда система генерирует персонализированный набор документов для пользователя и идентифицирует совпадение между темами документа и User Interest Profile.
  • Пороговые значения: Бустинг применяется, если значение IDF для сущности или группы сущностей превышает определенный порог (threshold), что свидетельствует о редкости темы.

Пошаговый алгоритм

Процесс А: Офлайн-расчет частот (Периодический)

  1. Сбор данных: Получение набора документов из корпуса, созданных в течение определенного периода времени (например, за последние 24 часа).
  2. Аннотирование: Обработка документов с помощью Entity Annotator для извлечения сущностей и определения основных тем (на основе Topicality Score).
  3. Генерация групп сущностей: Идентификация всех комбинаций сущностей (Entity Groups), совместно встречающихся в документах.
  4. Расчет частот: Подсчет количества документов, содержащих каждую сущность и каждую группу сущностей.
  5. Расчет IDF: Вычисление Inverse Document Frequency для каждой сущности и группы.

Выводы

  1. Редкость как сигнал "интересности": Патент формализует идею о том, что пользователи больше заинтересованы в редких или необычных новостях о темах, за которыми они следят, чем в часто повторяющейся информации. Inverse Document Frequency (IDF) используется как объективная мера этой редкости.
  2. Временная чувствительность редкости: Критически важным аспектом является расчет IDF за ограниченный период времени (limited time period). Это позволяет системе адаптироваться к новостному циклу: тема, которая была редкой на прошлой неделе, может быть повсеместной сегодня.
  3. Важность групп сущностей (Co-occurrence): Система не ограничивается отдельными сущностями. Она активно ищет редкие комбинации (Entity Groups). Две очень популярные сущности могут образовать очень редкую комбинацию, если о них почти никогда не пишут вместе.
  4. Персонализация обязательна: Редкость сама по себе не является сигналом ранжирования. Бустинг применяется только в том случае, если редкая сущность или группа сущностей присутствует в User Interest Profile.
  5. Отделение темы от упоминания: Система использует Topicality Scores, чтобы сосредоточиться на основных темах документа, а не на случайных упоминаниях сущностей.

Практика

Best practices (это мы делаем)

  • Оптимизация под Entity Groups (Комбинации сущностей): Ищите уникальные пересечения между темами в вашей нише. Создавайте контент, который связывает несколько сущностей (например, Технология А + Индустрия Б), особенно если такая комбинация редко освещается. Это увеличивает шансы получить бустинг за счет высокого IDF группы сущностей.
  • Поиск нишевых углов в популярных темах: Даже если основная сущность имеет низкий IDF (очень популярна), можно найти редкий аспект или связанную с ней менее известную сущность. Освещение этого угла может активировать механизм бустинга.
  • Мониторинг инфоповодов и быстрая реакция: Поскольку IDF рассчитывается за ограниченный период времени, быстрое создание качественного контента по новой, еще не растиражированной теме (высокий IDF) дает преимущество в персонализированных лентах (Discover, News).
  • Четкое структурирование контента для определения тем: Помогайте Google (Entity Annotator) правильно определить основные темы статьи (Topicality Score). Используйте ясные заголовки, подзаголовки и убедитесь, что основная часть текста посвящена заявленным сущностям.

Worst practices (это делать не надо)

  • Поверхностное освещение трендовых тем: Создание контента, который повторяет то, что уже многократно освещено другими источниками по популярной теме (низкий IDF), не получит преимуществ от этого алгоритма.
  • Clickbait и несоответствие заголовка содержанию: Если заголовок обещает редкую комбинацию сущностей, но в тексте они лишь упоминаются (низкий Topicality Score), система не классифицирует их как основные темы документа, и бустинг применен не будет.
  • Игнорирование Entity-based SEO: Фокус исключительно на ключевых словах без понимания того, как контент связан с конкретными сущностями в Knowledge Graph, не позволит эффективно использовать этот механизм.

Стратегическое значение

Этот патент подчеркивает стратегический переход Google к оценке "интересности" контента в персонализированных сервисах. Для SEO это означает, что стратегии для Google Discover и Google News должны включать анализ текущего информационного поля не только с точки зрения спроса, но и с точки зрения предложения (насыщенности). Создание уникального, основанного на сущностях контента становится ключевым фактором для привлечения трафика из рекомендательных систем.

Практические примеры

Сценарий: Использование редкой комбинации сущностей (Entity Group)

  1. Анализ интересов аудитории: Мы знаем, что наша аудитория интересуется "Искусственным Интеллектом" (AI) и "Археологией".
  2. Анализ IDF: Обе сущности по отдельности могут быть относительно популярны (средний IDF). Однако анализ недавних публикаций показывает, что комбинация "AI + Археология" встречается редко (высокий IDF для группы).
  3. Создание контента: Создается глубокая статья на тему "Как новые алгоритмы AI помогают расшифровывать Мертвые свитки".
  4. Результат: Когда система формирует ленту для пользователя, интересующегося AI и Археологией, эта статья получает значительный бустинг благодаря высокому IDF комбинации тем и занимает более высокую позицию, чем стандартные новости об AI или Археологии по отдельности.

Сценарий: Использование временного IDF

  1. Мониторинг: Происходит неожиданное событие, связанное с сущностью, которая обычно редко освещается (например, извержение конкретного вулкана).
  2. Начальный этап: В первый час после события количество документов мало. IDF этой сущности резко возрастает.
  3. Реакция: Быстрое создание экспертного материала об этом вулкане.
  4. Результат: Статья получает бустинг в лентах заинтересованных пользователей за счет высокого временного IDF. Через 2 дня, когда о вулкане напишут все, IDF снизится, и бустинг уменьшится.

Вопросы и ответы

Применяется ли этот патент к основному веб-поиску Google?

Патент описывает механизм для персонализированных рекомендаций, таких как новостные ленты. В основном веб-поиске его влияние менее вероятно, так как там доминирует релевантность запросу, а не предварительно известные интересы пользователя. Однако, если поисковая выдача сильно персонализирована или включает модули рекомендаций (например, блок "Интересное"), этот механизм может быть задействован.

Как отличается использование IDF в этом патенте от традиционного TF-IDF?

В традиционном TF-IDF метрика IDF используется для определения важности термина для определения релевантности документа запросу (редкие термины более важны). В этом патенте IDF используется как мера "интересности" или редкости темы в целом корпусе документов за определенный период. Это сигнал качества/уникальности контента, а не его релевантности конкретному запросу.

Как определить, какие сущности или группы сущностей являются редкими (имеют высокий IDF)?

Патент не предоставляет инструментов для внешних пользователей. SEO-специалистам необходимо проводить собственный анализ информационного поля. Можно использовать Google Trends для оценки динамики интереса и ручной анализ Google News или других агрегаторов, чтобы понять, насколько часто освещается та или иная тема или комбинация тем в последнее время.

Что важнее: редкость отдельной сущности или группы сущностей?

Система оценивает оба фактора. Однако патент уделяет значительное внимание группам сущностей (Entity Groups). Редкая комбинация двух популярных сущностей может оказаться более мощным сигналом "интересности", чем одна умеренно редкая сущность. Стратегически выгоднее искать уникальные пересечения тем.

Как Google определяет интересы пользователя (User Interest Profile)?

Патент упоминает, что профиль может быть основан на информации, предоставленной пользователем (явные подписки), или определен неявно. Неявные методы включают анализ ранее просмотренных документов, введенных поисковых запросов, а также активность пользователей с похожими профилями.

Насколько важен временной фактор (Time-limited IDF)?

Он критически важен. Расчет IDF за ограниченный период времени позволяет системе реагировать на текущую информационную повестку. Это означает, что для SEO важна скорость реакции на новые инфоповоды и понимание того, что насыщенность темы может быстро меняться.

Как обеспечить высокий Topicality Score для нужных сущностей?

Topicality Score определяет, является ли сущность основной темой документа. Для этого сущность должна быть центральным элементом контента. Упоминание в заголовке, частое и естественное использование в тексте, а также выделение значительной части документа под раскрытие этой темы способствуют повышению этой оценки.

Влияет ли авторитетность сайта (E-E-A-T) на этот механизм?

Патент не упоминает авторитетность сайта напрямую. Он фокусируется на редкости контента и интересах пользователя. Однако базовые сигналы качества и авторитетности всегда учитываются Google при отборе кандидатов для ранжирования. Качественный контент с высоким IDF имеет больше шансов на успех, чем низкокачественный контент с высоким IDF.

Стоит ли специально создавать контент под очень редкие, но малоизвестные сущности?

Это зависит от вашей аудитории. Механизм активируется только тогда, когда редкая сущность уже находится в профиле интересов пользователя. Если никто не интересуется этой редкой сущностью, высокий IDF не принесет пользы. Стратегия должна заключаться в поиске редких аспектов или комбинаций тем, которые уже интересны вашей целевой аудитории.

Как этот патент связан с Google Discover?

Google Discover является идеальным примером системы, где этот патент может применяться. Discover формирует ленту без явного запроса пользователя, основываясь на его интересах. Механизм использования IDF для поиска "интересного" и редкого контента напрямую соответствует целям Discover по предоставлению пользователям актуальной и увлекательной информации.

Похожие патенты

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google автоматически выбирает категории и контент для страниц сущностей, комбинируя данные о поведении пользователей и Knowledge Graph
Google использует механизм для автоматического создания страниц о сущностях (например, о фильмах или персонажах). Система определяет, какие категории (свойства) сущности наиболее интересны пользователям, сравнивая данные из Knowledge Graph с данными о том, что пользователи ищут или смотрят вместе с этой сущностью. Затем она наполняет эти категории популярным контентом.
  • US11036743B2
  • 2021-06-15
  • Knowledge Graph

  • Семантика и интент

  • Поведенческие сигналы

Как Google адаптирует ранжирование контента под частоту посещений пользователя, балансируя между важностью и новизной
Google использует механизм для персонализации лент контента (например, Новости, Discover). Система анализирует, как часто пользователь запрашивает контент. Для частых посетителей приоритет отдается новизне, чтобы избежать повторов. Для редких посетителей приоритет отдается важности контента, чтобы они не пропустили ключевые материалы, даже если они были опубликованы давно.
  • US9477376B1
  • 2016-10-25
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google персонализирует рекомендации популярных запросов на основе истории поиска и браузинга пользователя
Google анализирует глобальные тренды поисковых запросов и сопоставляет их с индивидуальной историей пользователя (посещенные сайты, прошлые запросы, категории интересов). Если популярный запрос соответствует выявленным интересам пользователя, он будет рекомендован. Система также применяет фильтры, исключающие запросы, которые пользователь вводил недавно.
  • US9443022B2
  • 2016-09-13
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google дифференцирует и взвешивает поведенческие сигналы для персонализации рекомендаций контента
Google использует систему для персонализации рекомендаций контента, анализируя характеристики документов (например, через TF-IDF) и создавая динамические профили интересов пользователей. Система обучается на основе поведения: разные типы взаимодействий (просмотр, печать, сохранение) по-разному влияют на профиль пользователя, а влияние этих поведенческих сигналов со временем ослабевает (Signal Decay).
  • US20170344572A1
  • 2017-11-30
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Популярные патенты

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям
Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.
  • US9342600B1
  • 2016-05-17
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов
Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.
  • US20170068720A1
  • 2017-03-09
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)
Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
  • US8650196B1
  • 2014-02-11
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска
Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.
  • US8959083B1
  • 2015-02-17
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов
Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.
  • US6941293B1
  • 2005-09-06
  • Семантика и интент

  • Ссылки

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя
Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.
  • US20060224583A1
  • 2006-10-05
  • Персонализация

  • Поведенческие сигналы

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей
Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.
  • US11379527B2
  • 2022-07-05
  • Семантика и интент

  • Поведенческие сигналы

seohardcore