Google анализирует действия пользователя в рамках текущей поисковой сессии, такие как специфическая терминология, орфография или клики по результатам, чтобы отнести его к определенной «Группе пользователей» (например, по профессии или демографии). Последующие результаты поиска переранжируются на основе того, что исторически популярно или непопупулярно в этой конкретной группе по сравнению с общей популяцией пользователей.
Описание
Какую задачу решает
Патент решает проблему предоставления обобщенных результатов поиска, которые не учитывают специфический контекст, характеристики или текущий интент пользователя в рамках сессии. Система направлена на улучшение релевантности, особенно для неоднозначных запросов, путем динамического определения характеристик пользователя (например, профессии, местоположения, интересов) и адаптации выдачи к предпочтениям группы, к которой этот пользователь принадлежит.
Что запатентовано
Запатентована система для динамической персонализации результатов поиска в реальном времени на основе действий пользователя в рамках текущей поисковой сессии (search session). Система анализирует введенные запросы и выбранные результаты для определения характеристик (features) пользователя и относит его к определенной группе (user group). Для последующих запросов в этой же сессии система корректирует ранжирование, повышая или понижая результаты, которые статистически более или менее популярны в этой группе по сравнению с общей популяцией пользователей (general population).
Как это работает
Механизм работает в два основных этапа в рамках одной сессии:
- Определение группы пользователя: Система анализирует начальные действия пользователя. Это может быть анализ терминологии в запросе (например, использование профессионального жаргона, такого как «neonate»), орфографии (например, «color» vs «colour») или анализ сайтов, на которые пользователь перешел (например, сайты с определенной демографической аудиторией). На основе этих сигналов система выбирает current user group.
- Персонализация ранжирования: Когда пользователь вводит последующий запрос, система получает стандартный набор результатов. Затем она проверяет исторические данные о том, насколько каждый результат популярен или непопулярен среди пользователей, ранее отнесенных к этой current user group, по сравнению с general population. Оценки (scores) результатов корректируются (повышаются для популярных, понижаются для непопулярных), и выдача переранжируется.
Актуальность для SEO
Высокая. Понимание интента пользователя в рамках сессии и персонализация выдачи являются ключевыми направлениями развития современных поисковых систем. Этот патент описывает фундаментальные механизмы того, как Google может использовать едва уловимые сигналы (например, выбор слов или орфографию) для профилирования пользователя и адаптации SERP в реальном времени.
Важность для SEO
Влияние на SEO значительно (7.5/10). Патент подчеркивает, что релевантность не универсальна, а зависит от контекста пользователя и его принадлежности к определенной группе. Это означает, что для SEO-специалистов критически важно понимать язык, терминологию и поведенческие предпочтения своей целевой аудитории. Оптимизация под «среднего пользователя» может привести к потере позиций в выдаче для ключевого сегмента, если предпочтения этого сегмента отличаются от общих.
Детальный разбор
Термины и определения
- Features (Характеристики пользователя)
- Аспекты, описывающие пользователя, которые система пытается определить. Примеры включают профессию (доктор, юрист), демографию (пол), финансовое положение, уровень образования, местоположение/национальность (США, Великобритания), настроение и текущие интересы.
- Search Session (Поисковая сессия)
- Период взаимодействия пользователя с поисковой системой. Может определяться периодом времени (например, 1-4 часа), количеством отправленных запросов (например, последние 50 запросов) или временем между последовательными запросами.
- User Group / Current User Group (Группа пользователей)
- Группа, к которой система относит пользователя на основе выявленных характеристик (features). Группа может быть определена демографией, профессией или как кластер веб-сайтов (plurality of websites), которые часто посещаются вместе в течение одной сессии (например, пользователи, посещающие nfl.com и cnnsi.com).
- General Population (Общая популяция)
- Более широкая группа пользователей, используемая как базовый уровень для сравнения поведения конкретной User Group.
- Query Analyzer (Анализатор запросов)
- Компонент системы, который анализирует текст запроса (терминологию, орфографию, фразы) для выявления характеристик пользователя.
- Result Analyzer (Анализатор результатов)
- Компонент системы, который анализирует выбранные пользователем результаты (клики) для выявления характеристик пользователя.
- Rank Modifier Engine (Механизм модификации ранжирования)
- Компонент, который корректирует оценки (scores) результатов поиска на основе данных о популярности внутри группы.
- Result Selection Logs (Журналы выбора результатов)
- Хранилище данных о взаимодействии пользователей с результатами поиска (клики, время на документе и т.д.).
Ключевые утверждения (Анализ Claims)
Патент содержит несколько независимых пунктов, описывающих схожие процессы с разными акцентами.
Claim 1 (Независимый пункт): Описывает основной процесс персонализации на основе анализа запроса.
- Определение характеристики пользователя (user feature) на основе терминов в первом запросе (Q1), отправленном во время search session.
- Выбор группы пользователей (user group) из множества групп на основе этой характеристики.
- Получение результатов поиска в ответ на второй запрос (Q2), отправленный в течение той же сессии. Каждый результат имеет оценку (score).
- Определение того, выбираются ли определенные результаты пользователями из этой user group чаще или реже, чем general population.
- На основе этого определения, модификация оценки (score) этих результатов. Модификация основана на том, насколько часто группа выбирает результат по сравнению с общей популяцией.
- Предоставление модифицированного набора результатов в ответ на Q2.
Claim 7 (Независимый пункт системы): Аналогичен Claim 1, но конкретизирует тип характеристики.
Определение характеристики пользователя основывается на терминах запроса (Q1), указывающих на конкретную профессию. Дальнейшие шаги идентичны Claim 1: выбор группы на основе профессии и переранжирование Q2 на основе предпочтений этой профессиональной группы.
Зависимые пункты (Ключевые уточнения):
- Claims 2, 8, 14: Уточняют, что определение характеристики пользователя включает идентификацию орфографических конвенций (spelling convention) в терминах запроса.
- Claims 3, 9, 15: Уточняют, что User Group может представлять собой набор веб-сайтов (plurality of websites). (Это подразумевает, что анализ кликов также используется для определения группы, как описано в патенте).
- Claims 6, 12, 18: Уточняют, что User Group может представлять собой демографическую характеристику.
Где и как применяется
Изобретение затрагивает несколько этапов поиска, используя предварительно рассчитанные данные и влияя на обработку запроса в реальном времени.
Офлайн-анализ данных (связан с INDEXING и QUNDERSTANDING)
Система должна предварительно обработать исторические данные (result selection logs). Это необходимо для:
- Выявления корреляций между действиями (запросы, клики) и характеристиками пользователей (features). Например, определение того, что 80% пользователей, использующих термин «neonate», являются врачами.
- Определения User Groups и расчета популярности различных результатов внутри каждой группы по сравнению с general population.
QUNDERSTANDING – Понимание Запросов (В реальном времени)
На этом этапе происходит анализ начальных действий в сессии. Query Analyzer и Result Analyzer ищут сигналы (терминология, орфография, клики), чтобы определить features пользователя и выбрать соответствующую Current User Group для сессии.
RANKING – Ранжирование
Когда пользователь отправляет последующий запрос (Q2), стандартный Ranking Engine генерирует первоначальный набор результатов и их оценки (scores).
RERANKING – Переранжирование (Персонализация)
Основное применение патента. Rank Modifier Engine использует выбранную Current User Group и данные о популярности результатов внутри этой группы для модификации стандартных оценок scores. Происходит финальное переранжирование.
На что влияет
- Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы, где интент сильно зависит от контекста пользователя (например, запрос «football» для пользователя из США и Великобритании; запрос «jaguar» для автолюбителя и зоолога).
- Профессиональные и технические ниши: Сильное влияние в нишах, где используется специфическая терминология, позволяющая идентифицировать профессиональную группу (медицина, юриспруденция, инженерия).
- Языковые и географические ограничения: Система активно использует орфографические различия для определения местоположения или национальности пользователя и соответствующей адаптации выдачи.
Когда применяется
- Условия работы: Алгоритм применяется в рамках активной поисковой сессии (search session).
- Триггеры активации: Активируется, когда система смогла с достаточной степенью уверенности определить одну или несколько характеристик (features) пользователя на основе его начальных действий и отнести его к User Group.
- Условие модификации: Ранжирование изменяется, если предпочтения группы статистически значимо отличаются от предпочтений общей популяции.
Пошаговый алгоритм
Процесс А: Офлайн-подготовка данных
- Сбор и анализ логов: Анализ Result Selection Logs для выявления корреляций между запросами, кликами и характеристиками пользователей.
- Определение групп и предпочтений: Формирование User Groups и расчет популярности результатов для каждой группы в сравнении с General Population.
- Создание базы соответствий: Сохранение данных о корреляциях и предпочтениях для использования в реальном времени.
Процесс Б: Обработка поисковой сессии в реальном времени
- Начало сессии и прием ввода: Система получает ввод от пользователя (запрос или выбор результата).
- Анализ ввода для выявления характеристик (Features):
- Если это запрос: Query Analyzer парсит запрос, ищет специфическую терминологию или орфографические конвенции.
- Если это выбор результата: Result Analyzer анализирует выбранный ресурс и время взаимодействия (dwell time). Длительное взаимодействие (long click) усиливает связь пользователя с характеристиками ресурса.
- Выбор текущей группы пользователей (Current User Group): На основе выявленных характеристик и меры уверенности система выбирает User Group для текущей сессии.
- Обработка последующего запроса (Q2): Пользователь вводит новый запрос.
- Получение стандартных результатов: Ranking Engine генерирует стандартный набор результатов для Q2 с их оценками (scores).
- Определение популярности внутри группы: Система определяет, какие из полученных результатов являются статистически более или менее популярными внутри выбранной Current User Group по сравнению с General Population (используя данные из Процесса А).
- Модификация оценок: Rank Modifier Engine корректирует оценки результатов. Популярные результаты получают бустинг, непопулярные — пенальти. Размер корректировки может быть пропорционален разнице в популярности.
- Предоставление результатов: Модифицированный и переранжированный список результатов предоставляется пользователю.
Какие данные и как использует
Данные на входе
Система использует разнообразные поведенческие и контекстуальные данные, собираемые во время взаимодействия пользователя с поиском.
- Контентные факторы (в запросе):
- Терминология: Использование профессиональных или специфических терминов (например, «neonate» вместо «baby»; «defeasance» у юристов).
- Орфография (Spelling Conventions): Использование региональных вариантов написания (например, «aeroplane» vs «airplane», «colour» vs «color»).
- Ошибки в написании: Частота и тип ошибок могут указывать на спешку или уровень образования.
- Поведенческие факторы:
- Выбор результатов (Clicks): Какие сайты выбирает пользователь. Некоторые сайты имеют сильную корреляцию с определенной демографией (например, «iVillage») или интересами.
- Dwell Time (Время взаимодействия): Длительность пребывания на выбранном ресурсе (long clicks vs short clicks). Длительные клики указывают на удовлетворенность и усиливают связь пользователя с характеристиками сайта.
- Уточнение запросов (Query Refinements): Частые модификации запроса могут указывать на неуверенность или статус новичка.
- История сессии: Последовательность запросов для разрешения неоднозначности (например, «jaguar», затем «lions»).
Какие метрики используются и как они считаются
- Вероятность характеристики (Feature Probability / Measure of Certainty): Рассчитывается офлайн и применяется в реальном времени. Метрика показывает вероятность того, что пользователь, совершивший определенное действие, обладает характеристикой Z.
- Популярность внутри группы (In-Group Popularity): Метрика (вероятно, вариант CTR или частота выбора), показывающая, как часто результат выбирается членами определенной User Group.
- Относительная популярность (Relative Popularity / Delta): Сравнение популярности внутри группы с популярностью среди General Population. Эта разница используется для определения необходимости и силы модификации ранжирования.
- Метрики сессии: Длительность, количество запросов, время между запросами. Используются для определения границ, в которых действует персонализация.
Выводы
- Персонализация в реальном времени на основе сессии: Патент описывает механизм динамической адаптации результатов поиска на основе поведения пользователя здесь и сейчас, а не только на основе долгосрочной истории поиска.
- Глубокое профилирование по косвенным признакам: Система способна определять сложные характеристики пользователя, такие как профессия, уровень образования или национальность, на основе тонких сигналов — выбора конкретных слов, орфографии или кликов.
- Релевантность зависит от группы: Ключевой вывод состоит в том, что оптимальный результат для одного пользователя может не быть оптимальным для другого при одинаковом запросе. Ранжирование корректируется на основе предпочтений группы, к которой отнесен пользователь.
- Сегментация поведенческих сигналов: Поведенческие данные (например, CTR) не оцениваются только глобально. Они сегментируются. Популярность ресурса внутри целевой группы имеет решающее значение для ранжирования пользователей из этой группы.
- Важность удовлетворенности (Dwell Time): Длительность взаимодействия с контентом (long clicks) используется для подтверждения правильности классификации пользователя и важности выбранного результата для этой группы.
Практика
Best practices (это мы делаем)
- Используйте точный язык целевой аудитории: Если ваша аудитория — профессионалы (врачи, юристы, инженеры), используйте принятую в их среде терминологию. Это поможет Google правильно идентифицировать пользователей, ищущих ваш контент, как часть этой User Group, и повысит вероятность того, что ваш контент будет признан популярным в этой группе.
- Учитывайте региональные особенности орфографии: При таргетинге на конкретные страны (например, Великобритания, Канада, США) используйте соответствующие орфографические конвенции (например, «optimisation» для UK, «optimization» для US). Это является прямым сигналом для системы группировки пользователей.
- Оптимизируйте контент для удовлетворения интента группы (Long Clicks): Создавайте контент, который полностью отвечает на запрос целевой группы и удерживает пользователя на странице. Высокая удовлетворенность критична для того, чтобы сайт стал «популярным» внутри целевой группы.
- Анализируйте смежные интересы аудитории (Co-visited sites): Понимайте, какие еще сайты посещает ваша целевая аудитория. User Group может быть определена как кластер часто посещаемых вместе сайтов. Соответствие этому кластеру повышает релевантность вашего ресурса для данной группы.
Worst practices (это делать не надо)
- Использование обобщенного языка при таргетинге на специалистов: Использование упрощенной или слишком общей терминологии может привести к тому, что ваш контент будет считаться непопулярным среди профессиональной группы, даже если он технически корректен.
- Игнорирование орфографических и лексических различий: Использование американского английского на сайте, ориентированном на Великобританию (или наоборот), может негативно сказаться на ранжировании для целевой аудитории, так как система может применить предпочтения нерелевантной географической группы.
- Создание контента, провоцирующего Pogo-sticking (Short Clicks): Если пользователи быстро покидают ваш сайт и возвращаются в выдачу, это снижает его популярность внутри группы и может привести к понижению в персонализированной выдаче.
Стратегическое значение
Этот патент подтверждает, что Google рассматривает релевантность как нечто изменчивое и сильно зависящее от контекста пользователя и его текущей сессии. Для SEO это означает переход от статической оптимизации под ключевые слова к динамической оптимизации под аудиторию и ее поведение. Стратегия должна строиться на глубоком понимании целевых сегментов (User Groups), их языка, потребностей и паттернов поиска. Успех зависит от способности удовлетворить интент конкретной группы лучше, чем это делают конкуренты и обобщенные ресурсы.
Практические примеры
Сценарий 1: Географическая персонализация запроса «Football»
- Действие пользователя (Q1): Пользователь вводит запрос «latest football colours».
- Анализ системы: Query Analyzer идентифицирует орфографию «colours» как британскую/канадскую. Пользователь относится к User Group «UK».
- Последующий запрос (Q2): Пользователь вводит запрос «football results».
- Переранжирование: Система анализирует предпочтения группы «UK» для этого запроса. Исторически группа «UK» предпочитает результаты о соккере (Association football), а не об американском футболе (Gridiron football).
- Результат: Оценки сайтов о соккере повышаются, а сайтов об американском футболе — понижаются в выдаче для этого пользователя.
Сценарий 2: Профессиональная персонализация
- Действие пользователя (Q1): Пользователь вводит запрос «neonate blood pressure management».
- Анализ системы: Query Analyzer идентифицирует термин «neonate» как профессиональный медицинский термин. Пользователь относится к User Group «Medical Professional» с высокой вероятностью.
- Последующий запрос (Q2): Пользователь вводит общий медицинский запрос, например, «headache treatment».
- Переранжирование: Система анализирует предпочтения группы «Medical Professional». Эта группа исторически предпочитает технические ресурсы (например, PubMed, медицинские журналы), а не сайты общей информации для пациентов (например, WebMD).
- Результат: Научные статьи и клинические руководства получают бустинг в выдаче, тогда как популярные сайты для широкой аудитории ранжируются ниже.
Вопросы и ответы
Как система определяет, к какой группе отнести пользователя?
Система использует сигналы, полученные в ходе текущей поисковой сессии. Это может быть анализ текста запроса: использование профессиональной лексики, региональные варианты орфографии или частые ошибки. Также анализируются клики пользователя: переход на сайты, популярные у определенной демографической группы, и время, проведенное на этих сайтах (dwell time), служат подтверждающими сигналами.
Что такое «User Group» в контексте патента?
User Group — это объединение пользователей со схожими характеристиками (features) или поведением. Это может быть демографическая группа (например, женщины), профессиональная группа (например, юристы), географическая группа (например, пользователи из Великобритании) или поведенческий кластер (например, пользователи, часто посещающие определенный набор сайтов в одной сессии).
Как определяется популярность результата внутри группы?
Популярность определяется путем офлайн-анализа исторических логов поисковых сессий (Result Selection Logs). Система сравнивает, как часто конкретный результат выбирается пользователями, принадлежащими к данной группе, по сравнению с тем, как часто его выбирает общая популяция пользователей. Если разница статистически значима, результат помечается как популярный или непопулярный для этой группы.
Влияет ли этот механизм на все запросы?
Нет. Механизм активируется только тогда, когда система смогла с достаточной уверенностью отнести пользователя к определенной группе, и когда для введенного запроса существуют значимые различия в предпочтениях этой группы по сравнению с общей популяцией. Для многих запросов выдача останется стандартной.
Что определяет границы поисковой сессии?
Патент предлагает несколько вариантов определения сессии: фиксированный период времени (например, последние 2 часа), определенное количество отправленных запросов (например, последние 50 запросов) или период неактивности между последовательными запросами. Это временные рамки, в которых система анализирует поведение для профилирования.
Как SEO-специалисту использовать знание об орфографических конвенциях?
Это критически важно для международного SEO. Если вы таргетируетесь на Великобританию, использование британской орфографии (например, «colour», «centre») поможет Google правильно классифицировать пользователей, ищущих ваш контент. Если ваш сайт соответствует орфографическим предпочтениям группы, он с большей вероятностью будет повышен в ранжировании для этой группы.
Какую роль играет время взаимодействия (Dwell Time) в этом патенте?
Dwell time используется как сигнал удовлетворенности при анализе кликов. Если пользователь перешел на сайт и провел там много времени (long click), это усиливает связь пользователя с характеристиками этого сайта. Если пользователь быстро вернулся в выдачу (short click), связь ослабевает. Удовлетворенность контентом критична для того, чтобы сайт стал «популярным» внутри целевой группы.
Может ли система определить профессию пользователя?
Да, это один из ключевых примеров в патенте (Claim 7). Использование специфической терминологии в запросах (например, «neonate» у врачей или «defeasance» у юристов) позволяет системе идентифицировать профессиональную принадлежность пользователя и соответствующим образом скорректировать выдачу.
Если мой сайт ориентирован на узкую нишу, как этот патент влияет на стратегию?
Для нишевых сайтов этот патент имеет положительное значение. Он позволяет Google предпочесть ваш специализированный контент обобщенным ресурсам, если система определит, что пользователь принадлежит к вашей целевой группе. Ключевая задача — использовать язык этой группы и предоставлять контент, который максимально удовлетворяет их специфический интент.
Означает ли этот патент, что глобальный CTR менее важен, чем CTR внутри сегмента?
Для пользователей, которых Google смог классифицировать, предпочтения их группы (сегмента) могут иметь приоритет. Система ищет расхождения между популярностью в группе и глобальной популярностью. Если результат значительно более популярен в вашей целевой группе, он получит повышение для пользователей этой группы, даже если его глобальный CTR средний.