Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

QUERY CLASSIFICATION BASED ON SEARCH ENGINE RESULTS (Классификация запросов на основе результатов поиска)

US8756218B1
Google LLC
2011-08-16
2014-06-17

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

Какую проблему решает

Патент решает проблему точной и своевременной классификации поисковых запросов, особенно коротких, неоднозначных или новых (трендовых). Он устраняет зависимость от традиционных методов, основанных на исторических логах запросов (query logs), которые медленно обновляются и дороги в поддержке. Изобретение позволяет динамически определять интент пользователя, опираясь на актуальное состояние веба, а не на устаревшие данные.

Что запатентовано

Запатентована система классификации запросов, которая определяет класс запроса (тематику или тип контента) путем анализа результатов поиска (SERP), которые этот запрос генерирует. Система заранее создает эталонные векторы признаков (Classification Feature Vectors) для известных классификаций. При поступлении нового запроса система анализирует его выдачу, создает вектор результатов поиска (Search Result Vector) и сравнивает его с эталонными векторами. Ближайший эталон определяет классификацию, которая затем используется для запуска вертикального поиска.

Как это работает

Механизм работает в два этапа:

Обучение (Офлайн): Для каждой классификации (например, 'Фильмы' или 'Новости') отбираются репрезентативные обучающие запросы (Training Queries). По ним получаются результаты поиска. Из контента этих результатов (URL, заголовки, сниппеты) извлекаются и взвешиваются ключевые термины (например, на основе частоты, позиции в выдаче, CTR). Этот взвешенный набор формирует эталонный Classification Feature Vector.
Классификация (Рантайм): Когда поступает новый запрос, система получает по нему результаты поиска и аналогичным образом формирует Search Result Vector. Этот вектор сравнивается (используя скалярное произведение – dot product) со всеми эталонными векторами. Запросу присваивается классификация, чей вектор оказался наиболее близким.

Актуальность для SEO

Высокая. Понимание интента запроса и динамическое формирование универсальной выдачи (Universal Search) критически важны для Google. Описанный метод позволяет классифицировать запросы на лету, опираясь на "консенсус SERP" (то, какие результаты ранжируются в данный момент), что крайне важно для обработки трендов, новостей и неоднозначных запросов, даже при наличии современных NLP-моделей.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он показывает, что классификация запроса (и, следовательно, активация вертикалей поиска) напрямую зависит от контента страниц, которые уже ранжируются в топе. Это подчеркивает важность анализа терминологии лидеров SERP (особенно в Titles и Snippets) и необходимость соответствия этому семантическому профилю для правильной интерпретации интента поисковой системой.

Термины и определения

Classification Feature Vector (Вектор признаков классификации): Эталонное векторное представление определенной классификации (темы или корпуса). Генерируется офлайн путем анализа результатов поиска по Training Queries. Состоит из взвешенных терминов, характерных для данной классификации.
Corpus (Корпус): Определенный набор данных или индекс (например, общий веб-индекс, Новости, Изображения, Видео).
Dot Product (Скалярное произведение): Математическая операция, используемая как мера сходства между Search Result Vector и Classification Feature Vector. Более высокое значение указывает на большее сходство.
Search Result Vector (Вектор результатов поиска): Векторное представление входящего запроса, сгенерированное в реальном времени путем анализа терминов, извлеченных из результатов поиска по этому запросу.
Term Frequency (Частота термина): Количество вхождений термина в анализируемые результаты поиска. Является основой для расчета значений в векторах.
Training Queries (Обучающие запросы): Набор запросов, заранее отобранных как репрезентативные для определенной классификации. Используются на этапе обучения.
Vertical Content Type (Тип вертикального контента): Специализированные результаты поиска, извлекаемые из определенного Corpus (например, блок Новостей).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает полный цикл работы системы от обучения до применения классификации для запуска вертикального поиска.

Определение набора классификаций.
Выбор обучающих запросов (training queries), репрезентативных для конкретной классификации.
Получение результатов поиска для этих запросов.
Генерация Classification Feature Vector. Значение элемента вектора представляет частоту термина (term frequency) в этих результатах.
Получение нового поискового запроса и его результатов поиска.
Генерация Search Result Vector для нового запроса.
Определение, что Search Result Vector наиболее близок к Classification Feature Vector конкретной классификации.
В ответ на это: получение результатов поиска, имеющих Vertical Content Type в соответствии с этой классификацией из определенного Corpus.
Предоставление этих вертикальных результатов в ответ на новый запрос.

Claim 3 (Зависимый): Уточняет источники извлечения терминов для генерации векторов. Это URL (Uniform Resource Locators), заголовки (titles) или сниппеты (snippets) результатов поиска.

Claims 4, 5, 6 (Зависимые): Описывают методы взвешивания терминов при генерации векторов. Вес термина может зависеть от:

Ранга (позиции) результата поиска, в котором он встречается (Claim 4).
Оценочного CTR (estimated click through rate) результата поиска (Claim 5).
Веса, специфичного для корпуса (corpus-specific weight), из которого был получен результат (Claim 6).

Claim 8 (Зависимый): Уточняет метод определения близости векторов. Используется вычисление скалярного произведения (dot product), и выбирается вектор с наивысшим значением.

Где и как применяется

Изобретение в первую очередь работает на этапах понимания запроса и формирования смешанной выдачи.

QUNDERSTANDING – Понимание Запросов
Основной этап применения. Система использует этот механизм для интерпретации интента и определения категории запроса. Это происходит как офлайн (обучение Feature Vectors), так и в рантайме (классификация нового запроса путем анализа его SERP).

RANKING – Ранжирование
Этот этап предоставляет входные данные для классификатора. Система должна сначала сгенерировать предварительный набор результатов поиска, чтобы проанализировать их и создать Search Result Vector.

METASEARCH – Метапоиск и Смешивание
Результат классификации используется здесь. Как указано в Claim 1, определенная классификация служит триггером для получения результатов vertical content type из соответствующего corpus (например, запуск поиска по Новостям) и последующего смешивания их в универсальную выдачу.

Входные данные (Рантайм):

Новый поисковый запрос.
Результаты поиска (URL, Titles, Snippets) по этому запросу.
Предварительно рассчитанные Classification Feature Vectors.

Выходные данные (Рантайм):

Классификация запроса.
Сигнал для запуска вертикального поиска.
Модифицированная выдача с вертикальным контентом.

На что влияет

Специфические запросы: Наибольшее влияние на неоднозначные (например, "Ягуар"), короткие и новые (трендовые) запросы, где интент неясен из текста запроса или нет исторических данных.
Типы контента и Вертикали: Напрямую влияет на видимость вертикального контента (Изображения, Видео, Новости). Классификация определяет активацию поиска в соответствующем корпусе.

Когда применяется

Условия работы: Алгоритм применяется в реальном времени при обработке запроса для определения его интента.
Динамическое применение: Ключевая особенность — классификация запроса может меняться со временем по мере изменения результатов поиска для этого запроса, даже если эталонные Feature Vectors остаются неизменными.

Пошаговый алгоритм

Алгоритм состоит из двух процессов: Обучение и Классификация.

Процесс А: Обучение классификатора (Офлайн)

Определение классификаций: Формируется список целевых классификаций (например, Фильмы, Новости).
Сбор обучающих запросов: Для каждой классификации подбираются репрезентативные Training Queries.
Получение результатов поиска: Запросы отправляются в поисковую систему.
Извлечение терминов: Из результатов поиска (URL, Titles, Snippets) извлекаются термины (проводится токенизация, фильтрация).
Расчет частот и взвешивание: Подсчитывается Term Frequency. К частотам применяются веса, основанные на:
- Позиции результата в выдаче (Ranking).
- Оценочном CTR результата.
- Типе корпуса результата.
Генерация Feature Vector: Из взвешенных терминов формируется Classification Feature Vector. Веса могут быть нормализованы.
Повторение: Процесс повторяется для всех классификаций.

Процесс Б: Классификация запроса (Рантайм)

Получение запроса и результатов: Система получает новый запрос и его результаты поиска.
Извлечение и взвешивание терминов: Из полученных результатов извлекаются и взвешиваются термины (аналогично Процессу А).
Генерация Search Result Vector: Формируется Search Result Vector для входящего запроса.
Сравнение векторов: Вычисляется скалярное произведение (Dot Product) между Search Result Vector и каждым из предобученных Classification Feature Vectors.
Определение классификации: Выбирается классификация, чей вектор дал наибольшее значение Dot Product.
Применение классификации: Система инициирует поиск в соответствующем вертикальном corpus и подмешивает результаты в выдачу.

Какие данные и как использует

Данные на входе

Система использует данные, извлеченные непосредственно из результатов поиска:

Контентные факторы: Термины из Заголовков (Titles) и Сниппетов (Snippets). Также упоминается возможность использования содержимого ресурсов.
Технические факторы: Термины из URL (Uniform Resource Locators).
Поведенческие факторы: Оценочный CTR (estimated click through rate) результатов поиска используется как фактор взвешивания (Claim 5).
Системные данные: Ранг (Ranking) результата в выдаче (Claim 4) и тип корпуса (Corpus type) (Claim 6) используются для взвешивания.

Какие метрики используются и как они считаются

Term Frequency (TF): Частота появления термина в анализируемых частях результатов поиска.
Веса (Weights): Множители, применяемые к TF. Рассчитываются как функция от позиции документа, его CTR и типа корпуса: $Weight = f(Ranking, CTR, Corpus)$ .
Dot Product (Скалярное произведение): Используется как итоговая метрика сходства между вектором запроса и вектором классификации. Вычисляется как сумма произведений соответствующих компонентов двух векторов: $A \cdot B = \sum_{i=1}^{n} A_i B_i$ .

Консенсус SERP определяет интент: Ключевой вывод — Google определяет значение и интент запроса, анализируя контент страниц, которые уже ранжируются по этому запросу. Система полагается на "мудрость" своего собственного алгоритма ранжирования для классификации.
Динамическая классификация: Поскольку система анализирует текущие результаты поиска, классификация запроса может меняться со временем по мере изменения SERP. Это позволяет быстро адаптироваться к трендам без ожидания накопления исторических логов.
Приоритет топовых результатов в классификации: Термины из документов, находящихся выше в ранжировании (Claim 4) или имеющих более высокий CTR (Claim 5), вносят больший вклад в классификацию. Контент лидеров выдачи формирует семантический профиль запроса.
Ключевая роль Titles, Snippets и URL: Патент явно выделяет эти элементы как основные источники признаков (Claim 3), что подтверждает их критическую важность для передачи тематических сигналов.
Классификация как триггер вертикалей (Universal Search): Основная цель описанного механизма — принятие решения о запуске поиска в специализированных корпусах (Новости, Картинки и т.д.) и подмешивании вертикальных блоков в основную выдачу (Claim 1).

Best practices (это мы делаем)

Анализ семантического профиля SERP: Тщательно изучайте терминологию (слова и сущности), используемую в Titles и Snippets топовых конкурентов. Это дает представление о том, как выглядит Search Result Vector для данного запроса. Ваш контент должен соответствовать этому профилю.
Обеспечение четкости сигналов в Title, URL и Description: Поскольку эти элементы являются прямыми источниками данных для классификатора, они должны быть максимально ясными и содержать ключевые термины, которые однозначно определяют тематику и интент страницы.
Усиление сигналов для целевых вертикалей: Если цель — попасть в определенную вертикаль (например, Видео), необходимо использовать термины, характерные для Feature Vector этой вертикали. Например, для видео это могут быть слова "смотреть", "обзор", "онлайн" в заголовках.
Улучшение CTR и авторитетности: Поскольку ранг и оценочный CTR используются для взвешивания терминов, работа над повышением позиций и кликабельности сниппетов усиливает влияние вашего контента на классификацию запросов в нише.

Worst practices (это делать не надо)

Неоднозначные или кликбейтные заголовки: Использование мета-тегов, которые не соответствуют основному интенту страницы. Это вносит «шум» в Search Result Vector и затрудняет правильную классификацию.
Игнорирование доминирующего интента SERP: Попытка ранжироваться с контентом, который радикально отличается от текущего консенсуса ТОПа. Если ТОП-10 генерирует вектор, указывающий на информационный интент, коммерческой странице будет сложно занять высокие позиции.
Фокус только на прямых вхождениях без семантического контекста: Оптимизация под текст запроса без использования связанных терминов, характерных для ниши. Система анализирует общий профиль выдачи, а не только наличие ключевого слова.

Стратегическое значение

Патент подтверждает, что понимание запроса (Query Understanding) — это не только лингвистический анализ, но и анализ экосистемы контента. Стратегически это означает, что SEO-специалисты, занимая позиции в ТОПе, коллективно влияют на то, как Google интерпретирует запрос. Долгосрочная стратегия должна быть направлена на формирование четкого и последовательного тематического сигнала, соответствующего языку лидеров ниши.

Практические примеры

Сценарий: Классификация неоднозначного запроса "Python"

Обучение (Предыстория): У Google есть Feature Vector для "Животные" (термины: змея, рептилия, ареал) и Feature Vector для "Программирование" (термины: язык, код, tutorial, data science).
Запрос пользователя: "Python".
Анализ SERP и генерация Search Result Vector: Система анализирует ТОП-10. В заголовках и сниппетах доминируют термины, связанные с программированием. Search Result Vector будет иметь высокие веса для "tutorial", "data science".
Сравнение: Search Result Vector сравнивается с эталонными векторами. Он оказывается значительно ближе к вектору "Программирование".
Результат (Metasearch): Запрос классифицируется как "Программирование". Google активирует вертикали, связанные с обучением или документацией, и подмешивает их в выдачу.
Динамическое изменение: Если произойдет громкое событие, связанное со змеями (например, "Python escapes zoo"), новостные сайты займут ТОП. Search Result Vector изменится, и классификация может временно сместиться к "Новости" или "Животные".

Что такое Feature Vector в контексте этого патента?

Feature Vector (Вектор признаков классификации) — это эталонный профиль для определенной категории (например, «Фильмы» или «Новости»). Он представляет собой набор взвешенных терминов, которые часто встречаются в результатах поиска по запросам этой категории. Этот вектор генерируется офлайн в процессе обучения системы.

Как система определяет, к какой категории отнести новый запрос?

Система анализирует результаты поиска (SERP) по новому запросу и генерирует Search Result Vector. Затем она сравнивает этот вектор со всеми эталонными Feature Vectors с помощью скалярного произведения (Dot Product). Запросу присваивается категория, чей эталонный вектор показал наибольшее сходство (наивысший Dot Product).

Откуда система берет данные для анализа при классификации запроса?

Патент явно указывает три основных источника (Claim 3): URL, Заголовки (Titles) и Сниппеты (Snippets) результатов поиска. Это подчеркивает критическую важность оптимизации этих элементов для того, как Google будет классифицировать запросы, ведущие на вашу страницу.

Все ли результаты в SERP одинаково важны для классификации?

Нет. Патент описывает взвешивание (Claims 4 и 5). Термины из результатов, находящихся выше в ранжировании (например, ТОП-3), получают больший вес. Также больший вес могут получать термины из результатов с более высоким оценочным CTR. Это означает, что лидеры выдачи оказывают наибольшее влияние на классификацию запроса.

Может ли классификация запроса измениться со временем?

Да, абсолютно. Поскольку классификация основана на анализе текущих результатов поиска (SERP), она является динамической. Если SERP изменится из-за трендов или обновления алгоритмов, то и Search Result Vector для запроса изменится, что может привести к его переклассификации без необходимости переобучения модели.

Заменяет ли этот механизм анализ исторических логов запросов?

Да, одно из ключевых преимуществ этого метода — устранение зависимости от исторических логов (query logs). Это позволяет системе быстрее адаптироваться к новым событиям и классифицировать запросы, по которым еще нет накопленной истории поведения пользователей.

Как этот патент влияет на работу с неоднозначными запросами (например, «Apple»)?

Этот механизм идеально подходит для таких случаев. Система анализирует текущий SERP. Если в заголовках и сниппетах доминируют термины, связанные с технологиями («iPhone», «MacBook»), запрос будет классифицирован как «Технологии». Если доминируют термины «fruit», «recipe» — как «Еда». Классификация зависит от консенсуса веба.

Какова основная цель этой классификации согласно патенту?

Основная цель, описанная в Claim 1, — это активация вертикального поиска. Если запрос классифицирован, например, как «Новости», система инициирует поиск в новостном корпусе (Corpus) и предоставляет пользователю соответствующие вертикальные результаты (Vertical Content Type), такие как блок «Главные новости».

Что делать SEO-специалисту, если запрос классифицируется неправильно с его точки зрения?

Поскольку классификация определяется консенсусом SERP, единственный способ изменить ее — это изменить сам SERP. Необходимо создавать и продвигать в ТОП контент, который содержит четкие сигналы (в Title, Snippet, URL), соответствующие желаемой классификации. Когда достаточное количество таких страниц займет лидирующие позиции, Search Result Vector изменится.

Заменяет ли этот патент NLP-модели, такие как BERT?

Нет, он их дополняет. NLP-модели фокусируются на лингвистическом анализе текста запроса и контента. Описанный механизм фокусируется на анализе совокупности результатов поиска как мета-сигнала. В реальной системе эти подходы, вероятно, комбинируются для максимально точного понимания интента пользователя.

Как Google динамически выбирает лучший кадр из видео (thumbnail) и точку воспроизведения под конкретный запрос пользователя

Google использует систему для динамического выбора thumbnail для видео в результатах поиска. Система анализирует запрос пользователя и содержание каждого кадра видео, преобразуя их в числовые векторы в общем семантическом пространстве. Кадр, наиболее близкий по смыслу к запросу, выбирается в качестве репрезентативного (thumbnail). Ссылка в выдаче может вести непосредственно к этому моменту в видео (Deep Linking).

US20160378863A1
2016-12-29

Семантика и интент
Мультимедиа
Индексация

Как Google анализирует контент топовых результатов, чтобы решить, какие блоки и элементы показать на странице выдачи

Google использует запатентованную систему для определения того, какие дополнительные элементы (например, блоки новостей, изображений, локальной выдачи) отображать на странице результатов поиска. Вместо того чтобы полагаться только на текст запроса, система анализирует и классифицирует сами результаты поиска (URL, заголовки, сниппеты). Доминирующая тематика топовых результатов определяет, какие элементы будут активированы, что позволяет точнее соответствовать намерению пользователя.

US8103676B2
2012-01-24

SERP
Семантика и интент

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

US8185544B2
2012-05-22

Персонализация
Поведенческие сигналы
SERP

Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов

Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.

US10489459B1
2019-11-26

Семантика и интент

Как Google использует категоризацию контента и запросов для уточнения релевантности и ранжирования результатов

Google использует систему для улучшения ранжирования, комбинируя стандартную текстовую релевантность с оценкой соответствия категории. Система определяет, насколько сильно документ принадлежит к определенным категориям и насколько сильно запрос соответствует этим же категориям. Если и документ, и запрос сильно совпадают по категории, результат получает повышение в ранжировании. Это особенно важно для E-commerce и контента с четкой структурой.

US7814085B1
2010-10-12

Семантика и интент
SERP

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа

Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.

US7305380B1
2007-12-04

Ссылки
SERP
Поведенческие сигналы

Как Google использует машинное обучение и поведение пользователей для понимания скрытого намерения в коммерческих запросах

Google использует систему машинного обучения для анализа того, какие товары пользователи выбирают после ввода широких или неоднозначных запросов. Изучая скрытые атрибуты (метаданные) этих выбранных товаров, система определяет «скрытое намерение» запроса. Это позволяет автоматически переписывать будущие неоднозначные запросы в структурированный формат, ориентированный на атрибуты товара, а не только на ключевые слова.

US20180113919A1
2018-04-26

Семантика и интент
SERP
Поведенческие сигналы

Как Google определяет ключевые аспекты (фасеты) сущности для организации и диверсификации поисковой выдачи

Google использует систему для автоматической идентификации различных «аспектов» (подтем или фасетов) сущности в запросе. Анализируя логи запросов и базы знаний, система определяет, как пользователи исследуют информацию. Затем эти аспекты ранжируются по популярности и разнообразию и используются для организации результатов поиска в структурированном виде (mashup), облегчая пользователю навигацию и исследование темы.

US8458171B2
2013-06-04

Семантика и интент
SERP
Поведенческие сигналы

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google использует нормализованные сигналы удовлетворенности пользователей для переранжирования выдачи и управления краулингом/индексацией

Google анализирует вовлеченность пользователей (полезность), сравнивая фактическую удовлетворенность (Good Utilization Events) с ожидаемой вовлеченностью для данной позиции ранжирования. На основе этого рассчитывается Correction Factor для повышения документов, превосходящих ожидания, и понижения тех, которые им не соответствуют. Эта система также влияет на приоритеты сканирования и решения об индексации.

US9223897B1
2015-12-29

Поведенческие сигналы
Индексация
Техническое SEO

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей

Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.

US8498974B1
2013-07-30

Поведенческие сигналы
Мультиязычность
Персонализация

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей

Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.

US9213748B1
2015-12-15

SERP
Семантика и интент
Поведенческие сигналы

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты

Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.

US20150169576A1
2015-06-18

Поведенческие сигналы
SERP
Семантика и интент