Как Google динамически генерирует фильтры (теги) в выдаче на основе контента ранжируемых страниц

SEARCH RESULT FILTERS FROM RESOURCE CONTENT (Фильтры результатов поиска на основе контента ресурсов)

US10242112B2
Google LLC
2016-06-15
2019-03-26

Google использует механизм для автоматического создания фильтров поисковой выдачи (например, в виде тегов или «пузырьков»). Система анализирует контент страниц, уже отобранных для показа по запросу, извлекает из них ключевые слова и проверяет их полезность, используя данные о поведении пользователей. Затем система отбирает наиболее релевантные и разнообразные фильтры, позволяя пользователю уточнить свой интент в один клик.

Какую проблему решает

Патент решает проблему неполноты пользовательских запросов и необходимости их уточнения. Традиционные методы полагаются на предопределенные (hardcoded) фильтры или фасеты, которые требуют ручной настройки, экспертных знаний и могут упускать новые или emergent термины. Изобретение автоматизирует процесс создания релевантных фильтров, динамически адаптируя их к текущему набору результатов поиска и интенту пользователя.

Что запатентовано

Запатентована система автоматической генерации фильтров результатов поиска, основанная на анализе контента ресурсов, релевантных исходному запросу. Система извлекает ключевые слова из этих ресурсов, оценивает их пригодность в качестве фильтров на основе исторических данных о запросах (Query Logs) и критериев значимости (Term Prominence), а затем применяет критерии разнообразия (Diversity Threshold), чтобы гарантировать, что предложенные фильтры помогают пользователю исследовать различные аспекты темы.

Как это работает

Система работает следующим образом:

Сбор данных: Получив запрос, система определяет набор релевантных ресурсов (например, Топ-N результатов).
Извлечение ключевых слов: Из контента этих ресурсов (текст, обзоры, описания) извлекаются часто встречающиеся ключевые слова.
Генерация кандидатов: Ключевые слова оцениваются по Candidate Criteria. Ключевое условие — эти слова должны фигурировать в реальных запросах пользователей, по которым выбирались данные ресурсы (анализ Query Logs). Также применяются стоп-слова для удаления общих терминов.
Фильтрация и Отбор: Кандидаты проходят через Filter Criteria:
- Term Prominence: Предпочтение отдается терминам, расположенным на видных местах в документах (например, в заголовках), что влияет на Quality Score фильтра.
- Diversity Filter: Система проверяет, насколько различаются наборы результатов при применении разных фильтров. Если два фильтра (например, «гуакамоле» и «гуак») дают почти одинаковые результаты (превышают Similarity Threshold), они объединяются или выбирается один.
Отображение: Отобранные фильтры предоставляются пользователю вместе с результатами поиска.

Актуальность для SEO

Высокая. Динамические фильтры (часто в виде «пузырьков» или тегов) являются стандартным элементом интерфейса Google Поиска, особенно для широких, категориальных или коммерческих запросов. Этот патент описывает базовый механизм их генерации и отбора, который остается актуальным для помощи пользователям в навигации и уточнении интента.

Важность для SEO

Влияние на SEO значительно (75/100). Хотя патент описывает механизм улучшения пользовательского интерфейса (UI/UX), он напрямую влияет на то, как пользователи взаимодействуют с выдачей и какой контент они потребляют. Понимание механизма генерации фильтров позволяет SEO-специалистам оптимизировать контент так, чтобы он соответствовал ключевым уточняющим интентам, которые Google идентифицирует как важные. Это влияет на видимость в отфильтрованной выдаче и на понимание того, какие атрибуты продукта или темы Google считает наиболее значимыми.

Термины и определения

Candidate Criteria (Критерии отбора кандидатов): Правила для определения того, какие извлеченные ключевые слова могут стать фильтрами. Включают проверку того, используются ли эти слова в реальных запросах, связанных с данными ресурсами, и фильтрацию стоп-слов.
Categorical Query (Категориальный запрос): Запрос, результаты которого в высокой степени указывают на определенную категорию (например, «бургеры» указывают на еду/рестораны). Патент предполагает, что механизм может быть особенно полезен для таких запросов.
Diversity Filter / Diversity Threshold (Фильтр разнообразия / Порог разнообразия): Механизм, гарантирующий, что предложенные фильтры представляют разные наборы результатов. Если два фильтра дают слишком похожие (не достигающие Difference Threshold) отфильтрованные выдачи, они могут быть объединены.
Informational Terms (Информационные термины): Термины из запросов, имеющие относительно низкую частоту (ниже порога). Считаются полезными и специфичными для поиска в конкретном домене (например, «гуак»).
Keyword Corpus (Корпус ключевых слов): Набор ключевых слов, извлеченных из контента релевантных ресурсов, часто с указанием частоты использования.
Query Logs (Журналы запросов): Хранилище исторических данных о поисковых запросах, кликах и поведении пользователей. Используется для валидации потенциальных фильтров.
Query Stop Terms (Стоп-слова запроса): Термины из запросов, имеющие высокую частоту (выше порога). Считаются бесполезными для поиска в конкретном домене (например, «найти мне», «и»).
Quality Score (Оценка качества фильтра): Метрика для оценки кандидата в фильтры, основанная на расположении (заметности) соответствующего ключевого слова в ресурсах (Term Prominence).
Similarity Threshold (Порог схожести): Метрика, определяющая, насколько похожими являются наборы отфильтрованных результатов для двух разных фильтров. При превышении порога фильтры считаются дубликатами и группируются.
Term Prominence (Заметность термина): Критерий оценки качества фильтра-кандидата, основанный на расположении ключевого слова в ресурсе (например, в заголовке, основном тексте или метаданных). Используется для расчета Quality Score.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации и применения фильтров.

Система получает первый запрос и определяет набор релевантных ресурсов.
Извлекается набор ключевых слов из контента этих ресурсов.
Определяется набор кандидатов в фильтры (подмножество ключевых слов).
Определяется финальный набор фильтров. Этот шаг включает обязательную проверку разнообразия (Diversity Threshold):
- Для каждого кандидата определяется результирующий отфильтрованный набор контента.
- Определяется разница между наборами контента для разных кандидатов.
- Кандидат выбирается в качестве фильтра, только если его набор контента достаточно отличается от других (превышает Difference Threshold).
Финальный набор фильтров предоставляется для отображения вместе с результатами поиска.
Система получает выбор одного из фильтров и предоставляет отфильтрованный набор контента.

Ядро изобретения — динамическая генерация фильтров из контента SERP с обязательной проверкой разнообразия результатов, которые эти фильтры создают.

Claim 4 (Зависимый от 1): Уточняет, как определяются кандидаты в фильтры.

Определение кандидатов включает идентификацию набора запросов, по которым пользователи ранее выбирали (кликали) эти релевантные ресурсы. Это подтверждает использование исторических данных о поведении пользователей (Query Logs) для валидации того, какие ключевые слова действительно используются людьми для уточнения поиска.

Claims 5 и 6 (Зависимые от 4): Детализируют фильтрацию терминов на основе частотности в запросах.

Claim 5: Определяются Query Stop Terms — термины с высокой частотой в наборе запросов. Они исключаются из кандидатов.
Claim 6: Определяются Informational Terms — термины с низкой частотой. Они включаются в кандидаты.

Это механизм, похожий на TF-IDF, применяемый к корпусу запросов, связанных с ресурсами. Он гарантирует, что фильтры будут специфичными для домена.

Claim 8 (Зависимый от 1): Детализирует механизм обеспечения разнообразия.

Пары кандидатов, чьи отфильтрованные наборы результатов слишком похожи (достигают Similarity Threshold), группируются в один фильтр. Это процесс дедупликации фильтров (например, объединение синонимов).

Claim 9 (Зависимый от 1): Вводит оценку качества фильтров.

Для каждого кандидата определяется Quality Score на основе его расположения (locations) в ресурсах. Это подтверждает важность заметности (Term Prominence) термина внутри документа (например, заголовок против основного текста).

Где и как применяется

Изобретение функционирует на стыке нескольких этапов поисковой архитектуры, используя предварительно обработанные данные для генерации элементов SERP в реальном времени.

INDEXING – Индексирование и извлечение признаков
На этом этапе система извлекает контент и ключевые слова из ресурсов. Также рассчитываются и сохраняются сигналы о расположении и значимости терминов (Term Prominence), которые позже используются для расчета Quality Score фильтра.

QUNDERSTANDING – Понимание Запросов
Система использует этот этап для нескольких целей:

Офлайн-анализ: Анализ Query Logs для установления связей между запросами и ресурсами, которые пользователи выбирают в ответ на эти запросы. Это критически важно для валидации кандидатов в фильтры и определения Informational Terms.
Классификация: Идентификация того, является ли входящий запрос Categorical Query, что может служить триггером для активации системы.

RANKING – Ранжирование
Этот этап предоставляет входные данные для системы: набор Responsive Resources (релевантных ресурсов), ранжированных по исходному запросу.

METASEARCH – Метапоиск и Смешивание / RERANKING (Генерация SERP)
Основное применение патента происходит здесь, при формировании финальной выдачи.

Система анализирует контент Топ-N Responsive Resources.
Извлекаются и валидируются ключевые слова (используя данные из Indexing и QUnderstanding).
Применяются фильтры разнообразия (Diversity Filter) и значимости (Term Prominence).
Генерируются элементы интерфейса (фильтры/теги) для отображения на SERP.

Входные данные:

Исходный запрос пользователя.
Набор Responsive Resources (результаты этапа Ranking).
Индексные данные о контенте и структуре этих ресурсов (Term Prominence).
Данные Query Logs (связи запрос-ресурс, частотность терминов).
Language Model (для определения синонимов).

Выходные данные:

Набор отобранных фильтров (Filter Terms) для отображения на SERP.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на широкие, неоднозначные или Categorical Queries (например, «кроссовки», «лучшие фильмы», «рестораны рядом»), где пользователю требуется помощь в уточнении интента.
Конкретные ниши: Особенно актуально для E-commerce (фильтрация по атрибутам товаров), локального поиска (фильтрация по особенностям заведений, блюдам) и контентных проектов (фильтрация по подтемам).
Типы контента: Влияет на ресурсы, богатые атрибутами или деталями, которые могут быть извлечены как ключевые слова (например, обзоры, списки, карточки товаров, рецепты).

Когда применяется

Условия работы: Алгоритм применяется после основного ранжирования, когда сформирован первичный набор релевантных ресурсов.
Триггеры активации: Активируется, когда система может идентифицировать достаточное количество качественных и разнообразных кандидатов в фильтры из контента топовых результатов. Вероятно, чаще срабатывает для запросов, классифицированных как Categorical Query.

Пошаговый алгоритм

Процесс А: Генерация фильтров

Получение входных данных: Система получает исходный запрос и идентифицирует набор Responsive Resources.
Извлечение ключевых слов: Из контента релевантных ресурсов извлекается первый набор ключевых слов (Keyword Corpus). Учитывается частота использования.
Определение кандидатов (Candidate Selection): Применяются Candidate Criteria для отбора потенциальных фильтров:
- Валидация по запросам: Система определяет набор связанных запросов — тех, по которым пользователи выбирали данные ресурсы (Query Logs). Кандидаты должны быть релевантны этим запросам.
- Фильтрация частотности: Анализируется частота терминов в связанных запросах. Удаляются Query Stop Terms (слишком частые, общие термины). Сохраняются Informational Terms (специфичные термины).
Оценка качества и значимости: Для оставшихся кандидатов рассчитывается Quality Score, учитывающий Term Prominence (расположение термина в ресурсах — заголовки, метаданные и т.д.).
Применение фильтра разнообразия (Diversity Filtering):
- Для каждого кандидата симулируется применение фильтра к исходному набору ресурсов.
- Сравнивается схожесть полученных наборов результатов.
- Пары кандидатов, чьи результаты слишком похожи (превышают Similarity Threshold), группируются, и выбирается один представитель (например, с более высоким Quality Score).
- Финальный набор фильтров должен удовлетворять Diversity Threshold.
Предоставление результатов: Отобранный набор фильтров предоставляется для отображения на SERP вместе с результатами поиска.

Процесс Б: Обработка выбора фильтра

Получение выбора: Система получает сигнал о выборе пользователем одного или нескольких фильтров.
Фильтрация контента: Исходный набор ресурсов фильтруется (или выполняется новый запрос с уточнением) для создания Filtered Set of Content.
Отображение: Пользователю предоставляется отфильтрованная выдача.

Какие данные и как использует

Данные на входе

Система использует комбинацию контентных, структурных и поведенческих факторов, извлеченных из релевантных ресурсов и журналов запросов.

Контентные факторы: Ключевые слова и фразы, извлеченные из основного контента ресурсов (текст, описания, обзоры).
Структурные факторы (Term Prominence): Расположение ключевых слов в документе (заголовки, списки, метаданные). Используется для расчета Quality Score фильтра.
Поведенческие факторы (Query Logs): Исторические данные о том, какие запросы приводили к выбору (кликам) пользователями данных ресурсов. Используются для валидации кандидатов в фильтры и определения их информативности.
Лингвистические данные: Language Model используется для определения схожести терминов (синонимы, стемминг, поведенческая схожесть, например, «гуак» и «калифорнийский стиль» в контексте ресторанов).

Какие метрики используются и как они считаются

Query Stop Term Frequency Threshold: Порог частоты термина в корпусе связанных запросов. Если частота выше — термин считается стоп-словом.
Informational Term Threshold: Порог частоты термина. Если частота ниже или равна — термин считается информационным (специфичным).
Quality Score (для фильтра): Метрика, рассчитываемая на основе расположения (locations) термина-кандидата в ресурсах (Term Prominence).
Similarity Threshold: Порог для оценки схожести двух наборов отфильтрованных результатов. Если схожесть выше порога, фильтры считаются дублирующими друг друга.
Difference Threshold / Diversity Threshold: Требование к минимальному различию между отфильтрованными наборами результатов для включения фильтра в финальный набор.

Динамическая адаптация к контенту SERP: Фильтры генерируются не на основе глобальной онтологии, а на основе контента, который фактически ранжируется по запросу. Это позволяет системе адаптироваться к специфике выдачи в реальном времени.
Валидация через поведение пользователей: Ключевым элементом является проверка кандидатов в фильтры с помощью Query Logs. Термин становится фильтром, только если пользователи действительно используют его в запросах, которые ведут к этим ресурсам (является Informational Term). Это подчеркивает важность соответствия контента реальному языку пользователей.
Значимость структуры контента (Term Prominence): Система учитывает, где именно в документе расположен термин при расчете Quality Score фильтра. Заметное расположение (например, в заголовках) повышает вероятность того, что термин будет выбран в качестве фильтра.
Приоритет специфичности: Механизм Stop Terms и Informational Terms гарантирует, что фильтры будут специфичными для ниши, а не общеупотребительными словами.
Обеспечение разнообразия (Diversity): Система активно избегает предложения синонимичных или слишком близких фильтров. Diversity Filter гарантирует, что каждый предложенный фильтр открывает новый срез информации, группируя схожие варианты.

Best practices (это мы делаем)

Используйте язык пользователей (User Language): Поскольку фильтры валидируются через Query Logs, критически важно использовать в контенте термины и фразы, которые пользователи реально применяют для уточнения поиска в вашей нише. Анализируйте отзывы, форумы и данные автодополнения (suggest).
Структурируйте контент для выделения ключевых атрибутов (Prominence): Используйте заголовки (H1-H6), списки и выделения для обозначения важных характеристик продукта, подтем статьи или ключевых особенностей. Term Prominence напрямую влияет на Quality Score термина и его выбор в качестве фильтра.
Фокус на специфичных характеристиках (Informational Terms): Убедитесь, что ваш контент четко описывает уникальные и специфичные атрибуты. Система предпочитает Informational Terms и отсеивает общие Stop Terms. Например, вместо «хороший звук» используйте конкретные технологии или характеристики.
Создавайте контент, отвечающий на уточняющие интенты: Если вы знаете, какие фильтры Google предлагает по вашим основным запросам, убедитесь, что ваш контент явно релевантен этим уточнениям. Это повышает шансы остаться в выдаче после применения фильтра пользователем.

Worst practices (это делать не надо)

Перенасыщение ключевыми словами без структуры: Простое повторение ключевых слов в тексте менее эффективно, чем их структурное выделение. Если важные термины скрыты в сплошном тексте или находятся только в метаданных, их Term Prominence будет низким.
Использование только общих фраз: Описание продукта или услуги только общими словами (например, «высокое качество», «лучший выбор») не поможет в генерации фильтров, так как эти термины могут быть классифицированы как Stop Terms из-за высокой частоты в логах.
Игнорирование синонимов и вариаций: Хотя система объединяет слишком похожие фильтры (Diversity Filter), использование релевантных синонимов, используемых пользователями, может увеличить охват и помочь системе понять основные атрибуты. Однако не стоит искусственно создавать контент под каждый микро-синоним.

Стратегическое значение

Патент подтверждает важность понимания не только основного интента запроса, но и ключевых направлений его уточнения (refinement paths). Стратегия SEO должна включать анализ динамических фильтров в выдаче как инструмента для понимания того, какие аспекты темы или атрибуты продукта Google считает наиболее важными для пользователей. Это напрямую влияет на контент-стратегию и структуру страниц, подчеркивая переход от простого текстового соответствия к структурному и семантическому выделению ключевых характеристик.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

Задача: Оптимизировать страницу категории «Беспроводные наушники».

Анализ фильтров в SERP: Изучить текущую выдачу Google по запросу «беспроводные наушники». Отметить динамические фильтры, которые предлагает система (например: «с шумоподавлением», «для спорта», «вкладыши», «накладные», «бюджетные»).
Анализ контента конкурентов: Изучить, как структурирован контент на страницах в ТОПе, из которых, вероятно, были извлечены эти фильтры. Обратить внимание на использование этих терминов в заголовках.
Оптимизация структуры (Term Prominence): Убедиться, что на вашей странице категории ключевые атрибуты выделены структурно. Например, использовать подзаголовки H2/H3 для секций: «Наушники с активным шумоподавлением (ANC)», «Спортивные модели с влагозащитой».
Оптимизация языка (Query Logs Validation): Использовать точные формулировки, которые встречаются в фильтрах и поисковых подсказках. Например, если пользователи ищут «наушники для бега» (Informational Term), использовать эту фразу, а не только «спортивные наушники».
Результат: Повышается вероятность того, что Google извлечет релевантные термины с вашей страницы для использования в качестве фильтров, а также увеличивается релевантность вашей страницы для пользователей, которые применяют эти фильтры.

Как Google определяет, какие слова сделать фильтрами, а какие нет?

Google использует многоступенчатый процесс. Сначала извлекаются часто используемые слова из контента топовых результатов. Затем эти слова проверяются: используются ли они в реальных запросах пользователей, которые ведут к этим страницам (Query Logs). Далее отсеиваются слишком общие слова (Stop Terms) и предпочтение отдается специфичным (Informational Terms). Наконец, учитывается расположение слова на странице (Term Prominence) и обеспечивается разнообразие финального набора фильтров (Diversity Filter).

Влияет ли структура моей страницы на то, какие фильтры покажет Google?

Да, напрямую. Патент указывает на использование Term Prominence и расчет Quality Score для фильтра на основе его расположения в ресурсе. Термины, расположенные в заголовках или на видных местах, имеют больше шансов быть выбранными в качестве фильтров. Это подчеркивает важность четкой и логичной структуры контента для SEO.

Что такое «Фильтр разнообразия» (Diversity Filter) и зачем он нужен?

Diversity Filter гарантирует, что предложенные пользователю фильтры не дублируют друг друга. Система проверяет, насколько похожи результаты поиска после применения двух разных фильтров. Если результаты почти идентичны (например, при фильтрах «автомобиль» и «машина»), система объединит их или выберет только один. Это делается для того, чтобы предложить пользователю реальный выбор разных срезов информации.

Почему этот механизм важен для E-commerce и локального поиска?

Для этих ниш это критически важно, так как пользователи часто ищут товары или услуги по атрибутам (цвет, размер, функция, тип кухни, расположение). Этот механизм автоматически определяет ключевые атрибуты из карточек товаров, обзоров или описаний заведений и превращает их в удобные фильтры. Оптимизация структуры описания напрямую влияет на то, какие атрибуты Google сочтет важными.

Что такое «Категориальный запрос» (Categorical Query) в контексте этого патента?

Categorical Query — это широкий запрос, который относится к определенной категории, например, «бургеры», «кроссовки» или «фильмы». Для таких запросов стандартной выдачи часто недостаточно, и пользователю требуется уточнение. Механизм, описанный в патенте, особенно полезен именно для таких запросов, помогая сузить интент.

Как SEO-специалисту использовать знание этого патента на практике?

Необходимо анализировать динамические фильтры, которые Google показывает по вашим целевым запросам. Это даст понимание ключевых интентов и атрибутов. Затем нужно оптимизировать структуру контента (заголовки, списки), чтобы эти атрибуты были заметны (Term Prominence), и использовать язык, соответствующий реальным запросам пользователей (Query Logs).

Если я оптимизирую страницу под определенный термин, станет ли он фильтром в выдаче?

Не обязательно. Ваш термин должен быть извлечен из вашего контента (и, вероятно, из контента других топовых ресурсов), он должен быть валидирован через Query Logs (пользователи должны его использовать), он должен быть достаточно специфичным (Informational Term) и он должен пройти Diversity Filter. Оптимизация повышает шансы, но не гарантирует результат.

Что важнее: частота термина на странице или его расположение?

Важны оба аспекта. Частота (в рамках Keyword Corpus) является первичным сигналом для извлечения кандидата. Однако расположение (Term Prominence) используется для расчета Quality Score фильтра и принятия финального решения о его включении. Структурно выделенный термин часто имеет преимущество перед просто повторяющимся в тексте.

Могут ли отзывы пользователей повлиять на генерацию фильтров?

Да. В описании патента упоминается, что фильтры могут быть изучены из обзоров (item reviews) и описаний. Если пользователи часто упоминают определенные характеристики в отзывах, эти термины могут быть извлечены и использованы в качестве фильтров, при условии прохождения проверок качества и разнообразия.

Отличается ли этот механизм от стандартных фасетных фильтров на сайтах?

Да, ключевое отличие в том, что стандартные фасетные фильтры обычно предопределены разработчиками сайта на основе фиксированной структуры базы данных. Описанный в патенте механизм генерирует фильтры динамически на основе анализа неструктурированного контента ранжируемых страниц и валидирует их с помощью данных о поведении пользователей.

Как Google анализирует контент на экране пользователя для генерации и рекомендации контекстных поисковых запросов

Google использует систему для анализа контента, который пользователь просматривает в данный момент (веб-страница, приложение). Система генерирует потенциальные поисковые запросы на основе этого контента, оценивает их качество (популярность, качество результатов, визуальное выделение терминов) и предлагает пользователю лучшие запросы для быстрого контекстного поиска без необходимости вручную вводить текст.

US10489459B1
2019-11-26

Семантика и интент

Как Google визуально выделяет популярные профили в поиске и использует частоту запросов для борьбы с фейковыми аккаунтами

Google использует данные о популярности (количество связей) и качестве (вовлеченность) профилей пользователей, чтобы визуально выделить наиболее авторитетные результаты при поиске людей или брендов. Если один профиль значительно популярнее других, он отображается крупнее. Система также динамически регулирует порог качества в зависимости от частоты запроса: чем популярнее имя, тем выше требования к профилю для его отображения, что помогает бороться со спамом.

US8935245B1
2015-01-13

SERP
Антиспам
EEAT и качество

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы

Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.

US8392435B1
2013-03-05

Персонализация
Поведенческие сигналы
SERP

Как Google динамически корректирует веса факторов ранжирования для каждого запроса на основе анализа выдачи

Google использует этот механизм для динамической адаптации алгоритма ранжирования к специфике конкретного запроса. Система анализирует, какие факторы оказали наибольшее влияние на формирование первичной выдачи по сравнению с историческими данными. Если влияние факторов отличается от нормы, система корректирует их веса и проводит повторное ранжирование (Re-scoring) для обеспечения оптимального результата.

US10339144B1
2019-07-02

SERP

Как Google определяет тематику и интент запроса, анализируя контент уже ранжирующихся страниц в выдаче

Google использует метод классификации запросов, который анализирует не сам текст запроса, а контент (URL, заголовки, сниппеты) страниц, находящихся в топе выдачи по этому запросу. Сравнивая набор терминов из этих результатов с эталонными профилями разных тематик или типов контента (Новости, Видео, Картинки), система определяет интент пользователя и решает, какие вертикали поиска активировать.

US8756218B1
2014-06-17

Семантика и интент
SERP

Как Google использует личные данные пользователя (User Model) для понимания его намерений и персонализации выдачи

Google создает персональную модель пользователя (User Model) на основе его личного контента (письма, контакты, документы). Эта модель используется для определения неявного намерения пользователя (личный поиск или общий) и для аннотирования запроса контекстом из личных данных, чтобы предоставить точные персонализированные результаты.

US20150012558A1
2015-01-08

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google обучает ИИ-модели для автоматической оценки качества сайтов на основе данных асессоров и предвзятой выборки

Патент Google, описывающий фундаментальную методологию создания систем оценки качества сайтов. Google использует машинное обучение (например, SVM), чтобы найти корреляции между оценками асессоров и измеримыми сигналами сайта (PageRank, клики). Для повышения точности применяется метод «предвзятой выборки» (Biased Sampling): система намеренно собирает больше оценок для сайтов среднего качества («сложных случаев»), чем для очевидно плохих или хороших.

US8442984B1
2013-05-14

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует анкорный текст входящих ссылок для определения синонимов и псевдонимов сущностей в Knowledge Graph

Google автоматически определяет синонимы и псевдонимы для сущностей (например, людей, компаний) в своем хранилище фактов (Knowledge Graph). Система анализирует анкорный текст ссылок, ведущих на исходные документы, из которых были извлечены факты о сущности. Это позволяет системе понять, что, например, "Биг Блю" и "IBM" относятся к одной и той же компании.

US8738643B1
2014-05-27

Knowledge Graph
Семантика и интент
Ссылки

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним

Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.

US9235625B2
2016-01-12

Ссылки
Поведенческие сигналы
Мультимедиа

Как Google выявляет ссылочный спам (Link Farms и Web Rings), анализируя чувствительность PageRank к изменениям в структуре ссылок

Google использует математический метод для обнаружения искусственного завышения PageRank. Система анализирует, насколько резко меняется ранг страницы при изменении «коэффициента связи» (coupling factor/damping factor). Если ранг страницы слишком чувствителен к этим изменениям (имеет высокую производную), это сигнализирует о наличии манипулятивных структур, таких как ссылочные фермы или веб-кольца.

US7509344B1
2009-03-24

Антиспам
Ссылки
Техническое SEO

Как Google использует визуальное расположение новостей на главных страницах СМИ для ранжирования в Google News

Google анализирует главные страницы авторитетных новостных сайтов («Hub Pages»), чтобы определить важность новостей. Система оценивает «визуальную заметность» (Prominence) ссылки на статью — ее расположение (выше/ниже), размер шрифта, наличие картинки и сниппета. Чем заметнее ссылка на сайте СМИ, тем выше статья ранжируется в агрегаторах новостей.

US8375073B1
2013-02-12

EEAT и качество
SERP
Ссылки

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов

Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.

US8909627B1
2014-12-09

Поведенческие сигналы
Семантика и интент
SERP

Как Google извлекает, обрабатывает и индексирует анкорный текст, контекст и атрибуты входящих ссылок для ранжирования целевых страниц

Фундаментальный патент, описывающий инфраструктуру Google для обработки ссылок. Система извлекает анкорный текст, окружающий контекст и атрибуты форматирования (аннотации) из исходных страниц и инвертирует эти данные в структуру "Sorted Anchor Map". Это позволяет индексировать целевую страницу по тексту ссылок, указывающих на нее, используя эту внешнюю информацию как сигнал релевантности.

US7308643B1
2007-12-11

Ссылки
Индексация
Техническое SEO

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP