SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует анализ контента в топе выдачи для активации "слабых" синонимов и уточнения запроса

SUBSTITUTE TERM IDENTIFICATION BASED ON OVER-REPRESENTED TERMS IDENTIFICATION (Идентификация замещающих терминов на основе идентификации сверхпредставленных терминов)
  • US9152698B1
  • Google LLC
  • 2012-01-03
  • 2015-10-06
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует термины, которые необычно часто встречаются в первоначальных результатах поиска (сверхпредставленные термины). Если такой термин является потенциальным, но слабым синонимом для слова из запроса, система активирует эту связь и перезапускает поиск с уточненным запросом. Это позволяет контекстуально улучшать запрос на лету, используя специализированную лексику, доминирующую в нише.

Описание

Какую проблему решает

Патент решает проблему повышения релевантности поиска, когда пользователи используют неточные или общие термины вместо специализированной лексики (например, в медицине или технике). Он также устраняет недостатки стандартного расширения запросов: система предотвращает универсальное применение "слабых" правил замены (Weak Substitution Rules), которые могут ухудшить выдачу, но позволяет активировать их, когда контекст конкретного запроса это подтверждает.

Что запатентовано

Запатентован метод контекстно-зависимого уточнения поискового запроса. Суть изобретения — использовать эмпирические данные из первичной поисковой выдачи для валидации потенциальных замещающих терминов. Если термин часто встречается в первичных результатах (является Over-represented) и связан с исходным запросом через Weak Substitution Rule, это правило активируется в данном контексте, и запрос переписывается.

Как это работает

Система работает как итеративный процесс уточнения:

  • Этап 1 (Сбор данных): Система получает исходный запрос и выполняет поиск, намеренно игнорируя Weak Substitution Rules. Генерируется первичный набор результатов (Initial Search Results).
  • Анализ: Анализируется контент (текст, сниппеты, заголовки) первичных результатов для выявления Over-represented Terms — терминов, которые встречаются значительно чаще, чем в общем корпусе документов (например, с использованием TF−IDFTF-IDFTF−IDF).
  • Валидация: Система проверяет, связан ли сверхпредставленный термин с исходным запросом через Weak Substitution Rule. Сверхпредставленность служит контекстным подтверждением актуальности этого слабого правила.
  • Этап 2 (Уточненное ранжирование): Если валидация успешна, система переписывает запрос, активируя правило (например, добавляя термин через оператор OR), и выполняет вторичный поиск для получения итоговой выдачи (Subsequent Search Results).

Актуальность для SEO

Высокая. Контекстуальное понимание и уточнение запросов являются центральными задачами современного поиска. Этот патент описывает конкретный механизм, позволяющий системе использовать контент, который уже ранжируется, как обратную связь для улучшения интерпретации интента пользователя на лету. Это тесно связано с принципами семантического поиска и Topical Authority.

Важность для SEO

Влияние на SEO высокое (85/100). Патент описывает механизм, который напрямую влияет на то, как интерпретируется запрос и какой контент в итоге ранжируется. Он критически подчеркивает важность использования правильной, полной и профессиональной терминологии в контенте. Сайты, которые предоставляют контент с этой терминологией (становясь источником Over-represented terms), фактически определяют направление, в котором Google будет уточнять запрос.

Детальный разбор

Термины и определения

Confidence Score (Оценка уверенности)
Метрика, присваиваемая правилу замены. Определяет, является ли правило сильным (Strong) или слабым (Weak). Может рассчитываться на основе предыдущих взаимодействий пользователей, анализа результатов или назначаться вручную. Может зависеть от контекста, географии или времени.
Corpus (Корпус документов)
Общая коллекция индексированных ресурсов. Используется как базовая линия для определения частоты встречаемости терминов.
Initial Search Results (Первичные результаты поиска)
Набор результатов, полученных в ответ на исходный запрос, до применения механизма активации слабых правил замены.
Over-represented Term (Сверхпредставленный термин)
Термин, который встречается в тексте (заголовках, сниппетах или ресурсах) первичных результатов поиска значительно чаще, чем его базовая частота в корпусе в целом. Определяется, например, с помощью TF−IDFTF-IDFTF−IDF или сравнения частотности.
Query Reviser Engine (Механизм пересмотра запросов)
Компонент системы, который генерирует Revised Queries на основе сигналов от Substitution Engine.
Substitution Engine (Механизм замены/подстановки)
Компонент, который идентифицирует Over-represented terms, оценивает правила замены и определяет, какие замещающие термины следует использовать.
Substitution Rule (Правило замены/подстановки)
Предварительно определенная ассоциация между терминами (например, "Кот" -> "Кошачий"). Хранится в Substitution Rules Database.
Weak Substitution Rule (Слабое правило замены)
Правило с низкой Confidence Score. Обычно НЕ применяется системой, так как может ухудшить качество поиска. Активируется только при наличии эмпирического подтверждения (сверхпредставленности термина) в контексте конкретного запроса.
TF-IDF (Term Frequency-Inverse Document Frequency)
Статистическая мера для оценки важности термина. В патенте упоминается как один из способов идентификации Over-represented Term.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод выборочной активации слабых правил замены.

  1. Система получает исходный запрос.
  2. Система принимает решение НЕ применять Weak Substitution Rule, которое идентифицирует определенный термин (Термин Б) как замену для термина в запросе (Термин А).
  3. После этого решения система получает первичный набор результатов (Initial Search Results) из текстового корпуса.
  4. Система определяет (используя вес TF−IDFTF-IDFTF−IDF), что Термин Б встречается в тексте, связанном с первичными результатами, чаще, чем в корпусе в целом (т.е. является Over-represented).
  5. В ответ на это обнаружение система ПРИМЕНЯЕТ ранее отклоненное Weak Substitution Rule к исходному запросу, чтобы переписать его и включить Термин Б.
  6. Система получает вторичный набор результатов (Subsequent Search Results) в ответ на переписанный запрос.

Ядро изобретения заключается в использовании эмпирических данных (сверхпредставленности термина в SERP) как триггера для контекстуальной активации правил замены, которые в противном случае были бы проигнорированы из-за их "слабости".

Claim 5 (Зависимый): Уточняет, что сверхпредставленные термины идентифицируются в тексте заголовков (titles), сниппетов (snippets) и/или самих ресурсов (resources).

Claim 8 (Зависимый): Уточняет, что в ответ на обнаружение сверхпредставленности система может модифицировать Confidence Score этого замещающего термина для данного запроса или в целом.

Claim 9 и 10 (Зависимые): Уточняют способы переписывания запроса: добавление термина с логическими операторами (например, OR) (Claim 9) или замена исходного термина (Claim 10).

Где и как применяется

Изобретение функционирует как итеративный процесс, создавая петлю обратной связи между этапами Ранжирования и Понимания запросов.

INDEXING – Индексирование и извлечение признаков
На этом этапе рассчитываются и сохраняются базовые статистические данные о частотности терминов в общем корпусе. Эти данные необходимы для последующего расчета TF−IDFTF-IDFTF−IDF и определения сверхпредставленности.

QUNDERSTANDING – Понимание Запросов
Офлайн-процессы генерируют Substitution Rules Database и рассчитывают Confidence Scores. В реальном времени этот этап отвечает за анализ первичной выдачи и переписывание запроса.

RANKING – Ранжирование
Процесс включает два прохода:

  • Фаза 1: Выполняется первичный поиск по Original Query. Weak Substitution Rules игнорируются. Генерируются Initial Search Results.
  • Фаза 2: Выполняется вторичный поиск по Revised Query (если он был сгенерирован). Генерируются Subsequent Search Results.

Входные данные:

  • Исходный запрос (Original Query).
  • База данных правил замены (Substitution Rules Database) с Confidence Scores.
  • Статистика частотности терминов в корпусе.
  • Контент (текст, заголовки, сниппеты) первичных результатов поиска.

Выходные данные:

  • Итоговый набор результатов поиска (Subsequent Search Results), полученный по уточненному запросу.

На что влияет

  • Специфические запросы и ниши: Наибольшее влияние оказывается на информационные и исследовательские запросы в сложных или специализированных тематиках (медицина, юриспруденция, техника, YMYL), где разговорный язык пользователя отличается от языка, используемого в авторитетных документах.
  • Типы контента: Влияет на контент, богатый терминологией (статьи, исследования, документация).

Когда применяется

  • Условия работы алгоритма: Алгоритм применяется, когда стандартное расширение запросов (через сильные правила) недостаточно или когда система ищет контекстуальное подтверждение для слабых связей.
  • Триггеры активации: Активация происходит при выполнении двух условий одновременно:
    1. В Initial Search Results идентифицирован Over-represented Term (например, его вес TF−IDFTF-IDFTF−IDF превышает порог).
    2. Этот термин связан с исходным запросом через существующее Weak Substitution Rule.

Пошаговый алгоритм

Процесс обработки запроса с использованием механизма идентификации замещающих терминов:

  1. Получение запроса: Система получает исходный запрос.
  2. Предварительный анализ и решение: Система анализирует запрос и доступные правила замены. Принимается решение игнорировать Weak Substitution Rules на первом этапе поиска.
  3. Генерация первичных результатов: Выполняется поиск по исходному запросу и генерируется Initial Search Results.
  4. Анализ контента результатов: Substitution Engine анализирует текст, связанный с подмножеством первичных результатов (заголовки, сниппеты, ресурсы).
  5. Идентификация сверхпредставленных терминов: Выявляются термины, чья частота в этих результатах значительно выше их частоты в общем корпусе (например, с использованием TF−IDFTF-IDFTF−IDF).
  6. Валидация терминов: Система проверяет каждый Over-represented Term на наличие связи с исходными терминами запроса через Weak Substitution Rules.
  7. Переписывание запроса: Если связь найдена, Query Reviser Engine активирует соответствующее слабое правило и генерирует Revised Query. Это может включать добавление термина (например, через OR) или замену исходного термина.
  8. Генерация вторичных результатов: Выполняется поиск по переписанному запросу и генерируется итоговый набор Subsequent Search Results.
  9. Предоставление результатов: Итоговый набор результатов предоставляется пользователю.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Текст, заголовки (titles) и сниппеты (snippets) ресурсов, попавших в Initial Search Results. Эти данные являются ключевыми для идентификации Over-represented Terms.
  • Системные данные:
    • Substitution Rules Database: База данных, хранящая правила замены и связанные с ними Confidence Scores (или метки Strong/Weak).
    • Данные о частотности терминов в корпусе (Corpus Statistics): Необходимы для определения базовой частоты термина и расчета IDF.
  • Контекстуальные факторы: Патент упоминает, что правила подстановки могут зависеть от контекста, включая время (time-specific) и географию (geography-specific).

Какие метрики используются и как они считаются

  • Метрика сверхпредставленности (Over-representation Metric): Рассчитывается путем сравнения частоты термина в Initial Search Results с его частотой в общем корпусе. Термин считается сверхпредставленным, если это соотношение значительно выше ожидаемого.
  • TF−IDFTF-IDFTF−IDF: Патент явно указывает на использование веса TF−IDFTF-IDFTF−IDF для определения сверхпредставленности. Если вес термина превышает определенный порог, он может быть идентифицирован как Over-represented.
  • Confidence Score: Предварительно рассчитанная метрика для каждого Substitution Rule. Используется для классификации правила как Strong или Weak. Патент также предполагает (Claim 8), что эта оценка может быть скорректирована (увеличена), если термин оказывается сверхпредставленным.

Выводы

  1. Валидация синонимов через контент SERP: Патент демонстрирует механизм, в котором Google использует контент, который уже ранжируется по запросу, как источник истины для понимания темы и релевантной терминологии. Топ выдачи обучает систему тому, как следует уточнить запрос.
  2. Селективная активация "слабых" связей: Weak Substitution Rules (слабые синонимы или связанные понятия) не игнорируются полностью. Они находятся в режиме ожидания и активируются только тогда, когда контекст конкретной выдачи (через Over-represented terms) подтверждает их актуальность.
  3. Критичность Topical Authority и терминологии: Сайты, которые используют наиболее полную, точную и релевантную терминологию для темы, имеют преимущество. Они становятся источником Over-represented terms и тем самым влияют на процесс уточнения запроса, повышая свои шансы остаться в топе на втором этапе ранжирования.
  4. Двухэтапное ранжирование для уточнения интента: Патент подтверждает, что процесс поиска может быть итеративным. Ранжирование может проходить в два этапа: первый — для сбора данных о контексте темы запроса, второй — для точного ранжирования по контекстуально уточненному запросу.
  5. Использование TF−IDFTF-IDFTF−IDF для понимания запроса: Классические методы Information Retrieval, такие как TF−IDFTF-IDFTF−IDF, используются не только как фактор ранжирования, но и как инструмент для анализа SERP и выявления ключевых терминов темы.

Практика

Best practices (это мы делаем)

  • Использование полной и точной терминологии (Словарь Темы): Необходимо обеспечить, чтобы контент включал всю релевантную терминологию, связанную с темой — профессионализмы, академические термины, синонимы и связанные сущности (entities). Ваш контент должен быть тем ресурсом, который содержит потенциальные Over-represented terms.
  • Анализ лексики конкурентов (SERP Vocabulary Analysis): Регулярно анализируйте топовые результаты выдачи (заголовки, сниппеты, контент), чтобы понять, какие термины являются Over-represented для ваших целевых запросов. Это определяет "ожидаемый словарь" для темы с точки зрения Google.
  • Построение Topical Authority: Стратегия полного охвата темы гарантирует наличие необходимой терминологии. Это повышает вероятность того, что система будет использовать ваш контент для валидации Weak Substitution Rules и уточнения запроса в вашу пользу.
  • Сочетание пользовательского и экспертного языка: Сочетайте термины, которые ищут пользователи (например, "боль в ноге"), с терминами, которые используют эксперты (например, "плантарный фасциит"). Это помогает системе установить связь между ними и делает контент релевантным на обоих этапах ранжирования.

Worst practices (это делать не надо)

  • Упрощенный язык и избегание терминологии: Попытка написать контент "слишком просто" или использовать только базовые ключевые слова может привести к отсутствию важных терминов, которые Google ищет для идентификации темы и уточнения запроса.
  • Оптимизация под одну узкую формулировку ключа: Фокус на точном вхождении одного ключевого слова без учета семантически связанных понятий и синонимов делает контент менее полезным для механизма, описанного в патенте.
  • Поверхностный контент (Thin Content): Контент, не содержащий достаточной глубины и детализации, вряд ли будет содержать термины, которые система идентифицирует как Over-represented в рамках сложной темы.
  • Манипуляции с частотой терминов (Keyword Stuffing): Попытки искусственно завысить частоту терминов неэффективны, так как система использует нормализованные метрики (например, TF−IDFTF-IDFTF−IDF) и ищет естественное распределение авторитетной лексики.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на глубокое понимание контента и контекста (семантический поиск). Он показывает, что соответствие теме на уровне используемого языка и понятий может быть важнее, чем простое соответствие тексту запроса. Долгосрочная SEO-стратегия должна фокусироваться на том, чтобы контент сайта обучал поисковую систему теме, предоставляя полный и авторитетный словарь терминов, соответствующий уровню экспертных источников в нише.

Практические примеры

Сценарий: Уточнение медицинского запроса

  1. Исходный запрос (Original Query): Пользователь вводит "постоянная головная боль".
  2. Предварительный анализ: Google знает, что есть Weak Substitution Rule: "головная боль" -> "мигрень", но не применяет его сразу, так как не всякая боль является мигренью (низкий Confidence Score).
  3. Первичная выдача (Initial Search Results): Система генерирует результаты по исходному запросу.
  4. Анализ контента: Система анализирует топ результатов и обнаруживает, что термин "мигрень" встречается очень часто и имеет высокий вес TF−IDFTF-IDFTF−IDF (является Over-represented Term).
  5. Валидация и переписывание: Сверхпредставленность валидирует Weak Substitution Rule. Система генерирует Revised Query: "постоянная (головная боль OR мигрень)".
  6. Вторичная выдача (Subsequent Search Results): Система выполняет новый поиск. Результаты теперь более сфокусированы на мигрени и хронических головных болях.
  7. Действие SEO-специалиста: Чтобы ранжироваться в итоговой выдаче, сайт о головной боли должен активно использовать термин "мигрень" в релевантном контексте, даже если страница оптимизируется под более общий запрос.

Вопросы и ответы

Что такое "Over-represented term" (сверхпредставленный термин) согласно патенту?

Это термин, который встречается в первичных результатах поиска (в заголовках, сниппетах или тексте ресурсов) значительно чаще, чем в среднем по всему индексу (корпусу). Система определяет это путем сравнения локальной частоты термина с его глобальной частотой или с помощью метрик типа TF−IDFTF-IDFTF−IDF. Это указывает на высокую важность термина для темы запроса.

В чем разница между Strong и Weak Substitution Rule?

Strong Substitution Rule имеет высокую оценку уверенности (Confidence Score) и обычно применяется системой автоматически, так как считается, что оно улучшает релевантность. Weak Substitution Rule имеет низкую оценку уверенности и обычно игнорируется, так как может ухудшить выдачу. Патент описывает механизм активации слабых правил только тогда, когда контекст (анализ SERP) это подтверждает.

Означает ли это, что Google анализирует мой контент в реальном времени при обработке запроса?

Да, механизм подразумевает анализ контента, который попал в первичную выдачу (Initial Search Results), в реальном времени или близком к нему. Система сканирует текст, заголовки или сниппеты этих результатов, чтобы идентифицировать Over-represented terms, прежде чем сгенерировать финальную выдачу. Это итеративный процесс обработки запроса.

Как этот патент влияет на подбор ключевых слов?

Он смещает фокус с подбора отдельных ключевых слов на формирование полного терминологического словаря темы (Topical Vocabulary). Необходимо включать не только основные запросы, но и профессиональную терминологию, синонимы и связанные понятия (сущности), которые используются в авторитетных источниках. Это увеличивает шансы, что ваш контент будет содержать Over-represented terms.

Как определить, какие термины могут быть "Over-represented" в моей нише?

Анализируйте контент лидеров ниши и авторитетных источников. Обращайте внимание на термины, которые используются для описания темы, но которые могут быть не очевидны для обычного пользователя. Также используйте инструменты анализа TF−IDFTF-IDFTF−IDF у конкурентов в топе, чтобы выявить лексику, которую Google считает статистически важной для темы.

Применяется ли этот алгоритм ко всем запросам?

Механизм активируется только при наличии специфических условий: должны быть идентифицированы Over-represented terms, которые одновременно связаны с запросом через Weak Substitution Rules. Наиболее вероятно, это применяется к запросам в сложных тематиках, где наблюдается разрыв между языком пользователя и языком документов.

Как система переписывает запрос? Она добавляет новый термин или заменяет старый?

Патент описывает оба варианта (Claim 9 и 10). Система может добавить сверхпредставленный термин с использованием логических операторов, например, "[Исходный Термин] OR [Новый Термин]". Также она может заменить исходный термин на новый. Выбор метода может зависеть от контекста и степени уверенности.

Что важнее для этого алгоритма: частота термина на моей странице или его частота в общем индексе Google?

Важны оба показателя в сравнении. Чтобы термин был признан Over-represented, его частота на страницах в топе выдачи (локальная частота) должна быть значительно выше, чем его частота в общем индексе (глобальная частота). Это соотношение (например, выраженное через TF−IDFTF-IDFTF−IDF) и является ключевым сигналом.

Может ли успешное применение слабого правила сделать его сильным?

Да, патент предусматривает такую возможность. В Claim 8 указано, что в ответ на определение сверхпредставленности термина система может модифицировать Confidence Score этого правила. Это означает, что эмпирические данные из поиска могут влиять на будущую классификацию правил.

Влияет ли этот патент на ранжирование в других вертикалях поиска (картинки, карты)?

Да. Патент указывает (Claim 3, 4), что первичный поиск может проводиться по одному корпусу (например, веб-документы), а вторичный поиск по переписанному запросу может проводиться по другому корпусу ресурсов, включая изображения, видео, рекламу или карты. Это значит, что уточнение запроса на основе анализа веб-выдачи может повлиять на результаты в других вертикалях.

Похожие патенты

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google автоматически оценивает и удаляет неэффективные синонимы и правила расширения запросов
Google использует механизм для оценки эффективности правил подстановки (синонимов). Если подставленный термин редко встречается в топовых результатах поиска или если пользователи не кликают на результаты, содержащие этот термин, система автоматически удаляет или понижает уверенность в этом правиле. Это позволяет поддерживать качество и точность понимания запросов.
  • US8600973B1
  • 2013-12-03
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса
Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.
  • US8682907B1
  • 2014-03-25
  • Семантика и интент

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам
Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.
  • US8868587B1
  • 2014-10-21
  • Семантика и интент

Популярные патенты

Как Google использует контекст пользователя и интерактивное уточнение для обучения моделей поиска
Google может инициировать поиск пассивно, основываясь на контексте действий пользователя (например, чтении статьи или телефонном звонке). Система позволяет пользователю уточнить этот поиск, выбрав один из использованных критериев (например, тапнув на сущность в тексте), чтобы повысить его значимость. Реакция пользователя на уточненные результаты используется для машинного обучения и улучшения взвешивания критериев в будущих поисковых запросах.
  • US11568003B2
  • 2023-01-31
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует "ложные пропуски" (Fake Skips) для точной оценки качества своих правил синонимов
Google анализирует поведение пользователей для оценки качества синонимов, используемых при переписывании запросов. Патент вводит метрику "Fake Skip" (Ложный пропуск). Она фиксируется, если пользователь пропустил результат с синонимом, но кликнул на результат ниже, который также содержит этот синоним и исходный термин. Это позволяет точнее калибровать систему синонимов и не пессимизировать хорошие правила из-за неоднозначного поведения пользователей.
  • US8909627B1
  • 2014-12-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи
Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.
  • US9836482B2
  • 2017-12-05
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)
Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.
  • US8615514B1
  • 2013-12-24
  • Поведенческие сигналы

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов
Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.
  • US9436709B1
  • 2016-09-06
  • EEAT и качество

  • Поведенческие сигналы

Как Google использует внутренние ссылки и структуру DOM для генерации шаблонов сайта и извлечения структурированных сниппетов
Google анализирует повторяющиеся блоки внутренних ссылок (например, списки товаров). Если текст возле ссылки на исходной странице совпадает с текстом на целевой странице, Google определяет DOM-структуру этого текста и создает шаблон домена. Этот шаблон позволяет автоматически извлекать ключевую информацию (например, цену и характеристики) для сниппетов со всех однотипных страниц сайта, даже без микроразметки.
  • US9971746B2
  • 2018-05-15
  • Структура сайта

  • SERP

  • Ссылки

Как Google использует данные о совместном посещении сайтов (Co-Visitation) для персонализации и повышения релевантности выдачи
Google использует поведенческие данные сообщества пользователей для определения тематической связи между сайтами. Если пользователи часто посещают Сайт А и Сайт Б в течение короткого промежутка времени (Co-Visitation), система создает "Вектор повышения" (Boost Vector). Этот вектор используется для повышения в выдаче тематически связанных сайтов, основываясь на истории посещений пользователя или контексте текущего сайта, улучшая персонализацию и релевантность.
  • US8874570B1
  • 2014-10-28
  • Поведенческие сигналы

  • Персонализация

  • SERP

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования
Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.
  • US7505964B2
  • 2009-03-17
  • Поведенческие сигналы

  • SERP

seohardcore