Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов

IDENTIFYING STEM VARIANTS OF SEARCH QUERY TERMS (Идентификация вариантов основы терминов поискового запроса)

US9104759B1
Google LLC
2012-01-13
2015-08-11

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

Какую проблему решает

Патент решает проблему ограничений традиционных алгоритмов стемминга, которые полагаются на лингвистические правила и могут не идентифицировать все релевантные семантические варианты слова (например, нестандартные формы или связанные существительные, такие как «pizza» и «pizzeria»). Изобретение улучшает процесс расширения запросов (Query Broadening), находя семантически связанные варианты на основе поведения пользователей и категоризации сущностей, а не только лингвистического анализа.

Что запатентовано

Запатентована система для идентификации вариантов основы (Stem Variants) с использованием комбинации лингвистического сходства и семантического сходства, выведенного из намерений пользователя. Система анализирует, приводят ли разные поисковые запросы к выбору пользователями результатов, принадлежащих к одной и той же категории (например, категории бизнеса). Если да, и если запросы удовлетворяют определенным порогам (либо по сходству написания, либо по объему кликов), термины идентифицируются как варианты одной основы.

Как это работает

Система работает путем анализа журналов поисковых запросов и последующих действий пользователей:

Сбор данных: Регистрируются запросы и результаты, которые пользователи выбирают (кликают).
Анализ категорий: Определяется категория выбранного результата (например, «Pizza Restaurant»).
Сравнение запросов: Система ищет пары запросов (например, «pizza» и «pizzeria»), которые привели к выбору результатов одной и той же категории.
Валидация: Проверяется выполнение одного из двух альтернативных условий:
- Лингвистическая проверка: Вычисляется Edit Distance (редакционное расстояние) между терминами. Если оно ниже порога.
- Поведенческая проверка: Если совокупный объем выборов (кликов) по результатам превышает порог статистической значимости.
Хранение и применение: Идентифицированные варианты сохраняются в Stem Variant Repository и используются для расширения будущих запросов.

Актуальность для SEO

Высокая. Понимание и расширение запросов остаются критически важными задачами поиска. Хотя современные нейронные модели (BERT, MUM) хорошо обрабатывают контекст, этот метод предоставляет сильный поведенческий сигнал семантического сходства. Он особенно актуален для локального поиска (Local Search), где категоризация сущностей является надежным сигналом интента, и может использоваться для генерации обучающих данных для NLP-моделей.

Важность для SEO

Патент имеет значительное влияние на SEO (7.5/10). Он демонстрирует, как Google использует поведенческие данные для понимания взаимосвязей между словами и намерениями пользователей. Это влияет на контент-стратегию: важно фокусироваться на удовлетворении основного намерения (которое часто связано с категорией результата). Также критически подчеркивается важность точной категоризации локального бизнеса (например, в Google Business Profile).

Термины и определения

Category (Категория): Тип сущности, связанной с результатом поиска. В патенте фокус на категориях бизнеса или организаций (Organization Entity), таких как «pizza restaurant» или «Outdoor Recreation Business».
Edit Distance (Редакционное расстояние): Метрика лингвистического сходства. Количество добавлений, удалений и/или модификаций символов, необходимых для преобразования одного термина в другой. Например, расстояние между «camp» и «camping» равно 3.
Local Search Query (Локальный поисковый запрос): Запрос, направленный на поиск местных сущностей. Система часто упоминается как Local Search Server System.
Query Broadening / Query Expansion (Расширение запроса): Процесс добавления дополнительных терминов (вариантов основы или синонимов) к исходному запросу для повышения полноты поиска.
Stem Variant (Вариант основы): Слово, имеющее общую основу или схожее семантическое значение с другим словом в определенном контексте.
Threshold Edit Distance (Пороговое редакционное расстояние): Максимально допустимое Edit Distance для признания двух терминов лингвистически схожими (например, 4 или 5).
Threshold Number of User Selections (Пороговое количество выборов пользователя): Минимальное количество кликов/выборов, необходимое для подтверждения статистической значимости связи между запросами.

Ключевые утверждения (Анализ Claims)

Патент содержит два ключевых независимых пункта (Claim 1 и Claim 11), которые описывают два разных подхода к идентификации вариантов основы. Это критически важно для понимания гибкости изобретения.

Claim 1 (Независимый пункт – Поведенческий метод): Описывает метод, основанный на объеме пользовательских выборов.

Система получает первый запрос (Q1) и выбор результата (R1), а также второй запрос (Q2) и выбор результата (R2).
Определяются категории для R1 и R2 (Cat1, Cat2) и проверяется их совпадение.
Ключевое условие: Проверяется, что совокупное количество пользовательских выборов для R1 и R2 превышает пороговое значение (threshold number of user selections).
Если условия выполнены, термины из Q1 и Q2 идентифицируются как Stem Variants на основе совпадения категорий И достижения порога выборов.

В этом методе Edit Distance НЕ является обязательным условием. Два совершенно разных по написанию слова (синонимы) могут быть признаны вариантами, если они часто приводят к выбору результатов одной категории и объем этих выборов статистически значим.

Claim 11 (Независимый пункт – Лингвистическо-поведенческий метод): Описывает метод, основанный на редакционном расстоянии.

Система получает Q1/R1 и Q2/R2.
Определяются и сравниваются Cat1 и Cat2.
Ключевое условие: Вычисляется Edit Distance между терминами из Q1 и Q2. Проверяется, находится ли оно в пределах порогового значения (Threshold Edit Distance).
Если категории совпадают И Edit Distance ниже порога, термины идентифицируются как Stem Variants.

В этом методе объем пользовательских выборов НЕ является обязательным условием, но требуется лингвистическое сходство. Это фокусируется на морфологических вариантах.

Claim 4, 5, 6 (Зависимые): Уточняют метрики лингвистического сходства, которые могут использоваться: Edit Distance (Claim 4), пороговое количество общих символов (Claim 5) или пороговое количество начальных общих символов (Claim 6).

Claim 14 (Зависимый): Уточняет обработку локальных запросов. При определении Edit Distance система может игнорировать термины, указывающие на местоположение (location terms). Например, в запросах «pizza nyc» и «pizzeria manhattan» термины «nyc» и «manhattan» будут проигнорированы при сравнении «pizza» и «pizzeria».

Где и как применяется

Изобретение в основном применяется на этапе понимания запросов, но требует данных, собранных на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна определить и сохранить категории (Categories) для сущностей (например, бизнесов), которые появляются в результатах поиска. Эти данные хранятся в Category Storage.

QUNDERSTANDING – Понимание Запросов (Офлайн-анализ)
Основная логика патента выполняется здесь, в офлайн-режиме (Stem Variant System).

Анализ логов: Система анализирует исторические данные поисковых запросов и соответствующих пользовательских выборов (кликов).
Идентификация вариантов: Применяются алгоритмы (описанные в Claim 1 и Claim 11) для сравнения запросов, категорий выбранных результатов, расчета Edit Distance и объемов выборов.
Хранение: Идентифицированные пары сохраняются в Stem Variant Storage.

QUNDERSTANDING – Понимание Запросов (Реальное время)
Во время обработки нового запроса система обращается к Stem Variant Storage. Если термин в запросе имеет идентифицированные варианты, система выполняет Query Expansion (расширение запроса), добавляя эти варианты (например, запрос «camp» расширяется до «camp OR camping»).

Входные данные:

Журналы поисковых запросов.
Данные о пользовательских выборах (кликах) на результатах поиска.
База данных категорий сущностей (Category Storage).

Выходные данные:

База данных вариантов основы (Stem Variant Storage).

На что влияет

Конкретные типы контента и ниши: Наибольшее влияние оказывается на локальный поиск (Local Search) и тематики, где результаты четко категоризированы (бизнесы, организации, места). Примеры в патенте строго сфокусированы на бизнесе.
Специфические запросы: Влияет на информационные и коммерческие запросы, где пользователи ищут определенный тип результата (услугу или товар), используя разные формулировки.

Когда применяется

Временные рамки: Идентификация вариантов происходит офлайн при анализе логов. Применение (расширение запросов) происходит в реальном времени.
Триггеры активации (для идентификации): Алгоритм идентификации запускается, если для пары запросов Q1 и Q2 выполнено условие совпадения категорий выбранных результатов, И выполняется одно из следующих условий (в зависимости от реализации):
- Edit Distance между терминами Q1 и Q2 ниже порога (Метод по Claim 11).
- Совокупный объем пользовательских выборов превышает порог (Метод по Claim 1).

Пошаговый алгоритм

Процесс идентификации вариантов (Офлайн)

Сбор данных: Сбор исторических данных о поисковых запросах и соответствующих пользовательских выборах из логов.
Извлечение категорий: Для каждого выбранного результата определяется его категория.
Идентификация пар запросов: Поиск пар запросов (Q1, Q2), для которых выбранные результаты принадлежат к одной и той же категории (Same Category).
Фильтрация и Анализ (Параллельные ветки валидации): Для идентифицированных пар выполняются проверки:
Ветка А (Лингвистическая, на основе Claim 11):
- Нормализация: Удаление терминов местоположения (если применимо, Claim 14).
- Расчет Edit Distance: Вычисление редакционного расстояния между терминами Q1 и Q2.
- Проверка порога А: Сравнение Edit Distance с пороговым значением (например, <= 4).
Ветка Б (Поведенческая, на основе Claim 1):
- Расчет объема: Вычисление совокупного количества пользовательских выборов для результатов.
- Проверка порога Б: Сравнение объема с threshold number of user selections.
Идентификация вариантов: Если пара запросов удовлетворяет условию совпадения категорий И условиям Ветки А ИЛИ Ветки Б, термины помечаются как Stem Variants.
Хранение: Сохранение идентифицированных пар в Stem Variant Storage.

Процесс применения (Реальное время)

Получение запроса: Пользователь вводит запрос.
Поиск вариантов: Система ищет термины запроса в Stem Variant Storage.
Расширение запроса (Query Expansion): Если варианты найдены, они добавляются к исходному запросу.
Выполнение поиска: Поиск выполняется по расширенному запросу.

Какие данные и как использует

Данные на входе

Поведенческие факторы: Критически важные данные. Используются журналы поисковых запросов (Search Query) и данные о выборе пользователями результатов поиска (Result Selection / клики).
Данные о сущностях (Entity Data): Категории (Categories), связанные с результатами поиска. В патенте это явно категории организационных сущностей (type of organization entity) или бизнеса.
Географические факторы: Термины местоположения (location terms) в запросах. Они используются для определения локального контекста, но затем исключаются при расчете Edit Distance (Claim 14).

Какие метрики используются и как они считаются

Edit Distance (Редакционное расстояние): Стандартный расчет (например, расстояние Левенштейна) между двумя строками.
Category Match (Совпадение категорий): Бинарная проверка того, принадлежат ли два выбранных результата к одной и той же категории.
Threshold Edit Distance: Предопределенное пороговое значение (в патенте приводятся примеры 3, 4 или 5).
Threshold Number of User Selections: Пороговое значение совокупного объема кликов на результаты. Используется для подтверждения значимости связи между запросами (Claim 1).
Threshold Frequency (Опционально): Может использоваться порог частоты, требующий, чтобы определенный процент (например, 50%) выборов по запросу относился к конкретной категории.
Common Characters Threshold (Опционально): Пороговое количество совпадающих символов или совпадающих начальных символов (например, 4).

Поведение пользователя как сигнал семантической связи: Ключевая идея патента — использовать действия пользователей (выбор результатов) и данные о сущностях (категории) как индикатор семантического намерения. Если разные слова приводят пользователей к одному и тому же типу результата, Google считает эти слова семантически связанными.
Два различных механизма идентификации вариантов: Патент защищает два независимых метода, что обеспечивает гибкость системы:
- Метод, требующий лингвистического сходства (низкий Edit Distance, Claim 11). Эффективен для морфологических вариантов (например, «camp» и «camping»).
- Метод, НЕ требующий лингвистического сходства, но требующий высокого объема пользовательских выборов (Claim 1). Эффективен для идентификации синонимов с высоким Edit Distance (например, «Florist» и «Flower Shop»).
Data-Driven Stemming: Система не полагается исключительно на лингвистические правила. Она использует поведенческие сигналы для идентификации вариантов, упущенных традиционными алгоритмами.
Сильный фокус на локальном поиске и сущностях: Механизм опирается на четкую категоризацию результатов, что делает его особенно эффективным в локальном поиске (Local Search) и для запросов, связанных с бизнесом и организациями.
Нормализация локальных запросов: Система умеет отделять термины намерения от терминов местоположения и игнорировать последние при сравнении запросов (Claim 14), что позволяет обобщать паттерны поиска между разными географическими областями.

Best practices (это мы делаем)

Точная категоризация в Google Business Profile (GBP): Для локального бизнеса критически важно правильно указывать основную и дополнительные категории в GBP. Эти данные, вероятно, используются в Category Storage. Точная категоризация помогает Google понять, для каких запросов (и всех их вариантов/синонимов) ваш бизнес релевантен.
Оптимизация под намерение (Интент), связанное с категорией: Сосредоточьтесь на том, какую категорию результатов ищет пользователь. Убедитесь, что ваш контент полностью удовлетворяет это намерение. Если пользователи ищут «пиццерию», ваша страница должна соответствовать категории «Pizza Restaurant», независимо от того, используете ли вы слово «пицца» или «пиццерия».
Использование естественных синонимов (особенно по Claim 1): Охватывайте различные способы, которыми пользователи могут называть вашу услугу или продукт, даже если они сильно отличаются по написанию. Поскольку система может связывать синонимы на основе поведения (Claim 1), использование этих терминов на сайте увеличивает вероятность охвата расширенных запросов (Query Expansion).

Worst practices (это делать не надо)

Перенасыщение текста морфологическими вариантами (Keyword Stuffing): Если Google может надежно идентифицировать близкие варианты основы (особенно по Claim 11), нет необходимости искусственно вставлять все возможные словоформы в текст. Это ухудшает качество контента.
Манипуляция категориями в GBP (Category Spam): Указание неверных категорий бизнеса в попытке привлечь трафик по нерелевантным запросам. Это может привести к плохому пользовательскому опыту, так как система будет некорректно ассоциировать запросы с вашим бизнесом.
Создание отдельных страниц для близких вариантов (Keyword Cannibalization): Создание множества страниц для очень близких морфологических вариантов с одинаковым интентом может быть контрпродуктивным, так как Google рассматривает эти термины как взаимозаменяемые.

Стратегическое значение

Патент подтверждает стратегический сдвиг от буквального сопоставления ключевых слов к пониманию намерений пользователя на основе сущностей (Entity-Oriented Search). Он показывает, как поведение пользователей напрямую обучает алгоритмы Google пониманию языка и взаимосвязей между терминами. Стратегически важно не только привлечь клик, но и удовлетворить потребность пользователя, так как эта информация (клик + категория) используется для уточнения самого понимания запроса системой.

Практические примеры

Сценарий 1: Идентификация синонимов с высоким Edit Distance (по методу Claim 1)

Запрос 1 (Q1): «Florist near me» (Флорист)
Запрос 2 (Q2): «Flower Shop near me» (Цветочный магазин)
Анализ: Edit Distance между «Florist» и «Flower Shop» высокое. Лингвистическое сходство низкое.
Поведение пользователей: Пользователи по обоим запросам массово выбирают бизнесы с категорией «Florist». Категории совпадают.
Проверка порога: Совокупный объем выборов (кликов) по этой категории для обоих запросов превышает Threshold Number of User Selections.
Результат: Система идентифицирует «Florist» и «Flower Shop» как варианты (синонимы) и будет использовать их для расширения запросов.

Сценарий 2: Идентификация морфологических вариантов (по методу Claim 11)

Запрос 1 (Q1): «Camp gear»
Запрос 2 (Q2): «Camping gear»
Поведение пользователей: Пользователи выбирают результаты с категорией «Outdoor Recreation Business». Категории совпадают.
Анализ: Edit Distance между «Camp» и «Camping» равно 3.
Проверка порога: 3 ниже порогового значения Threshold Edit Distance (например, 4).
Результат: Система идентифицирует «Camp» и «Camping» как Stem Variants, даже если объем кликов пока невысок (порог объема кликов не обязателен для этого метода).

Чем этот метод отличается от традиционного стемминга?

Традиционный стемминг использует предопределенные лингвистические правила для удаления окончаний и суффиксов. Этот патент описывает метод, основанный на данных (data-driven), который использует поведение пользователей (клики) и категории результатов для определения семантической связи между словами, даже если они не соответствуют стандартным правилам стемминга (например, «pizza» и «pizzeria»).

Может ли система связать слова, если их Edit Distance велико (например, синонимы с разным написанием)?

Да. Независимый пункт Claim 1 описывает метод, который не требует низкого Edit Distance. Если два разных слова (например, «Врач» и «Доктор») постоянно приводят к выбору результатов одной категории («Medical Clinic») и совокупный объем этих выборов превышает порог статистической значимости, система может идентифицировать их как варианты (синонимы).

Что такое Edit Distance (Редакционное расстояние) и когда оно используется?

Это мера того, насколько два слова отличаются по написанию (количество вставок, удалений, замен символов). Оно используется в методе, описанном в Claim 11, как обязательное условие: два слова считаются вариантами, если их Edit Distance ниже порога И они ведут к одной категории результатов. Это гарантирует лингвистическое сходство.

Насколько важна категоризация в Google Business Profile (GBP) в свете этого патента?

Она критически важна для локального SEO. Патент напрямую использует категории сущностей (Category Storage) как основу для определения семантической связи между запросами. Правильная и точная категоризация вашего бизнеса помогает Google понять, к каким запросам и их вариантам вы релевантны.

Применяется ли этот алгоритм только к локальному поиску (Local Search)?

В патенте примеры и описание системы (Local Search Server System) сильно сфокусированы на локальном поиске и категориях бизнеса, так как там данные наиболее структурированы. Хотя теоретически он может применяться шире (например, в E-commerce), его основная сила и описанное применение связаны с локальными сущностями и организациями.

Означает ли это, что мне больше не нужно использовать вариации ключевых слов в контенте?

Не совсем. Хотя этот механизм улучшает способность Google распознавать варианты, использование естественных синонимов и релевантных терминов по-прежнему является хорошей практикой. Это помогает повысить тематический авторитет и гарантировать релевантность для запросов, для которых Google еще не установил связи через этот метод (например, из-за нехватки данных).

Как этот патент соотносится с современными NLP-моделями, такими как BERT?

Современные модели, такие как BERT, понимают контекст на более глубоком уровне. Однако методы, описанные в этом патенте, не устарели. Они предоставляют конкретные, основанные на поведении пользователей сигналы связи между терминами. Эти данные могут использоваться как для прямого расширения запросов, так и в качестве ценных обучающих данных для тонкой настройки (fine-tuning) больших языковых моделей.

Как Google обрабатывает термины местоположения в запросах?

Патент явно указывает (Claim 14), что система идентифицирует термины местоположения (например, «NYC» или «Manhattan») и исключает их перед расчетом Edit Distance между остальными терминами запроса. Это позволяет сравнивать намерения пользователей в разных географических точках и устанавливать общие связи между терминами.

Является ли этот процесс идентификации вариантов real-time процессом?

Нет. Идентификация новых Stem Variants путем анализа логов, расчета Edit Distance и проверки категорий происходит в офлайн-режиме. Однако применение этих вариантов для расширения запросов (Query Expansion) происходит в реальном времени, когда пользователь вводит запрос.

Что важнее: сходство написания или объем кликов?

Патент описывает два независимых метода. В одном (Claim 11) критично сходство написания (низкий Edit Distance). В другом (Claim 1) критичен объем кликов (Threshold Number of User Selections). Система может использовать один из них или оба для идентификации вариантов, что обеспечивает максимальный охват.

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

US9183297B1
2015-11-10

Семантика и интент

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска

Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.

US20140358904A1
2014-12-04

Семантика и интент
SERP

Как Google автоматически генерирует правила нормализации слов и поиска вариантов с помощью суффиксных деревьев

Google использует статистические методы и структуру данных «суффиксное дерево» для автоматического создания правил изменения окончаний слов (стемминга и генерации вариантов). Система анализирует наблюдаемые пары слов, обобщает их до правил и использует алгоритмы оптимизации, чтобы определить, когда эти правила применимы, а когда нет. Это обеспечивает точность обработки языка даже для редких слов.

US8352247B2
2013-01-08

Индексация

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент

Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP
Персонализация
Поведенческие сигналы

Как Google использует блокировку сайтов пользователями для персонализации выдачи и как глобальный сигнал ранжирования (Remove List Score)

Google позволяет пользователям удалять нежелательные документы или целые сайты из своей поисковой выдачи. Система агрегирует эти данные о блокировках от множества пользователей и использует их как глобальный сигнал ранжирования — «Remove List Score» — для выявления низкокачественного контента и улучшения качества поиска для всех.

US8417697B2
2013-04-09

Персонализация
Поведенческие сигналы
Антиспам

Как Google переносит вес поведенческих сигналов (кликов) между связанными запросами для улучшения ранжирования

Google улучшает ранжирование по редким или новым запросам, для которых недостаточно собственных данных, используя поведенческие сигналы (Clickthrough Data) из связанных запросов. Если пользователи часто вводят запросы последовательно, система идентифицирует связь и переносит данные о кликах с одного запроса на другой, позволяя документам с высоким engagement ранжироваться выше по всему кластеру.

US7505964B2
2009-03-17

Поведенческие сигналы
SERP

Как Google определяет основной контент страницы, анализируя визуальную структуру и характеристики разделов

Google использует систему для идентификации основного контента веб-страницы путем её разделения на логические разделы на основе визуального макета. Система оценивает характеристики каждого раздела (соотношение ссылок к тексту, количество слов, изображения, расположение) относительно характеристик всей страницы, чтобы выделить наиболее значимый контент и отделить его от навигации и шаблонов.

US20140372873A1
2014-12-18

Структура сайта
Техническое SEO
Ссылки

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует визуальный анализ кликов по картинкам для понимания интента запроса и переранжирования выдачи

Google анализирует визуальное содержимое изображений, которые пользователи чаще всего выбирают в ответ на определенный запрос. На основе этого анализа (наличие лиц, текста, графиков, доминирующих цветов) система определяет категорию запроса (например, «запрос о конкретном человеке» или «запрос на определенный цвет»). Эти категории затем используются для переранжирования будущих результатов поиска, повышая изображения, которые визуально соответствуют выявленному интенту.

US9836482B2
2017-12-05

Семантика и интент
Поведенческие сигналы
SERP

Как Google использует историю браузера, закладки и поведение пользователей для персонализации результатов поиска в e-commerce

Система отслеживает поведение пользователей (клики, время на сайте, покупки) и их сохраненные закладки (content pointers) в сетевой среде. На основе этих данных создается персональная модель релевантности и иерархия предпочтений. Эта модель используется для дополнения запросов, переранжирования результатов поиска и предоставления рекомендаций, обеспечивая персонализированный опыт в e-commerce.

US7089237B2
2006-08-08

Поведенческие сигналы
Персонализация
SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках

Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.

US8417692B2
2013-04-09

Семантика и интент
Поведенческие сигналы

Как Google использует CTR и E-E-A-T сигналы для определения контекста ссылок и оценки качества внешних упоминаний

Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.

US8656266B2
2014-02-18

Ссылки
EEAT и качество
Свежесть контента

Как Google использует «Фразовую модель» (Phrase Model) для прогнозирования качества сайта на основе статистики использования N-грамм

Google прогнозирует оценку качества сайта, анализируя, какие фразы (N-граммы) используются и как часто они распределены по страницам сайта. Система создает «Фразовую модель», изучая известные высококачественные и низкокачественные сайты, а затем применяет эту модель для оценки новых сайтов по их лингвистическим паттернам.

US9767157B2
2017-09-19

Семантика и интент
Техническое SEO
EEAT и качество