Как Google использует данные о кликах и запросах для определения схожести локальных бизнесов

DETECTION OF RELATED LOCAL ENTITIES (Обнаружение связанных локальных сущностей)

US9858291B1
Google LLC
2014-10-30
2018-01-02

Google определяет, насколько похожи друг на друга локальные бизнесы (например, рестораны), анализируя поведение пользователей. Система изучает, какие запросы вводят пользователи и как часто они кликают на конкретный бизнес в ответ на эти запросы. Сравнивая эти поведенческие профили, Google вычисляет меру сходства, учитывая распределение кликов и отфильтровывая общие или навигационные термины.

Какую проблему решает

Патент решает задачу идентификации и ранжирования локальных сущностей (например, бизнесов, достопримечательностей), которые похожи на заданную локальную сущность. Цель — предоставить пользователям релевантные предложения или альтернативы (например, предложить похожие рестораны). Система стремится сделать это вычислительно эффективным способом, ограничивая сравнение географической областью, и повысить точность, используя фактическое поведение пользователей (запросы и клики) как индикатор сходства, фильтруя при этом «шумные» или предвзятые запросы.

Что запатентовано

Запатентована система для вычисления меры сходства (Similarity Measure) между локальными сущностями на основе данных из логов запросов. Изобретение использует два ключевых показателя для каждого термина запроса, связанного с сущностью: Term Value (частота запросов, включающих термин) и Selection Value (частота кликов по результатам, ссылающимся на сущность, в ответ на эти запросы). Сходство определяется путем сравнения этих значений, с акцентом на распределение кликов (Selection Ratios) и качество термина (Term Quality).

Как это работает

Система работает в несколько этапов:

Сбор данных: Агрегируются данные из логов запросов, вычисляются Term Values (TV) и Selection Values (SV) для терминов, связанных с каждой локальной сущностью.
Выбор сущности: Выбирается первая локальная сущность (например, Ресторан А).
Ограничение области сравнения: Выбирается подмножество (Proper Subset) других локальных сущностей, обычно ограниченное географически (например, в радиусе K миль). Это повышает эффективность и релевантность.
Расчет распределения (Опционально): Вычисляются Selection Ratios (например, SV/TV), чтобы понять, насколько сильно термин связан именно с этой сущностью (концентрация кликов).
Оценка качества терминов (Опционально): Термины с локационной (Location Bias, например, "NYC") или навигационной (Navigational Bias, например, бренды) предвзятостью фильтруются или понижаются в весе.
Вычисление сходства: Сравниваются профили запросов и кликов Ресторана А и каждого бизнеса из подмножества. Сущности с похожими профилями и распределением кликов по высококачественным терминам считаются похожими.
Ранжирование: Подмножество ранжируется на основе рассчитанных мер сходства.

Актуальность для SEO

Высокая. Определение сходства сущностей является фундаментальной задачей в локальном поиске и рекомендательных системах (Google Maps, Local Pack). Использование поведенческих данных (запросов и кликов) для понимания природы бизнеса и его связей остается стандартной практикой. Методы, описанные в патенте, напрямую связаны с функциями типа «Похожие места».

Важность для SEO

Патент имеет высокое значение (85/100) для стратегий локального SEO. Он раскрывает механизм, с помощью которого Google определяет природу бизнеса и его конкурентное окружение, основываясь не столько на заявленных категориях (GBP) или контенте сайта, сколько на фактическом поведении пользователей. Понимание того, какие запросы приводят к кликам на ваш бизнес и на бизнес конкурентов, критически важно для формирования релевантного поведенческого профиля.

Термины и определения

Local Entity (Локальная сущность): Физическая сущность (например, ресторан, магазин, достопримечательность), привязанная к географическому местоположению и имеющая локальное значение для этого местоположения.
Term Value (TV) (Ценность термина): Значение, пропорциональное количеству запросов, включающих данный термин, зарегистрированных в логе запросов. Отражает общую популярность термина.
Selection Value (SV) (Ценность выбора): Значение, пропорциональное количеству выборов (кликов) поисковых результатов, которые ссылаются на данную локальную сущность, в ответ на запрос, включающий данный термин.
Similarity Measure (Мера схожести): Количественная оценка того, насколько одна локальная сущность похожа на другую, основанная на сравнении их соответствующих Term Values и Selection Values.
Proper Subset (Надлежащее подмножество): Группа локальных сущностей, выбранных для сравнения с первой сущностью. Часто определяется географической близостью (например, в пределах порогового расстояния или времени в пути).
Selection Ratio (Коэффициент выбора / Click Fraction): Соотношение Selection Value к Term Value (SV/TV) для конкретного термина и сущности. Используется для измерения распределения и концентрации кликов.
Term Quality (Качество термина): Оценка полезности термина запроса для определения сходства сущностей.
High Quality Query Term (Высококачественный термин запроса): Термин, который указывает на категорию (например, "пицца") и не имеет выраженной локационной или навигационной предвзятости.
Location Bias (Локационная предвзятость): Ситуация, когда клики по термину преимущественно кластеризованы в определенных географических областях (например, термин "NYC").
Navigational Bias (Навигационная предвзятость): Ситуация, когда термин сильно ассоциирован с конкретными сущностями (бренды). Особенно проблематично, если термин навигационный для разных типов сущностей.
Constituent Scoring Component (CSC) (Составной компонент оценки): Промежуточная оценка схожести для одного конкретного термина запроса, учитывающая TV, SV и, возможно, Selection Ratio и Term Quality для обеих сравниваемых сущностей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод определения связанных локальных сущностей.

Система получает доступ к данным для набора Local Entities (физических объектов с гео-привязкой).
Для каждой сущности и термина запроса имеются данные:
- Term Value (TV): пропорционально частоте термина в логах запросов.
- Selection Value (SV): пропорционально количеству кликов на результаты для этой сущности при использовании этого термина.
Выбирается первая локальная сущность.
Выбирается Proper Subset вторых локальных сущностей.
Для каждой второй сущности вычисляется Similarity Measure по отношению к первой сущности на основе TV и SV обеих сущностей.
Вторые сущности ранжируются на основе их Similarity Measure.

Claim 2 (Зависимый от 1): Уточняет критерий выбора подмножества.

Выбор Proper Subset включает только те локальные сущности, которые находятся в пределах порогового расстояния (threshold distance) от географического местоположения первой локальной сущности.

Claim 5 (Зависимый от 1): Вводит концепцию распределения кликов.

Расчет Similarity Measure включает:

Определение первого Selection Ratio (пропорционально SV/TV) для первой сущности.
Определение второго Selection Ratio для второй сущности.
Определение меры сходства на основе этих коэффициентов. Это означает, что система оценивает не только объем кликов, но и их долю (концентрацию) относительно общего числа запросов с этим термином.

Claim 7 (Зависимый от 1): Вводит концепцию качества термина.

Расчет Similarity Measure включает:

Определение Term Quality Score для каждого термина.
Оценка качества основана на том, указывают ли выборы запросов на Location Bias или Navigational Bias.
Мера сходства определяется с учетом этих оценок качества терминов.

Где и как применяется

Изобретение описывает преимущественно офлайн-процесс анализа данных для генерации карты сходства локальных сущностей. Результаты этого процесса затем используются на этапах ранжирования.

INDEXING – Индексирование и извлечение признаков (Офлайн-анализ)
Основная работа алгоритма происходит на этом этапе в виде пакетной обработки данных (Data Pipeline).

Сбор данных: Система использует базовые данные о локальных сущностях (местоположение) из Local Entity Data.
Обработка логов: Local Entity Query Term Profiler анализирует Query Logs для расчета Term Values и Selection Values.
Анализ терминов: Проводится анализ для определения Term Quality и выявления предвзятостей (Bias).
Расчет схожести: Local Entity Similarity Subsystem выполняет итеративный процесс сравнения каждой сущности с ее географически близкими соседями для расчета Similarity Measure.
Сохранение признаков: Рассчитанные списки похожих сущностей сохраняются как признак (feature) исходной сущности.

RANKING / RERANKING – Ранжирование / Переранжирование
Рассчитанные данные о сходстве могут использоваться Local Search Result Subsystem как сигнал ранжирования в локальном поиске. Например, если Ресторан А релевантен запросу, Ресторан Б, имеющий высокую Similarity Measure с Рестораном А, также может получить повышение.

METASEARCH – Метапоиск и Смешивание
Результаты используются для генерации блоков рекомендаций, таких как «Похожие места» или «Люди также ищут», отображаемых на SERP или в интерфейсах карт.

Входные данные:

Логи запросов (Query Logs), включая данные о запросах и кликах (Selection Data).
База данных локальных сущностей (Local Entity Data) с географическими координатами.

Выходные данные:

Для каждой локальной сущности: ранжированный список похожих локальных сущностей с соответствующими Similarity Measures.

На что влияет

Конкретные типы контента: Влияет исключительно на локальные сущности (бизнесы, организации, достопримечательности), которые имеют физическое местоположение.
Конкретные ниши или тематики: Наибольшее влияние в конкурентных локальных нишах (рестораны, розничная торговля, услуги), где пользователям часто требуются альтернативы и рекомендации.
Специфические запросы: Алгоритм анализирует все типы запросов, но придает больший вес категорийным запросам (High Quality Terms), фильтруя навигационные и чисто географические.

Когда применяется

Условия работы алгоритма: Алгоритм применяется для предварительного расчета сходства между сущностями, которые находятся в пределах определенного географического расстояния или времени в пути друг от друга (Threshold Distance). Требует наличия достаточного объема данных в логах запросов.
Временные рамки: Расчеты производятся периодически (офлайн) для обновления данных о сходстве на основе свежих логов запросов.

Пошаговый алгоритм

Процесс А: Расчет схожести локальных сущностей

Доступ к данным: Получение данных, указывающих для каждой локальной сущности Term Values (TV) и Selection Values (SV) для связанных с ней терминов запросов.
Выбор первой сущности: Выбор первой локальной сущности (Entity A) из набора.
Выбор подмножества (Географическое ограничение): Выбор Proper Subset вторых локальных сущностей (Subset B), которые находятся в пределах порогового расстояния от Entity A.
Итерация по подмножеству: Для каждой сущности (Entity B) в Subset B:
1. (Опционально) Расчет коэффициентов выбора: Определение Selection Ratio (SV/TV) для каждого термина для Entity A и Entity B.
2. (Опционально) Оценка качества терминов: Определение Term Quality для каждого термина (см. Процесс Б).
3. Расчет меры сходства: Определение Similarity Measure между Entity A и Entity B. Это может включать расчет Constituent Scoring Components (CSC), взвешенных с учетом Selection Ratios и Term Quality. Система может также сравнивать Selection Ratio сущности с медианным значением для этого термина, чтобы определить его значимость.
Ранжирование: Ранжирование сущностей в Subset B в порядке, отражающем их Similarity Measure по отношению к Entity A.
Повторение: Повторение шагов 2-5 для всех локальных сущностей в наборе.

Процесс Б: Определение качества термина (Term Quality)

Идентификация категориальных терминов: Определение, указывает ли термин на категорию (например, если пороговая доля кликов приходится на документы определенной категории).
Проверка на предвзятость: Анализ распределения кликов для термина.
Проверка Location Bias: Определение, кластеризованы ли клики географически.
Проверка Navigational Bias: Определение, кластеризованы ли клики по конкретным сущностям, особенно если эти сущности разных типов.
Присвоение качества: Если термин категориальный И не имеет Location Bias И не имеет Navigational Bias, он помечается как High Quality. В противном случае — как Low Quality.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Ключевые): Основа изобретения. Используются логи запросов (Query Logs).
- Частота запросов, включающих определенный термин (для расчета Term Value).
- Частота кликов (Selections) на результаты поиска, ссылающиеся на локальную сущность (для расчета Selection Value).
Географические факторы: Географическое местоположение локальных сущностей используется для ограничения области сравнения (Proper Subset) и для определения Location Bias термина.
Структурные/Системные данные (Косвенно): Категоризация документов/сущностей используется для определения того, является ли термин запроса индикатором категории (High Quality Term).

Какие метрики используются и как они считаются

Term Value (TV): $TV \propto$ Количество появлений термина в логах.
Selection Value (SV): $SV \propto$ Количество кликов на сущность по запросам с этим термином.
Selection Ratio (Коэффициент выбора): Рассчитывается как отношение SV к TV (SV/TV). Используется для понимания распределения и концентрации кликов.
Term Quality (Качество термина): Метрика (может быть бинарной или числовой), определяемая на основе анализа Location Bias, Navigational Bias и категориальной принадлежности термина.
Similarity Measure (Мера схожести): Итоговая метрика. Рассчитывается путем агрегации промежуточных оценок по всем терминам. В патенте упоминаются различные способы расчета, включая Constituent Scoring Components (CSC). Пример функции из описания: $CSC_q = f(TV_{qj}, SV_{qj}, TV_{qk}, SV_{qk})$ ,SVqk).
Threshold Distance (Пороговое расстояние): Используется для ограничения географической области сравнения. Может быть фиксированным, зависеть от типа сущности или основываться на времени в пути.

Схожесть основана на поведении пользователей, а не только категориях: Ключевой вывод заключается в том, что Google определяет схожесть локальных бизнесов, анализируя, как пользователи ищут и взаимодействуют с ними (клики). Две сущности похожи, если они получают клики в ответ на схожий набор запросов.
Важность распределения и концентрации кликов (Click Fractions): Недостаточно просто получать много кликов. Система анализирует Selection Ratio (SV/TV). Это позволяет отличить общие термины (например, «отзывы») от специфических (например, «пицца»). Концентрация кликов по термину на конкретной сущности является сильным сигналом схожести.
Географическое ограничение сравнения: Схожесть рассчитывается только между географически близкими сущностями. Это отражает намерение пользователя найти альтернативу поблизости и делает систему вычислительно эффективной.
Фильтрация «шумных» терминов (Term Quality): Система активно фильтрует термины, которые не помогают определить природу бизнеса. Термины с Location Bias (названия городов) и Navigational Bias (бренды) считаются низкокачественными для целей сравнения. Приоритет отдается категорийным терминам.
Поведенческий профиль определяет сущность: Для локального SEO это означает, что то, как Google «понимает» ваш бизнес и его конкурентов, напрямую зависит от того, по каким запросам пользователи кликают на него в результатах поиска.

Best practices (это мы делаем)

Формирование четкого поведенческого профиля: Необходимо сосредоточиться на привлечении кликов по ключевым, категориальным запросам (High Quality Terms), которые точно описывают ваш бизнес. Это укрепит связь между этими терминами и вашей сущностью, повышая Selection Ratio.
Оптимизация CTR по целевым запросам: Работайте над сниппетами (Title, Description) и привлекательностью профиля в GBP (фото, отзывы), чтобы увеличить CTR по категорийным запросам. Чем выше Selection Value по качественным терминам, тем четче ваш профиль и точнее система определит похожие бизнесы.
Анализ конкурентного сходства: Изучайте, какие бизнесы Google считает похожими на ваш (например, в блоках «Похожие места»). Если там появляются нерелевантные сущности, это сигнал о том, что ваш поведенческий профиль размыт и нужно скорректировать стратегию привлечения трафика по целевым запросам.
Фокус на нишевых услугах: Для бизнесов с широким спектром услуг важно обеспечить высокие Selection Ratios по нишевым запросам. Это поможет системе понять специализацию и правильно подобрать схожие сущности для разных аспектов деятельности.

Worst practices (это делать не надо)

Привлечение нецелевого трафика/кликов: Попытки ранжироваться и получать клики по широким или нерелевантным запросам размывают поведенческий профиль бизнеса. Это может привести к тому, что система будет считать ваш бизнес похожим на нерелевантные сущности (как в примере с казино и рестораном, описанном в патенте).
Фокус только на брендовом трафике: Брендовые запросы часто классифицируются как имеющие Navigational Bias и имеют меньший вес при определении схожести. Нельзя игнорировать оптимизацию под категориальные запросы.
Игнорирование локального контекста: Применение единой SEO-стратегии для всех филиалов сети без учета локальной конкуренции неэффективно, так как схожесть рассчитывается в пределах географического радиуса каждого филиала.
Опора только на категории GBP: Выбор категорий в Google Business Profile без подтверждения их релевантными поведенческими сигналами (кликами по соответствующим запросам) не гарантирует правильную классификацию бизнеса системой.

Стратегическое значение

Этот патент подчеркивает переход от статического понимания локальных сущностей к динамическому, основанному на поведении пользователей. Стратегия локального SEO должна быть направлена на то, чтобы поведенческий профиль бизнеса (совокупность запросов, по которым на него кликают) максимально точно соответствовал его реальной деятельности. Это определяет, с кем Google будет сравнивать ваш бизнес и кому рекомендовать его в качестве альтернативы.

Практические примеры

Сценарий: Определение схожести для кафе с размытым позиционированием

Сущность А (Целевая): Кафе «Ромашка».
Анализ запросов и кликов:
- Термин «Кофе»: TV=10000, SV=2000. Selection Ratio=0.2
- Термин «Бургеры»: TV=5000, SV=1500. Selection Ratio=0.3
- Термин «WiFi»: TV=20000, SV=1000. Selection Ratio=0.05
Сущность Б (Конкурент 1): Бургерная «Котлета».
- Термин «Кофе»: SV=100. Selection Ratio=0.01
- Термин «Бургеры»: SV=2500. Selection Ratio=0.5
Сущность В (Конкурент 2): Кофейня «Зерно».
- Термин «Кофе»: SV=4000. Selection Ratio=0.4
- Термин «Бургеры»: SV=50. Selection Ratio=0.01
Расчет схожести:
- Термин «WiFi» имеет низкий Selection Ratio и, вероятно, будет иметь низкий Term Quality (шумный). Его вес минимален.
- Кафе «Ромашка» имеет значительные Selection Ratios как по «Кофе», так и по «Бургерам».
- Система определит, что «Ромашка» имеет умеренную схожесть с «Котлетой» (из-за схожего паттерна по «Бургерам») и умеренную схожесть с «Зерном» (из-за «Кофе»).
Результат для SEO: Если «Ромашка» хочет позиционироваться как кофейня, ей необходимо увеличить Selection Value и Selection Ratio по запросам, связанным с кофе, и, возможно, уменьшить акцент на бургерах, чтобы ее поведенческий профиль больше совпадал с профилем «Зерна».

Как Google определяет, похож ли мой ресторан на ресторан конкурента согласно этому патенту?

Google анализирует логи запросов. Если пользователи часто используют одни и те же категорийные термины (например, "итальянская паста", "семейный ужин") и кликают как на ваш ресторан, так и на ресторан конкурента в ответ на эти запросы, система рассчитывает высокую Similarity Measure. При этом учитывается не только общее количество кликов, но и их доля (Selection Ratio) для каждого бизнеса.

Что такое Term Value (TV) и Selection Value (SV) простыми словами?

Term Value (TV) отражает, как часто термин используется в поиске в целом (популярность термина). Selection Value (SV) отражает, как часто пользователи кликали именно на вашу сущность, когда использовали этот термин в запросе. Сравнение этих двух метрик для разных бизнесов позволяет определить их схожесть.

Почему Google сравнивает мой бизнес только с ближайшими конкурентами?

Патент описывает механизм ограничения области сравнения по географическому признаку (Threshold Distance). Это делается для вычислительной эффективности (не нужно сравнивать миллионы сущностей друг с другом) и для повышения релевантности, так как пользователи обычно ищут локальные альтернативы поблизости.

Что важнее: общее количество кликов или доля кликов по запросу (Selection Ratio)?

Доля кликов (Selection Ratio, SV/TV) важнее для определения схожести. Высокая доля кликов по конкретному термину является сильным сигналом того, что этот термин действительно важен для вашего бизнеса. Это помогает отфильтровать шум от общеупотребительных терминов, по которым клики распределены между множеством разных бизнесов.

Что такое "качественный термин" (High Quality Term) в контексте локального SEO?

Это термин, который хорошо описывает категорию бизнеса и не имеет предвзятости. Например, "пицца" или "стрижка" — это качественные термины. Термины вроде названий городов (имеют Location Bias) или названий брендов (имеют Navigational Bias) считаются менее качественными для определения общего сходства между разными бизнесами.

Если я получаю много трафика по нерелевантному запросу, это хорошо?

С точки зрения этого патента, это может навредить. Если вы получаете значительную долю кликов по запросам, которые не соответствуют вашей основной деятельности, это размывает ваш поведенческий профиль. Система может начать считать ваш бизнес похожим на те сущности, которые действительно релевантны этому запросу, и перестать ассоциировать вас с вашими прямыми конкурентами.

Как я могу повлиять на то, с кем Google сравнивает мой бизнес?

Вы можете повлиять на это, формируя свой поведенческий профиль кликов. Сосредоточьтесь на оптимизации контента (сайт и GBP) и повышении CTR по наиболее релевантным, категорийным запросам. Цель состоит в том, чтобы максимизировать Selection Value и Selection Ratio именно по тем терминам, которые определяют вашу нишу.

Используется ли контент моего сайта для определения схожести?

В данном патенте контент сайта напрямую не используется для расчета Similarity Measure. Сходство определяется на основе анализа логов запросов и кликов. Однако контент сайта косвенно влияет на то, по каким запросам вы ранжируетесь и получаете клики, что, в свою очередь, формирует входные данные (Selection Values) для этого алгоритма.

Может ли этот алгоритм связать два бизнеса из разных категорий GBP?

Да. Если два бизнеса (например, Кофейня и Пекарня) находятся рядом и оба получают высокий Selection Ratio по терминам типа "круассаны на завтрак" и "свежая выпечка", система определит высокую степень схожести между ними на основе этих общих поведенческих паттернов, несмотря на разные основные категории в GBP.

Что такое Location Bias и почему это плохо для определения схожести?

Location Bias возникает, когда термин привязан к географии (например, «Манхэттен»). Это плохо, потому что цель алгоритма — найти похожие по природе бизнесы. Если бы термин «Манхэттен» учитывался, система бы решила, что пиццерия на Манхэттене больше похожа на химчистку на Манхэттене (так как у обоих есть клики по этому термину), чем на пиццерию в Бруклине, что неверно с точки зрения категории бизнеса.

Как Google определяет 'эталонное расстояние' для локальных бизнесов, чтобы сбалансировать релевантность и близость похожих мест

Google использует механизм для определения списка похожих локальных бизнесов. Система агрегирует несколько списков похожих мест, ранжированных по разным сигналам (например, по типу кухни, по отзывам). Затем вычисляется 'эталонное расстояние' на основе того, как далеко находятся наиболее похожие бизнесы. Это расстояние используется для корректировки финального списка: слишком далекие места понижаются, даже если они очень похожи по тематике.

US10025830B1
2018-07-17

Local SEO

Как Google использует данные о реальных повторных посещениях (Quality Visit Measure) и социальных взаимодействиях для ранжирования локального бизнеса

Google использует данные о физических посещениях пользователей для оценки качества локального бизнеса. Система рассчитывает «Quality Visit Measure», придавая значительно больший вес местам, куда люди возвращаются повторно, приводят друзей или посещают по рекомендации. Этот показатель используется как сильный сигнал качества для ранжирования в локальном поиске и Google Maps, снижая зависимость от онлайн-отзывов.

US10366422B2
2019-07-30

Поведенческие сигналы
Local SEO

Как Google динамически изменяет радиус локального поиска в зависимости от популярности бизнеса, типа запроса и активности пользователя

Google не использует фиксированный радиус для локального поиска. Система динамически определяет, насколько далеко пользователь готов пойти или поехать, учитывая тип запроса (кофейня или аэропорт), активность пользователя (пешком или за рулем) и популярность бизнеса. Это определяет, какие локальные компании попадают в выдачу (Local Pack и Карты).

US20150278860A1
2015-10-01

Local SEO
Поведенческие сигналы
Персонализация

Как Google определяет, когда игнорировать местоположение пользователя и показывать глобальные результаты для уникальных сущностей

Google использует систему для динамического выбора между показом результатов, привязанных к предполагаемому местоположению пользователя (например, по IP или GPS), и глобальными результатами. Если глобальные результаты географически тесно сгруппированы вокруг определенного места, система может решить, что пользователь ищет конкретную уникальную сущность (например, известный ресторан в другом городе), и предпочтет эти глобальные результаты локальным.

US10037357B1
2018-07-31

Local SEO
SERP

Как Google автоматически создает и ранжирует шаблоны запросов с сущностями для улучшения поисковых подсказок (Autocomplete)

Google использует систему для автоматического обнаружения паттернов в поисковых запросах, которые включают фиксированные термины и сущности из определенной категории (например, «рестораны в [городе]»). Система генерирует шаблоны запросов, оценивает их качество на основе частоты использования, разнообразия сущностей и их распределения, а затем использует эти шаблоны для формирования более точных и структурированных поисковых подсказок в реальном времени.

US9529856B2
2016-12-27

Knowledge Graph
Семантика и интент
Поведенческие сигналы

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google рассчитывает тематический авторитет сайта для кастомизации поиска с помощью Topic-Sensitive PageRank

Патент Google, описывающий механизм кастомизации результатов поиска, инициированного со стороннего сайта (например, Google Custom Search). Система использует «профиль сайта» для повышения результатов, соответствующих его тематике. Ключевая ценность патента — детальное описание расчета тематической авторитетности (Topic Boosts) путем анализа ссылок с эталонных сайтов (Start Sites), что является реализацией Topic-Sensitive PageRank.

US7565630B1
2009-07-21

Персонализация
SERP
Ссылки

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google использует данные из Local Search и Google Maps для распознавания географических названий в основном поиске

Google анализирует поведение пользователей в интерфейсах с отдельными полями ввода "Что?" и "Где?" (например, в Google Maps). На основе этой статистики система определяет, является ли термин однозначным названием местоположения ("Нью-Йорк") или нет ("Пицца"). Это позволяет поиску отличать локальные запросы от общих и формировать "черные списки" для терминов, которые похожи на города, но ими не являются (например, "Орландо Блум").

US8782030B1
2014-07-15

Local SEO
Семантика и интент
Поведенческие сигналы

Как Google определяет географическую релевантность сайта по локали ссылающихся на него ресурсов и их аудитории

Google использует географические сигналы ссылающихся сайтов для определения локальной релевантности целевого домена. Система анализирует контент, технические данные и, что важно, географию аудитории ссылающихся ресурсов, чтобы вычислить «Link Based Locale Score». Эта оценка комбинируется с собственными сигналами сайта и используется для повышения позиций в релевантных географических регионах.

US8788490B1
2014-07-22

Local SEO
Ссылки
SERP

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске

Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.

US20240378236A1
2024-11-14

Мультимедиа
EEAT и качество
Ссылки

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта

Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.

US8121991B1
2012-02-21

Индексация
Техническое SEO
Структура сайта

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации "родственных запросов" (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, "погода в Москве" и "погода в Париже"). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

US11379527B2
2022-07-05

Семантика и интент
Поведенческие сигналы