SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует закон Ципфа для выявления спама и манипуляций с названиями в локальных листингах

SYSTEM AND METHOD FOR DETERMINING THE LEGITIMACY OF A LISTING (Система и метод определения легитимности листинга)
  • US9483566B2
  • Google LLC
  • 2013-01-23
  • 2016-11-01
  • Антиспам
  • Local SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует все известные названия (Titles), связанные с локальным бизнесом. Система сравнивает распределение частотности слов в этих названиях с двумя моделями: равномерным распределением (характерно для легитимных данных из разных источников) и распределением по закону Ципфа (характерно для маркетинговых текстов и спама). Если распределение ближе к закону Ципфа, листинг помечается как потенциальный спам и понижается в локальной выдаче.

Описание

Какую проблему решает

Патент решает проблему спама в локальном поиске (например, в Google Maps). Он направлен на выявление нелегитимных листингов (spam listings) или листингов, чьи описания (в частности, названия бизнеса – titles) были искусственно манипулированы для повышения позиций в выдаче. Основная уязвимость, которую устраняет патент, — это практика добавления множества вариаций названий, насыщенных ключевыми словами (keyword stuffing), для одного и того же объекта с целью манипуляции ранжированием.

Что запатентовано

Запатентована система для оценки легитимности локального листинга (listing) путем анализа статистического распределения терминов во всех связанных с ним описаниях. Система сравнивает фактическое распределение частотности терминов с двумя теоретическими моделями: равномерным распределением (uniform distribution) и распределением, характерным для естественного языка (natural language distribution), в частности, по закону Ципфа (Zipf's law). Предполагается, что листинги, чье распределение терминов ближе к естественному языку, с большей вероятностью являются спамом или содержат маркетинговый текст, созданный для манипуляции.

Как это работает

Система агрегирует все известные описания (например, названия бизнеса из разных источников) для одного листинга и анализирует частоту встречаемости каждого уникального термина (Measured Frequency).

Этот набор частот сравнивается с двумя эталонами:

  • Равномерное распределение (Uniform Distribution): Ожидается для легитимных листингов, так как объективные источники (например, справочники) используют схожие или идентичные названия.
  • Распределение по закону Ципфа (Zipf-based Distribution): Ожидается для спама, где спамер комбинирует различные ключевые слова для создания множества вариаций (маркетинговый текст).

На основе того, к какому эталону ближе фактическое распределение, вычисляется оценка (Score Value). Если оценка указывает на высокую вероятность спама (ближе к закону Ципфа), листинг понижается в результатах поиска или удаляется.

Актуальность для SEO

Высокая. Борьба со спамом в локальном поиске и Google Maps остается критически важной задачей. Описанный метод предоставляет надежный статистический механизм для выявления искусственных манипуляций с названиями (Keyword Stuffing) в листингах, что делает его актуальным инструментом в арсенале антиспам-систем Google.

Важность для SEO

Патент имеет высокое значение для стратегий локального SEO (Local SEO). Он математически обосновывает, почему Google наказывает за перечисление ключевых слов в названии бизнес-профиля (Google Business Profile). Система активно выявляет попытки манипулировать названиями путем добавления вариаций или маркетинговых фраз. Для легитимных бизнесов критически важно использовать свое настоящее, консистентное название и избегать тактик, которые могут сделать распределение терминов похожим на маркетинговый текст.

Детальный разбор

Термины и определения

Listing (Листинг)
Запись в базе данных, идентифицирующая локальный бизнес или другой объект, связанный с конкретным географическим положением (location-based entity).
Description / Titles (Описание / Названия)
Текстовые данные, связанные с листингом. В контексте патента чаще всего подразумеваются названия бизнеса. Один листинг может агрегировать Titles из разных источников (пользователи, веб-сайты, справочники).
Term (Термин)
Слово, фраза или символ, содержащийся в описании.
Termcount (Количество уникальных терминов)
Общее количество уникальных терминов во всех описаниях листинга.
Occurrences (Общее количество вхождений)
Суммарное количество всех терминов (включая дубликаты) во всех описаниях листинга.
Measured Frequency (F) (Измеренная частота)
Фактическое количество раз, когда уникальный термин встречается во всех агрегированных описаниях листинга.
Uniform Distribution (U) (Равномерное распределение)
Теоретическое распределение, при котором все уникальные термины встречаются с одинаковой или почти одинаковой частотой. Ассоциируется с легитимными данными.
Natural Language Distribution (Распределение естественного языка)
Теоретическое распределение частотности терминов, ожидаемое в корпусе естественного языка или маркетинговом тексте.
Zipf's law (Закон Ципфа)
Эмпирическое правило, описывающее распределение частотности слов в естественном языке: частота слова обратно пропорциональна его рангу.
Zipf-based Distribution (Z) (Распределение на основе закона Ципфа)
Конкретная реализация Natural Language Distribution, используемая в патенте как эталон для выявления спама.
Score Value (Оценка)
Метрика, вычисляемая системой (например, от 0 до 1), которая отражает вероятность того, что листинг является спамом. Основана на сравнении F с U и Z. 0 – легитимный (как U), 1 – спам (как Z).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод анализа листинга.

  1. Система получает набор терминов из описания листинга.
  2. Вычисляются первые значения (Measured Frequency, F) — фактическая частота каждого термина.
  3. Вычисляются вторые значения (Natural Language Distribution, Z) — оценка частоты терминов в естественном языке.
  4. Определяется количество уникальных терминов (Termcount) и общее количество всех терминов (Occurrences).
  5. Вычисляются третьи значения (Uniform Distribution, U) — равномерные значения, основанные на отношении уникальных терминов ко всем терминам.
  6. Вычисляется Score Value для листинга. Эта оценка основана на сравнении: насколько F похожа на Z и насколько F похожа на U.
  7. При получении поискового запроса позиция листинга в результатах поиска определяется с учетом этого Score Value.

Claim 13 (Независимый пункт): Детализирует применение метода к локальным объектам с множеством описаний.

  1. Система обрабатывает множество описаний, связанных с одним и тем же локальным объектом (location-based entity).
  2. Определяется набор измеренных значений (F).
  3. Определяется первый набор сравнительных значений (Z). Эти значения основаны на функции (например, Ципфа), и они убывают (наиболее частый термин имеет наибольшее значение, наименее частый — наименьшее).
  4. Определяется второй набор сравнительных значений (U). Эти значения равны (константны) для каждого термина и основаны на отношении уникальных терминов к общему числу терминов.
  5. Система сравнивает F с Z и U, чтобы определить, к какому набору F ближе.
  6. Определяется третье значение (Score Value) на основе сравнения, которое оценивает вероятность спама.
  7. Позиция описания в результатах поиска зависит от этого значения.

Claim 15 (Независимый пункт): Описывает процесс с точки зрения системы ранжирования.

Позиция листинга в результатах локального поиска определяется на основе: (a) релевантности запросу, (b) значений частотности терминов (F), и (c) того, являются ли эти значения частотности (F) более похожими на константную функцию (U), чем на функцию убывающих значений (Z).

Где и как применяется

Изобретение применяется в инфраструктуре локального поиска (Local Search / Google Maps).

CRAWLING & Data Acquisition – Сканирование и Сбор данных
Система собирает данные о локальных бизнесах из множества источников (веб-сайты, справочники, данные от пользователей/владельцев). Ключевым является сбор всех возможных названий (Titles) для одного и того же объекта.

INDEXING & Feature Extraction – Индексирование и извлечение признаков
На этом этапе происходит агрегация данных и основные вычисления. Система связывает различные названия с одним листингом. Затем происходит:

  • Анализ частотности терминов (F).
  • Расчет теоретических распределений (U и Z).
  • Сравнение распределений и вычисление Score Value (вероятность спама).

Этот Score Value сохраняется как атрибут листинга в индексе.

RANKING / RERANKING – Ранжирование и Переранжирование
Во время обработки локального поискового запроса система использует предварительно рассчитанный Score Value как фактор ранжирования. Если оценка указывает на высокую вероятность спама (распределение ближе к Z), листинг понижается в выдаче или исключается из нее.

Входные данные:

  • Набор названий (Titles) или описаний (Descriptions), связанных с конкретным листингом.

Выходные данные:

  • Score Value для листинга, указывающий на вероятность спама.

На что влияет

  • Конкретные типы контента: Влияет исключительно на локальные листинги (local business listings) в Google Maps и Local Pack. Не влияет на стандартный веб-поиск.
  • Специфические запросы: Локальные запросы (например, поиск услуг или компаний поблизости).
  • Конкретные ниши или тематики: Наибольшее влияние в высококонкурентных локальных нишах, подверженных спаму (например, слесари, эвакуаторы, ремонт бытовой техники).

Когда применяется

  • Условия работы алгоритма: Алгоритм применяется ко всем локальным листингам. Он особенно эффективен, когда у листинга есть достаточное количество терминов и вариаций названий (собранных из разных источников) для статистического анализа.
  • Временные рамки: Расчет Score Value происходит на этапе индексации или при обновлении данных листинга (офлайн или периодически). Применение оценки происходит в реальном времени во время ранжирования.

Пошаговый алгоритм

Процесс А: Расчет оценки спама (Индексирование)

  1. Агрегация названий: Для анализируемого листинга собирается набор всех связанных с ним названий (Titles).
  2. Определение уникальных терминов: Определяется количество различных терминов (Termcount).
  3. Расчет измеренной частоты (F): Для каждого уникального термина определяется частота его появления во всем наборе названий.
  4. Расчет общего числа вхождений: Определяется общее количество вхождений всех терминов (Occurrences).
  5. Расчет теоретического равномерного распределения (U): Вычисляется ожидаемая частота при равномерном распределении. U(t)=Occurrences/TermcountU(t) = Occurrences / TermcountU(t)=Occurrences/Termcount.
  6. Расчет теоретического распределения естественного языка (Z): Вычисляется ожидаемая частота на основе закона Ципфа. Термины ранжируются по частоте (n=1 для самого частого). В патенте указана формула: Z(t)=1/n∗1/h∗OccurrencesZ(t) = 1/n * 1/h * OccurrencesZ(t)=1/n∗1/h∗Occurrences (где h – сумма ряда 1/k от 1 до Termcount).
  7. Сравнение и расчет оценки (Векторный анализ): F, U и Z рассматриваются как векторы в N-мерном пространстве (N=Termcount). Система определяет, насколько вектор F близок к U или Z. Используется метод ортогональной проекции F на линию, проходящую через U и Z.
  8. Расчет Score Value: Оценка (например, от 0 до 1) показывает, насколько распределение близко к U (0 - легитимный) или Z (1 - спам). Рассчитывается как отношение расстояний: Score=d(V,U)/d(Z,U)Score = d(V, U)/d(Z, U)Score=d(V,U)/d(Z,U).
  9. Сохранение оценки: Score Value сохраняется для листинга.

Процесс Б: Обработка запроса (Ранжирование)

  1. Получение запроса: Пользователь вводит локальный запрос.
  2. Ранжирование и корректировка: Система ранжирует релевантные листинги. Score Value используется как фактор ранжирования. Листинги с высоким Score Value понижаются в выдаче.

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе текстовых данных, связанных с локальными листингами.

  • Контентные факторы: Ключевыми данными являются названия (Titles) и описания (Descriptions) листинга. Анализируются термины внутри этих текстовых полей.
  • Структурные данные: Система использует данные, агрегированные из различных источников (веб, справочники, пользователи). Важна сама структура агрегации множества названий для одного листинга.
  • Пользовательские факторы (Косвенно): В патенте упоминается (Claim 11), что если пользователь (владелец листинга) идентифицирован как спамер на основе анализа одного листинга, другие его листинги также могут быть затронуты или помечены как спам.

Какие метрики используются и как они считаются

  • Termcount и Occurrences: Базовые счетчики.
  • Measured Frequency (F): Вектор фактических частот.
  • Uniform Distribution (U): Вектор теоретических равномерных частот. Рассчитывается как среднее арифметическое.
  • Zipf-based Distribution (Z): Вектор теоретических частот по закону Ципфа. Рассчитывается на основе ранга термина.
  • Score Value: Метрика схожести F с U и Z. Рассчитывается с использованием геометрических методов (расстояние между векторами, векторная проекция). В патенте описан метод расчета через ортогональную проекцию V вектора F на линию UZ: V=U+c(Z−U)V = U + c(Z-U)V=U+c(Z−U). Итоговая оценка рассчитывается как отношение расстояний (см. алгоритм).

Выводы

  1. Статистический метод выявления манипуляций: Патент описывает конкретный математический подход к выявлению спама в локальных листингах, основанный не на содержании ключевых слов, а на статистическом распределении терминов в названиях.
  2. Закон Ципфа как индикатор спама/маркетинга: Ключевая идея заключается в том, что текст, созданный для маркетинга или спама (например, keyword stuffing с множеством вариаций), склонен следовать распределению естественного языка (закону Ципфа).
  3. Равномерное распределение как индикатор легитимности: Легитимные данные, собранные из объективных источников (например, справочников), склонны иметь более равномерное распределение терминов (Uniform Distribution), так как названия обычно схожи или идентичны.
  4. Агрегация данных критична: Эффективность метода зависит от способности Google агрегировать максимальное количество названий для одного и того же локального объекта из разных источников. Анализ основан на совокупности данных.
  5. Влияние на ранжирование: Score Value напрямую используется для корректировки ранжирования в локальном поиске, что может привести к значительному понижению или исключению спамных листингов.
  6. Идентификация спамеров: Патент также предусматривает возможность идентификации пользователей-спамеров. Если значительная часть листингов пользователя признана спамом, это может повлиять на все его листинги (Claim 11).

Практика

Best practices (это мы делаем)

Этот патент имеет прямое применение в локальном SEO и управлении Google Business Profile (GBP).

  • Использовать реальное название бизнеса: Название в GBP должно точно соответствовать названию, которое бизнес использует в реальном мире (на вывесках, в документах). Это способствует формированию равномерного распределения терминов (Uniform Distribution).
  • Обеспечить строгую консистентность NAP (Name, Address, Phone): Убедиться, что название бизнеса одинаково указано во всех внешних источниках (каталоги, социальные сети, отраслевые сайты). Консистентность данных помогает системе распознать листинг как легитимный.
  • Мониторинг и исправление внешних данных (Citations Management): Регулярно отслеживать и исправлять некорректные, устаревшие или спамные варианты названий во внешних источниках, так как они участвуют в анализе.

Worst practices (это делать не надо)

  • Keyword Stuffing в названии: Добавление ключевых слов в название бизнеса (пример из патента: "AAA Locksmith - 24 Hour Fast, Quality Emergency Service"). Это именно та практика, против которой направлен патент. Такой текст имеет характеристики маркетингового текста (ближе к Zipf's law) и будет выявлен как спам.
  • Создание множества вариаций названия: Попытки создать разные названия для одного и того же бизнеса в разных источниках в надежде улучшить ранжирование по разным запросам. Агрегация этих вариаций приведет к распределению, которое система идентифицирует как манипулятивное.
  • Использование маркетинговых слоганов или УТП в поле "Название": Поле названия предназначено исключительно для имени бренда, а не для описания преимуществ или услуг.

Стратегическое значение

Патент подчеркивает стратегическую важность консистентности данных (Data Consistency) как фундаментального элемента Local SEO. Он показывает, что Google обладает сложными статистическими инструментами для выявления манипуляций, которые не зависят от понимания контекста. Долгосрочная стратегия должна фокусироваться на построении реального локального авторитета и обеспечении точности данных, а не на попытках обмануть алгоритмы через манипуляции с названиями.

Практические примеры

Сценарий 1: Пессимизация за Keyword Stuffing

  1. Ситуация: Владелец бизнеса "AAA Locksmith" меняет название в GBP и других источниках на вариации: "AAA Locksmith - 24 Hour Service", "AAA Emergency Locksmith - Quality", "AAA Fast Locksmith".
  2. Анализ Google: Система агрегирует эти названия. Появляется много дескриптивных терминов (24, Hour, Service, Emergency, Quality, Fast).
  3. Результат анализа: Распределение частот этих терминов оказывается ближе к Zipf-based Distribution (маркетинговый текст), чем к Uniform Distribution.
  4. Действие: Система присваивает листингу высокий Score Value (высокая вероятность спама) и понижает его в локальной выдаче.

Сценарий 2: Легитимный бизнес (Консистентные данные)

  1. Ситуация: Бизнес "Tom's Locksmith Shop" консистентно использует свое название.
  2. Анализ Google: Система агрегирует данные из разных источников: "Tom's Locksmith Shop" (GBP), "Tom's Locksmith Inc." (Справочник 1), "Toms Locksmith Shop" (Справочник 2).
  3. Результат анализа: Уникальных терминов мало, и их частоты очень близки друг к другу. Распределение близко к Uniform Distribution.
  4. Действие: Система присваивает низкий Score Value (низкая вероятность спама). Ранжирование определяется другими факторами (релевантность, дистанция, авторитетность).

Вопросы и ответы

Что является основной гипотезой этого патента для определения спама?

Основная гипотеза в том, что названия легитимных бизнесов из объективных источников (справочников) обычно консистентны и имеют равномерное распределение терминов (Uniform Distribution). Напротив, спамные или искусственно оптимизированные названия (маркетинговый текст) содержат много разных ключевых слов, и их распределение стремится к закону Ципфа (Zipf's Law).

Как закон Ципфа (Zipf's Law) помогает Google выявить спам в названиях?

Закон Ципфа описывает распределение слов в естественном языке, где частота убывает пропорционально рангу. Когда спамеры добавляют много разных ключевых слов в название, пытаясь охватить разные запросы, текст начинает напоминать маркетинговое описание, следующее закону Ципфа. Google использует это сходство как индикатор манипуляции, а не как признак легитимного названия.

Означает ли это, что любое использование ключевых слов в названии бизнеса является спамом?

Нет, если ключевое слово является частью официального названия бренда (например, "Chicago Plumbing"). Проблема возникает при добавлении ключевых слов, не являющихся частью бренда (например, "Chicago Plumbing - Best Plumbers, Repairs, 24/7 Service"). Алгоритм выявляет именно неестественный паттерн распределения слов, который возникает при таком добавлении.

Влияют ли названия моего бизнеса в сторонних каталогах (Yelp, 2GIS и т.д.) на этот алгоритм?

Да, критически влияют. Патент явно указывает, что система агрегирует названия (Titles) из множества источников. Неконсистентность или наличие спама в названиях на сторонних площадках может привести к увеличению Score Value и пессимизации листинга в Google, так как они участвуют в общем анализе распределения.

Что такое равномерное распределение (Uniform Distribution) в контексте названий бизнеса?

Это ситуация, когда все термины в совокупности названий бизнеса встречаются примерно с одинаковой частотой. Например, если бизнес везде указан как "AAA Locksmith", то термины "AAA" и "Locksmith" будут иметь одинаковую частоту. Это считается признаком консистентности данных и легитимности листинга.

Как система рассчитывает итоговый Score Value?

Система использует методы векторной алгебры. Фактическое (F), равномерное (U) и распределение по Ципфу (Z) представляются как точки в многомерном пространстве. Система определяет, насколько точка F близка к U или Z, используя ортогональную проекцию F на линию U-Z и рассчитывая отношение расстояний. Близость к Z дает более высокий балл (вероятный спам).

Что делать, если у бизнеса действительно несколько официальных названий?

Если вариации незначительны (например, наличие или отсутствие "Inc." или "LLC"), влияние может быть минимальным, так как это не сильно нарушает равномерность распределения. Однако, если названия сильно отличаются и содержат много разных описательных терминов, есть риск, что система классифицирует это как манипуляцию. Рекомендуется выбрать одно основное каноническое название и стремиться к его консистентному использованию.

Применяется ли этот патент только к локальному поиску (Google Maps)?

Да, патент сфокусирован на Listings, ассоциированных с географическими локациями (location-based entity), что делает его в первую очередь инструментом для локального поиска (Google Maps, Local Pack). Он не описывает применение этого метода к ранжированию веб-страниц в основном веб-поиске.

Как этот патент связан с правилами Google Business Profile относительно названий?

Этот патент предоставляет техническое обоснование и конкретный автоматизированный механизм для контроля за соблюдением правил GBP. Правила требуют использовать реальное название бизнеса без лишних дескрипторов. Описанный алгоритм как раз и выявляет нарушения этого правила, анализируя статистику использования слов.

Упоминается ли в патенте идентификация спамеров по их листингам?

Да (Claim 11). Патент явно указывает, что система может идентифицировать пользователя, отправившего спамный листинг. Если пользователь (например, аккаунт агентства или владельца) ассоциирован с высокой долей спама, это может повлиять на ранжирование всех других листингов, управляемых этим пользователем.

Похожие патенты

Как Google выявляет спам в Локальном Поиске, анализируя частоту изменений в листингах и коммерческую ценность ключевых слов
Google использует систему для выявления спама в локальной выдаче (например, на Картах). Система анализирует, насколько часто определенные термины появляются в обновлениях бизнес-листингов (Flux) и какова их потенциальная коммерческая ценность (Monetary Value). Если высокодоходные термины часто изменяются или добавляются, система помечает эти термины и использующие их листинги как потенциальный спам и понижает их в ранжировании.
  • US20150154612A1
  • 2015-06-04
  • Антиспам

  • Local SEO

Как Google использует отзывы пользователей для обнаружения спама и фейковых компаний в локальном поиске (Google Maps)
Google анализирует текст отзывов о компаниях для выявления спама в бизнес-листингах. Система ищет стоп-слова (например, "фейк", "не существует"), выявляет нерелевантные термины для категории бизнеса и сравнивает отзывы с базой известного спама. При превышении порога подозрительных сигналов листинг помечается как спам.
  • US8621623B1
  • 2013-12-31
  • Антиспам

  • Local SEO

  • EEAT и качество

Как Google борется со спамом в бизнес-профилях (Local SEO), используя контекстуальный анализ и калибровку оценок спама
Google использует систему для обнаружения спамных бизнес-листингов (Local SEO), сравнивая данные из доверенных и ненадежных источников в рамках конкретных бизнес-контекстов (например, «сантехники» против «юристов»). Система выявляет характеристики, статистически связанные со спамом в данной нише, генерирует оценку спама и калибрует её в вероятность с помощью логистической регрессии для точной фильтрации.
  • US8738557B1
  • 2014-05-27
  • Антиспам

  • Local SEO

  • EEAT и качество

Как Google использует «Оценку Неожиданности» (Surprisingness Value) для выявления и фильтрации переспама в названиях компаний в локальном поиске
Google использует статистический анализ для борьбы со спамом в названиях компаний (например, в Google Maps). Система анализирует корпус легитимных названий, чтобы понять естественные комбинации слов. Затем для проверяемого названия вычисляется «Оценка Неожиданности» (Surprisingness Value). Если сочетание слов слишком маловероятно (например, «Ресторан Слесарь»), листинг помечается как спам и исключается из выдачи.
  • US8473491B1
  • 2013-06-25
  • Антиспам

  • Local SEO

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Популярные патенты

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)
Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.
  • US8650196B1
  • 2014-02-11
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google решает, показывать ли промежуточную страницу (превью) или направлять пользователя сразу на сайт при клике в Поиске по картинкам
Google анализирует, насколько хорошо веб-страница представляет выбранное изображение («image-centricity»). Если изображение на странице качественное, заметное и удовлетворяет интент пользователя (на основе статических и поведенческих данных), Google направляет трафик из Поиска по картинкам напрямую на сайт. В противном случае, Google показывает промежуточный экран (Image Overlay).
  • US9135317B2
  • 2015-09-15
  • Поведенческие сигналы

  • Мультимедиа

  • Семантика и интент

Как Google использует паттерны просмотра пользователей (Co-Visitation) и временную близость для определения тематики нетекстового контента (изображений и видео)
Google использует механизм для понимания контента без текста (изображения, видео), анализируя, какие другие (текстовые) страницы пользователи посещают в рамках той же сессии. Ключевые слова с этих текстовых страниц заимствуются и присваиваются нетекстовому ресурсу. Критически важным фактором является время перехода: чем быстрее пользователь перешел между ресурсами, тем больший вес получают ключевые слова.
  • US8572096B1
  • 2013-10-29
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

Как Google использует историю запросов в текущей сессии и статистические паттерны для переранжирования результатов
Google анализирует миллионы прошлых поисковых сессий, выявляя статистически значимые последовательности запросов («Пути Запросов»), которые заканчиваются кликом на определенный URL («Конечная Точка Контента»). Когда текущая сессия пользователя совпадает с историческим путем, Google переранжирует результаты, повышая те URL, которые исторически удовлетворяли пользователей в аналогичном контексте, пропорционально вероятности их выбора.
  • US7610282B1
  • 2009-10-27
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google рассчитывает авторитетность и ранжирует сайты, вычисляя кратчайшие пути до доверенных источников (Seeds) в Веб-графе
Google использует масштабируемую распределенную систему для анализа огромных графов, таких как Веб-граф (триллионы связей). Система вычисляет кратчайшие пути от каждого узла (сайта) до набора предопределенных авторитетных источников («Seeds»). Эти расстояния используются для расчета метрик авторитетности и ранжирования сайтов: чем ближе сайт к доверенным источникам, тем выше его предполагаемое качество.
  • US8631094B1
  • 2014-01-14
  • EEAT и качество

  • Ссылки

Как Google использует историю уточнений запросов для выявления и повышения авторитетных сайтов по широким запросам
Google анализирует последовательности запросов пользователей, чтобы понять, как они уточняют свои поисковые намерения. Если пользователи часто переходят от широкого или неточного запроса к более конкретному, который ведет на авторитетный ресурс, Google связывает этот ресурс с исходным широким запросом. Это позволяет показывать авторитетный сайт выше в выдаче, даже если пользователь сформулировал запрос неточно.
  • US8326826B1
  • 2012-12-04
  • Семантика и интент

  • Поведенческие сигналы

  • EEAT и качество

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

seohardcore