SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует структурированные данные и логи запросов для создания языковых моделей и исправления орфографии в сложных доменах (например, адресах)

TRAINING A PROBABILISTIC SPELLING CHECKER FROM STRUCTURED DATA (Обучение вероятностного средства проверки орфографии на основе структурированных данных)
  • US8626681B1
  • Google LLC
  • 2011-01-04
  • 2014-01-07
  • Семантика и интент
  • Knowledge Graph
  • Мультиязычность
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google решает проблему создания языковых моделей для доменов с огромным количеством комбинаций (например, географических адресов). Система анализирует логи запросов для определения популярных форматов ввода (Template Distribution) и популярности конкретных мест (Location Distribution). Эти данные объединяются для создания вероятностной языковой модели, которая позволяет исправлять орфографические ошибки в запросах пользователей, предлагая более вероятные варианты.

Описание

Какую проблему решает

Патент решает проблему создания эффективных языковых моделей (Language Models) для проверки орфографии в доменах со структурированными данными, где количество допустимых комбинаций слов слишком велико для стандартных подходов. В качестве основного примера рассматривается домен географических названий и адресов, который характеризуется огромным словарем (названия улиц, городов и т.д.) и разнообразием форматов ввода в разных странах и языках. Традиционные методы, основанные на грамматических правилах естественного языка, здесь неэффективны.

Что запатентовано

Запатентована система для автоматического создания вероятностной языковой модели в доменах структурированных данных. Вместо хранения всех возможных комбинаций система вычисляет вероятности на двух уровнях: (1) вероятность различных порядков типов сущностей (например, <УЛИЦА, ГОРОД, ШТАТ>) — Template Distribution; и (2) вероятность упоминания конкретных сущностей (например, города "New York") — Location Distribution. Объединение этих распределений позволяет создать компактную языковую модель для эффективной проверки орфографии.

Как это работает

Система работает в несколько этапов:

  • Анализ логов запросов: Система анализирует исторические запросы пользователей (Query Log).
  • Генерация Template Distribution: Определяется, насколько часто встречаются различные шаблоны запросов (порядок типов сущностей). Например, вычисляется вероятность шаблона <STREET, CITY>.
  • Генерация Location Distribution: Определяется вероятность того, что произвольный запрос относится к конкретной географической сущности (например, конкретной улице), используя Query Log и базу структурированных данных (Geographic Database).
  • Генерация Языковой Модели: Система объединяет эти распределения. Она генерирует вероятные комбинации названий сущностей, основываясь на их связях в базе данных (Entity Graph) и шаблонах из Template Distribution. Каждой комбинации присваивается оценка (Score).
  • Расчет условных вероятностей: Языковая модель используется для расчета вероятности появления одного слова при условии появления другого (например, P("York" | "New")).
  • Применение: При получении нового запроса система генерирует варианты исправления и оценивает их вероятность, используя рассчитанные условные вероятности.

Актуальность для SEO

Высокая. Понимание и корректная интерпретация запросов, содержащих структурированные данные (адреса, названия организаций, имена людей, сложные термины), остаются критически важными для поиска, особенно в Local SEO и при работе с Knowledge Graph. Описанный метод создания языковых моделей на основе структурированных баз данных и логов запросов является фундаментальным подходом к обработке таких доменов.

Важность для SEO

Патент имеет существенное значение (6.5/10), особенно для Local SEO и сайтов, зависящих от точности распознавания структурированных данных (например, адресов, каталогов). Он показывает, что вероятность корректной интерпретации запроса зависит от популярности сущности (Location Distribution) и стандартизированности формата ввода (Template Distribution). Это подчеркивает важность NAP (Name, Address, Phone) консистентности и необходимость обеспечения четкой структуры данных, чтобы соответствовать моделям, которые Google генерирует для конкретного домена или региона.

Детальный разбор

Термины и определения

Geographic Database (Географическая база данных)
База структурированных данных, содержащая географические сущности, их типы, названия (включая варианты и аббревиатуры) и связи между ними. Является основой для построения графа сущностей.
Entity (Сущность)
Элемент структурированных данных, например, конкретный город, улица или страна. Каждая сущность имеет тип и одно или несколько названий.
Entity Graph (Граф сущностей)
Структура данных, представляющая сущности как узлы, а их взаимосвязи (вложенность, пересечение) как ребра.
Query Log (Лог запросов)
Хранилище ранее введенных пользователями запросов. Используется для анализа частоты форматов и популярности сущностей.
Template (Шаблон)
Определенный порядок типов сущностей в запросе. Например, <STREET, CITY, STATE> или <CITY, ZIPCODE>.
Template Distribution (Распределение шаблонов)
Набор данных, хранящий вероятности того, что произвольный запрос будет соответствовать определенному шаблону. Генерируется из Query Log.
Location Distribution (Распределение локаций)
Набор данных, хранящий вероятности того, что произвольный запрос ссылается на конкретную географическую сущность. Генерируется из Query Log и Geographic Database.
Language Model (Языковая модель)
В контексте патента — это набор вероятных комбинаций названий сущностей с соответствующими оценками (Scores), сгенерированный на основе Template Distribution и Location Distribution. Используется для расчета условных вероятностей и проверки орфографии.
Conditional Probability (Условная вероятность)
Вероятность появления слова при условии, что другое слово уже появилось в запросе (например, P("View" | "Mountain")). Вычисляется на основе Language Model.
R(Q) (Ранг типа сущности)
Числовое значение, присваиваемое типу сущности на основе его специфичности (например, STREET=5, CITY=4). Используется как весовой коэффициент.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации географической языковой модели.

  1. Доступ к географической базе данных (сущности, типы, названия, связи) и логу запросов.
  2. Генерация Template Distribution из лога запросов: количественная оценка вероятностей шаблонов (упорядоченных наборов типов сущностей).
  3. Генерация Geographic Distribution (Location Distribution) из лога запросов: количественная оценка вероятностей того, что запросы ссылаются на конкретные географические сущности.
  4. Генерация Language Model на основе Template Distribution и Geographic Distribution. Модель содержит комбинации названий сущностей и связанные с ними оценки (Scores), основанные на вероятности их появления в запросе.
  5. Хранение Language Model.

Claim 2 и 3 (Зависимые): Описывают применение сгенерированной модели.

  1. Вычисление условных вероятностей (Conditional Probabilities) появления слов в запросах на основе Language Model (Claim 2).
  2. Применение в реальном времени (Claim 3): получение запроса, генерация альтернативного варианта, вычисление вероятностей обоих запросов с использованием условных вероятностей. Если вероятность альтернативы выше, она предлагается пользователю.

Claim 4 (Зависимый): Детализирует вычисление оценки (Score) для пары названий в языковой модели.

Оценка для пары (Название Сущности 1, Название Сущности 2) вычисляется с использованием: (a) вероятности соответствующего шаблона из Template Distribution и (b) вероятности Сущности 1 из Geographic Distribution.

Claim 7 (Зависимый): Описывает процесс выбора комбинаций для включения в языковую модель.

  1. Для первой сущности определяется ее тип.
  2. Идентифицируется набор связанных типов (related types). (Согласно описанию патента, это типы, которые следуют за типом первой сущности в шаблонах из Template Distribution).
  3. Идентифицируется набор соседних сущностей (neighboring geographic entities), которые связаны с первой сущностью (в графе сущностей) и имеют тип из набора связанных типов.
  4. Генерируются пары названий первой сущности и названий соседних сущностей.

Где и как применяется

Изобретение в основном применяется на этапе предварительной обработки данных и на этапе понимания запросов.

INDEXING / Офлайн-обработка данных
Основная часть работы происходит офлайн:

  • Анализ Geographic Database и построение Entity Graph.
  • Анализ Query Logs.
  • Генерация Template Distribution и Location Distribution.
  • Генерация Language Model.
  • Вычисление и сохранение Conditional Probabilities.

QUNDERSTANDING – Понимание Запросов
На этом этапе система применяет сгенерированную модель в реальном времени (Query Spell Check module):

  • Интерпретация входящего запроса.
  • Генерация вариантов запроса (например, с помощью правил редактирования).
  • Оценка вероятности исходного запроса и его вариантов с использованием предварительно рассчитанных Conditional Probabilities.
  • Выбор наиболее вероятного варианта в качестве предполагаемого намерения пользователя (Spelling Correction).

Входные данные (Офлайн):

  • Geographic Database (Сущности, типы, названия, связи).
  • Query Log (Исторические запросы).

Выходные данные (Офлайн):

  • Template Distribution.
  • Location Distribution.
  • Language Model.
  • Таблица Conditional Probabilities.

Входные данные (Онлайн):

  • Запрос пользователя.
  • Таблица Conditional Probabilities.

Выходные данные (Онлайн):

  • Альтернативные (исправленные) варианты запроса с более высокой вероятностью.

На что влияет

  • Конкретные типы контента и домены: Патент фокусируется на доменах со структурированными данными. Основной пример — географические данные (Local SEO, карты). Однако упоминается применимость к другим доменам: имена людей, медицина, биология, химия, фармацевтика.
  • Специфические запросы: Влияет на запросы, содержащие названия сущностей из этих доменов, особенно если они содержат орфографические ошибки, опечатки или нестандартные форматы.
  • Языковые и географические ограничения: Система учитывает региональные особенности. В патенте упоминается, что для разных локалей (locales) могут использоваться отдельные логи запросов и генерироваться отдельные Template Distributions, так как форматы адресов различаются (например, США vs Россия).

Когда применяется

  • Триггеры активации: Механизм проверки орфографии активируется при обработке входящего запроса, предположительно, если система идентифицирует его как принадлежащий к домену, для которого создана соответствующая языковая модель (например, географический запрос).
  • Временные рамки: Генерация модели происходит офлайн и периодически обновляется. Применение модели происходит в реальном времени при обработке запроса.

Пошаговый алгоритм

Процесс А: Генерация распределений (Офлайн)

  1. Сбор данных: Получение доступа к Geographic Database и Query Log.
  2. Генерация Template Distribution:
    1. Для каждого запроса в Query Log идентифицируется соответствующий шаблон (порядок типов сущностей).
    2. Подсчитывается количество запросов, соответствующих каждому уникальному шаблону.
    3. Счетчики нормализуются для получения вероятности каждого шаблона.
  3. Генерация Location Distribution:
    1. Для каждой сущности в Geographic Database идентифицируются запросы в Query Log, содержащие одно из названий этой сущности.
    2. Проверяется, действительно ли эти запросы относятся к данной сущности (например, результаты запроса попадают в регион сущности – это разрешает неоднозначности).
    3. Подсчитывается количество подтвержденных запросов для каждой сущности.
    4. Счетчики нормализуются для получения вероятности упоминания каждой сущности.

Процесс Б: Генерация Языковой Модели (Офлайн)

  1. Инициализация: Для каждой сущности E в Geographic Database:
  2. Определение связанных типов: Определяется тип сущности E (например, STREET). Идентифицируется набор связанных типов SRS_RSR​ — типы, которые следуют за типом E в шаблонах из Template Distribution (например, CITY, POSTAL_CODE).
  3. Определение соседей: Идентифицируется набор соседних сущностей SNS_NSN​, которые связаны с E в графе сущностей и имеют тип из SRS_RSR​.
  4. Генерация комбинаций: Создаются все пары названий, включающие название E и названия сущностей из SNS_NSN​.
  5. Расчет оценок (Scoring): Каждой комбинации (Q) присваивается оценка по формуле: P(T(Q))∗P(L(Q))∗R(Q)P(T(Q)) * P(L(Q)) * R(Q)P(T(Q))∗P(L(Q))∗R(Q).
  6. Сохранение: Комбинации и их оценки сохраняются в Language Model.

Процесс В: Расчет условных вероятностей (Офлайн)

  1. Обработка корпуса: Language Model рассматривается как корпус документов, где каждая комбинация — это предложение, а ее оценка определяет частоту встречаемости.
  2. Токенизация и Подсчет N-грамм: Предложения разбиваются на токены (слова) и подсчитывается частота встречаемости различных N-грамм.
  3. Расчет вероятностей: Вычисляются условные вероятности. Например, P(w2|w1) = P(w1 w2) / P(w1).

Процесс Г: Проверка орфографии (Онлайн)

  1. Получение запроса: Система получает запрос Q от пользователя.
  2. Генерация вариантов: Генерируются варианты запроса (например, с использованием правил редактирования, основанных на типичных ошибках).
  3. Оценка вероятностей: Вероятность исходного запроса и каждого варианта вычисляется как произведение условных вероятностей его слов (используя данные Процесса В). Pr(Q)=Pr(w1)∗Pr(w2∣w1)∗

    Выводы

    1. Языковые модели для структурированных данных: Патент предлагает эффективный метод создания языковых моделей для доменов, где стандартные NLP-подходы не работают из-за огромного числа комбинаций (например, адреса). Это достигается за счет использования структуры базы данных (связей между сущностями) и анализа поведения пользователей (логи запросов).
    2. Двухуровневая вероятность: Ключевым моментом является разделение вероятности на два компонента: вероятность формата (Template Distribution) и вероятность контента (Location Distribution). Это позволяет системе адаптироваться как к локальным особенностям форматирования, так и к популярности конкретных сущностей.
    3. Влияние популярности на интерпретацию запроса: Location Distribution напрямую использует частоту запросов к сущности. Чем популярнее сущность (например, город или известная улица), тем выше ее вес в языковой модели и тем точнее будет работать исправление орфографии для запросов, связанных с ней.
    4. Адаптация к локали: Система способна обучаться специфическим для региона форматам ввода (шаблонам) на основе логов запросов пользователей из этой локали. Это критически важно для глобального поиска.
    5. Важность связей между сущностями: Языковая модель генерирует комбинации только для связанных сущностей (соседей в Entity Graph), что гарантирует семантическую корректность предложенных исправлений (например, улица и город, в котором она находится).

    Практика

    Best practices (это мы делаем)

    • Обеспечение консистентности NAP (для Local SEO): Критически важно использовать стандартизированные и консистентные данные о названии, адресе и телефоне (NAP) на сайте и во внешних источниках (Google Business Profile, каталоги). Это помогает Google правильно ассоциировать вашу организацию с географическими сущностями и повышает вероятность того, что ваш формат соответствует популярным Templates в вашей локали.
    • Использование структурированных данных (Schema.org): Размечайте адреса, названия организаций, имена людей, сложные термины (если применимо) с помощью микроразметки. Это помогает поисковым системам строить точные базы структурированных данных (аналог Geographic Database), которые затем используются для генерации языковых моделей.
    • Анализ форматов ввода в вашей нише/регионе: Изучайте, как пользователи формулируют запросы, связанные с вашими структурированными данными. Адаптируйте контент и структуру данных под наиболее распространенные шаблоны (Templates), чтобы повысить вероятность корректной интерпретации.
    • Улучшение популярности сущности: Популярность сущности (Location Distribution) влияет на точность ее распознавания. Работа над узнаваемостью бренда и увеличением числа запросов, связанных с вашей сущностью (например, брендовые или локальные запросы), косвенно улучшает способность Google корректно обрабатывать эти запросы.

    Worst practices (это делать не надо)

    • Использование нестандартных или запутанных форматов адресов: Использование форматов, которые редко встречаются в логах запросов для данной локали, снижает вероятность P(Template). Это может привести к ошибкам в интерпретации адреса поисковой системой.
    • Игнорирование региональных стандартов: При работе на международных рынках нельзя применять единый формат структурированных данных (например, адресов) для всех стран. Система обучается на локальных данных, и несоответствие локальным шаблонам ухудшит распознавание.
    • Пренебрежение связями между сущностями: Представление данных в отрыве от контекста (например, указание улицы без города или города без региона, если это не является общепринятым шаблоном) усложняет системе построение корректных связей в Entity Graph и генерацию языковой модели.

    Стратегическое значение

    Патент подчеркивает стратегическую важность интеграции структурированных данных и анализа поведения пользователей для улучшения понимания запросов. Для SEO это означает, что точность и полнота данных, предоставляемых поисковой системе (через сайт, микроразметку, внешние каталоги), напрямую влияют на то, как система будет интерпретировать и исправлять запросы, связанные с этими данными. В доменах со сложной структурой (Local, E-commerce, специализированные ниши) стратегическое преимущество получают те, кто обеспечивает максимальную консистентность и структурированность информации, соответствующую ожиданиям пользователей в их регионе.

    Практические примеры

    Сценарий: Оптимизация распознавания адреса для локального бизнеса в России

    1. Анализ (Template Distribution): SEO-специалист анализирует, как пользователи в России ищут адреса. Он обнаруживает, что шаблон <ГОРОД, УЛИЦА, ДОМ> является доминирующим.
    2. Анализ (Location Distribution): Специалист видит, что улица, на которой находится бизнес, имеет несколько вариантов написания и не очень популярна в запросах (низкая P(Location)).
    3. Действия:
      1. На сайте и во всех внешних каталогах (Google Business Profile, Яндекс Бизнес и т.д.) адрес указывается строго в формате, соответствующем доминирующему шаблону: "Москва, ул. Лесная, д. 5".
      2. Используется микроразметка Schema.org/PostalAddress, точно следуя этому формату.
      3. Проводится работа по популяризации официального названия улицы и его ассоциации с бизнесом, чтобы увеличить P(Location) в логах запросов.
    4. Ожидаемый результат: Google с большей вероятностью корректно интерпретирует запросы, связанные с этим адресом, даже если пользователь допустил ошибку (например, "Масква, лисная 5"), так как формат соответствует высоковероятному шаблону, а данные консистентны.

    Вопросы и ответы

    Как этот патент связан с Local SEO и консистентностью NAP?

    Патент напрямую объясняет механизм, лежащий в основе важности NAP (Name, Address, Phone). Система генерирует Template Distribution, изучая, как пользователи вводят адреса в определенной локали. Если бизнес использует консистентный NAP, соответствующий популярному шаблону, он повышает вероятность того, что система правильно распознает и обработает запросы, связанные с его адресом, даже при наличии ошибок в запросе.

    Влияет ли популярность моего бизнеса на то, как Google исправляет ошибки в запросах о нем?

    Да, влияет. Патент описывает Location Distribution — вероятность того, что запрос относится к конкретной сущности, основанную на логах запросов. Чем чаще ищут вашу локацию или бренд, тем выше эта вероятность. Эта метрика используется при расчете оценки в Language Model. Для более популярных сущностей языковая модель будет более точной и надежной.

    Применяется ли этот подход только к географическим данным?

    Нет. Хотя патент использует географические данные в качестве основного примера, в нем явно указано, что метод применим к любым доменам структурированных данных. Упоминаются имена людей, а также сложные термины в медицине, биологии, химии и фармацевтике. Это означает, что Google может использовать аналогичный подход для генерации языковых моделей в этих специализированных нишах.

    Как система определяет, какой шаблон (Template) является правильным?

    Система не определяет "правильность" в абсолютном смысле. Она определяет вероятность на основе статистики использования. Template Distribution генерируется путем анализа Query Log: какие порядки типов сущностей (например, <УЛИЦА, ГОРОД> vs <ГОРОД, УЛИЦА>) встречаются чаще в запросах пользователей. Чем чаще используется шаблон, тем выше его вероятность.

    Учитывает ли система региональные различия в форматировании адресов?

    Да, это ключевая особенность системы. В патенте указано, что для разных локалей (locales — сочетание страны и языка) могут поддерживаться отдельные логи запросов и генерироваться отдельные Template Distributions. Это позволяет системе обучаться специфическим для региона форматам, например, различиям в порядке адресации между США и Россией.

    Что такое "Граф сущностей" (Entity Graph) в контексте этого патента и зачем он нужен?

    Entity Graph представляет собой структуру данных, где сущности (например, улицы, города) являются узлами, а их взаимосвязи (например, улица находится в городе) — ребрами. Он используется при генерации Language Model для того, чтобы предлагать только семантически корректные комбинации. Система ищет "соседей" в этом графе, гарантируя, что в модель попадут только связанные сущности.

    Что означает R(Q) (Ранг типа сущности) в формуле оценки?

    R(Q) — это числовое значение, присваиваемое типу сущности на основе его специфичности. Например, STREET может иметь ранг 5, а CITY — 4. Этот ранг используется как весовой коэффициент при расчете оценки комбинации в языковой модели. Это придает больший вес более специфичным сущностям при определении вероятности запроса.

    Как система рассчитывает условные вероятности, например, P("York" | "New")?

    Система рассматривает сгенерированную Language Model как большой корпус текста, где каждая комбинация (например, "New York City") является предложением, а ее оценка (Score) определяет частоту встречаемости. Затем применяются стандартные статистические методы: подсчет частоты N-грамм (слов и словосочетаний) и расчет условных вероятностей на основе этих частот.

    Как этот патент связан с микроразметкой (Schema.org)?

    Микроразметка помогает Google строить и уточнять свои базы структурированных данных (аналог Geographic Database, описанной в патенте). Чем точнее и полнее база данных Google о сущностях и их связях, тем более качественную Language Model система сможет сгенерировать. Использование Schema.org для разметки адресов, имен и других структурированных данных напрямую поддерживает механизмы, описанные в патенте.

    Что делать, если моя сущность имеет несколько вариантов написания или аббревиатур?

    В патенте указано, что Geographic Database хранит различные названия для одной сущности (официальные, неформальные, аббревиатуры, языковые варианты). Важно убедиться, что Google знает обо всех этих вариантах и ассоциирует их с вашей сущностью. Это достигается через консистентное использование вариантов в авторитетных источниках и управление профилем сущности (например, в Google Business Profile).

    Похожие патенты

    Как Google определяет географическую релевантность документа, анализируя неоднозначные термины и названия мест
    Google использует классификатор местоположений для определения географической привязки документа, даже если в нем нет точного адреса. Система анализирует неоднозначные термины (например, названия районов или улиц) и использует профили георелевантности (гистограммы), показывающие, где эти термины чаще всего используются. Перемножая эти профили, Google разрешает неоднозначность и вычисляет наиболее вероятное местоположение контента.
    • US7716162B2
    • 2010-05-11
    • Local SEO

    • Семантика и интент

    • Индексация

    Как Google использует контекстно-зависимые шаблоны запросов для понимания локальных поисковых запросов
    Google анализирует исторические логи поиска, чтобы понять, как пользователи в разных странах и на разных языках структурируют географические запросы. Система генерирует вероятностные Шаблоны Запросов (Query Templates) и рассчитывает вероятность их корректности в зависимости от контекста пользователя (локаль, язык, устройство). Это позволяет точнее интерпретировать неоднозначные локальные запросы и адаптироваться к региональным особенностям.
    • US9753945B2
    • 2017-09-05
    • Local SEO

    • Семантика и интент

    • Персонализация

    Как Google использует статистические модели для разделения картографических запросов на "Что" (объект) и "Где" (локация)
    Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.
    • US8745065B2
    • 2014-06-03
    • Семантика и интент

    • Local SEO

    • Мультиязычность

    Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
    Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.
    • US7475063B2
    • 2009-01-06
    • Мультиязычность

    • Семантика и интент

    • Индексация

    Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
    Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.
    • US8600993B1
    • 2013-12-03
    • Структура сайта

    • Персонализация

    • Техническое SEO

    Популярные патенты

    Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
    Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.
    • US10853432B2
    • 2020-12-01
    • Семантика и интент

    • SERP

    • Поведенческие сигналы

    Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
    Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.
    • US8041568B2
    • 2011-10-18
    • Local SEO

    • Поведенческие сигналы

    • Семантика и интент

    Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
    Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.
    • US7953720B1
    • 2011-05-31
    • Knowledge Graph

    • EEAT и качество

    • Семантика и интент

    Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
    Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.
    • US9569432B1
    • 2017-02-14
    • SERP

    • Поведенческие сигналы

    • Персонализация

    Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
    Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).
    • US9208229B2
    • 2015-12-08
    • Knowledge Graph

    • Ссылки

    • EEAT и качество

    Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
    Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
    • US9274683B2
    • 2016-03-01
    • SERP

    • Персонализация

    • Поведенческие сигналы

    Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)
    Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.
    • US8615514B1
    • 2013-12-24
    • Поведенческие сигналы

    Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)
    Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.
    • US8386495B1
    • 2013-02-26
    • Поведенческие сигналы

    • Ссылки

    • SERP

    Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
    Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.
    • US8898148B1
    • 2014-11-25
    • Семантика и интент

    • Поведенческие сигналы

    • Персонализация

    Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
    Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
    • US9092529B1
    • 2015-07-28
    • Поведенческие сигналы

    • Персонализация

    • EEAT и качество

    seohardcore