Как Google использует структурированные данные и логи запросов для создания языковых моделей и исправления орфографии в сложных доменах (например, адресах)

TRAINING A PROBABILISTIC SPELLING CHECKER FROM STRUCTURED DATA (Обучение вероятностного средства проверки орфографии на основе структурированных данных)

US8626681B1
Google LLC
2011-01-04
2014-01-07

Google решает проблему создания языковых моделей для доменов с огромным количеством комбинаций (например, географических адресов). Система анализирует логи запросов для определения популярных форматов ввода (Template Distribution) и популярности конкретных мест (Location Distribution). Эти данные объединяются для создания вероятностной языковой модели, которая позволяет исправлять орфографические ошибки в запросах пользователей, предлагая более вероятные варианты.

Какую проблему решает

Патент решает проблему создания эффективных языковых моделей (Language Models) для проверки орфографии в доменах со структурированными данными, где количество допустимых комбинаций слов слишком велико для стандартных подходов. В качестве основного примера рассматривается домен географических названий и адресов, который характеризуется огромным словарем (названия улиц, городов и т.д.) и разнообразием форматов ввода в разных странах и языках. Традиционные методы, основанные на грамматических правилах естественного языка, здесь неэффективны.

Что запатентовано

Запатентована система для автоматического создания вероятностной языковой модели в доменах структурированных данных. Вместо хранения всех возможных комбинаций система вычисляет вероятности на двух уровнях: (1) вероятность различных порядков типов сущностей (например, <УЛИЦА, ГОРОД, ШТАТ>) — Template Distribution; и (2) вероятность упоминания конкретных сущностей (например, города "New York") — Location Distribution. Объединение этих распределений позволяет создать компактную языковую модель для эффективной проверки орфографии.

Как это работает

Система работает в несколько этапов:

Анализ логов запросов: Система анализирует исторические запросы пользователей (Query Log).
Генерация Template Distribution: Определяется, насколько часто встречаются различные шаблоны запросов (порядок типов сущностей). Например, вычисляется вероятность шаблона <STREET, CITY>.
Генерация Location Distribution: Определяется вероятность того, что произвольный запрос относится к конкретной географической сущности (например, конкретной улице), используя Query Log и базу структурированных данных (Geographic Database).
Генерация Языковой Модели: Система объединяет эти распределения. Она генерирует вероятные комбинации названий сущностей, основываясь на их связях в базе данных (Entity Graph) и шаблонах из Template Distribution. Каждой комбинации присваивается оценка (Score).
Расчет условных вероятностей: Языковая модель используется для расчета вероятности появления одного слова при условии появления другого (например, P("York" | "New")).
Применение: При получении нового запроса система генерирует варианты исправления и оценивает их вероятность, используя рассчитанные условные вероятности.

Актуальность для SEO

Высокая. Понимание и корректная интерпретация запросов, содержащих структурированные данные (адреса, названия организаций, имена людей, сложные термины), остаются критически важными для поиска, особенно в Local SEO и при работе с Knowledge Graph. Описанный метод создания языковых моделей на основе структурированных баз данных и логов запросов является фундаментальным подходом к обработке таких доменов.

Важность для SEO

Патент имеет существенное значение (6.5/10), особенно для Local SEO и сайтов, зависящих от точности распознавания структурированных данных (например, адресов, каталогов). Он показывает, что вероятность корректной интерпретации запроса зависит от популярности сущности (Location Distribution) и стандартизированности формата ввода (Template Distribution). Это подчеркивает важность NAP (Name, Address, Phone) консистентности и необходимость обеспечения четкой структуры данных, чтобы соответствовать моделям, которые Google генерирует для конкретного домена или региона.

Термины и определения

Geographic Database (Географическая база данных): База структурированных данных, содержащая географические сущности, их типы, названия (включая варианты и аббревиатуры) и связи между ними. Является основой для построения графа сущностей.
Entity (Сущность): Элемент структурированных данных, например, конкретный город, улица или страна. Каждая сущность имеет тип и одно или несколько названий.
Entity Graph (Граф сущностей): Структура данных, представляющая сущности как узлы, а их взаимосвязи (вложенность, пересечение) как ребра.
Query Log (Лог запросов): Хранилище ранее введенных пользователями запросов. Используется для анализа частоты форматов и популярности сущностей.
Template (Шаблон): Определенный порядок типов сущностей в запросе. Например, <STREET, CITY, STATE> или <CITY, ZIPCODE>.
Template Distribution (Распределение шаблонов): Набор данных, хранящий вероятности того, что произвольный запрос будет соответствовать определенному шаблону. Генерируется из Query Log.
Location Distribution (Распределение локаций): Набор данных, хранящий вероятности того, что произвольный запрос ссылается на конкретную географическую сущность. Генерируется из Query Log и Geographic Database.
Language Model (Языковая модель): В контексте патента — это набор вероятных комбинаций названий сущностей с соответствующими оценками (Scores), сгенерированный на основе Template Distribution и Location Distribution. Используется для расчета условных вероятностей и проверки орфографии.
Conditional Probability (Условная вероятность): Вероятность появления слова при условии, что другое слово уже появилось в запросе (например, P("View" | "Mountain")). Вычисляется на основе Language Model.
R(Q) (Ранг типа сущности): Числовое значение, присваиваемое типу сущности на основе его специфичности (например, STREET=5, CITY=4). Используется как весовой коэффициент.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации географической языковой модели.

Доступ к географической базе данных (сущности, типы, названия, связи) и логу запросов.
Генерация Template Distribution из лога запросов: количественная оценка вероятностей шаблонов (упорядоченных наборов типов сущностей).
Генерация Geographic Distribution (Location Distribution) из лога запросов: количественная оценка вероятностей того, что запросы ссылаются на конкретные географические сущности.
Генерация Language Model на основе Template Distribution и Geographic Distribution. Модель содержит комбинации названий сущностей и связанные с ними оценки (Scores), основанные на вероятности их появления в запросе.
Хранение Language Model.

Claim 2 и 3 (Зависимые): Описывают применение сгенерированной модели.

Вычисление условных вероятностей (Conditional Probabilities) появления слов в запросах на основе Language Model (Claim 2).
Применение в реальном времени (Claim 3): получение запроса, генерация альтернативного варианта, вычисление вероятностей обоих запросов с использованием условных вероятностей. Если вероятность альтернативы выше, она предлагается пользователю.

Claim 4 (Зависимый): Детализирует вычисление оценки (Score) для пары названий в языковой модели.

Оценка для пары (Название Сущности 1, Название Сущности 2) вычисляется с использованием: (a) вероятности соответствующего шаблона из Template Distribution и (b) вероятности Сущности 1 из Geographic Distribution.

Claim 7 (Зависимый): Описывает процесс выбора комбинаций для включения в языковую модель.

Для первой сущности определяется ее тип.
Идентифицируется набор связанных типов (related types). (Согласно описанию патента, это типы, которые следуют за типом первой сущности в шаблонах из Template Distribution).
Идентифицируется набор соседних сущностей (neighboring geographic entities), которые связаны с первой сущностью (в графе сущностей) и имеют тип из набора связанных типов.
Генерируются пары названий первой сущности и названий соседних сущностей.

Где и как применяется

Изобретение в основном применяется на этапе предварительной обработки данных и на этапе понимания запросов.

INDEXING / Офлайн-обработка данных
Основная часть работы происходит офлайн:

Анализ Geographic Database и построение Entity Graph.
Анализ Query Logs.
Генерация Template Distribution и Location Distribution.
Генерация Language Model.
Вычисление и сохранение Conditional Probabilities.

QUNDERSTANDING – Понимание Запросов
На этом этапе система применяет сгенерированную модель в реальном времени (Query Spell Check module):

Интерпретация входящего запроса.
Генерация вариантов запроса (например, с помощью правил редактирования).
Оценка вероятности исходного запроса и его вариантов с использованием предварительно рассчитанных Conditional Probabilities.
Выбор наиболее вероятного варианта в качестве предполагаемого намерения пользователя (Spelling Correction).

Входные данные (Офлайн):

Geographic Database (Сущности, типы, названия, связи).
Query Log (Исторические запросы).

Выходные данные (Офлайн):

Template Distribution.
Location Distribution.
Language Model.
Таблица Conditional Probabilities.

Входные данные (Онлайн):

Запрос пользователя.
Таблица Conditional Probabilities.

Выходные данные (Онлайн):

Альтернативные (исправленные) варианты запроса с более высокой вероятностью.

На что влияет

Конкретные типы контента и домены: Патент фокусируется на доменах со структурированными данными. Основной пример — географические данные (Local SEO, карты). Однако упоминается применимость к другим доменам: имена людей, медицина, биология, химия, фармацевтика.
Специфические запросы: Влияет на запросы, содержащие названия сущностей из этих доменов, особенно если они содержат орфографические ошибки, опечатки или нестандартные форматы.
Языковые и географические ограничения: Система учитывает региональные особенности. В патенте упоминается, что для разных локалей (locales) могут использоваться отдельные логи запросов и генерироваться отдельные Template Distributions, так как форматы адресов различаются (например, США vs Россия).

Когда применяется

Триггеры активации: Механизм проверки орфографии активируется при обработке входящего запроса, предположительно, если система идентифицирует его как принадлежащий к домену, для которого создана соответствующая языковая модель (например, географический запрос).
Временные рамки: Генерация модели происходит офлайн и периодически обновляется. Применение модели происходит в реальном времени при обработке запроса.

Пошаговый алгоритм

Процесс А: Генерация распределений (Офлайн)

Сбор данных: Получение доступа к Geographic Database и Query Log.
Генерация Template Distribution:
1. Для каждого запроса в Query Log идентифицируется соответствующий шаблон (порядок типов сущностей).
2. Подсчитывается количество запросов, соответствующих каждому уникальному шаблону.
3. Счетчики нормализуются для получения вероятности каждого шаблона.
Генерация Location Distribution:
1. Для каждой сущности в Geographic Database идентифицируются запросы в Query Log, содержащие одно из названий этой сущности.
2. Проверяется, действительно ли эти запросы относятся к данной сущности (например, результаты запроса попадают в регион сущности – это разрешает неоднозначности).
3. Подсчитывается количество подтвержденных запросов для каждой сущности.
4. Счетчики нормализуются для получения вероятности упоминания каждой сущности.

Процесс Б: Генерация Языковой Модели (Офлайн)

Инициализация: Для каждой сущности E в Geographic Database:
Определение связанных типов: Определяется тип сущности E (например, STREET). Идентифицируется набор связанных типов $S_R$ — типы, которые следуют за типом E в шаблонах из Template Distribution (например, CITY, POSTAL_CODE).
Определение соседей: Идентифицируется набор соседних сущностей $S_N$ , которые связаны с E в графе сущностей и имеют тип из $S_R$ .
Генерация комбинаций: Создаются все пары названий, включающие название E и названия сущностей из $S_N$ .
Расчет оценок (Scoring): Каждой комбинации (Q) присваивается оценка по формуле: $P(T(Q)) * P(L(Q)) * R(Q)$ .
Сохранение: Комбинации и их оценки сохраняются в Language Model.

Процесс В: Расчет условных вероятностей (Офлайн)

Обработка корпуса: Language Model рассматривается как корпус документов, где каждая комбинация — это предложение, а ее оценка определяет частоту встречаемости.
Токенизация и Подсчет N-грамм: Предложения разбиваются на токены (слова) и подсчитывается частота встречаемости различных N-грамм.
Расчет вероятностей: Вычисляются условные вероятности. Например, P(w2|w1) = P(w1 w2) / P(w1).

Процесс Г: Проверка орфографии (Онлайн)

Получение запроса: Система получает запрос Q от пользователя.
Генерация вариантов: Генерируются варианты запроса (например, с использованием правил редактирования, основанных на типичных ошибках).
Оценка вероятностей: Вероятность исходного запроса и каждого варианта вычисляется как произведение условных вероятностей его слов (используя данные Процесса В).
Pr(Q)=Pr(w1)∗Pr(w2∣w1)∗

Выводы

Языковые модели для структурированных данных: Патент предлагает эффективный метод создания языковых моделей для доменов, где стандартные NLP-подходы не работают из-за огромного числа комбинаций (например, адреса). Это достигается за счет использования структуры базы данных (связей между сущностями) и анализа поведения пользователей (логи запросов).

Двухуровневая вероятность: Ключевым моментом является разделение вероятности на два компонента: вероятность формата (Template Distribution) и вероятность контента (Location Distribution). Это позволяет системе адаптироваться как к локальным особенностям форматирования, так и к популярности конкретных сущностей.

Влияние популярности на интерпретацию запроса: Location Distribution напрямую использует частоту запросов к сущности. Чем популярнее сущность (например, город или известная улица), тем выше ее вес в языковой модели и тем точнее будет работать исправление орфографии для запросов, связанных с ней.

Адаптация к локали: Система способна обучаться специфическим для региона форматам ввода (шаблонам) на основе логов запросов пользователей из этой локали. Это критически важно для глобального поиска.

Важность связей между сущностями: Языковая модель генерирует комбинации только для связанных сущностей (соседей в Entity Graph), что гарантирует семантическую корректность предложенных исправлений (например, улица и город, в котором она находится).

Практика

Best practices (это мы делаем)

Обеспечение консистентности NAP (для Local SEO): Критически важно использовать стандартизированные и консистентные данные о названии, адресе и телефоне (NAP) на сайте и во внешних источниках (Google Business Profile, каталоги). Это помогает Google правильно ассоциировать вашу организацию с географическими сущностями и повышает вероятность того, что ваш формат соответствует популярным Templates в вашей локали.

Использование структурированных данных (Schema.org): Размечайте адреса, названия организаций, имена людей, сложные термины (если применимо) с помощью микроразметки. Это помогает поисковым системам строить точные базы структурированных данных (аналог Geographic Database), которые затем используются для генерации языковых моделей.

Анализ форматов ввода в вашей нише/регионе: Изучайте, как пользователи формулируют запросы, связанные с вашими структурированными данными. Адаптируйте контент и структуру данных под наиболее распространенные шаблоны (Templates), чтобы повысить вероятность корректной интерпретации.

Улучшение популярности сущности: Популярность сущности (Location Distribution) влияет на точность ее распознавания. Работа над узнаваемостью бренда и увеличением числа запросов, связанных с вашей сущностью (например, брендовые или локальные запросы), косвенно улучшает способность Google корректно обрабатывать эти запросы.

Worst practices (это делать не надо)

Использование нестандартных или запутанных форматов адресов: Использование форматов, которые редко встречаются в логах запросов для данной локали, снижает вероятность P(Template). Это может привести к ошибкам в интерпретации адреса поисковой системой.

Игнорирование региональных стандартов: При работе на международных рынках нельзя применять единый формат структурированных данных (например, адресов) для всех стран. Система обучается на локальных данных, и несоответствие локальным шаблонам ухудшит распознавание.

Пренебрежение связями между сущностями: Представление данных в отрыве от контекста (например, указание улицы без города или города без региона, если это не является общепринятым шаблоном) усложняет системе построение корректных связей в Entity Graph и генерацию языковой модели.

Стратегическое значение

Патент подчеркивает стратегическую важность интеграции структурированных данных и анализа поведения пользователей для улучшения понимания запросов. Для SEO это означает, что точность и полнота данных, предоставляемых поисковой системе (через сайт, микроразметку, внешние каталоги), напрямую влияют на то, как система будет интерпретировать и исправлять запросы, связанные с этими данными. В доменах со сложной структурой (Local, E-commerce, специализированные ниши) стратегическое преимущество получают те, кто обеспечивает максимальную консистентность и структурированность информации, соответствующую ожиданиям пользователей в их регионе.

Практические примеры

Сценарий: Оптимизация распознавания адреса для локального бизнеса в России

Анализ (Template Distribution): SEO-специалист анализирует, как пользователи в России ищут адреса. Он обнаруживает, что шаблон <ГОРОД, УЛИЦА, ДОМ> является доминирующим.

Анализ (Location Distribution): Специалист видит, что улица, на которой находится бизнес, имеет несколько вариантов написания и не очень популярна в запросах (низкая P(Location)).

Действия:

На сайте и во всех внешних каталогах (Google Business Profile, Яндекс Бизнес и т.д.) адрес указывается строго в формате, соответствующем доминирующему шаблону: "Москва, ул. Лесная, д. 5".

Используется микроразметка Schema.org/PostalAddress, точно следуя этому формату.

Проводится работа по популяризации официального названия улицы и его ассоциации с бизнесом, чтобы увеличить P(Location) в логах запросов.

Ожидаемый результат: Google с большей вероятностью корректно интерпретирует запросы, связанные с этим адресом, даже если пользователь допустил ошибку (например, "Масква, лисная 5"), так как формат соответствует высоковероятному шаблону, а данные консистентны.

Вопросы и ответы

Как этот патент связан с Local SEO и консистентностью NAP?

Патент напрямую объясняет механизм, лежащий в основе важности NAP (Name, Address, Phone). Система генерирует Template Distribution, изучая, как пользователи вводят адреса в определенной локали. Если бизнес использует консистентный NAP, соответствующий популярному шаблону, он повышает вероятность того, что система правильно распознает и обработает запросы, связанные с его адресом, даже при наличии ошибок в запросе.

Влияет ли популярность моего бизнеса на то, как Google исправляет ошибки в запросах о нем?

Да, влияет. Патент описывает Location Distribution — вероятность того, что запрос относится к конкретной сущности, основанную на логах запросов. Чем чаще ищут вашу локацию или бренд, тем выше эта вероятность. Эта метрика используется при расчете оценки в Language Model. Для более популярных сущностей языковая модель будет более точной и надежной.

Применяется ли этот подход только к географическим данным?

Нет. Хотя патент использует географические данные в качестве основного примера, в нем явно указано, что метод применим к любым доменам структурированных данных. Упоминаются имена людей, а также сложные термины в медицине, биологии, химии и фармацевтике. Это означает, что Google может использовать аналогичный подход для генерации языковых моделей в этих специализированных нишах.

Как система определяет, какой шаблон (Template) является правильным?

Система не определяет "правильность" в абсолютном смысле. Она определяет вероятность на основе статистики использования. Template Distribution генерируется путем анализа Query Log: какие порядки типов сущностей (например, <УЛИЦА, ГОРОД> vs <ГОРОД, УЛИЦА>) встречаются чаще в запросах пользователей. Чем чаще используется шаблон, тем выше его вероятность.

Учитывает ли система региональные различия в форматировании адресов?

Да, это ключевая особенность системы. В патенте указано, что для разных локалей (locales — сочетание страны и языка) могут поддерживаться отдельные логи запросов и генерироваться отдельные Template Distributions. Это позволяет системе обучаться специфическим для региона форматам, например, различиям в порядке адресации между США и Россией.

Что такое "Граф сущностей" (Entity Graph) в контексте этого патента и зачем он нужен?

Entity Graph представляет собой структуру данных, где сущности (например, улицы, города) являются узлами, а их взаимосвязи (например, улица находится в городе) — ребрами. Он используется при генерации Language Model для того, чтобы предлагать только семантически корректные комбинации. Система ищет "соседей" в этом графе, гарантируя, что в модель попадут только связанные сущности.

Что означает R(Q) (Ранг типа сущности) в формуле оценки?

R(Q) — это числовое значение, присваиваемое типу сущности на основе его специфичности. Например, STREET может иметь ранг 5, а CITY — 4. Этот ранг используется как весовой коэффициент при расчете оценки комбинации в языковой модели. Это придает больший вес более специфичным сущностям при определении вероятности запроса.

Как система рассчитывает условные вероятности, например, P("York" | "New")?

Система рассматривает сгенерированную Language Model как большой корпус текста, где каждая комбинация (например, "New York City") является предложением, а ее оценка (Score) определяет частоту встречаемости. Затем применяются стандартные статистические методы: подсчет частоты N-грамм (слов и словосочетаний) и расчет условных вероятностей на основе этих частот.

Как этот патент связан с микроразметкой (Schema.org)?

Микроразметка помогает Google строить и уточнять свои базы структурированных данных (аналог Geographic Database, описанной в патенте). Чем точнее и полнее база данных Google о сущностях и их связях, тем более качественную Language Model система сможет сгенерировать. Использование Schema.org для разметки адресов, имен и других структурированных данных напрямую поддерживает механизмы, описанные в патенте.

Что делать, если моя сущность имеет несколько вариантов написания или аббревиатур?

В патенте указано, что Geographic Database хранит различные названия для одной сущности (официальные, неформальные, аббревиатуры, языковые варианты). Важно убедиться, что Google знает обо всех этих вариантах и ассоциирует их с вашей сущностью. Это достигается через консистентное использование вариантов в авторитетных источниках и управление профилем сущности (например, в Google Business Profile).

Похожие патенты

Как Google определяет географическую релевантность документа, анализируя неоднозначные термины и названия мест
Google использует классификатор местоположений для определения географической привязки документа, даже если в нем нет точного адреса. Система анализирует неоднозначные термины (например, названия районов или улиц) и использует профили георелевантности (гистограммы), показывающие, где эти термины чаще всего используются. Перемножая эти профили, Google разрешает неоднозначность и вычисляет наиболее вероятное местоположение контента.

US7716162B2
2010-05-11

Local SEO

Семантика и интент

Индексация

Как Google использует контекстно-зависимые шаблоны запросов для понимания локальных поисковых запросов
Google анализирует исторические логи поиска, чтобы понять, как пользователи в разных странах и на разных языках структурируют географические запросы. Система генерирует вероятностные Шаблоны Запросов (Query Templates) и рассчитывает вероятность их корректности в зависимости от контекста пользователя (локаль, язык, устройство). Это позволяет точнее интерпретировать неоднозначные локальные запросы и адаптироваться к региональным особенностям.

US9753945B2
2017-09-05

Local SEO

Семантика и интент

Персонализация

Как Google использует статистические модели для разделения картографических запросов на "Что" (объект) и "Где" (локация)
Google использует статистическую модель, обученную на известных адресах и названиях организаций, для парсинга неоднозначных картографических запросов. Система сегментирует запрос, присваивает локационные типы и рассчитывает вероятность различных вариантов разделения, чтобы точно определить искомую локацию и объект поиска, особенно в языках без пробелов.

US8745065B2
2014-06-03

Семантика и интент

Local SEO

Мультиязычность

Как Google использует языковую статистику для умного добавления акцентов и синонимов в запросы
Google анализирует, как слова пишутся в разных языках (с акцентами, диграфами или транслитерацией), и создает "карту синонимов". При получении запроса система определяет его вероятный язык и статистически выбирает только те варианты написания (синонимы), которые наиболее распространены именно в этом языке, избегая добавления нерелевантных вариантов из других языков.

US7475063B2
2009-01-06

Мультиязычность

Семантика и интент

Индексация

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.

US8600993B1
2013-12-03

Структура сайта

Персонализация

Техническое SEO

Популярные патенты

Как Google использует внешние данные для оценки репутации сущностей и их взаимной привлекательности в вертикальном поиске
Google использует систему для улучшения вертикального поиска (например, вакансий, недвижимости) путем оценки взаимной привлекательности двух разных типов сущностей (например, соискателя и вакансии). Система агрегирует данные из внешних источников для выявления скрытых атрибутов и расчета «Репутационной значимости» каждой сущности. На основе этих данных определяется метрика «Двухстороннего соответствия», которая используется для ранжирования.

US10853432B2
2020-12-01

Семантика и интент

SERP

Поведенческие сигналы

Как Google использует поведение пользователей в веб-поиске для динамической категоризации локальных бизнесов
Google динамически формирует категории для бизнесов, основываясь на том, как пользователи ищут их (используемые ключевые слова и клики) в веб-поиске и голосовом поиске. Эти данные формируют иерархическое понимание типов бизнеса. Эта структура затем используется для повышения точности распознавания названий компаний в голосовых запросах.

US8041568B2
2011-10-18

Local SEO

Поведенческие сигналы

Семантика и интент

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph

EEAT и качество

Семантика и интент

Как Google A/B тестирует и оптимизирует сниппеты (заголовки, описания, изображения) для повышения CTR
Google использует механизм для оптимизации отображения контента (сниппетов). Система показывает разные варианты заголовков, описаний или изображений для одной и той же ссылки разным пользователям или на разных платформах. Затем она измеряет кликабельность (CTR) каждого варианта и выбирает наиболее эффективный для дальнейшего использования, учитывая также тип устройства пользователя.

US9569432B1
2017-02-14

SERP

Поведенческие сигналы

Персонализация

Как Google использует консенсус анкорных текстов для определения авторитетных источников и проверки фактов в Knowledge Graph
Google определяет, является ли веб-страница авторитетным источником о конкретной сущности (Entity), анализируя все анкорные тексты входящих ссылок. Система находит консенсусное описание (Center of Mass). Если оно совпадает с именем сущности и это имя присутствует в заголовке страницы, документ используется как эталон для проверки (Corroboration) фактов в базе знаний Google (Fact Repository).

US9208229B2
2015-12-08

Knowledge Graph

Ссылки

EEAT и качество

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.

US9274683B2
2016-03-01

SERP

Персонализация

Поведенческие сигналы

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)
Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.

US8615514B1
2013-12-24

Поведенческие сигналы

Как Google объединяет данные о ссылках и кликах для расчета авторитетности страниц (Query-Independent Score)
Google использует механизм расчета независимой от запроса оценки авторитетности (Query-Independent Score) с помощью дополненного графа ресурсов. Этот граф объединяет традиционные ссылки между страницами с данными о поведении пользователей, такими как клики по результатам поиска (CTR). Авторитетность передается не только через ссылки, но и через запросы, позволяя страницам с высоким уровнем вовлеченности пользователей набирать авторитет, даже если у них мало обратных ссылок.

US8386495B1
2013-02-26

Поведенческие сигналы

Ссылки

SERP

Как Google использует погоду, время и местоположение для понимания истинного намерения пользователя и адаптации поисковой выдачи
Google анализирует, как физическое окружение (погода, время, местоположение) влияет на то, что ищут пользователи. Система выявляет корреляции между средой и поведением пользователей в прошлом (включая длительность кликов), чтобы лучше понять текущий интент многозначных запросов. Затем она переранжирует выдачу или переписывает запрос для предоставления наиболее релевантных результатов и рекламы.

US8898148B1
2014-11-25

Семантика и интент

Поведенческие сигналы

Персонализация

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.

US9092529B1
2015-07-28

Поведенческие сигналы

Персонализация

EEAT и качество

seohardcore

Как Google использует структурированные данные и логи запросов для создания языковых моделей и исправления орфографии в сложных доменах (например, адресах)

Описание

Какую проблему решает

Что запатентовано

Как это работает

Актуальность для SEO

Важность для SEO

Детальный разбор

Термины и определения

Ключевые утверждения (Анализ Claims)

Где и как применяется

На что влияет

Когда применяется

Пошаговый алгоритм

Выводы

Практика

Best practices (это мы делаем)

Worst practices (это делать не надо)

Стратегическое значение

Практические примеры

Вопросы и ответы

Похожие патенты

Популярные патенты