SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google сегментирует URL-адреса для обучения моделей голосового поиска и восстанавливает их из речи

COMPOUNDED TEXT SEGMENTATION (Сегментация составного текста)
  • US20140372119A1
  • Google LLC
  • 2009-09-28
  • 2014-12-18
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует текстовые URL-адреса из журналов поиска, чтобы определить наиболее вероятный способ их произношения (например, facebook.com -> «face book dot com»). Этот процесс использует большие языковые модели для сегментации URL. Полученные данные используются для обучения систем распознавания речи. Когда пользователь произносит URL, система распознает слова и реконструирует текстовый URL для поисковой системы.

Описание

Какую проблему решает

Патент решает проблему обработки навигационных запросов (URL-адресов) в системах голосового поиска (Automatic Speech Recognition, ASR). Проблема заключается в несоответствии данных: журналы текстовых поисковых запросов содержат URL в текстовой форме (например, facebook.com), в то время как пользователи голосового поиска вводят их в устной форме (например, «face book dot com»). Обучение моделей распознавания речи (Language Models, LM) напрямую на текстовых URL неэффективно, увеличивает размер словаря и не позволяет точно распознавать устную форму.

Что запатентовано

Запатентована система для автоматической сегментации (декомпозиции) составного текста, такого как URL-адреса, извлеченные из текстовых поисковых запросов. Система использует большие языковые модели (LM), обученные на данных запросов, для определения наиболее вероятной сегментации URL на составляющие его слова (устную форму). Эта сегментированная информация затем используется для обучения голосовых LM. Также описан обратный процесс (композиция) для реконструкции текстового URL из распознанной речи во время выполнения запроса.

Как это работает

Система работает в двух основных режимах: обучение и выполнение.

Обучение (Декомпозиция):

  • Система извлекает URL из логов текстовых запросов.
  • Для каждого URL Decompounder генерирует все возможные варианты сегментации на слова, используя большой словарь (V_Base).
  • Эти варианты представляются в виде решетки (Lattice или Automaton).
  • Большая языковая модель (L_Base), обученная на запросах, оценивает вероятность каждого варианта сегментации.
  • Выбирается наиболее вероятная сегментация (Best Probable Path), которая и считается устной формой URL.
  • Голосовая LM обучается на этих устных формах.

Выполнение (Композиция):

  • Пользователь произносит запрос, содержащий URL.
  • Голосовая LM распознает последовательность слов.
  • Эти слова поступают в Compounder (инвертированный Decompounder).
  • Compounder восстанавливает исходный текстовый URL.
  • Текстовый URL отправляется в поисковую систему.

Актуальность для SEO

Высокая. Голосовой поиск, особенно на мобильных устройствах, является критически важным интерфейсом. Описанные методы (использование больших LM и конечных преобразователей (FST) для сегментации и нормализации текста) являются стандартной практикой в современных системах автоматического распознавания речи (ASR).

Важность для SEO

Влияние на SEO низкое (2/10). Это инфраструктурный патент, описывающий внутренние процессы системы автоматического распознавания речи (ASR) Google, а не алгоритмы ранжирования. Он объясняет, как Google нормализует голосовые навигационные запросы. Основная ценность для SEO заключается в понимании важности четкой структуры URL и брендинга, которые должны быть легко сегментируемыми и произносимыми для облегчения голосовой навигации к сайту.

Детальный разбор

Термины и определения

Automaton / Finite-State Transducer (FST) (Автомат / Конечный преобразователь)
Математическая модель, используемая для представления и обработки последовательностей символов или слов. В патенте используется для представления всех возможных сегментаций URL (Lattice), а также для хранения обученных моделей декомпозиции и композиции.
Compounder (Компоновщик)
Конечный преобразователь (FST), созданный путем инвертирования обученного Decompounder. Он принимает на вход последовательность распознанных слов (устную форму URL) и выводит соответствующий текстовый URL.
Decompounder / URL Decompounding Transducer (Декомпоновщик)
Конечный преобразователь (FST), обученный сегментировать текстовый URL на составляющие его слова (устную форму). Он хранит наиболее вероятную сегментацию для известных URL.
L_Base
Базовая большая языковая модель (LM), обученная на текстовых поисковых запросах. Используется для оценки вероятности различных вариантов сегментации URL во время обучения Decompounder.
Language Model (LM) (Языковая модель)
Статистическая модель, которая предсказывает вероятность появления определенной последовательности слов. Используется для распознавания речи и оценки сегментаций.
Lattice (Решетка)
Структура данных (часто в виде Automaton), которая компактно представляет все возможные варианты сегментации составного текста (URL).
Navigational Queries (Навигационные запросы)
Запросы, в которых пользователь вводит URL (полностью или частично) в поисковую строку для перехода на конкретный сайт.
N-gram Probabilities (Вероятности N-грамм)
Статистические данные из языковой модели, указывающие на частоту встречаемости последовательностей слов (N-грамм). Используются для оценки правдоподобности сегментации.
Spoken Form (Устная форма)
Способ произношения URL. Формально определяется как базовая истинная сегментация URL на составляющие его слова (например, «cancer centers of america dot com» для cancercentersofamerica.com).
V_Base
Словарь базовой языковой модели L_Base. Используется для определения того, какие слова могут быть выделены из текстового URL.

Ключевые утверждения (Анализ Claims)

Многие пункты патента (1-9, 11-25) были отменены (canceled). Анализ фокусируется на основном действующем независимом пункте Claim 10.

Claim 10 (Независимый пункт): Описывает полный цикл процесса, включающий как обучение системы сегментации, так и ее применение во время голосового поиска.

Часть 1: Обучение (Декомпозиция)

  1. Система получает текстовый URL, извлеченный из текстовых поисковых запросов.
  2. Система обращается к электронному словарю.
  3. Генерируется структура данных (Lattice), представляющая возможные сегментации текстового URL на основе слов из словаря.
  4. Определяется наиболее вероятная сегментация текстового URL на основе частоты встречаемости (frequency of occurrence) каждой из возможных сегментаций (используя L_Base).

Часть 2: Выполнение (Композиция и Поиск)

  1. Система получает аудиоданные, содержащие произнесенный пользователем запрос.
  2. С помощью языковой модели (Voice LM) идентифицируется текстовая форма слов в произнесенном запросе.
  3. Система определяет, что текстовая форма части слов в запросе соответствует ранее определенной наиболее вероятной сегментации URL (этот шаг выполняется с помощью Compounder).
  4. В ответ на это соответствие система передает поисковой системе текстовый запрос, включающий исходный текстовый URL (а не распознанные слова).

Ядро изобретения — это использование вероятностной сегментации текстовых данных (обучение) для последующего точного восстановления исходного текстового формата из голосового ввода (выполнение).

Где и как применяется

Изобретение применяется на этапах подготовки данных для обучения языковых моделей и на этапе понимания голосовых запросов.

INDEXING (Подготовка данных и извлечение признаков)
Хотя это не стандартное индексирование веб-страниц, патент описывает процесс обработки и индексации логов поисковых запросов для обучения языковых моделей (LM Training Phase).

  • Data Preparation Phase: Текстовые логи нормализуются, URL-адреса аннотируются (идентифицируются).
  • Decompounding: Аннотированные URL сегментируются в их устную форму с помощью Decompounder.
  • LM Training: Полученные данные используются для обучения голосовой LM.

QUNDERSTANDING – Понимание Запросов (Голосовых)
Основное применение патента в реальном времени.

  • ASR Processing: Голосовой ввод обрабатывается с помощью обученной голосовой LM для распознавания слов.
  • Normalization/Compounding: Распознанные слова пропускаются через Compounder для восстановления текстовой формы URL, если она присутствует.
  • Query Submission: Нормализованный запрос (с текстовым URL) отправляется в основную поисковую систему.

Входные данные (Обучение):

  • Логи текстовых запросов (Query Data) с информацией о частоте.
  • Базовая языковая модель (L_Base) и ее словарь (V_Base).

Выходные данные (Обучение):

  • Обученный Decompounder (Trained Automaton).
  • Данные для обучения голосовой LM (запросы с URL в устной форме).
  • Compounder (инверсия Decompounder).

Входные данные (Выполнение):

  • Аудиопоток голосового запроса.

Выходные данные (Выполнение):

  • Нормализованный текстовый запрос с восстановленным URL, отправляемый в поисковую систему.

На что влияет

  • Специфические запросы: Влияет исключительно на навигационные запросы (содержащие URL или названия доменов), вводимые голосом.
  • Типы устройств: Наибольшее влияние на мобильные устройства и умные колонки, где голосовой ввод является основным или часто используемым методом.

Когда применяется

  • Во время обучения: Применяется офлайн при обработке больших объемов логов текстовых запросов для создания или обновления голосовых языковых моделей и Decompounder/Compounder.
  • Во время выполнения: Применяется в реальном времени каждый раз, когда система ASR обрабатывает голосовой запрос. Compounder пытается сопоставить распознанные последовательности слов с известными URL.

Пошаговый алгоритм

Процесс А: Обучение Decompounder и Языковой Модели

  1. Сбор и подготовка данных: Получение логов текстовых запросов с частотной информацией.
  2. Нормализация и Аннотирование: Стандартная нормализация текста (например, нижний регистр). Идентификация и маркировка подстрок, являющихся URL (U).
  3. Создание Базовой LM: Обучение базовой языковой модели L_Base на нормализованных данных (возможно, исключая сами URL). Определение словаря V_Base.
  4. Генерация Кандидатов Сегментации: Для каждого URL (u) из набора U создается решетка (Lattice), представляющая все возможные способы сегментации u на слова из словаря V_Base.
  5. Оценка Вероятностей: Решетка совмещается с языковой моделью L_Base. L_Base присваивает вероятностную оценку каждому пути (сегментации) в решетке на основе N-gram Probabilities.
  6. Выбор Лучшего Пути: Выбирается путь сегментации с наивысшей вероятностью (Best Probable Path). Это считается устной формой URL.
  7. Построение Decompounder: Наилучшие пути для всех URL объединяются в обученный автомат (Trained Automaton) – Decompounder (N(U)).
  8. Генерация Compounder: Decompounder инвертируется для создания Compounder.
  9. Обучение Голосовой LM: Исходные логи запросов модифицируются: текстовые URL заменяются их устными формами (полученными на шаге 6). На этих модифицированных данных обучается финальная голосовая языковая модель.

Процесс Б: Обработка голосового запроса в реальном времени

  1. Получение аудио: Система получает аудиопоток голосового запроса от пользователя (например, «Face Book Dot Com»).
  2. Распознавание речи: Голосовая LM (обученная в Процессе А) используется для преобразования аудиопотока в последовательность текстовых слов.
  3. Композиция (Compounding): Распознанная последовательность слов подается на вход Compounder.
  4. Восстановление URL: Если Compounder распознает последовательность слов как устную форму известного URL, он выводит соответствующий текстовый URL (например, «Facebook.com»).
  5. Формирование запроса: Восстановленный текстовый URL вставляется в запрос.
  6. Выполнение поиска: Нормализованный текстовый запрос отправляется в поисковую систему.
  7. Возврат результатов: Результаты поиска и нормализованный текстовый запрос возвращаются пользователю для отображения.

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке запросов и данных, связанных с языковыми моделями.

  • Поведенческие факторы (Текстовые): Журналы текстовых поисковых запросов (Query Data) и связанная с ними частотная информация (Frequency Information). Это основной источник данных для обучения L_Base и идентификации URL для декомпозиции.
  • Пользовательские факторы (Голосовые): Аудиоданные голосовых запросов, получаемые в реальном времени от устройств пользователей.
  • Системные данные: Электронный словарь (V_Base), часто основанный на том же потоке запросов.

Какие метрики используются и как они считаются

  • N-gram Probabilities: Вероятности последовательностей слов, хранящиеся в L_Base. Они используются для оценки правдоподобности той или иной сегментации URL.
  • Best Probable Path (Наиболее вероятный путь): Сегментация URL, которой присвоена наивысшая совокупная вероятность на основе N-gram Probabilities.
  • Формула расчета сегментации: В патенте приводится формальное описание выбора наилучшего пути N(u) как: N(u)=bestpath(I(u)∘T∗(VBASE)∘LBASE)N(u) = bestpath(I(u) \circ T^*(V_{BASE}) \circ L_{BASE})N(u)=bestpath(I(u)∘T∗(VBASE​)∘LBASE​). Где I(u)∘T∗(VBASE)I(u) \circ T^*(V_{BASE})I(u)∘T∗(VBASE​) представляет собой решетку всех возможных сегментаций, а композиция с L_Base используется для их оценки.
  • Word Error Rate (WER) (Частота словесных ошибок): Метрика, используемая в патенте для оценки качества работы Decompounder путем сравнения автоматической сегментации с эталонной (ручной) сегментацией.

Выводы

  1. Инфраструктура ASR, а не ранжирование: Патент описывает исключительно инфраструктуру для автоматического распознавания речи (ASR) и обучения языковых моделей. Он не содержит информации о факторах ранжирования или алгоритмах оценки качества контента.
  2. Зависимость от текстовых запросов для понимания речи: Google в значительной степени полагается на анализ огромных объемов текстовых поисковых запросов (L_Base), чтобы определить, как люди, скорее всего, произносят URL-адреса. То, как пользователи ищут бренд в тексте, влияет на то, как Google сегментирует его доменное имя для голосового поиска.
  3. Нормализация ввода как ключевая цель: Основная цель системы — нормализация ввода. Независимо от того, вводит ли пользователь запрос текстом или голосом, внутренняя поисковая система должна получить каноническую текстовую форму URL (например, получить facebook.com, даже если пользователь сказал «face book dot com»).
  4. Сложная обработка неоднозначностей: Механизм декомпозиции (Decompounder) предназначен для решения проблемы неоднозначности сегментации (например, «gothisland» -> «goth island» или «go this land») путем выбора наиболее вероятного варианта на основе статистики использования языка.
  5. Эффективность языковых моделей: Использование сегментированных URL для обучения голосовых LM значительно уменьшает размер словаря и повышает точность распознавания (снижает перплексию) по сравнению с моделями, обученными на текстовых URL.

Практика

Best practices (это мы делаем)

Поскольку патент является инфраструктурным и описывает работу ASR, прямых рекомендаций по SEO-оптимизации контента или ссылок он не дает. Однако он дает важные выводы для брендинга и технической структуры URL.

  • Выбор однозначных доменных имен: Выбирайте доменные имена и названия брендов, которые легко сегментируются и произносятся. Если система может легко разбить домен на составляющие слова, вероятность правильного распознавания при голосовом вводе выше.
  • Тестирование URL на сегментацию: При создании новых разделов или выборе URL-slugs проверяйте их на предмет потенциальной неоднозначности при произношении и сегментации. Предпочитайте четкие и ясные конструкции.
  • Построение сильного бренда (Косвенно): Чем чаще пользователи ищут ваш бренд в виде отдельных слов (если он составной), тем выше вероятность того, что L_Base присвоит этой сегментации высокий балл. Это обеспечивает корректную работу голосовой навигации к вашему сайту.

Worst practices (это делать не надо)

  • Использование неоднозначных составных имен: Избегайте использования доменных имен, которые могут быть неправильно сегментированы с негативными коннотациями или привести к другому значению. Классические примеры: expertsexchange.com (Expert Sex Change или Experts Exchange) или penisland.net (Pen Island или Penis Land). Этот патент описывает механизм, который пытается решить эту проблему, но полагаться на него рискованно.
  • Использование сложных или непроизносимых URL: Создание URL, которые трудно произнести или которые не состоят из известных словарю слов, затруднит голосовую навигацию к этим страницам, так как система не сможет корректно их сегментировать или распознать.

Стратегическое значение

Патент подтверждает сложность и важность этапа нормализации ввода в поисковых системах, особенно при переходе от текста к речи и обратно. Для SEO это подчеркивает, что доступность сайта (accessibility) включает в себя не только технические аспекты, но и лингвистические — насколько легко пользователям найти сайт с помощью голоса. Стратегически важно учитывать голосовую навигацию при выборе бренда и структуры URL.

Практические примеры

Сценарий: Выбор доменного имени для сервиса поиска психотерапевтов

  1. Вариант 1 (Плохой): therapistfinder.com
  2. Анализ неоднозначности: Система Decompounder, анализируя этот URL, может сгенерировать два варианта: «therapist finder» и «the rapist finder».
  3. Оценка вероятности: Система обратится к L_Base для оценки обоих вариантов. Если по какой-то причине второй вариант окажется статистически более вероятным в общем корпусе языка или если первый вариант недостаточно силен, система может ошибиться.
  4. Вариант 2 (Хороший): findatherapist.com или therapy-finder.com (если используются дефисы).
  5. Результат: Выбор однозначного варианта гарантирует, что при голосовом запросе пользователи будут корректно направлены на нужный сайт, и снижает репутационные риски.

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов?

Нет, этот патент не описывает алгоритмы ранжирования или оценки качества контента. Он описывает исключительно инфраструктуру автоматического распознавания речи (ASR) и то, как Google обрабатывает и нормализует голосовые запросы, содержащие URL-адреса, перед отправкой их в поисковую систему.

Как Google определяет, как правильно разбить мой домен на слова?

Google использует большую языковую модель (L_Base), обученную на огромном количестве текстовых поисковых запросов. Система генерирует все возможные варианты разбивки домена на слова из своего словаря и выбирает тот вариант, который имеет наибольшую статистическую вероятность появления в реальных запросах.

Что произойдет, если мой домен можно разбить на слова по-разному?

Это представляет проблему неоднозначности. Система попытается выбрать наиболее вероятный вариант на основе статистики L_Base. Если ваш бренд новый или менее популярный, чем альтернативная интерпретация, система может выбрать неправильную сегментацию, что затруднит голосовую навигацию к вашему сайту.

Как я могу помочь Google правильно сегментировать мой домен?

Лучший способ — выбирать четкие и однозначные доменные имена. Также помогает построение сильного бренда: чем чаще пользователи ищут ваш бренд в правильной сегментации в текстовом поиске, тем больше данных получит L_Base для корректной оценки вероятности.

Использует ли Google этот механизм для сегментации URL-slugs (частей URL после домена)?

Да, патент описывает сегментацию составного текста в целом, и примеры включают части URL, такие как myspacelayouts. Механизм может применяться к любой части URL, которая представляет собой конкатенацию слов без пробелов.

Что такое Decompounder и Compounder?

Decompounder — это компонент, который разбивает текстовый URL на слова (например, facebook.com -> face book) во время обучения системы. Compounder — это обратный компонент, который во время голосового запроса собирает распознанные слова обратно в текстовый URL (например, face book dot com -> facebook.com).

Почему Google не обучает голосовую модель прямо на текстовых URL?

Это неэффективно. Во-первых, это сильно увеличивает размер словаря, так как каждый URL становится отдельным термином. Во-вторых, это не позволяет автоматически генерировать произношение для URL; пришлось бы создавать произношение для каждого URL вручную. Сегментация позволяет использовать произношения для отдельных слов.

Влияет ли использование дефисов в URL на этот процесс?

Патент фокусируется на сегментации текста, соединенного *без* промежуточных пробелов. Использование дефисов обычно упрощает сегментацию, так как они служат явными разделителями. Это может быть хорошей стратегией для избежания неоднозначности, описанной в патенте.

Применяется ли этот патент только к английскому языку?

Хотя примеры приведены на английском языке, технология сегментации составного текста применима к любому языку. В патенте также упоминается, что она может использоваться для языков, которые не сегментируют каждое слово в письменной форме (например, некоторые азиатские языки).

Какое основное действие я должен предпринять как SEO-специалист на основе этого патента?

Основное действие — это аудит текущих и будущих доменных имен и важных URL-slugs на предмет их произносимости и однозначности сегментации. Убедитесь, что ваш бренд легко найти через голосовую навигацию, избегая лингвистических ловушек.

Похожие патенты

Как Google использует структурированные данные и логи запросов для создания языковых моделей и исправления орфографии в сложных доменах (например, адресах)
Google решает проблему создания языковых моделей для доменов с огромным количеством комбинаций (например, географических адресов). Система анализирует логи запросов для определения популярных форматов ввода (Template Distribution) и популярности конкретных мест (Location Distribution). Эти данные объединяются для создания вероятностной языковой модели, которая позволяет исправлять орфографические ошибки в запросах пользователей, предлагая более вероятные варианты.
  • US8626681B1
  • 2014-01-07
  • Семантика и интент

  • Knowledge Graph

  • Мультиязычность

Как Google автоматически определяет язык, страну и тип устройства по структуре URL и переранжирует выдачу под пользователя
Google анализирует шаблоны в структуре URL сайта (например, поддомены или папки) и сопоставляет их с фактическим контентом страниц. Система вычисляет вероятность того, что определенный шаблон указывает на язык, страну или тип устройства. При поиске эти данные используются для расчета оценки соответствия (Alignment Score) и повышения в ранжировании той версии страницы, которая лучше всего подходит пользователю, при одновременном понижении дубликатов.
  • US8600993B1
  • 2013-12-03
  • Структура сайта

  • Персонализация

  • Техническое SEO

Как Google объединяет изображение с камеры и одновременный аудиовход (речь и звуки) для выполнения сложных мультимодальных поисковых запросов
Система мультимодального поиска Google, которая одновременно обрабатывает визуальные данные с камеры и аудиоданные с микрофона. Система извлекает визуальные признаки, транскрибирует речь и анализирует звуковые сигнатуры. Это позволяет пользователям задавать контекстные вопросы об объектах в кадре (например, «[Фото платья] + Найди такое же синее») или диагностировать проблемы по звуку и изображению (например, шум неисправного прибора), получая релевантные результаты из веб-поиска, поиска по картинкам или от генеративных моделей.
  • US12346386B2
  • 2025-07-01
  • Мультимедиа

  • Семантика и интент

Как Google исправляет ошибки распознавания голосовых запросов с помощью последующих уточнений пользователя
Google позволяет пользователям исправлять ошибки распознавания голоса естественным образом (например, фразой «Нет, я имел в виду...»). Система анализирует исходный запрос и последующее уточнение, генерирует кандидатов на исправление, оценивает их популярность и фонетическое сходство, и формирует новый, корректный поисковый запрос.
  • US9514743B2
  • 2016-12-06
  • Семантика и интент

Как Google планирует использовать аудио-отпечатки для поиска по голосовым запросам без распознавания речи (ASR)
Google разрабатывает технологию для голосового поиска, которая не требует транскрибации речи в текст (ASR). Система создает компактный аудио-отпечаток (фонетический сигнал) из голоса пользователя и напрямую сопоставляет его с токенами документов в общем векторном пространстве. Это позволяет находить релевантные результаты быстрее, эффективнее и с сохранением конфиденциальности пользователя.
  • US20250069593A1
  • 2025-02-27
  • Семантика и интент

  • Мультимедиа

Популярные патенты

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте
Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.
  • US9037581B1
  • 2015-05-19
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR
Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.
  • US10922326B2
  • 2021-02-16
  • Knowledge Graph

  • SERP

  • Семантика и интент

Как Google анализирует текст вокруг ссылки (Rare Words) для борьбы со спамом и определения шаблонных ссылок
Google использует механизм для оценки качества ссылок, выходящий за рамки анкорного текста. Система анализирует редкие слова (rare words) в тексте, непосредственно окружающем ссылку, чтобы определить её уникальный контекст. Ранжирование улучшается при наличии разнообразия этих контекстов. Ссылки с повторяющимся контекстом (спам, Google-бомбинг или шаблонные/сквозные ссылки) идентифицируются и дисконтируются.
  • US8577893B1
  • 2013-11-05
  • Антиспам

  • Ссылки

  • Семантика и интент

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования
Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.
  • US7454417B2
  • 2008-11-18
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует поведение пользователей для определения синонимичности фраз в запросах, связанных с сущностями
Google анализирует поведение пользователей (клики по результатам поиска), чтобы определить, означают ли разные фразы одно и то же, когда они связаны с одним типом сущности (например, «достопримечательности в <Город>» против «места для посещения в <Город>»). Если пользователи кликают на одни и те же документы для разных фраз, система считает эти фразы эквивалентными, что помогает Google понимать синонимы и улучшать результаты поиска.
  • US10073882B1
  • 2018-09-11
  • Семантика и интент

  • Поведенческие сигналы

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

seohardcore