Как Google разбирает сложные слова в запросе на части и подбирает синонимы к каждой части

SYNONYM GENERATION USING ONLINE DECOMPOUNDING AND TRANSITIVITY (Генерация синонимов с использованием онлайн-декомпозиции и транзитивности)

US8392441B1
Google LLC
2010-08-13
2013-03-05

Семантика и интент

Google использует механизм онлайн-декомпозиции для разбора сложных или составных слов в запросе (например, "vlcmediaplayer") на отдельные компоненты ("vlc", "media", "player") прямо во время поиска. Система определяет наилучший вариант разбивки, основываясь на частотности слов в интернете. Затем она подбирает синонимы к каждому компоненту, включая синонимы синонимов (транзитивность), и использует их для расширения запроса.

Какую проблему решает

Патент решает проблему снижения полноты поиска (Recall), возникающую из-за использования пользователями составных (compound) терминов, которые могут отсутствовать в релевантных документах в слитной форме. Это особенно актуально для языков, склонных к словосложению (например, немецкий), а также для технических терминов и названий продуктов. Система позволяет находить документы, содержащие компоненты составного слова или их синонимы, даже если само составное слово в документе не встречается.

Что запатентовано

Запатентована система генерации синонимов, которая обрабатывает составные термины в запросе в режиме реального времени (online decompounding). Система использует предварительно созданный словарь с частотными оценками для определения наилучшего способа разбивки термина на подтермины (subterms). Ключевым элементом является расширение запроса не просто за счет самой разбивки, а за счет добавления синонимов к этим подтерминам, в том числе найденных транзитивно (transitivity).

Как это работает

Система функционирует в два этапа:

Офлайн-подготовка: Создается словарь терминов на основе корпуса документов. Каждому термину присваивается оценка (score), основанная на частоте его встречаемости. Также генерируются базовые синонимы с учетом лексического сходства.
Онлайн-обработка:

Декомпозиция: При получении запроса составные слова разбиваются на части. Используется динамическое программирование для поиска наилучшего разбиения (сумма оценок частей максимальна).
Расширение синонимами: Система находит синонимы для полученных подтерминов.
Транзитивность: Списки синонимов расширяются за счет синонимов синонимов (до N уровней).
Аугментация: Исходный запрос дополняется найденными синонимами подтерминов для выполнения поиска.

Актуальность для SEO

Высокая. Понимание запросов (Query Understanding) и семантическое расширение остаются критически важными компонентами поиска. Механизмы декомпозиции необходимы для обработки сложных терминов, неологизмов и многословных сущностей, особенно в мультиязычном поиске. Принципы лексического анализа и транзитивности являются фундаментальными для современных поисковых систем.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он раскрывает конкретные механизмы того, как Google интерпретирует сложные термины, разбивая их на компоненты и учитывая семантику этих компонентов. Это напрямую влияет на стратегии подбора ключевых слов, особенно в технических нишах и на рынках с языками, использующими словосложение (например, немецкий). Понимание этого механизма позволяет оптимизировать контент как под составные термины, так и под их значимые компоненты и синонимы.

Термины и определения

Compound Term (Составной термин): Термин в запросе, состоящий из двух или более слов, написанных слитно (например, "vlcmediaplayer" или немецкое "hochzeitsreise").
Dictionary (Словарь): Хранилище данных, содержащее термины, извлеченные из корпуса документов, и связанные с ними оценки (scores).
Dynamic Programming (Динамическое программирование): Алгоритмический метод, используемый для эффективного вычисления оптимального способа декомпозиции в реальном времени путем анализа префиксов возрастающей длины.
Fugenmorphemes (Фугенморфемы / Соединительные элементы): Буквы, используемые для соединения подтерминов в составном слове в некоторых языках (например, 's' в немецком "hochzeitsreise"). Система может учитывать их при декомпозиции.
Lexical Similarity (Лексическое сходство): Связь между словами на основе их написания (стемминг, пунктуация, акронимы, аббревиатуры). Используется для идентификации доверенных синонимов.
Online Decompounding (Онлайн-декомпозиция): Процесс разделения составного термина на его составляющие подтермины в момент получения запроса (at search time), а не заранее.
Overall Score (Общая оценка разбивки): Метрика для оценки качества конкретного варианта разбивки. Обычно рассчитывается как сумма оценок составляющих его подтерминов.
Pseudostemming (Псевдостемминг): Более агрессивная техника стемминга, описанная в патенте, которая использует анализ длины общего префикса и редакционного расстояния оставшихся частей слов для выявления лексических вариантов.
Score (Оценка термина): Числовое значение, присвоенное термину в словаре. Обычно основано на частоте встречаемости термина в корпусе документов (например, логарифм частоты).
Transitivity (Транзитивность): Принцип, согласно которому, если термин А является синонимом термина В, а термин В является синонимом термина С, то термин А считается синонимом термина С.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает систему для расширения запроса синонимами, полученными через онлайн-декомпозицию.

Система получает запрос, включающий составной термин (compound term).
В ответ на получение запроса (т.е. онлайн) выполняются следующие операции:
Генерация одной или нескольких разбивок (splits) составного термина на подтермины (subterms). По крайней мере один подтермин должен присутствовать в словаре, где терминам присвоены оценки на основе частоты использования.
Присвоение оценок подтерминам, найденным в словаре.
Определение общей оценки (overall score) для каждой разбивки на основе оценок ее подтерминов.
Выбор первой разбивки на основе общих оценок (обычно лучшей).
Аугментация (расширение) запроса первой синонимичной фразой, которая является синонимом первого подтермина из выбранной разбивки.

Ядро изобретения: защищается не только сам факт декомпозиции, но и обязательное использование синонимов полученных подтерминов для расширения запроса.

Claim 3 (Зависимый от 1): Детализирует метод генерации разбивок.

Генерация разбивок включает инкрементальный анализ префиксов возрастающей длины составного термина для идентификации подтерминов в словаре. Это описание соответствует методу динамического программирования.

Claim 8 (Зависимый от 1): Уточняет расчет общей оценки.

Общая оценка для разбивки рассчитывается путем суммирования оценок подтерминов этой разбивки.

Claim 9 (Зависимый от 1): Включает механизм транзитивности.

Операции дополнительно включают расширение запроса еще одной синонимичной фразой, которая является синонимом для первой синонимичной фразы (т.е. синоним синонима подтермина).

Где и как применяется

Изобретение применяется на этапе понимания и переписывания запроса, используя данные, подготовленные на этапе индексирования.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит предварительная работа (офлайн): анализ корпуса документов для создания словаря терминов и расчета их частотных оценок (scores). Также происходит предварительная идентификация базовых синонимичных пар (включая лексический анализ).

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Процессы выполняются онлайн:

Система анализирует полученный запрос для выявления составных терминов.
Процесс Online Decompounding запускается для разбора этих терминов с использованием динамического программирования и данных из словаря.
После определения лучшей разбивки система инициирует генерацию синонимов (Synonym Generation) для полученных подтерминов, включая применение транзитивности.
Результатом является переписанный (аугментированный) запрос.

RANKING – Ранжирование
Система ранжирования получает на вход уже расширенный запрос, содержащий исходные термины и добавленные синонимы подтерминов.

Входные данные:

Исходный запрос пользователя.
Словарь терминов с предварительно рассчитанными частотными оценками.
База данных синонимов и правила лексического анализа.

Выходные данные:

Аугментированный запрос, включающий синонимы для подтерминов исходного составного термина.

На что влияет

Специфические запросы: Наибольшее влияние на запросы, содержащие технические термины, названия продуктов, брендов, написанных слитно (например, "goproaccessories"), или неологизмы.
Языковые и географические ограничения: Механизм критически важен для языков, активно использующих словосложение (немецкий, голландский, финский). В патенте приводятся примеры на немецком ("hochzeitsreise").
Конкретные ниши или тематики: Влияет на ниши с большим количеством сложных терминов: IT, медицина, наука, а также e-commerce (слитное написание артикулов или моделей).

Когда применяется

Триггеры активации: Алгоритм активируется при обнаружении в запросе длинных терминов, которые потенциально могут быть составными и могут быть разбиты на подтермины, присутствующие в словаре.
Временные рамки: Декомпозиция и подбор синонимов происходят онлайн, в момент обработки запроса. Создание словаря происходит офлайн.

Пошаговый алгоритм

Процесс А: Офлайн-создание словаря (FIG. 5)

Сбор данных: Идентификация терминов в корпусе документов.
Фильтрация по длине: Отбрасывание терминов короче минимальной длины.
Фильтрация по частоте: Подсчет частоты встречаемости и отбрасывание терминов ниже минимального порога.
Сохранение: Добавление оставшихся терминов в словарь.
Скоринг: Присвоение оценки каждому термину на основе его частоты (например, логарифм частоты), возможно с поправками (штрафами) для коротких, редких или слишком частых слов.

Процесс Б: Онлайн-обработка запроса (FIG. 8)

Получение запроса: Система получает запрос.
Итерация по терминам: Для каждого потенциально составного термина выполняется декомпозиция.
Генерация разбивок: Поиск всех возможных способов разбить термин на подтермины из словаря (используя динамическое программирование).
Скоринг разбивок: Расчет общей оценки для каждой разбивки путем суммирования оценок ее подтерминов.
Выбор лучшей разбивки: Выбор варианта с наивысшей общей оценкой.
Итерация по подтерминам: Для каждого подтермина из лучшей разбивки выполняется поиск синонимов.
Генерация первого уровня синонимов: Поиск первого набора синонимов для подтермина (включая лексические варианты).
Транзитивное расширение (N уровней): Для синонимов из первого набора ищутся их синонимы (второй набор) и так далее до N-го уровня.
Формирование списка синонимов: Включение всех найденных синонимов в расширенный список для исходного составного термина.
Аугментация и Поиск: Выполнение поиска с использованием запроса, дополненного синонимами из расширенных списков.

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе текста запроса и использовании предварительно собранных статистических и лингвистических данных.

Контентные факторы (из корпуса документов): Используется текст документов для офлайн-анализа частотности слов и формирования словаря.
Поведенческие факторы (для генерации синонимов): В описательной части патента упоминаются методы генерации базовых синонимов, использующие логи запросов, анализ сессий пользователей (session switching requirement) и пересечение результатов поиска (common result requirement). Эти данные используются для наполнения базы синонимов, к которой система обращается после декомпозиции.
Лингвистические и структурные данные: Система использует правила, основанные на структуре языка и написании слов (описанные в разделе "Extensions"):
- Правила стемминга (упомянуты стеммеры Ловинса и Портера) и Pseudostemming.
- Правила для идентификации акронимов и аббревиатур.
- Правила обработки пунктуации и диакритических знаков.
- Списки Fugenmorphemes для разных языков.

Какие метрики используются и как они считаются

Score (Оценка термина): Метрика важности/частотности термина. Рассчитывается офлайн на основе частоты термина в корпусе документов. В патенте предлагается использовать логарифм частоты.
Overall Score (Общая оценка разбивки): Метрика качества декомпозиции. Рассчитывается онлайн как сумма оценок подтерминов, входящих в разбивку.
Метрики лексического сходства:
- Edit-distance (Редакционное расстояние): Используется для обнаружения акронимов, аббревиатур и псевдостемминга. Сравнивается отношение количества правок к максимальной длине строк.
- Common prefix length (Длина общего префикса): Используется в технике псевдостемминга.
Минимальная длина и частота термина: Пороги, используемые при офлайн-формировании словаря.

Декомпозиция как стандартный механизм обработки запросов: Google активно пытается разобрать длинные или сложные слова в запросе на значимые компоненты. Этот процесс происходит онлайн и опирается на статистику использования слов в интернете (частотный словарь).
Приоритет частотных интерпретаций: При наличии нескольких вариантов разбивки предпочтение отдается той комбинации слов, которая является наиболее частотной (имеет наивысший Overall Score).
Синонимы применяются к компонентам: Ключевой вывод из Claim 1 – после разбивки составного слова система ищет синонимы не для всего слова целиком, а для его компонентов (подтерминов). Это значительно расширяет семантический охват запроса.
Транзитивность усиливает расширение: Система не ограничивается прямыми синонимами подтерминов, но и использует синонимы синонимов (транзитивность), что еще больше увеличивает полноту выдачи.
Лингвистическая адаптивность: Система учитывает особенности разных языков, такие как соединительные элементы (Fugenmorphemes) и диакритические знаки, что делает декомпозицию более точной в мультиязычном поиске.
Важность лексической близости: В описании патента подчеркивается, что для лексически близких вариантов (стемминг, псевдостемминг, аббревиатуры, акронимы) требования к валидации синонимов могут быть снижены (highly-trusted synonyms), что увеличивает вероятность их использования в поиске.

Best practices (это мы делаем)

Исследование вариантов написания сложных терминов: При работе с продуктами, брендами или техническими терминами анализируйте, как пользователи их ищут – слитно, раздельно или через дефис. Оптимизируйте контент под все релевантные варианты, понимая, что Google может самостоятельно проводить декомпозицию.
Употребление компонентов составных слов: Если в вашей нише используются составные слова (например, "laserprintercartridge"), убедитесь, что в тексте также присутствуют их компоненты ("laser printer cartridge"). Это поможет поисковой системе установить связь и подтвердить релевантность.
Использование синонимов для компонентов: Определите ключевые компоненты сложных терминов и используйте их синонимы в тексте. Например, для "vlcmediaplayer" (компоненты: vlc, media, player) полезно использовать синонимы для "player" (software, application). Это напрямую соответствует механизму патента (Claim 1).
Оптимизация под аббревиатуры и акронимы: Активно используйте и расшифровывайте аббревиатуры. Патент указывает, что система определяет такие лексические связи (используя Edit-distance) и может снижать пороги для их использования в качестве доверенных синонимов.
Мультиязычное SEO (Особенно немецкий язык): При работе с языками, склонными к словосложению, уделяйте особое внимание правильному употреблению составных слов и их компонентов. Понимание декомпозиции и учета Fugenmorphemes критично для этих рынков.

Worst practices (это делать не надо)

Использование только слитного написания: Полагаться только на слитное написание сложного термина. Если Google решит, что более частотная интерпретация предполагает разбивку, вы можете потерять в релевантности по сравнению с сайтами, использующими компоненты.
Игнорирование семантики компонентов: Создание контента, релевантного составному слову в целом, но игнорирующего значение его частей. Так как система подбирает синонимы к частям, это может привести к потере связи с вашим контентом при расширении запроса.
Использование редких или искусственных составных слов: Попытки продвижения по неестественным составным словам могут быть неэффективны, так как система предпочтет разбить их на более частотные компоненты (с высоким Score), что может изменить смысл запроса.

Стратегическое значение

Патент подтверждает, что Google не воспринимает слова в запросе как неизменяемые строки символов. Система активно применяет лингвистический и статистический анализ для интерпретации и расширения запросов на этапе Query Understanding. Стратегически это означает, что SEO должно фокусироваться на семантике, концепциях и естественном языке, а не только на точном вхождении ключевых слов. Понимание того, как термины могут быть разобраны и какие синонимы могут быть применены к их частям, позволяет строить более устойчивые контент-стратегии.

Практические примеры

Сценарий 1: Оптимизация страницы аксессуаров (E-commerce)

Анализ запроса: Пользователь ищет [goproaccessories].
Действие системы (Декомпозиция): Google анализирует термин. Допустим, [gopro + accessories] имеет более высокий Overall Score, чем [go + pro + accessories].
Действие системы (Синонимы): Google ищет синонимы для subterms. Для "accessories" синонимами могут быть "parts", "mounts", "attachments".
Действие системы (Аугментация): Запрос расширяется: [gopro AND (accessories OR parts OR mounts OR attachments)].
Действия SEO-специалиста: Убедиться, что на странице категории используются как слитное написание (если оно частотное), так и раздельное "GoPro Accessories". Также необходимо использовать в тексте и заголовках синонимы компонентов: "Mounts for GoPro", "GoPro Attachments".

Сценарий 2: Технический блог (IT)

Анализ запроса: Пользователь ищет [linuxconfigfile].
Действие системы (Декомпозиция): Лучшая разбивка: [linux + config + file].
Действие системы (Синонимы и Транзитивность): Синоним для "config" – "configuration". Синоним для "configuration" (Уровень 2, транзитивность) – "settings". Синоним для "file" – "document".
Действие системы (Аугментация): Запрос расширяется: [linux AND (config OR configuration OR settings) AND (file OR document)].
Действия SEO-специалиста: При написании статьи использовать разнообразную терминологию: упоминать "config files", "configuration settings", "settings documents" в контексте Linux, чтобы максимально соответствовать потенциальному расширению запроса.

Что такое "Online Decompounding" и почему это важно?

Online Decompounding – это процесс разбора составных слов (написанных слитно) на отдельные компоненты непосредственно в момент получения поискового запроса. Это критически важно, так как позволяет системе понять смысл новых или редких составных слов, которые не были заранее обработаны. Это обеспечивает гибкость поиска и позволяет находить релевантные документы, даже если они не содержат точного слитного написания.

Как Google решает, как именно разбить составное слово?

Система использует предварительно созданный словарь, где каждому слову присвоена оценка (score), основанная на его частоте в интернете. Генерируются все возможные варианты разбивки на слова из словаря, и для каждого варианта считается сумма оценок его компонентов. Выбирается тот вариант разбивки, который дает максимальную общую оценку (Overall Score).

Использует ли Google полученную разбивку как синоним?

В описании патента указано, что сама разбивка может использоваться как синоним. Однако основные Claims (формула изобретения) фокусируются на более сложном механизме: использовании синонимов *компонентов* разбивки для расширения запроса. Например, для "vlcmediaplayer" система может не просто искать [vlc media player], но найти синоним для "player" (например, "software") и искать [vlc media software].

Что такое транзитивность в контексте синонимов?

Транзитивность означает, что если Слово А – синоним Слова В, а Слово В – синоним Слова С, то Слово А считается синонимом Слова С. Google использует этот принцип для поиска "синонимов синонимов" (до N уровней) для компонентов составного слова, что значительно расширяет охват поиска.

Как этот патент влияет на подбор ключевых слов?

Он подчеркивает необходимость исследовать не только очевидные ключевые фразы, но и варианты написания сложных терминов (слитно/раздельно), а также синонимы для их компонентов. Недостаточно оптимизироваться только под слитный термин; важно учитывать семантику его частей и их взаимозаменяемость.

Особенно ли важен этот патент для мультиязычного SEO?

Да, он критически важен для языков, активно использующих словосложение, таких как немецкий, голландский или скандинавские языки. В этих языках одно слово может заменять целую фразу. Корректная декомпозиция, включая учет соединительных элементов (Fugenmorphemes), является ключом к пониманию запроса в этих регионах.

Учитывает ли система ошибки или лексические варианты при декомпозиции?

Да, в разделе "Extensions" патента описываются техники для определения лексического сходства (lexical similarity), включая стемминг, псевдостемминг, аббревиатуры, акронимы. Система рассматривает их как доверенные синонимы (highly-trusted synonyms) и может снижать пороги для их валидации, что помогает обрабатывать вариации написания.

Что такое "Псевдостемминг" (Pseudostemming), описанный в патенте?

Это более агрессивный метод стемминга, разработанный Google. Он определяет, являются ли два слова вариантами друг друга, анализируя длину их общего префикса и редакционное расстояние (edit distance) между их окончаниями. Он направлен на выявление большего числа лексических вариантов по сравнению со стандартными стеммерами.

Как система обрабатывает неологизмы или новые составные термины?

Благодаря механизму Online Decompounding, система может обработать новый составной термин, если его компоненты уже известны и присутствуют в частотном словаре. Это позволяет поиску адаптироваться к появлению новых терминов без необходимости предварительной ручной обработки или переиндексации.

Может ли система неправильно разбить слово и ухудшить результаты?

Да, это возможно. Если статистически более частотная, но семантически неверная для данного контекста разбивка получит более высокий Score, система может выбрать ее. Например, если "usedrugs" будет разобрано как [use + drugs] вместо [used + rugs] в контексте покупки ковров. Система пытается минимизировать это, выбирая наиболее вероятную интерпретацию на основе частотности.

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска

Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.

US20140358904A1
2014-12-04

Семантика и интент
SERP

Как Google идентифицирует лексические синонимы (стемминг, акронимы, аббревиатуры) и агрессивно использует их для расширения запросов

Патент описывает гибридную систему Google для генерации синонимов, комбинирующую статистический анализ логов запросов и лингвистический анализ. Ключевая особенность — механизм повышенного доверия к лексическим вариантам (например, словам с общим корнем, акронимам, разному написанию). Если система обнаруживает лексическую связь, она снижает статистические пороги, необходимые для валидации синонима, что позволяет агрессивнее расширять запрос пользователя.

US9183297B1
2015-11-10

Семантика и интент

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google определяет язык запроса, используя язык интерфейса и статистику по словам для добавления правильных диакритических знаков

Google использует механизм для точного определения языка, на котором пользователь вводит запрос, особенно когда слова неоднозначны или не содержат диакритических знаков. Система анализирует язык интерфейса пользователя и статистику использования слов в разных языках. Это позволяет Google понять, какие диакритические знаки (например, акценты) следует добавить к запросу, чтобы найти наиболее релевантные документы на правильном языке.

US8762358B2
2014-06-24

Мультиязычность
Семантика и интент

Как Google консолидирует оценки популярности и фильтрует подсказки в Autocomplete для оптимизации выдачи

Google использует механизм консолидации оценок в Autocomplete: популярность длинных запросов суммируется с популярностью их коротких префиксов. Это позволяет точнее определить реальный спрос. Затем система фильтрует список, предпочитая более длинные и информативные подсказки коротким, если длинная подсказка составляет значительную часть популярности короткой, оптимизируя интерфейс пользователя.

US8713042B1
2014-04-29

SERP

Как Google вычисляет важность сущностей внутри документа, используя контекст, ссылки и поведение пользователей, для улучшения ранжирования

Google использует систему для определения относительной важности сущностей (люди, места, даты) внутри документа (книги или веб-страницы) независимо от поискового запроса. Важность рассчитывается на основе того, где сущность упомянута (контекст, структура), насколько точно она определена, ссылаются ли на этот раздел внешние источники и как часто его просматривают пользователи. Эти оценки важности сущностей затем используются как сигнал для ранжирования самого документа в результатах поиска.

US7783644B1
2010-08-24

Поведенческие сигналы
Индексация
Семантика и интент

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google использует цепочки запросов и время взаимодействия для определения и ранжирования результатов, которые действительно нужны пользователям

Google анализирует последовательности запросов пользователей (цепочки запросов) и время между кликами и последующими запросами (время взаимодействия), чтобы определить удовлетворенность пользователя. Если пользователи часто переформулируют Запрос А в Запрос Б, прежде чем найти удовлетворительный результат, Google использует эти данные, чтобы ранжировать этот удовлетворительный результат выше по исходному Запросу А и предлагать Запрос Б в качестве связанного поиска.

US9342600B1
2016-05-17

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google создает и наполняет Панели Знаний (Knowledge Panels), используя шаблоны сущностей и популярность фактов

Google использует систему для отображения Панелей Знаний (Knowledge Panels) рядом с результатами поиска. Когда запрос относится к конкретной сущности (человеку, месту, компании), система выбирает соответствующий шаблон и наполняет его контентом из разных источников. Выбор фактов для отображения основан на том, как часто пользователи искали эту информацию в прошлом.

US9268820B2
2016-02-23

Knowledge Graph
SERP
Семантика и интент

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов

Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.

US20190278836A1
2019-09-12

Семантика и интент
Персонализация
EEAT и качество

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)

Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.

US10146829B2
2018-12-04

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки