SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google разбирает запрос на значимые фразы, предпочитая длинные концепции отдельным словам

QUERY PHRASIFICATION (Фразификация запросов)
  • US8166021B1
  • Google LLC
  • 2007-03-30
  • 2012-04-24
  • Семантика и интент
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему для интерпретации поисковых запросов, которая разбивает текст запроса на все возможные комбинации фраз (фразификации). Система оценивает эти комбинации, используя вероятность существования фразы в индексе и предпочитая интерпретации с меньшим количеством длинных фраз. Это позволяет поисковой системе понимать запрос как набор концепций, а не просто набор ключевых слов.

Описание

Какую проблему решает

Патент решает фундаментальную проблему интерпретации пользовательских запросов. Традиционные системы часто рассматривают запрос как "мешок слов" (bag of words), что приводит к потере концептуального значения, заложенного во фразах (например, разница между "New York" как фразой и "New" + "York" как отдельными словами). Изобретение предлагает механизм для систематического определения того, какие слова в запросе следует рассматривать как единую фразу (концепцию), а какие — как отдельные термины.

Что запатентовано

Запатентован метод "Фразификации" (Query Phrasification) входного текста, например, поискового запроса. Система генерирует все возможные варианты разбиения запроса на последовательности фраз (phrasifications). Каждая фразификация оценивается на основе статистической вероятности входящих в нее фраз и их количества. Цель — выбрать наиболее вероятную и семантически точную интерпретацию запроса.

Как это работает

Ключевой механизм работы системы:

  • Генерация кандидатов: Система принимает запрос и генерирует все возможные способы группировки слов в последовательные фразы (например, для "A B C" это могут быть: ["A B C"], ["A B"]["C"], ["A"]["B C"], ["A"]["B"]["C"]).
  • Оценка (Scoring): Каждая интерпретация оценивается по специальной формуле. Оценка учитывает вероятность существования каждой фразы в индексе Google (Probability of Occurrence) и общее количество фраз в данной интерпретации.
  • Предпочтение длинных фраз: Модель оценки настроена так, чтобы отдавать предпочтение интерпретациям с меньшим количеством более длинных и значимых фраз по сравнению с интерпретациями, состоящими из множества отдельных слов.
  • Выбор: Выбираются одна или несколько интерпретаций с наивысшей оценкой, которые затем используются для поиска.

Актуальность для SEO

Высокая. Понимание запросов (Query Understanding) является критически важным элементом современного поиска. Хотя конкретные алгоритмы, описанные в этом патенте (поданном в 2007 году), вероятно, были дополнены или заменены более сложными нейросетевыми моделями (например, BERT, MUM), фундаментальный принцип — переход от ключевых слов к концепциям и фразам — остается центральным для Google. Этот патент описывает базовую логику и математическую модель для этого перехода.

Важность для SEO

Патент имеет высокое стратегическое значение (8/10). Он демонстрирует механизм, с помощью которого Google активно пытается идентифицировать концепции и сущности в запросе. Это подчеркивает, что SEO-стратегия должна фокусироваться на оптимизации под значимые фразы и темы, а не только на присутствии отдельных ключевых слов. Порядок слов и их сочетаемость имеют решающее значение для того, как Google поймет запрос и, соответственно, какой контент будет считать релевантным.

Детальный разбор

Термины и определения

Boolean Word Tree (Булево дерево слов)
Исходное представление запроса, где листья — это слова (включая синонимы), а узлы — булевы операторы (AND, OR, NOT).
Component Phrase (Компонентная фраза)
Фраза, являющаяся частью фразификации.
f(N) (Функция корректировки точности/полноты)
Функция от количества фраз (N) во фразификации. Используется для смещения выбора в сторону точности (меньше длинных фраз) или полноты (больше коротких фраз).
Phrase (Фраза)
Последовательность одного или нескольких слов, идентифицированная системой как значимая единица (концепция). Фразы предварительно извлекаются из корпуса документов.
Phrase Data (Данные о фразах)
Хранилище известных фраз, извлеченных из корпуса документов, и их статистических характеристик (например, вероятности).
Phrase Tree (Дерево фраз)
Выходные данные процесса фразификации. Булево дерево, где листья содержат выбранные фразификации.
Phrasification (Фразификация)
Один из возможных вариантов разбиения входного текста на непересекающееся объединение (disjoint union) компонентных фраз. Например, ["New York" AND "restaurants"].
Probability of Occurrence P(pᵢ)
Вероятность появления фразы в корпусе документов. Может рассчитываться как частота документов с фразой, деленная на общее количество документов.
Confidence C(pᵢ)
Мера уверенности в фразе. Для слов из оригинального запроса C=1. Для синонимов или связанных терминов, добавленных системой, C<1.
Query Phrasification Module (Модуль фразификации запросов)
Компонент системы, отвечающий за генерацию и оценку фразификаций из входного запроса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации валидных фраз во входном тексте (запросе), содержащем три или более слов.

  1. Декомпозиция: Входной текст разбирается на множество кандидатных фразификаций. Каждая фразификация — это набор непересекающихся составляющих фраз (disjoint union of component phrases).
  2. Оценка (Scoring): Оцениваются как минимум две такие фразификации. Оценка базируется на: (a) Вероятности появления (Probability of Occurrence) каждой составляющей фразы и (b) Общем количестве составляющих фраз в данной интерпретации (N).
  3. Взвешивание: Ключевое условие — фразификации с относительно меньшим количеством компонентных фраз взвешиваются выше, чем фразификации с относительно большим количеством фраз.
  4. Выбор: Сравнение оценок с порогом и выбор одной или нескольких лучших фразификаций.
  5. Идентификация: Компонентные фразы выбранных фразификаций идентифицируются как валидные фразы для данного входного текста.

Система запрограммирована на то, чтобы предпочитать более длинные, концептуальные интерпретации запроса (например, ["New York restaurants"]) по сравнению с разбором на отдельные слова (["New" И "York" И "restaurants"]), при условии, что длинная фраза статистически вероятна.

Claim 5 (Зависимый от 1): Определяет конкретную математическую модель для оценки (Scoring Model).

Оценка (S) для фразификации рассчитывается по формуле:

S=f(N)⋅∑i=1NP(pi)⋅C(pi)S = f(N) \cdot \sum_{i=1}^{N} P(p_i) \cdot C(p_i)S=f(N)⋅∑i=1N​P(pi​)⋅C(pi​)

Где:

  • N — количество фраз в интерпретации.
  • P(pᵢ) — вероятность фразы.
  • C(pᵢ) — уверенность в фразе.
  • f(N) — функция корректировки.

Эта формула является ядром изобретения. Она формализует интуитивное понимание того, что хорошая интерпретация запроса должна состоять из фраз, которые часто встречаются (высокий P), в которых система уверена (высокий C), и при этом общее количество фраз должно быть оптимизировано (через f(N)).

Где и как применяется

Изобретение применяется на этапе понимания запроса и влияет на последующее ранжирование.

QUNDERSTANDING – Понимание Запросов

Это основная область применения патента. Query Phrasification Module работает на этом этапе, принимая запрос пользователя и преобразуя его из текста (или Boolean Word Tree) в семантически обогащенное представление (Phrase Tree).

  1. Интерпретация: Определяется, какие последовательности слов следует рассматривать как единое целое (фразу), а какие — как отдельные термины.
  2. Разрешение неоднозначности: Выбирается наиболее вероятная интерпретация среди всех возможных способов разбиения на фразы.

RANKING – Ранжирование

Результаты фразификации напрямую влияют на ранжирование. Phrase Tree передается модулю планирования запросов (Query Scheduling Module), который определяет, как искать документы, соответствующие именно этим фразам, а не отдельным словам.

Входные данные:

  • Boolean Word Tree (исходный запрос, возможно, дополненный синонимами).
  • Phrase Data (статистика по известным фразам: P(pᵢ)).
  • Данные об уверенности для синонимов (C(pᵢ)).

Выходные данные:

  • Phrase Tree (набор наилучших интерпретаций запроса).

На что влияет

  • Специфические запросы: Наибольшее влияние оказывается на многословные информационные, транзакционные и навигационные запросы, где порядок и группировка слов определяют смысл (например, названия продуктов, имена собственные, устоявшиеся термины).
  • Типы контента: Влияет на все типы контента, где важна точность соответствия концепциям (статьи, товары, услуги).
  • Ниши и тематики: Критично в тематиках с развитой терминологией (медицина, технологии, юриспруденция, хобби), где точное понимание фраз определяет качество выдачи.

Когда применяется

  • Условия работы: Алгоритм применяется при обработке практически любого запроса, состоящего из нескольких слов. В Claim 1 указано "три или более слов".
  • Триггеры активации: Наличие нескольких последовательных слов в запросе, не разделенных жесткими границами (например, оператором NOT или кавычками, как указано в описании патента).

Пошаговый алгоритм

Процесс фразификации запроса (Query Phrasification):

  1. Получение входных данных: Система получает Boolean Word Tree, представляющее запрос.
  2. Реструктуризация дерева (Flattening): Дерево преобразуется (сглаживается) с использованием законов де Моргана в эквивалентную форму: дизъюнкцию (OR) конъюнктов (AND). Например, (A OR B) AND C превращается в (A AND C) OR (B AND C).
  3. Генерация фразификаций: Для каждого конъюнкта генерируются все возможные способы разбиения последовательности слов на непересекающиеся фразы (Candidate Phrasifications).
    • Система может также учитывать перестановки слов и связанные слова/фразы (синонимы), если они были добавлены в дерево.
    • Операторы NOT или явные кавычки в запросе рассматриваются как жесткие границы, через которые фразы не формируются.
  4. Оценка фразификаций (Scoring): Каждая сгенерированная фразификация оценивается с использованием Phrase Scoring Function.

    S=f(N)∗∑i=1N[P(pi)∗C(pi)]S = f(N) * \sum_{i=1}^{N} [P(p_i) * C(p_i)]S=f(N)∗∑i=1N​[P(pi​)∗C(pi​)]

    • Для каждой фразы извлекается ее вероятность P(pᵢ) из базы данных фраз и учитывается уверенность C(pᵢ).
    • Применяется функция f(N) для смещения баланса точности/полноты. В описании патента приводится пример реализации: f(N)=(β/N)αf(N) = (β/N)^αf(N)=(β/N)α, где α и β — настраиваемые параметры.
  5. Выбор фразификаций: Выбирается подмножество фразификаций с наивысшими оценками (Топ-1, Топ-N или процент от лучших).
  6. Формирование дерева фраз: Выбранные фразификации организуются в Boolean Phrase Tree, которое передается модулю планирования запросов (Query Scheduling Module).

Какие данные и как использует

Данные на входе

Патент фокусируется на обработке запроса и использовании предварительно рассчитанных данных о фразах.

  • Пользовательские факторы (Запрос): Текст запроса, введенный пользователем, представленный как Boolean Word Tree. Сюда также могут входить связанные слова (синонимы), добавленные на предыдущих этапах обработки.
  • Системные данные (Phrase Data): База данных известных фраз, извлеченных из корпуса документов. Для каждой фразы хранится ее статистическая вероятность (Probability of Occurrence).

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик для оценки интерпретации запроса:

  • N (Number of phrases): Количество компонентных фраз в данной фразификации.
  • P(pᵢ) (Probability of Occurrence): Вероятность фразы. Рассчитывается на основе частоты фразы в корпусе (количество документов с фразой / общее количество документов) или оценивается иным способом.
  • C(pᵢ) (Confidence): Уровень уверенности во фразе. C=1 для фраз из оригинального запроса; C<1 для фраз, полученных из внешних источников (например, синонимов), отражая надежность этого источника.
  • f(N) (Precision/Recall adjustment): Функция для контроля баланса точности и полноты. В описании патента приводится пример f(N)=(β/N)αf(N) = (β/N)^αf(N)=(β/N)α.
    • Параметр α (Alpha): α>0. Регулирует точность. Более высокое значение α увеличивает точность и снижает полноту (сильнее штрафует за большое количество фраз N, тем самым предпочитая меньше длинных фраз).
    • Параметр β (Beta): 0<β<1. Регулирует смещение против слишком большого количества фраз. Меньшее значение β снижает полноту.
  • S (Phrasification Score): Итоговая оценка фразификации, рассчитываемая путем агрегации вышеуказанных метрик по формуле, описанной в Claim 5.

Выводы

  1. Переход от ключевых слов к фразам (концепциям): Патент описывает конкретный механизм, позволяющий Google систематически интерпретировать запросы как наборы фраз, а не отдельных слов. Это фундаментальный сдвиг в понимании релевантности.
  2. Предпочтение точности над полнотой: Механизм оценки (Scoring Model) явно разработан так, чтобы предпочитать фразификации с меньшим количеством фраз (Claim 1). Это означает, что при прочих равных условиях система выберет интерпретацию с более длинными и точными фразами.
  3. Статистическая основа интерпретации: То, как Google поймет запрос, напрямую зависит от Probability of Occurrence фраз в индексе. Google предпочитает те фразы, которые реально используются в документах.
  4. Математический контроль над Precision/Recall: Использование настраиваемых параметров (Alpha и Beta в функции f(N)) позволяет Google тонко настраивать баланс между точностью и полнотой при интерпретации запросов. Они могут менять эти параметры глобально или для разных типов запросов/ниш.
  5. Обработка синонимов с пониженной уверенностью: Система может включать синонимы и связанные фразы в интерпретацию запроса, но присваивает им более низкий уровень уверенности (Confidence C<1). Это означает, что прямое соответствие фразе из запроса может иметь приоритет над синонимичным соответствием.

Практика

Best practices (это мы делаем)

  • Фокус на концепциях и фразах, а не на ключевых словах: Сместите стратегию контента с оптимизации под отдельные слова на обеспечение покрытия полных фраз и концепций. Убедитесь, что контент отвечает на запросы, используя те же устоявшиеся фразы, которые Google может распознать как валидные (имеющие высокую Probability of Occurrence).
  • Использование естественного и устоявшегося языка: Поскольку оценка фразификации зависит от вероятности фразы в корпусе, крайне важно использовать терминологию и язык, принятые в вашей нише. Это повышает вероятность того, что Google распознает ваши ключевые фразы как валидные концепции.
  • Анализ семантики на уровне фраз: При сборе семантического ядра и кластеризации анализируйте не только частотность отдельных слов, но и то, как они формируют устоявшиеся фразы. Понимайте, какие интерпретации вашего целевого запроса Google может предпочесть.
  • Создание авторитетности для длинных фраз (Long-tail concepts): Развивайте контент, который делает ваш сайт авторитетным источником для сложных, многословных концепций. Если Google интерпретирует запрос как одну длинную фразу (N=1), он будет искать документы, максимально релевантные этой фразе целиком.

Worst practices (это делать не надо)

  • Keyword Stuffing и "мешок слов": Создание контента, ориентированного только на наличие отдельных ключевых слов без учета их естественных сочетаний. Система фразификации активно борется с таким подходом, предпочитая интерпретации, основанные на реальных фразах.
  • Использование неестественных или редких формулировок: Использование синонимов или оборотов, которые редко встречаются в корпусе документов. Такие фразы будут иметь низкую Probability of Occurrence, и Google вряд ли будет использовать их для интерпретации запросов.
  • Фокус только на синонимах: Полагаться исключительно на то, что Google поймет синонимы. Патент указывает, что синонимы обрабатываются с пониженной уверенностью (Confidence). Прямое использование целевой фразы (если она валидна) надежнее.

Стратегическое значение

Патент подтверждает стратегию Google, направленную на понимание естественного языка и концептуальный поиск. Для SEO это означает, что техническая оптимизация и ссылочное продвижение должны строиться на фундаменте глубокого понимания семантики и использования языка, который отражает реальные концепции в вебе. Долгосрочная стратегия должна фокусироваться на построении тематического авторитета (Topical Authority), где сайт становится источником для множества взаимосвязанных фраз и концепций в своей области.

Практические примеры

Сценарий: Оптимизация страницы под запрос "best lightweight hiking boots"

  1. Анализ запроса (как это делает Google): Система генерирует фразификации:
    • ["best lightweight hiking boots"] (N=1)
    • ["best" AND "lightweight hiking boots"] (N=2)
    • ["best lightweight" AND "hiking boots"] (N=2)
    • ["best" AND "lightweight" AND "hiking boots"] (N=3)
    • ...и так далее до отдельных слов (N=4).
  2. Оценка (как это делает Google): Система проверяет вероятность P(p) для каждой фразы. Допустим, "lightweight hiking boots" имеет высокую вероятность, а "best lightweight" — низкую. Система применяет f(N), штрафуя интерпретации с большим N.
  3. Выбор интерпретации: Вероятно, будет выбрана интерпретация ["best" AND "lightweight hiking boots"] или ["best lightweight hiking boots"], так как они концептуально точны и имеют малое N.
  4. Действия SEO-специалиста:
    • Неправильно: Фокусироваться на частом повторении слов "best", "lightweight", "hiking", "boots" по отдельности.
    • Правильно: Использовать в тексте, заголовках и метаданных точную фразу "lightweight hiking boots" как единую концепцию. Убедиться, что контент действительно описывает эту категорию товаров. Это гарантирует релевантность основной концепции, которую Google выделит в запросе.

Вопросы и ответы

Что такое "фразификация" (Phrasification) простыми словами?

Это процесс, с помощью которого Google решает, как интерпретировать запрос: как одно целое понятие, как набор из нескольких фраз или как набор отдельных слов. Система перебирает все варианты и выбирает наиболее вероятный, основываясь на статистике использования этих фраз в интернете.

Патент утверждает, что система предпочитает меньше длинных фраз. Что это значит для SEO?

Это означает, что Google стремится к точности (Precision). Если запрос "New York travel guide" может быть понят как одна фраза, система предпочтет это, а не поиск трех отдельных слов. Для SEO это подчеркивает важность оптимизации контента под полные, устоявшиеся фразы и концепции, а не под отдельные ключевые слова.

Как Google определяет, является ли фраза "валидной" или вероятной?

Валидность определяется метрикой Probability of Occurrence. Согласно патенту, эта вероятность основана на том, как часто фраза встречается в корпусе проиндексированных документов. Чем чаще фраза используется в вебе, тем выше ее вероятность и тем охотнее Google будет использовать ее для интерпретации запросов.

Стоит ли нам использовать больше синонимов в контенте, основываясь на этом патенте?

Патент показывает, что система учитывает синонимы (Related Words/Phrases) при фразификации, но присваивает им пониженный коэффициент уверенности (Confidence C<1). Это значит, что использование синонимов полезно для охвата, но основная оптимизация должна быть направлена на прямые, валидные фразы, которые используют пользователи.

Что такое функция f(N) и параметры Alpha/Beta?

Это математический механизм, позволяющий Google настраивать баланс между точностью и полнотой. f(N) штрафует интерпретации запроса, состоящие из большого количества коротких фраз (N). Параметры Alpha и Beta позволяют инженерам Google регулировать силу этого штрафа, тем самым определяя, насколько агрессивно система будет предпочитать длинные фразы коротким.

Влияет ли этот патент на работу с "длинным хвостом" (long-tail) запросов?

Да, напрямую. Длиннохвостые запросы часто сами по себе являются сложными фразами. Если система распознает такой запрос как одну валидную фразу (N=1), она будет искать документы, релевантные именно этой целостной концепции. Это дает преимущество страницам, точно оптимизированным под такие сложные фразы.

Как этот патент соотносится с современными алгоритмами, такими как BERT?

Этот патент (подача 2007 г.) описывает статистический подход к пониманию фраз, основанный на частотности и булевой логике. Современные модели, такие как BERT, используют нейросети для глубокого понимания контекста и связей между словами, не полагаясь только на статистику устоявшихся фраз. Однако цель у них общая — понять концепции в запросе. Этот патент можно рассматривать как одного из предшественников современных систем Query Understanding.

Нужно ли избегать использования предлогов или стоп-слов в ключевых фразах?

Нет, если они являются частью валидной фразы. Система оценивает вероятность фразы целиком. Если фраза "President of the United States" имеет высокую вероятность, система распознает ее как единое целое, включая стоп-слова. Важно использовать фразы в их естественном виде.

Как узнать, какие фразы Google считает валидными в моей нише?

Патент не предлагает инструмента для этого, но указывает, что валидность основана на частоте в корпусе. Практически это можно оценить, анализируя выдачу, подсказки Google (Google Suggest/Autocomplete), а также используя инструменты анализа семантики, которые опираются на большие данные о частотности фраз в интернете.

Меняет ли этот патент подход к внутренней перелинковке?

Да, это подтверждает важность использования точных, валидных фраз в анкорном тексте ссылок. Если анкорный текст распознается как высоковероятная фраза, это может служить сильным сигналом релевантности для целевой страницы именно по этой концепции, а не по отдельным словам анкора.

Похожие патенты

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи
Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.
  • US7702614B1
  • 2010-04-20
  • Индексация

  • Свежесть контента

  • Семантика и интент

Как Google динамически определяет фразы (семантические единицы) в запросе, анализируя топовые результаты поиска
Google анализирует топовые документы в выдаче по запросу, чтобы определить, следует ли рассматривать несколько слов как единую фразу (семантическую единицу). Если фраза часто встречается в топовых результатах, особенно на самых высоких позициях, Google идентифицирует ее как семантическую единицу и использует для уточнения ранжирования, отдавая приоритет документам с точным совпадением фразы.
  • US7249121B1
  • 2007-07-24
  • Семантика и интент

  • SERP

Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз
Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.
  • US8166045B1
  • 2012-04-24
  • Индексация

  • Семантика и интент

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов
Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.
  • US9703871B1
  • 2017-07-11
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google разбирает локальные запросы на «Что» и «Где» для повышения точности выдачи
Google использует механизм для интерпретации локальных запросов, введенных в одну строку. Система генерирует различные комбинации разделения запроса на тему («Что») и местоположение («Где»), отправляет их в разные базы данных (например, Карты, Локальный поиск) и использует оценки уверенности (Confidence Scores) для выбора наилучшей интерпретации.
  • US7917490B2
  • 2011-03-29
  • Local SEO

  • Семантика и интент

Популярные патенты

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует свой индекс для автоматического обновления устаревших ссылок в закладках, истории поиска и на веб-страницах
Система Google поддерживает актуальность различных коллекций URL (закладки пользователей, история поиска, электронные письма), используя основной поисковый индекс как эталон канонических адресов. Если сохраненный URL устарел, система автоматически заменяет его на актуальную версию. Также описан механизм уведомления владельцев сайтов о неработающих исходящих ссылках.
  • US20130144836A1
  • 2013-06-06
  • Ссылки

  • Индексация

  • Техническое SEO

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google использует данные о поведении пользователей внутри документов (время чтения разделов, закладки) для улучшения ранжирования
Google может собирать и анализировать данные о том, как пользователи взаимодействуют с электронными документами (например, PDF, DOC, HTML). Система отслеживает, какие разделы или страницы просматриваются дольше всего или добавляются в закладки. Эта агрегированная информация используется для повышения в ранжировании документов, чьи ключевые слова находятся в наиболее используемых (и, следовательно, ценных) разделах.
  • US8005811B2
  • 2011-08-23
  • Поведенческие сигналы

  • SERP

Как Google использует анализ многословных фраз для улучшения подбора синонимов с учетом грамматического согласования
Google анализирует, как пользователи одновременно меняют несколько слов в запросе (например, при изменении числа или рода). Подтверждая, что каждое измененное слово является лексическим или семантическим вариантом оригинала, Google идентифицирует «синонимы с N-граммным согласованием». Это позволяет системе улучшить понимание синонимов отдельных слов, даже если эти слова редко меняются поодиночке в определенных контекстах.
  • US7925498B1
  • 2011-04-12
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц
Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.
  • US9208232B1
  • 2015-12-08
  • Ссылки

  • Структура сайта

  • Семантика и интент

Как Google группирует похожие запросы и поисковые подсказки, определяя интент пользователя через анализ сессий и кликов
Google использует графовую модель (Марковскую цепь) для кластеризации поисковых подсказок и связанных запросов. Система анализирует, какие запросы пользователи вводят в одной сессии и на какие документы они кликают. Это позволяет сгруппировать запросы, ведущие к схожему контенту, и предложить пользователю разнообразный набор подсказок, отражающих разные интенты.
  • US8423538B1
  • 2013-04-16
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

seohardcore