Как Google определяет, какие последовательности слов являются значимыми фразами, используя структуру документа и оценку подфраз

PHRASE EXTRACTION USING SUBPHRASE SCORING (Извлечение фраз с использованием оценки подфраз)

US8166045B1
Google LLC
2007-03-30
2012-04-24

Патент описывает алгоритм для автоматического извлечения миллионов значимых фраз (концепций) из корпуса документов. Система анализирует семантические границы в тексте (заголовки, пунктуацию, форматирование) и применяет механизм оценки подфраз (Devolution). Это позволяет отличить устоявшиеся словосочетания от случайных комбинаций слов и построить индекс на основе концепций, а не только отдельных терминов.

Какую проблему решает

Патент решает фундаментальную проблему информационного поиска: как автоматически идентифицировать значимые фразы (концепции) в огромном корпусе документов, не прибегая к ручному составлению словарей и не индексируя триллионы возможных комбинаций слов (n-грамм). Традиционная индексация отдельных слов упускает семантику, выраженную во фразах. Изобретение предлагает масштабируемый метод для извлечения только тех фраз, которые реально используются в языке (real phrases).

Что запатентовано

Запатентован метод и система для извлечения набора валидных фраз из коллекции документов. Метод основан на идентификации кандидатов в фразы с использованием структурных и семантических особенностей документов (text breaks). Ключевым механизмом является система оценки, которая учитывает расположение фразы в документе и её взаимосвязь с подфразами (subphrase scoring или devolution), чтобы определить, является ли последовательность слов самостоятельной концепцией.

Как это работает

Система сканирует документы, идентифицируя последовательности слов между семантическими границами (text breaks), такими как конец предложения, абзаца или смена форматирования. Каждое вхождение оценивается в зависимости от его позиции (например, Exact, Initial) и расположения (заголовок, основной текст). Применяется механизм деволюции (devolution): оценка длинной фразы передается её подфразам. Если длинная фраза признана «сильной» (превышает strong phrase threshold), она может передавать негативную оценку своим подфразам, указывая, что они не являются самостоятельными единицами в данном контексте. Наконец, фраза признается валидной, если она имеет сильную поддержку в одном документе или достаточную агрегированную поддержку (combined score) во многих документах.

Актуальность для SEO

Высокая. Понимание того, как Google интерпретирует последовательности слов как единые семантические единицы (фразы или сущности), остается критически важным для SEO. Хотя современные системы (например, основанные на трансформерах) используют более сложные методы NLP, базовые принципы идентификации фраз, основанные на структуре документа, совместной встречаемости и форматировании, остаются актуальными как фундаментальные сигналы для извлечения концепций и построения семантического индекса.

Важность для SEO

Патент имеет высокое значение (85/100). Он раскрывает механизм, с помощью которого Google оценивает значимость фраз, основываясь на том, как они структурированы и представлены в контенте. Это напрямую влияет на SEO-стратегию: структура HTML, использование форматирования и расположение ключевых концепций являются прямыми сигналами, которые помогают поисковой системе правильно идентифицировать целевые фразы как значимые семантические единицы.

Термины и определения

Candidate Phrase (Кандидат в фразы)

Последовательность из нескольких последовательных слов в документе, которая потенциально может быть валидной фразой.

Combined Score (Комбинированная оценка)

Агрегированная оценка кандидата в фразы, основанная на его Document Phrase Scores по всей коллекции документов.

Devolution (Деволюция оценки / Score Devolution)

Процесс разложения кандидата в фразы на подфразы и перераспределения оценки родительской фразы на эти подфразы (положительно или отрицательно).

Document Phrase Score (Оценка фразы в документе)

Оценка, присваиваемая кандидату в фразы для конкретного документа, отражающая вероятность того, что он является реальной фразой, на основе его использования в этом документе.

Hit Position (Позиция вхождения)

Категоризация того, как вхождение фразы соотносится с Text Breaks. Включает:

Exact: Фраза точно совпадает с границами (начало и конец блока).
Initial: Фраза находится в начале блока после разрыва.
Final: Фраза находится в конце блока перед разрывом.
Medial: Фраза находится в середине блока.

Instance Phrase Score (Оценка вхождения фразы)

Оценка конкретного появления кандидата в фразы, основанная на его расположении (location) и позиции (position).

Strong Phrase Threshold (Порог сильной фразы)

Пороговое значение оценки. Если оценка фразы превышает его, она считается «сильной», что меняет правила деволюции оценок на подфразы (активирует негативную деволюцию).

Text Break (Семантический разрыв текста)

Маркер в документе, указывающий на семантическую границу. Примеры: конец предложения, абзаца, заголовка, видимый HTML-элемент (таблица, линия HR), значительное изменение шрифта (typeface).

Valid Phrase (Валидная фраза)

Кандидат в фразы, который прошел процесс валидации на основе его оценок в корпусе и признан реальной фразой.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод извлечения набора валидных фраз из документов.

Идентификация кандидатов: Система сканирует документы для идентификации кандидатов в фразы (последовательностей слов).
Оценка в документе (Document Phrase Scoring): Каждому кандидату присваивается Document Phrase Score для каждого документа. Эта оценка базируется на комбинировании оценок отдельных вхождений (Instance Phrase Scores).
Оценка вхождений: Оценка каждого вхождения зависит от двух ключевых факторов:
- Его расположения (location) в документе (например, заголовок vs тело).
- Его позиции (position) относительно последовательности слов, содержащей это вхождение (подразумевается позиция относительно Text Breaks).
Комбинированная оценка (Combined Score): Для каждого кандидата создается Combined Score на основе его Document Phrase Scores из разных документов.
Валидация: Система определяет, является ли кандидат валидной фразой, основываясь как на Combined Score, так и на наборе индивидуальных Document Phrase Scores.

Claim 4 (Зависимый от 1): Детализирует механизм оценки подфраз (Subphrase Scoring / Devolution).

Для каждого кандидата определяются подфразы. Каждая подфраза оценивается как функция позиции подфразы относительно последовательности слов, содержащей родительскую фразу, И Document Phrase Score родительской фразы. Это подтверждает механизм, где контекст и сила родительской фразы влияют на оценку её частей.

Claim 10 (Зависимый от 1, включает суть Claims 6, 7, 8): Определяет три критерия валидации фразы.

Кандидат признается валидной фразой, если выполняется ХОТЯ БЫ ОДНО из условий:

Сильная поддержка (Claim 6): Максимальное значение его Document Phrase Scores превышает первый порог (сильная поддержка хотя бы в одном документе).
Умеренная поддержка (Claim 7): Его Combined Score превышает второй порог (достаточная общая поддержка в корпусе).
Широкая поддержка (Claim 8): Количество документов, в которых он получил хотя бы минимальную оценку, превышает третий порог (широкое использование).

Где и как применяется

Изобретение применяется на ранних этапах обработки контента для построения базовых структур данных, используемых в поиске.

CRAWLING – Сканирование и Сбор данных
На этом этапе собираются необработанные данные (документы), включая текст и структурную информацию (HTML, форматирование), которые служат входным материалом для извлечения фраз.

INDEXING – Индексирование и извлечение признаков
Основное применение патента. Процесс извлечения фраз (Phrase Extraction) выполняется как часть этапа индексирования (Feature Extraction) для идентификации значимых концепций в корпусе.

Анализ контента: Система (Phrase Identification Server) анализирует текст и структуру документов для выявления кандидатов в фразы и определения text breaks.
Вычисление признаков: Рассчитываются Document Phrase Scores (включая деволюцию) и агрегированные Combined Scores.
Построение индекса: Результатом является создание списка валидных фраз (Phrase Data), который затем используется для построения индекса, основанного на фразах (Phrase Posting Lists).

QUNDERSTANDING – Понимание Запросов
Патент также описывает процесс Query Phrasification (хотя это не основная тема данного анализа извлечения). Извлеченный список валидных фраз критически важен для того, чтобы система могла разбить входной запрос на известные концепции (фразы).

Входные данные:

Коллекция документов (веб-страницы) или логи запросов.
Текст, структура (HTML) и данные о форматировании (typeface) документов.

Выходные данные:

Список валидных фраз (Phrase Data).
Статистические данные о фразах (например, ожидаемая вероятность фразы в индексе).

На что влияет

Все типы контента и тематики: Механизм является общим и применяется для анализа любого текста с целью выявления устоявшихся фраз и концепций.
Структурированный контент: Алгоритм особенно эффективен для контента с четкой структурой (заголовки, списки, абзацы), так как это облегчает идентификацию text breaks.
Длинные фразы и сущности: Система способна идентифицировать длинные фразы (до N слов, где N может быть 5-20), что важно для точного понимания сложных тем и именованных сущностей.

Когда применяется

Во время индексации: Процесс применяется при обработке новых или обновленных документов для извлечения фраз.
Периодически (Офлайн): Извлечение фраз выполняется периодически на всем корпусе или его значительном подмножестве для обновления общего словаря фраз, выявления новых терминов и устаревания старых.
Триггеры активации в документе: Алгоритм активируется при обнаружении text break или при заполнении буфера сканирования (N слов).

Пошаговый алгоритм (Извлечение фраз)

Этап 1: Извлечение и оценка кандидатов в документе

Сканирование и буферизация: Система сканирует документ, поддерживая буфер из последних N слов (например, N=5-20).
Идентификация разрывов (Text Breaks): Определяются семантические границы (конец предложения/абзаца, HTML-теги, смена шрифта).
Генерация вхождений (Hits): Когда буфер заполнен или обнаружен разрыв, содержимое буфера записывается как вхождение кандидата в фразы.
Категоризация позиции (Hit Position): Каждому вхождению присваивается позиция (Initial, Final, Exact, Medial).
Первичная оценка вхождений: Каждому вхождению присваивается оценка (Instance Phrase Score) на основе его позиции (Exact ценится выше всего), расположения (заголовок выше тела) и форматирования.
Отбор первичных кандидатов: Последовательности, чья оценка превышает начальный порог (Initial Phrase Identification Threshold), становятся кандидатами.

Этап 2: Оценка подфраз (Devolution)

Итеративное разложение: Кандидаты раскладываются на подфразы (из J слов в J-1 слово).
Проверка порога сильной фразы: Система сравнивает оценку родительской фразы с Strong Phrase Threshold.
Деволюция оценок (Слабая фраза): Если оценка ниже порога, оценка родителя распределяется между подфразами (например, по правилам, зависящим от позиции, часто X/2). Это увеличивает поддержку подфраз.
Деволюция оценок (Сильная фраза): Если оценка выше порога, правила меняются. Система может присвоить подфразам негативную оценку (например, -X/2). Это указывает, что подфраза встретилась только как часть сильной родительской фразы и не должна учитываться как самостоятельная единица в данном контексте.
Агрегация оценок в документе: Все оценки для конкретной фразы (полученные напрямую и через деволюцию) суммируются для получения итоговой Document Phrase Score.

Этап 3: Междокументная обработка и Валидация

Агрегация по корпусу: После обработки набора документов Document Phrase Scores для каждого кандидата агрегируются в Combined Score.
Валидация (Три правила): Кандидат признается валидной фразой, если выполняется одно из условий:
- Сильная поддержка: Максимальный Document Phrase Score > Порог 1.
- Умеренная поддержка: Combined Score > Порог 2.
- Широкая поддержка: Количество документов с минимальной оценкой > Порог 3.
Удаление избыточности: Удаляются подфразы, которые имеют почти такую же (например, >95%) комбинированную оценку, как и их родительские фразы (т.е. встречаются только вместе с ними).
Финальная очистка: Применение эвристик и языковых моделей для удаления артефактов.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные, извлеченные из документов, для оценки значимости фраз.

Контентные факторы: Текст документа (последовательность слов).
Структурные факторы:
- Расположение текста (Location): заголовок, основной текст, списки, таблицы.
- Границы предложений и абзацев (используются для определения Text Breaks).
Технические факторы (HTML): HTML-элементы, которые создают визуальные или структурные границы (например, <title>, <p>, <h1>, <table>, <hr>). Используются для определения Text Breaks и Location.
Мультимедиа/Форматирование факторы (Typeface): Характеристики шрифта (стиль, размер, начертание). Изменения форматирования используются для определения Text Breaks и для повышения оценки значимости фразы.
Ссылочные факторы: Использование последовательности слов в качестве анкорного текста (Anchor Text). Упоминается, что оценка может быть повышена в зависимости от качества связанной страницы (например, PageRank).
Лингвистические маркеры: Капитализация (может указывать на имена собственные).

Какие метрики используются и как они считаются

Instance Phrase Score (Оценка вхождения): Рассчитывается для каждого появления фразы. Зависит от взвешивания Hit Position (Exact > Initial/Final > Medial), Location (Title > Body) и Typeface.
Document Phrase Score: Сумма оценок всех вхождений фразы в документе, скорректированная с учетом оценок, полученных в результате деволюции (положительных или отрицательных).
Combined Score: Агрегация (сумма, среднее или другая функция) Document Phrase Scores по всему корпусу.
Пороги (Thresholds):
- Initial Phrase Identification Threshold: Для первичного отбора кандидатов.
- Strong Phrase Threshold: Для определения правил деволюции (положительная vs негативная).
- Пороги Валидации 1, 2, 3: Для финального определения валидности фразы.
Правила Деволюции (Devolution Rules): Набор правил для расчета передачи оценки. Например, для медиальной позиции оценка может делиться пополам (X/2) или передаваться с отрицательным значением (-X/2) для сильных фраз.

Автоматическое выявление концепций: Патент описывает механизм, позволяющий Google автоматически определять, какие последовательности слов следует рассматривать как единые семантические единицы (фразы) для индексации, без ручного вмешательства или простого подсчета N-грамм.
Структура и форматирование как семантические сигналы: Система активно использует структуру документа (абзацы, заголовки) и визуальное форматирование (шрифт) как индикаторы семантических границ (Text Breaks). То, как автор структурирует и оформляет текст, напрямую влияет на распознавание ключевых концепций.
Значимость расположения и позиции: Фразы, расположенные в ключевых местах (Location, например, в заголовках) или точно совпадающие с семантическими блоками (Position: Exact), получают значительно более высокие оценки.
Механизм «Devolution» определяет полноту концепции: Это ключевой элемент для определения того, является ли фраза самостоятельной. Система стремится найти наиболее полную значимую фразу. Если фраза признана «сильной», система может понизить значимость ее частей (через негативную деволюцию) в этом контексте, чтобы избежать фрагментации концепции.
Многофакторная валидация: Фраза может быть признана валидной разными путями: через очень авторитетное использование в одном документе или через широкое, но менее авторитетное использование во многих документах.

Best practices (это мы делаем)

Используйте четкую семантическую структуру (HTML): Организуйте контент с помощью логичных заголовков (H1-H6), коротких абзацев (P), списков (UL/OL) и таблиц. Эти элементы создают четкие Text Breaks, которые помогают системе правильно определить границы фраз. Чистая структура повышает вероятность того, что целевые фразы будут идентифицированы как Exact Hits (например, если фраза является заголовком целиком).
Размещайте ключевые концепции в значимых местах (Location): Размещение целевых фраз в заголовках (Title, H1) значительно увеличивает их Document Phrase Score, повышая вероятность их валидации как сильных фраз.
Стратегическое использование форматирования (Typeface): Используйте выделение (например, полужирный шрифт) для ключевых фраз. Патент указывает, что характеристики шрифта учитываются при оценке значимости фразы.
Используйте полные и устоявшиеся фразы (Концепции): Сосредоточьтесь на использовании полных концепций. Механизм деволюции стремится найти самую длинную значимую фразу. Если вы хотите ранжироваться по сложному термину, используйте его целиком и консистентно.
Оптимизируйте анкорный текст: Используйте значимые фразы в качестве анкорного текста для внутренних и внешних ссылок. Патент подтверждает, что это повышает оценку фразы.
Размещайте фразы в начале или конце семантических блоков: По возможности, размещайте важные фразы в начале (Initial) или конце (Final) предложений или абзацев, так как эти позиции оцениваются выше, чем серединные (Medial).

Worst practices (это делать не надо)

«Стены текста» и отсутствие структуры: Длинные, неструктурированные блоки текста затрудняют идентификацию Text Breaks. Важные фразы в таких блоках будут классифицированы как Medial Hits и получат низкие оценки.
Неестественное использование ключевых слов (Keyword Stuffing): Попытки манипулировать частотой без учета семантической структуры неэффективны. Система оценивает не просто частоту, а позицию, расположение и контекст использования фразы.
Игнорирование контекста использования (Devolution): Полагаться на то, что общий термин будет высоко оценен, если он всегда является частью более длинной «сильной» фразы. Из-за негативной деволюции его самостоятельная значимость может быть пессимизирована.
Злоупотребление форматированием: Выделение жирным шрифтом случайных слов или слишком больших участков текста может создать шумные сигналы text breaks или быть проигнорировано как попытка манипуляции.

Стратегическое значение

Патент подчеркивает важность перехода от мышления отдельными ключевыми словами к мышлению концепциями (фразами). Он подтверждает, что Google стремится индексировать контент на основе семантических единиц. Для SEO это означает, что качество написания, ясность изложения и структурная организация контента являются не просто факторами UX, но и прямыми техническими сигналами, которые используются для понимания содержания документа на самом базовом уровне — идентификации значимых концепций.

Практические примеры

Сценарий: Оптимизация определения термина для улучшения распознавания фразы

Задача: Убедиться, что Google распознает фразу «Zero-Trust Security Architecture» как значимую концепцию.

Плохая реализация (Низкая оценка фразы):

<p>В этой статье мы рассмотрим различные аспекты безопасности, включая Zero-Trust Security Architecture, а также связанные инструменты и лучшие практики...</p>

Анализ: Фраза находится в середине длинного абзаца (Medial Hit) в основном тексте (Body Location). Оценка будет низкой.

Хорошая реализация (Высокая оценка фразы):

<h2>Zero-Trust Security Architecture</h2> <p><strong>Zero-Trust Security Architecture (ZTA)</strong> — это модель безопасности...</p>

Анализ:
1. Вхождение в H2: Высокая оценка за Location, позиция Exact Hit (фраза ограничена тегами H2).
2. Вхождение в начале абзаца (Initial Hit) с выделением (Typeface).
Это значительно увеличивает Document Phrase Score и вероятность валидации фразы как «сильной».

Что такое «Text Break» (семантический разрыв) и почему он важен для SEO?

Text Break — это индикатор семантической границы в документе, такой как конец предложения, абзаца, заголовок, элемент списка или изменение форматирования. Они критически важны, потому что система использует их для определения границ потенциальных фраз. Фразы, которые точно совпадают с этими границами (Exact Hits), получают наивысшие оценки. Правильное использование HTML-структуры создает четкие Text Breaks, помогая Google распознавать ваши целевые концепции.

Что означает «Devolution» (Деволюция оценки) и как она работает?

Devolution — это процесс, когда оценка длинной фразы передается её составным частям (подфразам). Если фраза «слабая», её оценка положительно передается подфразам, поддерживая их значимость. Если фраза «сильная» (например, устоявшийся термин), система может присвоить подфразам отрицательные оценки. Это помогает понять, используется ли подфраза самостоятельно или только как часть более крупной концепции.

Как механизм Devolution влияет на оптимизацию под общие запросы?

Он может усложнить оптимизацию. Если вы используете общий термин (например, «смартфон») только в составе очень специфической сильной фразы (например, «Купить смартфон Samsung Galaxy S25 Ultra в Москве»), система может применить негативную деволюцию и решить, что термин «смартфон» не имеет независимой ценности на этой странице. Для ранжирования по общему запросу необходимо использовать его и в других, более широких контекстах.

Влияет ли форматирование текста (жирный шрифт, курсив) на извлечение фраз?

Да, напрямую. Патент указывает, что характеристики шрифта (Typeface) используются при расчете оценки фразы. Выделение ключевой концепции жирным шрифтом или большим размером может увеличить её Instance Phrase Score. Кроме того, резкое изменение форматирования может служить как Text Break.

Как использование «стен текста» влияет на извлечение фраз?

Крайне негативно. В длинных неструктурированных блоках текста отсутствуют четкие Text Breaks. Большинство фраз в таких блоках будут классифицированы как Medial Hits (вхождения в середине), которые получают самые низкие оценки по сравнению с Exact, Initial или Final. Это снижает вероятность того, что система признает эти фразы значимыми.

Может ли фраза быть признана валидной, если она встречается только в одном документе?

Да, это возможно благодаря первому критерию валидации («Сильная поддержка»). Если фраза имеет очень высокий Document Phrase Score хотя бы в одном документе (например, она использована в заголовке авторитетного источника и выделена структурно), она может быть признана валидной, даже если её общая частота в корпусе низкая.

Учитывает ли этот алгоритм анкорные тексты ссылок?

Да. В патенте указано, что использование последовательности слов в качестве анкорного текста (Anchor Text) повышает её оценку. Более того, упоминается, что это повышение может зависеть от качества страницы, на которую ведет ссылка (например, с учетом PageRank).

Как система определяет, что подфраза является избыточной?

Избыточность определяется на финальном этапе валидации. Если подфраза имеет Combined Score, который почти полностью совпадает (например, >95%) с Combined Score более длинной родительской фразы, это означает, что подфраза практически не встречается вне контекста длинной фразы. Такая подфраза признается избыточной и удаляется.

Как использовать знание об этом патенте при работе с семантической версткой?

Семантическая верстка (использование H1-H6, P, LI) напрямую помогает алгоритму, создавая качественные Text Breaks. Используйте теги по назначению для четкого разделения семантических блоков. Это максимизирует шансы того, что ключевые фразы внутри этих блоков получат высоко оцениваемые позиции (Exact, Initial, Final), улучшая их распознавание.

Заменяет ли этот механизм современные NLP-модели, такие как BERT?

Нет, не заменяет, но может дополнять. Этот патент описывает статистический и структурный механизм для построения словаря устоявшихся фраз. Современные модели, такие как BERT, обеспечивают глубокое контекстуальное понимание языка. Однако данные о том, какие фразы являются валидными (извлеченные с помощью подобных механизмов), могут использоваться как признаки или для повышения эффективности работы нейронных сетей.

Как Google использует фразы для построения индекса, оптимизирует поиск и обеспечивает свежесть выдачи

Анализ патента, описывающего архитектуру поисковой системы Google, основанную на индексировании фраз, а не отдельных слов. Патент раскрывает, как система извлекает значимые фразы из документов, используя структурные сигналы (заголовки, абзацы, форматирование), организует индекс в многоуровневую структуру (Tiers и Shards) и обеспечивает непрерывное обновление данных (Segment Swapping) без остановки поиска.

US7702614B1
2010-04-20

Индексация
Свежесть контента
Семантика и интент

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google динамически определяет фразы (семантические единицы) в запросе, анализируя топовые результаты поиска

Google анализирует топовые документы в выдаче по запросу, чтобы определить, следует ли рассматривать несколько слов как единую фразу (семантическую единицу). Если фраза часто встречается в топовых результатах, особенно на самых высоких позициях, Google идентифицирует ее как семантическую единицу и использует для уточнения ранжирования, отдавая приоритет документам с точным совпадением фразы.

US7249121B1
2007-07-24

Семантика и интент
SERP

Как Google оценивает и выбирает контент для Featured Snippets (Блоков с ответами) на основе консенсуса выдачи

Google использует систему для выбора и оценки Featured Snippets. Система анализирует топовые результаты поиска, чтобы предсказать, какие термины должны быть в ответе (Answer Terms). Затем она оценивает отрывки текста, учитывая совпадение с запросом, наличие предсказанных терминов ответа (консенсус топа), качество исходного сайта, форматирование и языковую модель контента.

US9940367B1
2018-04-10

SERP
Семантика и интент
EEAT и качество

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)

Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.

US9152701B2
2015-10-06

Семантика и интент
Безопасный поиск
Поведенческие сигналы

Как Google запоминает прошлые уточнения поиска пользователя и автоматически перенаправляет его к конечному результату

Google использует механизм персонализации, который отслеживает, как пользователи уточняют свои поисковые запросы. Если пользователь часто вводит общий запрос, а затем выполняет ряд действий (например, меняет запрос или взаимодействует с картой), чтобы добраться до конкретного результата, система запоминает эту последовательность. В будущем, при вводе того же общего запроса, Google может сразу показать конечный результат, минуя промежуточные шаги.

US9305102B2
2016-04-05

Персонализация
Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте

Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.

US9396235B1
2016-07-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах

Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.

US7953720B1
2011-05-31

Knowledge Graph
EEAT и качество
Семантика и интент

Как Google использует обучение с подкреплением (Reinforcement Learning) для оптимизации ранжирования и переписывания запросов на основе успешности поисковых сессий

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

US11157488B2
2021-10-26

Индексация
Поведенческие сигналы
Семантика и интент

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)

Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.

US20150154610A1
2015-06-04

Local SEO
Антиспам
Поведенческие сигналы

Как Google рассчитывает тематическую репутацию для выявления и наделения полномочиями экспертов-кураторов

Google описывает систему для тематических сообществ, где пользователи зарабатывают репутацию (Topical Reputation Score) на основе качества контента, которым они делятся в рамках конкретных тем. Достигнув порогового значения, пользователь «разблокирует» тему, получая права куратора и возможность управлять контентом других. Система использует механизм «Impact Scores» для оценки влияния действий кураторов на репутацию участников.

US9436709B1
2016-09-06

EEAT и качество
Поведенческие сигналы

Как Google использует исторические данные о документах, ссылках и поведении пользователей для определения свежести, качества и борьбы со спамом

Фундаментальный патент Google, описывающий использование временных рядов данных для ранжирования. Система анализирует историю документа (дату создания, частоту и объем обновлений), историю ссылок (скорость появления, возраст, изменения анкоров), тренды запросов и поведение пользователей. Эти данные используются для определения свежести контента, выявления неестественной активности (спама) и оценки легитимности домена.

US7346839B2
2008-03-18

Свежесть контента
Антиспам
Ссылки

Как Google находит фактические ответы, начиная с потенциальных ответов и связывая их с запросами пользователей (Reverse Question Answering)

Google использует метод «обратного ответа на вопрос» для эффективного поиска фактов. Вместо глубокого анализа запроса система начинает с идентификации потенциальных ответов (например, дат, измерений) в индексе. Затем она определяет, для каких запросов эти ответы релевантны, анализируя, какие документы высоко ранжируются и получают клики по этим запросам. Это позволяет точно сопоставлять факты с разнообразными формулировками вопросов.

US9116996B1
2015-08-25

Поведенческие сигналы
Семантика и интент