SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google встраивает синонимы и контекст непосредственно в поисковый индекс на этапе индексирования

STORING TERM SUBSTITUTION INFORMATION IN AN INDEX (Хранение информации о замене терминов в индексе)
  • US9037591B1
  • Google LLC
  • 2012-04-30
  • 2015-05-19
  • Индексация
  • Семантика и интент
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для повышения релевантности поиска путем определения синонимов на основе контекста документа во время индексирования. Система встраивает эти синонимы, включая сложные многословные замены (N-to-M), непосредственно в инвертированный индекс. Это позволяет поисковой системе находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету.

Описание

Какую проблему решает

Патент решает проблему эффективности и точности обработки синонимов (substitute terms), особенно в сложных случаях многословных замен (N-to-M). Традиционный подход часто полагается на переписывание запроса (Query Revision) в реальном времени, что ресурсоемко. Изобретение переносит этот процесс на этап индексирования, что позволяет использовать контекст документа (document context) для разрешения неоднозначности и выбора наиболее точного синонима еще до получения запроса.

Что запатентовано

Запатентован метод хранения информации о синонимах непосредственно в инвертированном индексе (index) во время индексирования документа. Система идентифицирует термины в документе и определяет для них контекстуально релевантные синонимы. Ключевым элементом является способ хранения многословных замен: каждый компонент синонима сохраняется как отдельная запись в индексе, но с метаданными (порядок и охват), которые связывают его с оригинальным термином в документе.

Как это работает

Механизм работает на этапе индексирования:

  • Анализ и Дисамбигуация: Система обрабатывает текст документа. Для неоднозначных терминов она использует окружающий контекст (Document Context) для выбора правильного значения.
  • Контекстуальный выбор синонимов: На основе определенного значения и правил (Synonym Rules) выбирается подходящий синоним. Например, "GM" рядом с "cars" интерпретируется как "German Motors".
  • Встраивание в индекс: Выбранный синоним встраивается в индекс как "невидимый термин" (помеченный, например, флагом iv;), связанный с этим документом.
  • Обработка N-to-M замен: Если оригинальный термин (M слов) заменяется синонимом (N слов), система сохраняет N записей в индексе. Каждая запись содержит информацию о порядке слова в синониме (Order Information) и об охвате оригинального термина (Span Information).
  • Поиск: Во время поиска система ищет совпадения запроса как с видимыми терминами документа, так и с этими встроенными синонимами, не требуя переписывания запроса.

Актуальность для SEO

Высокая. Эффективная и контекстуально-зависимая обработка синонимов является фундаментом современного семантического поиска. Перенос разрешения неоднозначности и семантического обогащения на этап индексирования (Indexing time) вместо этапа выполнения запроса (Query time) повышает эффективность и точность системы. Этот подход лежит в основе того, как Google интерпретирует контент.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он демонстрирует, что Google не просто индексирует текст, а индексирует его интерпретацию, основанную на контексте. Это подчеркивает критическую важность предоставления четких контекстуальных сигналов в контенте. Если контекст неоднозначен, система может проиндексировать нерелевантные синонимы или упустить важные, что напрямую повлияет на способность страницы ранжироваться по семантически связанным запросам.

Детальный разбор

Термины и определения

Substitute Term / Synonym (Замещающий термин / Синоним)
Термин, который система считает эквивалентным исходному термину в данном контексте и который добавляется в индекс.
Particular Term (Исходный термин)
Оригинальный термин (слово или фраза), который физически присутствует в документе и для которого подбирается синоним.
Synonym Rule (Правило синонимизации)
Набор инструкций, определяющих, какие термины являются синонимами и при каких условиях (контексте).
Index (Индекс)
База данных (обычно инвертированный индекс). В контексте патента, индекс хранит не только термины из документов, но и их контекстуальные синонимы с метаданными.
Document Context (Контекст документа)
Окружающий текст, в частности соседние слова (adjacent terms). Используется для разрешения неоднозначности и выбора наиболее подходящего синонима во время индексирования.
Span Information (Информация об охвате)
Метаданные в индексе, указывающие, сколько слов исходного термина (M) в документе заменяется синонимом.
Order Information (Информация о порядке)
Метаданные в индексе для многословных синонимов (N>1). Указывают порядковый номер слова в составе синонима (от 1 до N).
"iv;" Flag / Invisible Term (Флаг невидимости / Невидимый термин)
Способ пометки термина в индексе (например, iv;), указывающий, что этот термин является синонимом и физически не присутствует в тексте документа (is not a term that occurs in the document).

Ключевые утверждения (Анализ Claims)

Патент фокусируется на механизме хранения синонимов в индексе, особенно при сложных заменах (N-to-M mapping).

Claim 1 (Независимый пункт): Описывает основной метод хранения многословных синонимов для многословных оригинальных терминов (M>1, N>1).

  1. Система обрабатывает исходный термин (particular term) из документа, состоящий из M слов (M > 1).
  2. Система идентифицирует синоним (substitute term) для этого термина, состоящий из N слов (N > 1).
  3. Система сохраняет в индексе:
    1. Каждое из N слов синонима как отдельную запись в индексе (separate index entry).
    2. Для каждой такой записи сохраняются метаданные: (а) количество M (охват исходного термина / Span) и (б) порядковый номер слова от 1 до N (порядок в синониме / Order).

Это ядро изобретения: механизм, позволяющий реконструировать многословный синоним и понять его отношение к оригинальному многословному термину, храня компоненты по отдельности. Например, если "New York City" (M=3) заменяется на "Big Apple" (N=2). Запись для "Big" будет иметь порядок 1 и охват 3. Запись для "Apple" будет иметь порядок 2 и охват 3.

Claim 3 (Зависимый от 1): Вводит концепцию контекста.

Синоним идентифицируется на основе контекста документа (document context), в котором находится исходный термин.

Это критически важное утверждение. Оно означает, что выбор синонима происходит не глобально, а локально, на уровне документа во время индексирования. Система анализирует окружающие слова для разрешения неоднозначности.

Claim 4 (Зависимый от 1): Вводит концепцию "невидимости".

Система хранит в индексе информацию, указывающую, что замещающий термин является синонимом и/или что он физически не присутствует в документе.

Это позволяет системе отличать слова, использованные автором, от слов, добавленных системой для улучшения поиска (invisible terms). Это может влиять на оценку релевантности.

Где и как применяется

Изобретение радикально меняет обработку синонимов, перенося основную часть работы с этапа обработки запроса на этап индексирования.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента.

  1. NLP и Семантический анализ: Во время обработки документа система анализирует текст и Document Context.
  2. Разрешение неоднозначности (Disambiguation): Система использует контекст для определения точного значения термина.
  3. Выбор синонимов: На основе контекста и Synonym Rules система выбирает подходящие Substitute Terms.
  4. Обогащение индекса: Система встраивает эти синонимы в индекс, помечая их как invisible terms и добавляя метаданные (Order Information и Span Information).

QUNDERSTANDING – Понимание Запросов
Влияние косвенное. Поскольку синонимы уже находятся в индексе, система может меньше полагаться на сложные механизмы переписывания запросов (Query Revision) в реальном времени.

RANKING – Ранжирование (Этап Retrieval / Отбор кандидатов)
На этом этапе система использует обогащенный индекс. При поиске запрос может совпасть с документом через invisible term, даже если в документе нет ни одного слова из запроса, что ускоряет Retrieval.

Входные данные (Индексирование):

  • Сырой контент документа.
  • База данных правил синонимизации (Synonym Rules Database).

Выходные данные (Индексирование):

  • Обогащенный инвертированный индекс, содержащий как видимые термины, так и контекстуально релевантные синонимы с метаданными.

На что влияет

  • Специфические запросы: Значительно улучшает обработку информационных и коммерческих запросов, где пользователи часто используют синонимы, сленг или аббревиатуры.
  • Разрешение неоднозначности: Влияет на контент, содержащий многозначные термины (омонимы). Система стремится понять и проиндексировать правильное значение на основе контекста.
  • Все типы контента: Применяется ко всем текстовым документам, индексируемым системой.

Когда применяется

  • Во время индексирования: Алгоритм активируется каждый раз, когда документ сканируется и индексируется или переиндексируется. Выбор синонимов происходит именно в этот момент.
  • Триггеры активации: Обнаружение термина, для которого существуют Synonym Rules. Если правил несколько, активируется механизм дисамбигуации по контексту.
  • Во время поиска: Система использует созданный обогащенный индекс при обработке каждого поискового запроса.

Пошаговый алгоритм

Процесс индексирования документа с учетом замены терминов:

  1. Получение и Токенизация: Система получает документ и разбивает его на термины (токены).
  2. Идентификация Исходных Терминов: Система идентифицирует термины (Particular Terms) в документе.
  3. Анализ контекста и Дисамбигуация: Для каждого термина система анализирует Document Context (соседние слова) и обращается к Synonym Rules. Если для термина возможно несколько синонимов, контекст используется для выбора лучшего.
    Пример из патента: Если найден термин "GM" рядом со словом "food", система выбирает синоним "genetically modified". Если рядом "cars" – выбирает "German Motors".
  4. Определение параметров замены: Система определяет количество слов в оригинальном термине (M) и в выбранном синониме (N).
  5. Хранение видимых терминов: Оригинальные термины сохраняются в индексе стандартным образом.
  6. Хранение синонимов (Substitute Terms): Синоним также записывается в индекс и связывается с документом.
    • Маркировка: К синониму добавляется флаг (например, iv;), указывающий, что его нет в тексте.
    • Обработка многословности (N>1 и/или M>1): Система создает отдельную запись в индексе для каждого из N слов синонима.
  7. Добавление метаданных: Для многословных замен к каждой записи добавляется:
    • Order Information: Порядковый номер слова (от 1 до N).
    • Span Information: Охват оригинального термина (M).

Какие данные и как использует

Данные на входе

Патент фокусируется на механизме индексирования и использует следующие типы данных:

  • Контентные факторы: Основной массив текста документа. Критически важными являются термины, расположенные рядом с индексируемым термином (adjacent terms), так как они формируют Document Context, необходимый для выбора правильного синонима (дисамбигуации).
  • Системные данные: Synonym Rules – заранее определенные правила, которые указывают потенциальные синонимы и условия (контексты) их применения.

Какие метрики используются и как они считаются

В патенте не указаны формулы ранжирования, но описаны ключевые структурные метрики, используемые при построении индекса:

  • M (Quantity M / Span of Particular Term): Количество слов в оригинальном термине, который заменяется синонимом. Используется как значение Span Information.
  • N (Quantity N / Span of Substitute Term): Количество слов в синониме. Определяет количество записей для синонима.
  • Order (Порядок): Порядковый номер слова в многословном синониме (от 1 до N).
  • Invisibility Flag (iv): Флаг, указывающий, присутствует ли термин в документе физически или добавлен системой как синоним.

Методы анализа текста (NLP): Подразумевается использование NLP-методов для анализа Document Context и выполнения дисамбигуации (Word Sense Disambiguation).

Выводы

  1. Перенос семантики на этап индексирования: Ключевой вывод — Google стремится разрешать неоднозначность и определять синонимы на этапе индексирования (Indexing time), а не во время выполнения запроса (Query time). Система заранее "фиксирует" свое понимание контента.
  2. Контекст определяет интерпретацию: Document Context является решающим фактором при выборе синонимов. Окружающий текст диктует, как именно будет интерпретирован и проиндексирован ключевой термин.
  3. Индексируются не слова, а значения (Смыслы): Система индексирует семантическую интерпретацию текста. Invisible terms позволяют документу ранжироваться по запросам, слов из которых он не содержит, если система считает их контекстуально релевантными синонимами.
  4. Сложные N-to-M замены: Патент детально описывает механизм обработки сложных замен (например, аббревиатуры на полные названия), гарантируя сохранение порядка слов (Order) и охвата (Span) для точного фразового соответствия.
  5. Различие между видимыми и невидимыми терминами: Наличие флага iv; подтверждает, что Google различает фактическое содержание текста и добавленные им семантические связи, что может влиять на вес совпадения при ранжировании.

Практика

Best practices (это мы делаем)

  • Обеспечение четкого контекста (Contextual Signaling): Предоставляйте богатый и однозначный контекст вокруг ключевых терминов. Используйте тематически связанные слова, сущности и фразы (co-occurring terms), чтобы направить алгоритмы Google к правильной интерпретации вашего контента во время индексирования.
  • Управление неоднозначностью (Disambiguation): Если вы используете термины с несколькими значениями (омонимы, аббревиатуры), убедитесь, что контекст немедленно проясняет нужное значение. Например, при упоминании "Apple" в статье о финансах, используйте слова "акции", "NASDAQ", "Тим Кук", чтобы избежать индексации синонимов, связанных с фруктами.
  • Семантическое насыщение контента: Вместо многократного повторения одного ключевого слова, создавайте контент, который глубоко раскрывает тему. Это помогает системе лучше понять Document Context и ассоциировать страницу с широким спектром релевантных Substitute Terms (синонимов).
  • Фокус на концепциях, а не только ключах: Понимайте, что ваша страница может ранжироваться по терминам, которые вы не использовали. При исследовании ключевых слов фокусируйтесь на концепциях и интентах, обеспечивая их четкое раскрытие в тексте.

Worst practices (это делать не надо)

  • Создание контента с неоднозначным контекстом: Написание текстов, где значение ключевых слов неясно. Если система не сможет однозначно определить контекст, она может либо не проиндексировать важные синонимы, либо проиндексировать нерелевантные.
  • Изолированные ключевые слова: Размещение ключевых слов без поддерживающего контекста неэффективно. Система ищет контекстуальные подсказки для индексации синонимов; без них потенциал ранжирования по семантически связанным запросам снижается.
  • Чрезмерное использование синонимов (Synonym Stuffing): Попытки перечислить все возможные синонимы в тексте не нужны, так как система сама выполняет эту работу на этапе индексирования, если контекст четок. Это ухудшает читабельность и не дает преимуществ.

Стратегическое значение

Этот патент подтверждает стратегический приоритет Google на семантическое понимание контента на самых ранних этапах обработки (Индексирование). Для SEO это означает, что оптимизация смещается от простого включения ключевых слов к искусству управления контекстом. Долгосрочная стратегия должна фокусироваться на создании контента, который не оставляет сомнений в его значении и релевантности. Понимание того, что интерпретация фиксируется при индексировании, подчеркивает важность обеспечения максимальной ясности контента при его публикации.

Практические примеры

Сценарий: Оптимизация статьи про многозначный термин "Меркурий" (Планета vs Металл/Ртуть)

Цель: Убедиться, что статья о планете Меркурий будет ранжироваться по запросам, связанным с космосом, и не будет показываться по запросам о ртути.

  1. Анализ контекста (Как работает Google): Во время индексирования Google ищет контекстуальные подсказки вокруг слова "Меркурий" для дисамбигуации.
  2. Действия SEO-специалиista (Оптимизация контента):
    • Плохо (Неоднозначный контекст): "Меркурий интересен. Он маленький и быстрый. Его свойства уникальны." – Контекст слаб.
    • Хорошо (Четкий контекст): "Планета Меркурий имеет самую быструю орбиту в Солнечной системе. Астрономы изучают его кратеры и близость к Солнцу." – Контекст силен (используются слова "Планета", "орбита", "Солнечная система").
  3. Ожидаемый результат (Индексация): При хорошей оптимизации Google определит контекст как "Космос". Он проиндексирует видимые термины и встроит релевантные invisible terms. Он НЕ будет индексировать синонимы, связанные с ртутью ("ртуть", "тяжелый металл", "Hg").
  4. Результат в поиске: Статья появляется по запросу "ближайшая к солнцу планета", но не появляется по запросу "симптомы отравления ртутью".

Вопросы и ответы

Чем этот патент отличается от обычного переписывания запросов (Query Rewriting)?

Традиционное переписывание запросов происходит в реальном времени: пользователь вводит запрос, система его расширяет синонимами и затем выполняет поиск. Этот патент описывает перенос работы на этап индексирования: синонимы определяются заранее на основе контекста документа и встраиваются в индекс. Это значительно ускоряет поиск и повышает точность за счет контекстуальной дисамбигуации.

Что такое "Document Context" и почему он так важен в этом патенте?

Document Context – это окружающий текст и семантические сигналы вокруг термина в документе, в частности соседние слова. Он критически важен, потому что система использует его для разрешения неоднозначности (дисамбигуации) во время индексирования. Например, контекст определяет, будет ли "Jaguar" проиндексирован с синонимами, связанными с автомобилями или с животными.

Что такое "Invisible Terms" (Невидимые термины) и как они влияют на SEO?

Invisible Terms (помеченные флагом iv;) – это синонимы, которые Google ассоциировал с вашим документом и добавил в индекс, но которые физически не присутствуют в тексте. Они позволяют вашей странице ранжироваться по запросам, которые вы явно не использовали. Это подчеркивает важность семантического SEO и создания богатого контекста для охвата широкого спектра релевантных запросов.

Как система обрабатывает сложные замены (N-to-M), например, аббревиатуры?

Это случаи, когда многословный термин заменяется другим многословным термином или аббревиатурой. Система сохраняет каждое слово синонима как отдельную запись в индексе, но добавляет метаданные: Order Information (порядок слова) и Span Information (сколько слов оригинала оно заменяет). Это позволяет системе точно реконструировать замену и учитывать фразовое соответствие при поиске.

Если Google фиксирует интерпретацию контента при индексировании, что произойдет, если я изменю контекст на странице?

При следующей переиндексации система заново оценит Document Context. Если контекст изменился значительно, система обновит набор проиндексированных синонимов (Substitute Terms) для этого документа. Это приведет к изменению видимости страницы по семантически связанным запросам.

Как я могу повлиять на то, какие синонимы Google ассоциирует с моим контентом?

Вы влияете на это через создание четкого и однозначного контекста. Используйте тематически связанные слова, сущности (entities) и уточняющие фразы вокруг ваших основных ключевых слов. Чем яснее контекст, тем точнее система выберет релевантные синонимы для индексации.

Имеет ли совпадение с "видимым" термином больший вес, чем с "невидимым"?

Патент указывает, что система может оценивать (score) вхождения синонимов иначе, чем вхождения исходных терминов, и использует флаг iv; для их различения. Хотя детали весов не раскрываются, логично предположить, что система ранжирования может учитывать этот флаг, потенциально придавая больший вес терминам, физически присутствующим в документе.

Нужно ли мне теперь использовать меньше синонимов в тексте?

Нужно использовать синонимы естественно для улучшения читабельности. Не нужно искусственно насыщать текст синонимами (Stuffing) в попытке помочь Google. Если ваш контекст достаточно четок, система сама определит необходимые синонимы на этапе индексирования. Фокусируйтесь на ясности контекста.

Как этот патент связан с алгоритмами типа BERT или MUM?

Патент (2012 г.) описывает инфраструктуру хранения синонимов в индексе. Современные модели, такие как BERT и MUM, используются для выполнения задач, описанных в патенте, — глубокого анализа Document Context и выбора наиболее подходящих синонимов (дисамбигуации). Механизм хранения (Span, Order) является частью архитектуры индекса, которую эти модели используют.

Что произойдет, если мой контент неоднозначен?

Если контент неоднозначен, система может неправильно интерпретировать ключевые термины и проиндексировать нерелевантные синонимы. Например, статья о "Ягуаре" (машине) со слабым контекстом может быть проиндексирована по запросам о животных. В результате страница не будет ранжироваться по целевым запросам.

Похожие патенты

Как Google обучается распознавать синонимы, анализируя текст сниппетов в результатах поиска
Google использует текст сниппетов для улучшения систем понимания запросов. Анализируя, какие слова часто появляются в сниппетах релевантных или кликабельных результатов, система выявляет потенциальные синонимы для исходных ключевых слов. Это позволяет автоматически расширять будущие запросы, включая эти синонимы для повышения полноты выдачи.
  • US20140358904A1
  • 2014-12-04
  • Семантика и интент

  • SERP

Как Google использует контекст топ-результатов для валидации синонимов и расширения запросов
Google использует механизм для предотвращения ошибок при расширении запросов синонимами или однокоренными словами. Система генерирует потенциальные альтернативные термины, но добавляет их к запросу только если они подтверждаются контекстом. Контекст определяется анализом терминов, найденных в топовых результатах поиска по исходному запросу. Это гарантирует, что расширение запроса остается семантически релевантным.
  • US8055669B1
  • 2011-11-08
  • Семантика и интент

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса
Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.
  • US8682907B1
  • 2014-03-25
  • Семантика и интент

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Популярные патенты

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google персонализирует мобильную выдачу, повышая в ранжировании приложения, которые пользователь часто использует (Affinity Score)
Google рассчитывает «Affinity Score» для мобильных приложений на основе того, как часто и долго пользователь их использует (относительное вовлечение). При поиске с мобильного устройства система повышает в ранжировании результаты (deep links), ведущие в приложения с высоким Affinity Score, делая выдачу более персонализированной.
  • US10248698B2
  • 2019-04-02
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске
Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.
  • US8965875B1
  • 2015-02-24
  • Поведенческие сигналы

  • Семантика и интент

  • EEAT и качество

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций
Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.
  • US10180965B2
  • 2019-01-15
  • Персонализация

  • Семантика и интент

  • Local SEO

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google анализирует распределение качества входящих ссылок для классификации и понижения сайтов в выдаче
Google использует систему для оценки качества ссылочного профиля сайта. Система фильтрует входящие ссылки (удаляя шаблонные и дублирующиеся с одного домена), группирует оставшиеся по качеству источника (например, Vital, Good, Bad) и вычисляет взвешенный «Link Quality Score». Если доля низкокачественных ссылок слишком велика, сайт классифицируется как низкокачественный и понижается в результатах поиска.
  • US9002832B1
  • 2015-04-07
  • Ссылки

  • Антиспам

  • SERP

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска
Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.
  • US20170277702A1
  • 2017-09-28
  • Семантика и интент

  • Local SEO

  • Персонализация

Как Google решает, показывать ли прямой ответ, анализируя частоту использования естественного языка в исторических запросах о факте
Google анализирует исторические данные о том, как пользователи ищут конкретный факт. Если они часто используют естественный язык (например, «какая высота у Эйфелевой башни»), система считает, что пользователи действительно ищут этот факт. На основе этого рассчитывается «Оценка поиска фактов» (Fact-Seeking Score). Эта оценка используется как сигнал ранжирования, чтобы решить, нужно ли показывать прямой ответ (Factual Answer) и насколько высоко его разместить в результатах поиска.
  • US9396235B1
  • 2016-07-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore