Как Google использует контекст топ-результатов для валидации синонимов и расширения запросов

SEARCH QUERIES IMPROVED BASED ON QUERY SEMANTIC INFORMATION (Улучшение поисковых запросов на основе семантической информации запроса)

US8055669B1
Google LLC
2003-03-03
2011-11-08

Семантика и интент

Google использует механизм для предотвращения ошибок при расширении запросов синонимами или однокоренными словами. Система генерирует потенциальные альтернативные термины, но добавляет их к запросу только если они подтверждаются контекстом. Контекст определяется анализом терминов, найденных в топовых результатах поиска по исходному запросу. Это гарантирует, что расширение запроса остается семантически релевантным.

Какую проблему решает

Патент решает проблему нерелевантного расширения поисковых запросов, характерную для традиционных методов, таких как стемминг (stemming) и подбор синонимов (synonym lookup). Эти методы часто добавляют к запросу термины, которые меняют его исходный смысл, так как не учитывают контекст. Например, расширение запроса "railroad car" термином "automobile" является ошибкой. Изобретение направлено на то, чтобы гарантировать, что любые добавленные термины семантически соответствуют исходному намерению пользователя.

Что запатентовано

Запатентована система контекстно-зависимого расширения запросов. Суть изобретения заключается в валидации потенциальных альтернативных терминов (синонимов, однокоренных слов) перед их добавлением к запросу. Валидация происходит путем сравнения кандидатов с "контекстом запроса" (Query Context), который определяется на основе анализа документов, уже признанных релевантными исходному запросу. Только те альтернативные термины, которые присутствуют в этом контексте, используются для расширения.

Как это работает

Система работает следующим образом:

Генерация кандидатов: Исходный запрос анализируется, и генерируются потенциальные альтернативные термины (например, с помощью стемминга или тезауруса).
Определение контекста запроса: Выполняется поиск по исходному запросу, и Топ-N (например, 30-50) наиболее релевантных документов определяются как Query Context.
Построение семантического вектора: Из документов в Query Context извлекаются все термины и им присваиваются веса (например, на основе TF-IDF), формируя Semantic Concept Vector.
Валидация (Пересечение): Кандидаты сравниваются с Semantic Concept Vector. Если кандидат присутствует в векторе с достаточным весом, он считается валидным.
Расширение запроса: Валидные альтернативные термины добавляются к исходному запросу (обычно через оператор OR).

Актуальность для SEO

Высокая. Хотя конкретные методы реализации (например, использование TF-IDF векторов) могли эволюционировать в сторону нейросетевых эмбеддингов (BERT, MUM), фундаментальный принцип патента — необходимость контекстуального понимания запроса перед его модификацией — является ядром современного поиска. Валидация семантической близости с учетом контекста критически важна для точного понимания запросов.

Важность для SEO

Патент имеет высокое значение (8/10). Он описывает механизм, с помощью которого Google определяет, какие синонимы и связанные термины действительно релевантны для конкретного запроса. Это напрямую влияет на стратегии создания контента, подчеркивая важность использования естественного языка, синонимов и LSI-терминов, которые соответствуют устоявшемуся семантическому контексту ниши (Semantic Concept Vector), сформированному лидерами выдачи.

Термины и определения

Alternate Terms (Альтернативные термины): Потенциальные кандидаты для расширения запроса. Это могут быть синонимы, однокоренные слова (морфологические варианты), гипонимы, гиперонимы или термины из исторических логов запросов.
Query Context (Контекст запроса): Набор данных, определяющий семантическое окружение исходного запроса. В основном варианте реализации — это Топ-N документов, возвращаемых в ответ на исходный запрос.
Semantic Concept Vector (Вектор семантических концепций): Структура данных, построенная на основе Query Context. Содержит список всех терминов, найденных в документах контекста, и их веса. Отражает семантическое поле, связанное с запросом.
Valid Alternate Terms (Валидные альтернативные термины): Alternate Terms, которые прошли проверку контекстом, то есть были найдены в Semantic Concept Vector с достаточным весом.
Stemming (Стемминг): Процесс нахождения основы (stem) слова. Используется для генерации морфологических вариантов термина запроса.
IDF (Inverse Document Frequency): Обратная документная частота. Метрика, используемая для взвешивания терминов в Semantic Concept Vector. Понижает вес общеупотребительных слов.
TF (Term Frequency): Частота термина. Количество вхождений термина в документе. Используется при расчете веса термина.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод модификации поискового запроса.

Система определяет один или несколько альтернативных терминов (alternate terms) для терминов в исходном запросе.
Система получает результаты поиска на основе исходного запроса из индекса документов.
Система определяет контекст запроса (Query Context) как множество документов, идентифицированных в результатах поиска.
Система сравнивает Query Context с альтернативными терминами для генерации валидных альтернативных терминов (valid alternate terms).
Система включает один или несколько валидных терминов в исходный запрос для получения модифицированного запроса.

Ядром изобретения является использование результатов поиска по исходному запросу для формирования контекста, который затем используется для фильтрации потенциальных расширений запроса.

Claim 3 (Зависимый от 1): Уточняет механизм сравнения.

Сравнение Query Context с альтернативными терминами включает построение вектора (Semantic Concept Vector) на основе контекста и пересечение этого вектора с альтернативными терминами.

Claim 5 (Зависимый от 1): Уточняет механизм сравнения через взвешивание.

Сравнение включает присвоение весов альтернативным терминам на основе их вхождений в документах контекста и идентификацию валидных терминов на основе этих весов.

Claims 6, 7, 8 (Зависимые от 1): Определяют способы генерации исходных альтернативных терминов.

Источниками альтернативных терминов могут быть: стемминг (Claim 6), тезаурус (Claim 7) или исторические логи запросов (Claim 8).

Claim 9 (Зависимый от 1): Определяет способ включения валидных терминов.

Включение происходит путем логического объединения (ORing) валидных терминов с соответствующими терминами исходного запроса.

Claim 18 (Независимый пункт): Альтернативная формулировка основного метода.

Получение запроса. Генерация дополнительных терминов. Генерация Query Context, включающего веб-документы, выбранные на основе запроса. Фильтрация дополнительных терминов с использованием Query Context для удаления тех, которые не являются семантически схожими. Включение оставшихся терминов в запрос.

Где и как применяется

Изобретение применяется на этапе понимания и обработки запроса, используя данные из индекса для формирования контекста.

INDEXING – Индексирование и извлечение признаков
На этом этапе система индексирует корпус документов. Рассчитываются и сохраняются метрики, необходимые для последующего анализа, такие как IDF для всех терминов в корпусе.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения патента. Компонент обработки запросов (Query Processing Component) выполняет следующие действия:

Генерация альтернатив: Используются различные источники (стемминг, тезаурусы, логи) для поиска кандидатов на расширение.
Формирование контекста: Для определения контекста система может обращаться к этапу RANKING или использовать предварительно рассчитанные данные.
Валидация и расширение: Построение Semantic Concept Vector и фильтрация кандидатов. Исходный запрос переписывается.

RANKING – Ранжирование
Этот этап используется дважды:

Первичное ранжирование: Для генерации Топ-N документов, которые формируют Query Context.
Финальное ранжирование: Выполнение поиска на основе модифицированного (расширенного) запроса.

Входные данные:

Исходный поисковый запрос пользователя.
База данных стемминга/тезаурус/логи запросов (для генерации кандидатов).
Индекс документов (для получения Query Context).
Значения IDF для терминов.

Выходные данные:

Модифицированный (расширенный) поисковый запрос, содержащий семантически валидированные альтернативные термины.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на неоднозначные запросы (полисемия) или запросы, где пользователи используют разные термины для описания одного и того же понятия (синонимия). Система помогает стандартизировать запрос к его семантическому контексту.
Контентные факторы: Влияет на то, как оценивается использование синонимов и связанных терминов в контенте. Контент, который соответствует Semantic Concept Vector запроса, получает преимущество.

Когда применяется

Условия применения: Алгоритм применяется в процессе обработки поискового запроса, до основного этапа ранжирования.
Триггеры активации: Активируется, когда для терминов исходного запроса могут быть найдены потенциальные альтернативы (синонимы, морфологические варианты).
Пороговые значения: Используются пороги для валидации терминов. Альтернативный термин должен присутствовать в определенном проценте документов контекста (например, 5%) или иметь вес в Semantic Concept Vector выше заданного порога, чтобы считаться валидным.

Пошаговый алгоритм

Процесс обработки запроса и его расширения

Получение запроса: Система получает исходный поисковый запрос от пользователя.
Генерация кандидатов (Alternate Terms): Для терминов в запросе определяются потенциальные альтернативные термины с использованием стемминга, тезауруса, WordNet или анализа логов запросов.
Генерация контекста запроса (Query Context):
1. Выполняется поиск по исходному запросу.
2. Определяются Топ-N (например, 30-50) наиболее релевантных документов. Этот набор документов составляет Query Context.
Построение вектора (Semantic Concept Vector):
1. Из всех документов в Query Context извлекаются все уникальные термины.
2. Для каждого термина рассчитывается вес. Вес может быть суммой TF-IDF оценок термина по всем N документам. Формула веса термина в документе: $w(tf) \cdot idf$ .
3. (Опционально) Вектор очищается: удаляются термины, которые встречаются менее чем в заданном проценте документов (например, <5%).
Валидация кандидатов (Intersection):
1. Кандидаты (из шага 2) сравниваются с терминами в Semantic Concept Vector (из шага 4).
2. Кандидаты, присутствующие в векторе с ненулевым весом (или весом выше порога), помечаются как Valid Alternate Terms.
Расширение запроса: Исходный запрос модифицируется путем добавления Valid Alternate Terms. Обычно используется логический оператор OR (например, "car" становится "(car OR automobile)").
Выполнение поиска: Поиск выполняется с использованием модифицированного запроса.

Какие данные и как использует

Данные на входе

Контентные факторы: Текст документов, проиндексированных в корпусе. Система анализирует частоту и распределение терминов в этих документах (особенно в Топ-N результатах).
Поведенческие факторы (Опционально): Исторические логи запросов (historical query logs) и данные о взаимодействии пользователей могут использоваться для генерации кандидатов в альтернативные термины (упомянуто в Claims и Description).
Ссылочные факторы (Опционально): Анализ анкорного текста (anchor-text) может использоваться как один из методов для определения пар синонимов (упомянуто в Description).
Системные данные: Данные стемминга, тезаурусы (например, WordNet).

Какие метрики используются и как они считаются

TF (Term Frequency): Частота термина в документе. Используется для расчета веса. Упоминаются различные варианты расчета веса на основе TF, например, 1+log(tf) или tf/(1+tf).
IDF (Inverse Document Frequency): Обратная документная частота термина в общем корпусе документов. Рассчитывается как $log(\frac{J}{f+1})$ , где J – общее количество документов, f – количество документов, содержащих термин.
Weight (Вес термина в векторе): Вес термина в Semantic Concept Vector. Рассчитывается как сумма весов TF-IDF ( $w(tf) \cdot idf$ ) этого термина по всем документам в Query Context.
Пороги валидации: Минимальный вес или минимальный процент документов в Query Context (например, 5%), в которых должен появиться термин, чтобы он остался в векторе и мог валидировать кандидата.

Контекст определяет семантику: Патент устанавливает принцип, что значение термина и его синонимов зависит от контекста запроса. Google не полагается слепо на словари или стемминг; система проверяет, используется ли синоним или вариант слова в релевантном окружении.
Топ выдачи как источник истины (Query Context): Система использует текущие Топ-N результаты поиска для определения этого контекста (Query Context). Это означает, что семантическое поле запроса динамически определяется тем, что Google уже считает релевантным.
Валидация через пересечение (Intersection): Ключевым механизмом является фильтрация. Альтернативные термины должны присутствовать в Semantic Concept Vector (т.е., использоваться в топовых документах), чтобы быть добавленными к запросу. Это предотвращает дрейф темы (topic drift).
Использование статистических методов (TF-IDF): Для оценки важности терминов в контексте используются классические методы Information Retrieval (TF-IDF), что позволяет выделить ключевые семантические элементы и отсеять шум.
Множественность источников расширения: Система спроектирована для работы с любыми источниками альтернативных терминов (словари, стемминг, логи запросов, анализ ссылок), поскольку механизм валидации универсален.

Best practices (это мы делаем)

Анализ семантического поля лидеров выдачи: Необходимо тщательно анализировать Топ-10 результатов по целевым запросам. Эти документы формируют Query Context для Google. Нужно извлекать синонимы, связанные термины (LSI), сущности и фразы, которые они используют. Это и есть тот Semantic Concept Vector, которому должен соответствовать ваш контент.
Естественное использование синонимов и вариаций: Интегрируйте валидированные синонимы и морфологические варианты ключевых слов в текст. Если лидеры выдачи используют определенный синоним, это сигнал, что Google считает его релевантным в данном контексте, и его также следует использовать.
Построение Topical Authority через широкое семантическое покрытие: Создавайте контент, который полностью охватывает тему, используя разнообразную терминологию. Это увеличивает вероятность того, что ваш документ попадет в Query Context для широкого спектра связанных запросов и будет содержать термины, которые Google ищет для расширения.
Использование точной терминологии в узких нишах: В специализированных тематиках, где термины могут иметь несколько значений, крайне важно использовать термины в правильном контексте. Это поможет системе корректно интерпретировать ваш контент и не путать его с другими значениями термина.

Worst practices (это делать не надо)

Искусственное внедрение синонимов (Keyword Stuffing): Механическое добавление всех возможных синонимов из тезауруса без учета контекста ниши неэффективно. Если эти синонимы не используются в Query Context (топовых документах), Google может их игнорировать или посчитать неестественными.
Игнорирование терминологии лидеров: Попытка ранжироваться по запросу, используя терминологию, сильно отличающуюся от той, что используется в Топ-10, усложняет задачу. Ваш контент может не соответствовать сформированному Semantic Concept Vector.
Создание слишком краткого контента: Краткий контент вряд ли будет содержать достаточное количество семантических сигналов и связанных терминов, чтобы внести вклад в Semantic Concept Vector или соответствовать ему.

Стратегическое значение

Патент подтверждает стратегическую важность семантического анализа в SEO. Он демонстрирует, что релевантность — это не просто совпадение ключевых слов, а соответствие контента устоявшемуся семантическому контексту запроса. Стратегия должна фокусироваться на анализе и воспроизведении этого контекста. Хотя методы Google эволюционировали (от TF-IDF векторов к нейронным эмбеддингам), принцип остался тем же: контент должен говорить на том же "языке", что и авторитетные источники в данной теме.

Практические примеры

Сценарий: Оптимизация страницы для запроса с неоднозначным термином

Задача: Оптимизировать страницу под запрос "Java developer". Нужно понять, стоит ли использовать синонимы типа "programmer" или "engineer".

Анализ Query Context: Изучаем Топ-10 результатов по запросу "Java developer".
Построение Semantic Concept Vector (Мысленно): Замечаем, что в 8 из 10 топовых результатов активно используются термины "software engineer", "backend", "microservices", но редко используется термин "coder".
Валидация: Термин "software engineer" валидирован контекстом. Термин "coder" – нет.
Действие: Включаем в текст, заголовки и мета-теги фразы "Java Software Engineer" наряду с "Java Developer". Избегаем использования "Java Coder".
Ожидаемый результат: Google с большей вероятностью расширит запрос "Java developer" до "(Java developer OR Java software engineer)", что улучшит ранжирование нашей страницы, так как она соответствует контексту.

Что такое "Query Context" и почему он важен?

Query Context — это набор данных, который определяет семантическое окружение запроса. В патенте это, как правило, Топ-N документов, найденных по исходному запросу. Он критически важен, потому что Google использует его как эталон для проверки синонимов. Если синоним не появляется в Query Context, он не будет использован для расширения запроса, даже если он есть в словаре.

Как система решает, какие синонимы использовать, а какие нет?

Система использует механизм валидации. Сначала генерируются все возможные синонимы (кандидаты). Затем строится Semantic Concept Vector на основе топовых результатов поиска. Только те кандидаты, которые присутствуют в этом векторе с достаточным весом (частотой и важностью TF-IDF), считаются валидными и используются для расширения запроса.

Что такое "Semantic Concept Vector"?

Это математическое представление семантического поля запроса. Он состоит из всех терминов, извлеченных из топовых документов (Query Context), и их весов, рассчитанных, например, с помощью TF-IDF. Этот вектор показывает, какие термины часто встречаются вместе и являются важными в контексте данного запроса.

Влияет ли этот патент на современное SEO, учитывая развитие BERT и MUM?

Да, очень влияет. Хотя BERT и MUM используют более сложные методы (нейронные эмбеддинги) по сравнению с TF-IDF векторами, описанными в патенте, базовая философия осталась неизменной. Современные системы также стремятся понять контекст запроса перед его интерпретацией или расширением. Патент заложил основу для контекстно-зависимой обработки запросов.

Как SEO-специалисту использовать знания из этого патента на практике?

Ключевое действие — это глубокий анализ Топ-10 результатов выдачи. Эти документы формируют Query Context. Необходимо изучить, какие синонимы, связанные термины (LSI) и сущности они используют, и интегрировать эту терминологию в свой контент. Ваш контент должен соответствовать этому устоявшемуся семантическому вектору.

Значит ли это, что если я хочу ввести новый термин в нишу, Google его не поймет?

Это усложняет задачу. Если термин абсолютно новый и не используется ни в одном из топовых документов, Google не сможет валидировать его через Query Context. Для продвижения нового термина потребуется время, чтобы он распространился в авторитетных источниках и начал появляться в топовых результатах, тем самым формируя новый контекст.

Как система защищается от того, что Топ-N результатов будут низкого качества или спамом?

Патент не описывает механизмы защиты от этого. Он предполагает, что основная система ранжирования предоставляет релевантные документы для формирования Query Context. Если контекст сформирован на основе спама, качество расширения запроса может пострадать. Это подчеркивает взаимозависимость алгоритмов ранжирования и понимания запросов.

Использует ли Google только Топ-N документов для определения контекста?

В основном варианте реализации — да. Однако в патенте упоминаются альтернативы: использование логов похожих запросов, предварительно рассчитанные векторы для кластеров документов или кластеризация Топ-N документов перед анализом. Основной метод полагается на Топ-N результатов.

Как рассчитываются веса в Semantic Concept Vector?

Используются классические метрики Information Retrieval, в первую очередь TF-IDF. Вес термина в векторе рассчитывается как сумма его TF-IDF оценок по всем документам в Query Context. Это позволяет выделить термины, которые часто встречаются в контексте (высокий TF) и при этом являются специфичными для темы (высокий IDF).

Может ли система использовать не только отдельные слова, но и фразы для расширения?

Да. В патенте упоминается, что Semantic Concept Vector может включать информацию о фразах или парах близко расположенных слов (proximity). Это может использоваться для дополнительной валидации: проверяется не только наличие альтернативного термина, но и то, встречается ли он рядом с другими терминами исходного запроса.

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса

Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.

US8682907B1
2014-03-25

Семантика и интент

Как Google использует контекст поисковой сессии для исправления ошибок и уточнения запросов пользователя

Google использует механизм для интеллектуального исправления ошибок в запросах (опечаток или неверно употребленных слов), опираясь на контекст текущей поисковой сессии. Вместо стандартного исправления по словарю, система анализирует предыдущие запросы пользователя, чтобы понять его намерение, и предлагает вариант исправления, который соответствует теме поиска.

US7953746B1
2011-05-31

Семантика и интент
Персонализация

Как Google использует контекст запроса для исправления опечаток и понятийных ошибок, анализируя результаты поиска по оставшимся словам

Google использует механизм для исправления сложных, редких или понятийно ошибочных запросов. Если система идентифицирует потенциально неточный термин (опечатку или перепутанное название), она временно удаляет его и выполняет поиск по оставшимся словам. Затем анализируется контент найденных страниц (заголовки, анкоры, URL), чтобы определить правильный термин для замены, обеспечивая релевантную выдачу даже при ошибках пользователя.

US8868587B1
2014-10-21

Семантика и интент

Как Google встраивает синонимы и контекст непосредственно в поисковый индекс на этапе индексирования

Google использует механизм для повышения релевантности поиска путем определения синонимов на основе контекста документа во время индексирования. Система встраивает эти синонимы, включая сложные многословные замены (N-to-M), непосредственно в инвертированный индекс. Это позволяет поисковой системе находить релевантные документы, даже если они не содержат точных ключевых слов из запроса, без необходимости переписывать запрос на лету.

US9037591B1
2015-05-19

Индексация
Семантика и интент

Как Google использует удаленный контекст в запросе ("Floating Context") для точного подбора синонимов

Google использует механизм для валидации синонимов, анализируя не только соседние слова в запросе (Adjacent Context), но и слова, расположенные далеко от исходного термина (Floating Context). Это позволяет точнее определять уместность синонима, опираясь на весь контекст запроса, и избегать неверных замен, если контекст их исключает.

US8538984B1
2013-09-17

Семантика и интент

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу

Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.

US8868548B2
2014-10-21

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google рассчитывает и показывает рейтинг легитимности сайтов и рекламодателей на основе их истории и активности

Google патентует систему для оценки и отображения «Рейтинга Легитимности» источников контента, включая сайты в органической выдаче и рекламодателей. Этот рейтинг основан на объективных данных: как долго источник взаимодействует с Google (история) и насколько активно пользователи с ним взаимодействуют (объем транзакций, клики). Цель — предоставить пользователям надежную информацию для оценки качества и надежности источника.

US7657520B2
2010-02-02

SERP
EEAT и качество
Поведенческие сигналы

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов

Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.

US8738612B1
2014-05-27

Семантика и интент
Поведенческие сигналы
SERP

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста

Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.

US7260573B1
2007-08-21

Персонализация
Ссылки

Как Google использует контент, который вы смотрите (например, на ТВ), для автоматического переписывания и персонализации ваших поисковых запросов

Google может анализировать контент (фильмы, шоу, аудио), который пользователь потребляет на одном устройстве (например, ТВ), и использовать эту информацию как контекст для уточнения последующих поисковых запросов. Система распознает аудиовизуальный контекст и автоматически дополняет неоднозначные запросы пользователя, чтобы предоставить более релевантные результаты, в том числе на связанных устройствах (например, смартфоне).

US9244977B2
2016-01-26

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи

Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.

US9178848B1
2015-11-03

Local SEO
SERP
Ссылки

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы