Как Google определяет контекстную значимость слов в запросе, делая неважные термины опциональными при поиске

DETERMINING QUERY TERMS OF LITTLE SIGNIFICANCE (Определение поисковых терминов с низкой значимостью)

US8346757B1
Google LLC
2005-03-28
2013-01-01

Google использует систему для определения значимости слов в поисковом запросе в зависимости от их контекста. Анализируя историю запросов, система выявляет, меняется ли выдача при добавлении определенного слова. Если выдача остается схожей, слово признается малозначимым в данном контексте. При обработке запроса такие слова становятся опциональными (необязательными для нахождения в документе) и получают пониженный вес при ранжировании.

Какую проблему решает

Патент решает проблему снижения качества поиска из-за включения пользователями в запрос "лишних слов" — терминов с низкой информационной значимостью (terms of little significance). Такие термины часто сужают область поиска (снижают полноту), исключая релевантные документы, не содержащие этих слов, и искажают ранжирование, придавая избыточный вес этим словам при расчете score. Существующие методы (стоп-слова, общие слова на основе TF/IDF) неэффективны, так как значимость термина часто зависит от контекста (например, слово "information" в запросах "information about mazda cars" и "information technology practices").

Что запатентовано

Запатентована система, которая определяет значимость термина в зависимости от его контекста в запросе. Система использует офлайн-анализ логов запросов (query logs) для построения таблицы (Query Term Table), фиксирующей, в каких контекстах термин является значимым, а в каких — малозначимым. Во время выполнения запроса система проверяет эту таблицу и модифицирует логику поиска для малозначимых терминов.

Как это работает

Система работает в двух режимах:

Офлайн-анализ:

Система анализирует query logs и находит пары запросов, отличающихся одним термином (Запрос А и Запрос А + Термин Х).
Сравниваются результаты поиска для этих пар.
Если результаты схожи, Термин Х признается малозначимым в этом контексте. Если различны — значимым.
Система также может анализировать поведение пользователей: если они часто удаляют Термин Х в последующем запросе, это сигнал низкой значимости.
Результаты сохраняются в Query Term Table.

Обработка запроса (Runtime):

При получении запроса система проверяет каждый термин по Query Term Table, используя наиболее специфичный совпадающий контекст.
Если термин признан малозначимым:

Отбор документов: Термин считается опциональным (документы без него попадают в выдачу).
Ранжирование: Вес термина понижается (down weight) при расчете score документа.

Актуальность для SEO

Высокая. Понимание запросов и определение истинного интента пользователя остаются центральными задачами поиска. Описанный механизм контекстно-зависимой оценки значимости терминов является фундаментальным для обработки сложных и длинных запросов. Хотя современные нейросетевые модели (BERT, MUM) используют более продвинутые методы для понимания контекста, базовая идея, что не все слова в запросе одинаково важны и их важность зависит от окружения, актуальна как никогда.

Важность для SEO

Патент имеет высокое значение (8/10) для понимания принципов работы поиска. Он описывает конкретный механизм, как Google может игнорировать или понижать вес определенных слов в запросе в зависимости от контекста. Это напрямую влияет на стратегию подбора семантики и оптимизации контента: фокус должен быть на ключевых терминах, определяющих интент, а не на общих модификаторах, которые могут быть признаны малозначимыми.

Термины и определения

Context (Контекст): Специфический термин или последовательность терминов, которые появляются непосредственно до или после анализируемого термина в запросе. Контекст определяет условия, при которых оценивается значимость термина. Также может означать "везде" (обозначается как (.)), указывая на общую значимость термина независимо от окружения.
Down-weighting (Понижение веса): Процесс уменьшения вклада термина с низкой значимостью в общую оценку (score) документа при ранжировании. Термин вносит меньший вклад, чем другие термины запроса, но все же больший нуля.
Extra term (Дополнительный термин): Термин, наличие которого отличает один запрос от другого в анализируемой паре (например, Термин Х в паре "Запрос А" и "Запрос А + Термин Х").
Optional Term (Опциональный термин): Термин запроса, который был идентифицирован как малозначимый в данном контексте. При отборе документов (document selection) его наличие в документе не является обязательным.
Query Logs (Логи запросов): Журналы пользовательских поисковых запросов и связанных данных, включая результаты поиска (search results), которые были идентифицированы для этих запросов, и последовательности запросов (сессии).
Query Term Table (Таблица поисковых терминов): Структура данных, хранящая информацию о терминах и контекстах, в которых они имеют низкую значимость (Context(s) of Little Significance) или высокую значимость (Significant Context(s)).
Term of Little Significance (Термин с низкой значимостью): Термин, который считается менее важным или полезным, чем другие термины в запросе, для определения информационной потребности пользователя в данном контексте.

Ключевые утверждения (Анализ Claims)

Claim 17 (Независимый пункт): Описывает офлайн-метод определения значимости терминов.

Анализ query logs для идентификации пар запросов, отличающихся одним дополнительным термином (extra term).
Расчет количества общих или различных результатов поиска для группы этих пар.
Идентификация extra term как термина с little significance, если группа пар связана с первым пороговым количеством общих результатов.
Идентификация extra term как термина, который является significant, если группа пар связана со вторым пороговым количеством различных результатов.

Claim 1 (Независимый пункт): Описывает основной метод обработки поискового запроса (онлайн).

Система получает поисковый запрос.
Проводится анализ конкретного термина запроса для расчета его значимости на основе контекста (других терминов).
Это определение основано на (предварительном) анализе логов запросов (как в Claim 17).
Термин идентифицируется как имеющий little significance, если анализ логов показал высокое сходство результатов.
Система идентифицирует документы на основе подмножества терминов запроса, которое не включает термин с little significance (т.е. он становится опциональным при отборе).
Предоставляется список результатов поиска.

Claim 27 (Независимый пункт): Описывает процесс ранжирования (Scoring).

Получение запроса и анализ значимости термина (на основе офлайн-анализа).
Идентификация документов.
Генерация оценок (scores). При расчете оценки малозначимый термин вносит вклад, который больше нуля, но меньше, чем вклад значимого термина (Down-weighting).
Идентификация списка результатов на основе оценок.

Claim 4, 6, 19, 22 (Зависимые): Детализируют поиск контекстуальных исключений.

Система не только определяет общую значимость термина, но и ищет контексты, где правило нарушается. Например, если термин в целом малозначим, система ищет контексты, где его добавление сильно меняет выдачу (делая его значимым в этом контексте), и наоборот.

Claim 7 и 23 (Зависимые): Описывают альтернативный сигнал — поведение пользователя (реформулировка запроса).

Система анализирует последовательности запросов. Если пользователь часто вводит Запрос 1 (с термином), а сразу за ним Запрос 2 (без термина), и это превышает порог (например, 1%), термин идентифицируется как имеющий little significance.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, разделяясь на офлайн-обработку и обработку запроса в реальном времени.

QUNDERSTANDING – Понимание Запросов (Офлайн-обработка)
Система (Query Term Analyzer) работает в офлайн-режиме. Он использует данные из Query Logs для анализа влияния терминов на результаты поиска.
Вход: Query Logs (история запросов и SERP).
Выход: Query Term Table.

QUNDERSTANDING – Понимание Запросов (Онлайн)
На этом этапе система (Query Analyzer) в реальном времени анализирует входящий запрос, используя Query Term Table. Определяется контекст каждого термина и его значимость.
Вход: Поисковый запрос, Query Term Table.
Выход: Аннотированный запрос с указанием значимости/весов терминов.

RANKING – Ранжирование (Этап Retrieval/Отбор кандидатов)
Компонент Search Logic выполняет отбор документов. Если термин помечен как малозначимый, он рассматривается как опциональный (optional). Документ не обязан содержать этот термин для попадания в набор кандидатов.
Вход: Аннотированный запрос.
Выход: Набор документов-кандидатов.

RANKING – Ранжирование (Этап Scoring/Оценка)
Компонент Scoring Logic рассчитывает оценку релевантности (IR score). Если термин помечен как малозначимый, применяется понижение веса (down-weighting).
Вход: Документы-кандидаты, веса терминов.
Выход: Документы с рассчитанными scores.

На что влияет

Специфические запросы: Наибольшее влияние оказывается на длинные (long-tail) запросы и запросы, содержащие общие модификаторы (например, "бесплатно", "информация", "лучший"), которые часто перегружают запрос и снижают качество поиска.
Контентные факторы: Система может предпочесть документ, идеально отвечающий на основной интент, но не содержащий малозначимых модификаторов, документу, содержащему все слова, но менее релевантному основному интенту.

Когда применяется

Условия применения: Алгоритм анализа применяется к каждому запросу, но модификация (опционализация и понижение веса) активируется только тогда, когда хотя бы один термин запроса идентифицирован в Query Term Table как имеющий little significance в контексте данного запроса.
Принцип действия: Система ищет наиболее специфичное (most specific context) совпадение в таблице. Если термин обычно малозначим, но в данном конкретном контексте значим, он будет считаться значимым.
Пороговые значения (Офлайн): Используются пороги для определения "большинства пар" (например, >50%) и "множества общих/различных результатов". В патенте упоминается пример: "большинство пар имеют как минимум 30% общих результатов и не более 20% пар не имеют общих результатов". Также используется порог частоты реформулировки запроса (например, >1%).

Пошаговый алгоритм

Процесс А: Офлайн-генерация Таблицы Поисковых Терминов (Query Term Table)

Анализ логов запросов: Система анализирует Query Logs.
Идентификация пар запросов: Выявляются пары запросов, которые идентичны, за исключением одного дополнительного термина (extra term).
Сравнение результатов поиска: Для каждой пары сравниваются списки результатов поиска (SERP).
Оценка большинства пар: Определяется, имеет ли большинство (или пороговое количество) пар много общих результатов или много различных результатов.
Определение общей значимости:
- Если большинство пар имеют много общих результатов: extra term идентифицируется как в целом малозначимый.
- Если большинство пар имеют много различных результатов: extra term идентифицируется как в целом значимый.
Идентификация исключений (Контекстов):
- Для в целом малозначимых терминов: Ищутся контексты, в которых добавление термина приводит к различным результатам (контексты значимости).
- Для в целом значимых терминов: Ищутся контексты, в которых добавление термина приводит к общим результатам (контексты низкой значимости).
(Опционально) Анализ реформулировок: Анализируются последовательности запросов пользователей для выявления частых удалений термина, что также указывает на его низкую значимость.
Сохранение данных: Информация о термине, его общей значимости и контекстах-исключениях сохраняется в Query Term Table.

Процесс Б: Обработка запроса в реальном времени

Получение запроса: Система получает поисковый запрос.
Анализ терминов и контекста: Каждый термин анализируется с использованием Query Term Table. Система ищет наиболее специфичный совпадающий контекст для определения значимости термина.
Проверка наличия малозначимых терминов: Определяется, содержит ли запрос термины с little significance в данном контексте.
Выполнение поиска (Document Selection):
- Если малозначимых терминов нет: Выполняется стандартный поиск.
- Если есть: Поиск выполняется, рассматривая малозначимые термины как опциональные (optional). Документы отбираются, даже если не содержат эти термины.
Применение весов (Weighting):
- Значимым терминам присваивается стандартный вес (например, 1).
- Малозначимым терминам присваивается пониженный вес (down-weight) (например, 0.25).
Расчет оценок (Scoring): Рассчитываются оценки (scores) для отобранных документов с учетом присвоенных весов. Документы, содержащие малозначимый термин, получают небольшое преимущество перед теми, что его не содержат.
Презентация результатов: Документы ранжируются по итоговым оценкам и предоставляются пользователю.

Какие данные и как использует

Данные на входе

Поведенческие факторы (Query Logs): Критически важные данные. Используются исторические данные о том, какие запросы задавали пользователи и какие результаты поиска (SERP) были получены для этих запросов. Также используются данные о последовательностях запросов (sequences of queries) для анализа реформулировок.

Патент не упоминает использование контентных, технических или ссылочных факторов для определения значимости термина.

Какие метрики используются и как они считаются

Система использует несколько ключевых метрик и порогов в офлайн-анализе:

Степень совпадения результатов (Common Search Results): Процент или количество общих документов в выдаче по паре запросов (А и А+Х).
Порог "Много общих результатов" (Threshold 1): Пороговое значение степени совпадения, при превышении которого считается, что добавление термина Х не сильно изменило выдачу (например, 30% общих результатов).
Порог "Много различных результатов" (Threshold 2): Пороговое значение степени различия, при превышении которого считается, что добавление термина Х значительно изменило выдачу.
Порог "Большинство пар" (Majority Threshold): Процент пар запросов, которые должны удовлетворять порогам совпадения/различия, чтобы сделать вывод об общей значимости термина (например, 50%).
Частота реформулировки: Частота, с которой пользователи вводят запрос с термином, а затем сразу же вводят тот же запрос без этого термина. Порог активации, например, 1%.

В процессе обработки запроса используются:

Веса терминов (Term Weights): Значения, используемые при расчете IR score. Малозначимые термины получают пониженный вес (дробное значение меньше стандартного веса значимых терминов).

Значимость термина определяется контекстом, а не только его частотностью: Система выходит за рамки традиционных стоп-слов или TF/IDF. Слово может быть признано малозначимым в одном контексте и критически важным в другом (например, "automobile" в "ford automobile" vs "hybrid automobile").
Оценка значимости основана на влиянии термина на состав SERP: Ключевой механизм патента — это анализ того, как сильно меняется поисковая выдача при добавлении или удалении термина. Если выдача меняется слабо, термин считается малозначимым. Это объективная оценка, основанная на данных Query Logs.
Двойной механизм обработки малозначимых терминов: Система использует два метода для снижения негативного влияния лишних слов:
- Повышение полноты (Recall): Малозначимые термины становятся опциональными при отборе документов. Это позволяет находить релевантные документы, которые не содержат этих слов.
- Улучшение точности (Precision): Малозначимые термины получают пониженный вес (down-weighting) при ранжировании. Это уменьшает их влияние на итоговый score, но сохраняет небольшое преимущество для документов, где они есть (вес > 0).
Использование наиболее специфичного контекста: При анализе запроса система выбирает наиболее точное совпадение контекста в Query Term Table. Это позволяет корректно обрабатывать исключения из общих правил.
Альтернативный сигнал — Реформулировка запроса: Поведение пользователей (быстрое удаление слова из запроса) является дополнительным сильным сигналом низкой значимости термина.

Best practices (это мы делаем)

Фокус на основном интенте (Core Intent Terms): Сосредоточьте стратегию контента и оптимизацию на терминах, которые определяют основную потребность пользователя, а не на общих модификаторах. Убедитесь, что страница хорошо ранжируется по основному запросу без учета потенциально малозначимых слов (например, по "mazda cars", а не только по "information about mazda cars").
Анализ SERP для определения значимости терминов: Изучайте, как меняется выдача при добавлении или удалении модификаторов в вашей нише (например, "купить", "цена", "отзывы"). Если выдача по запросам А и А+Х сильно отличается, то Х — значимый термин, и под него нужна оптимизация. Если выдача схожа, то Х, вероятно, опционален.
Создание комплексного контента (Увеличение Recall): Поскольку малозначимые термины становятся опциональными, высококачественный контент, отвечающий на основной интент, может быть показан по более широкому спектру длинных запросов, даже если он не содержит всех второстепенных слов из запроса пользователя.
Оптимизация под значимые контексты: Если вы используете общие слова, убедитесь, что они используются в контексте, где они имеют значение. Например, если вы используете слово "free", убедитесь, что контент соответствует контекстам, где оно значимо (например, "sugar free"), а не просто как общий модификатор.

Worst practices (это делать не надо)

Искусственное раздувание текста общими словами: Добавление слов вроде "информация", "статья", "обзор" в надежде повысить релевантность может быть неэффективным, если эти слова будут признаны малозначимыми в данном контексте и их вес будет понижен.
Слепая оптимизация под Long-Tail запросы: Оптимизация страницы под очень длинный запрос без понимания значимости каждого термина рискованна. Если половина слов в запросе будет признана опциональной и получит пониженный вес, страница может уступить конкурентам, лучше оптимизированным под основной интент.
Игнорирование основного запроса: Нельзя фокусироваться только на полном длинном запросе, предполагая, что все слова обязательны. Если основные термины не проработаны, страница не будет ранжироваться, даже если содержит все опциональные модификаторы.

Стратегическое значение

Этот патент подчеркивает важность глубокого понимания семантики и контекста в поисковых системах. Он демонстрирует, что Google стремится понять истинную информационную потребность пользователя, отфильтровывая шум в запросе. Для SEO это означает переход от буквального соответствия ключевых слов к удовлетворению интента. Стратегия должна базироваться на анализе того, какие термины являются определяющими (significant) в конкретных тематиках и контекстах, и обеспечении максимальной релевантности именно этим терминам.

Практические примеры

Сценарий 1: Оптимизация страницы обзора автомобиля (Пример из патента)

Анализ терминов: SEO-специалист анализирует запросы, связанные с "Ford". Он замечает, что по запросам "Ford automobile" и "Ford" выдача почти идентична.
Интерпретация (на основе патента): Google определил, что в контексте "(Ford .)" слово "automobile" имеет little significance. Оно становится опциональным и получает пониженный вес.
Действия: Специалист фокусирует оптимизацию (Title, H1, основной текст) на бренде "Ford" и конкретных моделях, не пытаясь излишне часто использовать слово "automobile".
Результат: Страница хорошо ранжируется по запросу "Ford automobile", так как её ранжирование в первую очередь определяется релевантностью термину "Ford".

Сценарий 2: Использование слова "Бесплатно" (Free) (Пример из патента)

Анализ терминов: Специалист хочет продвинуть страницу по запросу "Бесплатные фото китов" (Killer whale free photos). Анализ показывает, что выдача по "Killer whale free photos" и "Killer whale photos" очень похожа.
Интерпретация: Слово "Free" в этом контексте имеет little significance.
Анализ исключений: Специалист также проверяет запрос "Sugar free soda". Выдача по "Sugar free soda" и "Sugar soda" сильно отличается.
Интерпретация: В контексте "(Sugar . soda)" слово "Free" является значимым.
Действия: Для страницы с фото китов основной упор делается на качество и релевантность фотографий китов. Для страницы о газировке без сахара слово "Free" используется как ключевой элемент оптимизации.

Как система определяет, является ли термин значимым или нет?

Основной метод — это анализ исторических логов запросов (Query Logs). Система находит пары запросов, отличающиеся одним словом (А и А+Х), и сравнивает их результаты поиска. Если результаты очень похожи, значит, слово Х не сильно влияет на выдачу и является малозначимым. Если результаты сильно отличаются, слово Х значимо. Также используется анализ поведения пользователей: если они часто удаляют слово из запроса и повторяют поиск, это сигнал низкой значимости.

Значит ли это, что Google игнорирует малозначимые слова?

Не полностью игнорирует, а применяет двойной подход. Во-первых, при отборе документов (retrieval) это слово становится опциональным — документы без него могут попасть в выдачу. Во-вторых, при ранжировании (scoring) вес этого слова понижается (down-weighting). Оно вносит вклад в score (больше нуля), но значительно меньший, чем значимые термины.

Как система учитывает контекст?

Система не просто определяет общую значимость слова, но и ищет исключения. Например, слово "Free" может быть признано в целом малозначимым. Но система может обнаружить, что в контексте "Sugar Free" оно критически важно (так как сильно меняет выдачу). Эта информация хранится в Query Term Table. При обработке запроса используется наиболее специфичный совпадающий контекст.

Как это влияет на подбор семантического ядра?

Это подчеркивает необходимость разделения ядра на основные термины, определяющие интент, и второстепенные модификаторы. Нужно убедиться, что сайт хорошо ранжируется по основным терминам. Не стоит полагаться на длинные запросы, состоящие из множества потенциально малозначимых слов, так как их вес может быть сильно понижен.

Стоит ли использовать общие слова типа "информация", "обзор", "гайд" в тексте и заголовках?

Если эти слова естественно вписываются в контент, их можно использовать. Однако не стоит ожидать, что они дадут значительный прирост в ранжировании, если система определит их как малозначимые в данном контексте. Они, скорее всего, станут опциональными и получат пониженный вес. Фокус всегда должен быть на терминах, несущих основную смысловую нагрузку.

Как я могу узнать, какие слова Google считает малозначимыми в моей нише?

Патент предлагает метод, который можно эмулировать вручную: сравните SERP для пар запросов (А и А+Х). Если Топ-10 выдачи по запросу с модификатором и без него практически идентичен (например, совпадает на 70-80%), вероятно, этот модификатор имеет низкую значимость в данном контексте. Если выдача кардинально разная, термин значим.

Влияет ли этот патент на обработку стоп-слов?

Да, этот механизм является более продвинутой и гибкой альтернативой традиционным спискам стоп-слов. Вместо жесткого игнорирования слова во всех ситуациях, система оценивает его значимость в зависимости от контекста и применяет мягкое понижение веса или опциональность.

Что такое Query Term Table и как она используется?

Это база данных, создаваемая в офлайн-режиме на основе анализа логов. Она хранит информацию о терминах и контекстах, в которых они значимы или малозначимы. Во время выполнения запроса система обращается к этой таблице, чтобы быстро определить, как обрабатывать каждое слово в запросе пользователя (как обязательное или опциональное, с полным весом или пониженным).

Как этот механизм помогает пользователям?

Он помогает в ситуациях, когда пользователи перегружают запрос лишними словами. Система автоматически определяет, какие слова важны, а какие нет. Это позволяет вернуть более качественные результаты, которые могли бы быть отсеяны, если бы все слова запроса считались обязательными и равнозначными.

Актуален ли этот механизм в эпоху нейронных сетей (BERT, MUM)?

Базовая концепция контекстной значимости остается крайне актуальной. Хотя современные модели ИИ могут определять значимость слов более сложными способами (например, через механизмы внимания в трансформерах), идея, описанная в патенте (анализ влияния на SERP и модификация весов/опциональности), заложила фундамент для систем понимания запросов.

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google извлекает и ранжирует факты, используя сопоставление шаблонов, IDF и консенсус источников

Google использует многоэтапный процесс для ответов на запросы с пропусками (fill-the-blanks). Система преобразует запрос в шаблон, находит совпадения в тексте и извлекает ответ (Filler Text). Ранжирование ответов основано на уникальности терминов (IDF), качестве документа-источника (Document Quality) и частоте подтверждения этого ответа другими источниками (Relative Frequency), что позволяет валидировать факты через консенсус.

US7693829B1
2010-04-06

Семантика и интент
SERP

Как Google использует анализ совместной встречаемости слов для проверки синонимов и определения значимых контекстов запроса

Google анализирует, какие слова часто появляются вместе в поисковых запросах (совместная встречаемость), чтобы определить, является ли один термин хорошей заменой для другого (синонимом). Кроме того, система оценивает, насколько конкретный контекст (соседние слова) уточняет смысл запроса, и отфильтровывает неинформативные контексты для повышения точности понимания запросов.

US8682907B1
2014-03-25

Семантика и интент

Как Google использует контекст топ-результатов для валидации синонимов и расширения запросов

Google использует механизм для предотвращения ошибок при расширении запросов синонимами или однокоренными словами. Система генерирует потенциальные альтернативные термины, но добавляет их к запросу только если они подтверждаются контекстом. Контекст определяется анализом терминов, найденных в топовых результатах поиска по исходному запросу. Это гарантирует, что расширение запроса остается семантически релевантным.

US8055669B1
2011-11-08

Семантика и интент

Как Google автоматически определяет и отображает обратные ссылки (цитирования) между независимыми веб-страницами

Патент Google, описывающий фундаментальный механизм автоматического обнаружения ссылок между веб-страницами разных авторов. Когда система обнаруживает, что Страница B ссылается на Страницу A, она может автоматически встроить представление (например, ссылку) Страницы B в Страницу A при её показе пользователю. Это технология для построения и визуализации графа цитирований в Интернете.

US8032820B1
2011-10-04

Ссылки
Индексация
Краулинг

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR

Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.

US10922326B2
2021-02-16

Knowledge Graph
SERP
Семантика и интент

Как Google предсказывает следующий запрос пользователя на основе контента текущей страницы и исторических данных

Google использует машинное обучение для анализа логов поведения пользователей, чтобы понять, что они ищут после посещения определенного контента. Система создает совместное векторное пространство (joint embedding) для документов и запросов, где близость отражает семантическую связь и вероятность совместной встречаемости. Это позволяет предлагать релевантные последующие запросы (query suggestions) в реальном времени, даже если ключевые слова для этих запросов на странице отсутствуют.

US9594851B1
2017-03-14

Семантика и интент
Поведенческие сигналы
Персонализация

Как Google автоматически распознает сущности в тексте и связывает их в Knowledge Graph с помощью динамических поисковых ссылок

Google использует автоматизированную систему для поддержания связей между сущностями (объектами) в своем хранилище фактов (Knowledge Graph). Система сканирует текст, статистически определяет значимые фразы и сверяет их со списком известных объектов. При совпадении создается динамическая «поисковая ссылка» вместо фиксированного URL. Это позволяет Google постоянно обновлять связи по мере добавления новых знаний.

US8260785B2
2012-09-04

Knowledge Graph
Семантика и интент
Ссылки

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)

Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.

US9165040B1
2015-10-20

Ссылки
EEAT и качество
Антиспам

Как Google использует время просмотра (Watch Time) для ранжирования видео и другого контента

Google измеряет, сколько времени пользователи тратят на потребление контента (особенно видео) после клика по результату поиска и во время последующей сессии. Ресурсы, которые удерживают внимание пользователей дольше, получают повышение в ранжировании (Boost), а ресурсы с коротким временем просмотра понижаются. Система учитывает не только клики, но и фактическое вовлечение пользователя в рамках всей сессии просмотра.

US9098511B1
2015-08-04

Поведенческие сигналы
Мультимедиа
SERP

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей

Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.

US9244972B1
2016-01-26

EEAT и качество
Семантика и интент
SERP

Как Google использует историю физических перемещений пользователя для фильтрации и персонализации результатов поиска

Google может собирать и хранить историю физических перемещений пользователя (Location History). Патент описывает интерфейс, позволяющий пользователю осознанно включать свои прошлые местоположения (например, «места, где я был на прошлой неделе») в качестве фильтра для нового поискового запроса, чтобы сделать результаты более релевантными личному опыту.

US8874594B2
2014-10-28

Персонализация
Поведенческие сигналы
Local SEO

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства

Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.

US8868592B1
2014-10-21

Персонализация
Поведенческие сигналы
Local SEO