Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства

SYSTEM AND METHOD FOR COMPUTATION OF DOCUMENT SIMILARITY (Система и метод вычисления схожести документов)

US8886648B1
Google LLC
2012-01-31
2014-11-11

Google использует механизм для эффективного определения семантической схожести документов. Система генерирует «Сигнатуру Документа» — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), показывающих значимость каждой темы. Схожесть вычисляется путем сравнения этих векторов с использованием Косинусного Сходства (Cosine Similarity), что позволяет системе понимать тематические взаимосвязи в масштабе.

Какую проблему решает

Патент решает проблему вычислительной сложности при определении схожести контента в очень больших базах данных. Он предлагает эффективный метод быстрого поиска документов, семантически похожих на исходный документ, без необходимости проводить полное попарное сравнение всех документов в базе, фокусируясь на концептуальном содержании, а не только на ключевых словах.

Что запатентовано

Запатентована система для вычисления схожести документов, основанная на генерации и сравнении Document Signatures. Каждая сигнатура представляет собой вектор, состоящий из тем (Topics), идентифицированных в документе (например, с помощью NLP), и весов (Weights), которые определяют значимость темы. Система использует инвертированный индекс (Topics Index) для быстрого поиска кандидатов и вычисляет оценку схожести, используя Cosine Similarity между векторами тем.

Как это работает

Система работает в два основных этапа:

Индексирование: Для документа генерируется Document Signature (вектор тем и весов). Создается или обновляется Topics Index, который связывает каждую тему со списком документов, содержащих эту тему.
Вычисление схожести: При получении исходного документа система использует Topics Index, чтобы быстро найти все другие документы, имеющие хотя бы одну общую тему. Это ограничивает пространство поиска. Затем система вычисляет Cosine Similarity между вектором исходного документа и векторами документов-кандидатов. Документы с наивысшими оценками считаются наиболее похожими.

Актуальность для SEO

Чрезвычайно высокая. Описанный механизм — сравнение векторов признаков с использованием Cosine Similarity — является фундаментальным для современного информационного поиска, NLP и машинного обучения. Хотя методы генерации векторов эволюционировали (от тематического моделирования к современным эмбеддингам типа BERT/MUM), математический принцип сравнения схожести, описанный в патенте, остается стандартом де-факто в семантическом и векторном поиске.

Важность для SEO

Патент имеет высокое значение для SEO (8/10). Он не описывает алгоритм ранжирования, но раскрывает фундаментальный механизм, который Google использует для понимания тематической релевантности и взаимосвязей контента. Этот механизм лежит в основе систем рекомендаций (Google News, Discover), кластеризации контента и подтверждает переход от ключевых слов к взвешенным концептуальным темам как основе для оценки контента.

Термины и определения

Cosine Similarity (Косинусное сходство): Метрика для измерения схожести между двумя векторами. В контексте патента используется для сравнения векторов тематических весов (Document Signatures). Вычисляется как нормализованное скалярное произведение векторов. Результат варьируется от 0 (нет сходства) до 1 (идентичны).
Document Signature (Сигнатура документа): Представление документа в виде вектора признаков. Включает идентифицированные темы (Topics) и вес (Weight) для каждой темы.
Highest Weighted Overlapping Topics (Пересекающиеся темы с наибольшим весом): Темы, которые вносят наибольший вклад в итоговую оценку Similarity Score между двумя документами. Показывают, почему документы похожи.
Index / Topics Index (Индекс тем): Инвертированный индекс, содержащий список тем и ссылки на документы, которые содержат эти темы. Используется для эффективного поиска документов-кандидатов.
Similarity Score (Оценка схожести): Числовое значение, представляющее степень схожести между двумя документами. Вычисляется путем сравнения их Document Signatures.
Source Document (Исходный документ): Документ, для которого система ищет похожие документы.
Topic (Тема): Абстрактная идея или концепция, представляющая содержание документа. Генерируется (например, с помощью NLP) и может не являться термином, присутствующим в тексте.
Weight / Topic Weight / Confidence Score (Вес темы / Оценка уверенности): Числовое значение (например, от 0 до 1.0), которое количественно определяет, насколько сильно тема связана с документом. Сумма весов всех тем в документе обычно равна 1.0 или 100%.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод поиска похожих документов.

Система позволяет пользователю выбрать исходный документ (Source Document).
Система получает информацию об исходном документе (Topics и Weights).
Система обращается к индексу (Topics Index), хранящему темы и списки документов, содержащих эти темы.
Система выбирает набор документов (кандидатов), сравнивая темы исходного документа с записями индекса. Выбираются документы, которые имеют хотя бы одну общую тему. Каждый документ имеет свою Document Signature.
Система генерирует оценки схожести (Similarity Scores) на основе веса темы в исходном документе и веса той же темы в каждом документе из набора кандидатов.
Система выбирает подмножество документов из набора на основе оценок схожести.
Система выводит идентификаторы выбранного подмножества документов пользователю.

Claim 3 (Зависимый от 1): Уточняет метод генерации оценок схожести.

Генерация оценок включает вычисление нормализованного косинусного сходства (normalized cosine similarity) весов для каждой темы.

Claim 9 (Зависимый от 1): Описывает дополнительный вывод данных.

Система также выводит пользователю идентификаторы одной или нескольких пересекающихся тем с наибольшим весом (highest weighted overlapping topics).

Claim 11 (Зависимый от 1): Уточняет метод выбора подмножества документов.

Подмножество документов выбирается на основе предопределенного порогового значения оценки схожести (predetermined threshold similarity score).

Где и как применяется

Изобретение является инфраструктурным и затрагивает несколько этапов обработки данных.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит основная работа по подготовке данных. Система анализирует текст документа (например, с помощью NLP, который упоминается в патенте), генерирует Document Signature (вектор тем и весов) и сохраняет ее. Также на этом этапе строится или обновляется Topics Index.

RANKING / RERANKING / METASEARCH
Механизм вычисления схожести может применяться на этих этапах в различных сценариях:

Рекомендательные системы: Для поиска похожих статей (например, в Google News или Discover).
Кластеризация результатов: Для группировки похожих документов в поисковой выдаче или для внутренних нужд (например, определение Topical Authority сайта).
Обнаружение дубликатов: Как один из сигналов для идентификации почти идентичного контента (очень высокий Similarity Score).

Входные данные:

Текст документа (на этапе индексирования).
Исходный документ или его Document Signature (на этапе поиска схожести).
Topics Index.

Выходные данные:

Document Signature и обновленный Topics Index (на этапе индексирования).
Список похожих документов с их Similarity Scores.
Опционально: Highest Weighted Overlapping Topics.

На что влияет

Конкретные типы контента: Применяется ко всем типам контента, которые могут быть представлены в текстовом виде (статьи, новости, веб-страницы, транскрипты видео/аудио).
Стратегии рекомендаций: Патент напрямую влияет на то, как работают системы рекомендаций контента. Понимание этого механизма критично для оптимизации под Google Discover и Google News.
Оценка тематической глубины: Влияет на то, как система оценивает тематическую сфокусированность контента. Документы с четко выраженными основными темами (высокие веса) будут иметь высокие оценки схожести с другими сфокусированными документами по этим же темам.

Когда применяется

При индексировании/обновлении контента: Для генерации Document Signature и обновления Topics Index. Патент упоминает триггеры (trigger event) для обновления: создание/удаление документа, изменение контента документа.
По запросу системы или пользователя: Когда необходимо найти документы, похожие на заданный исходный документ.

Пошаговый алгоритм

Процесс А: Индексирование (Подготовка данных)

Получение текста документа: Система получает текст нового или обновленного документа.
Генерация сигнатуры документа: Текст обрабатывается (например, NLP-системой) для определения абстрактных тем (Topics) и вычисления весов (Weights) для каждой темы. Веса показывают значимость темы в документе (сумма весов часто = 1.0).
Сохранение сигнатуры: Document Signature (вектор тем и весов) сохраняется.
Обновление индекса тем: Система обновляет Topics Index. Для каждой темы в сигнатуре документа в индекс добавляется ссылка на этот документ.

Процесс Б: Вычисление схожести (Поиск похожих документов)

Идентификация тем исходного документа: Система получает исходный документ и извлекает его Document Signature.
Поиск кандидатов (Эффективность): Система обращается к Topics Index и находит все остальные документы, которые имеют хотя бы одну общую тему с исходным документом. Это формирует набор документов-кандидатов.
Сравнение сигнатур (Вычисление): Система сравнивает Document Signature исходного документа с сигнатурой каждого документа-кандидата.
Вычисление Similarity Score: Для каждой пары документов вычисляется оценка схожести. Основной метод, указанный в Claims, — Cosine Similarity. Это делается путем расчета нормализованного скалярного произведения векторов их тем.

Документы как векторы тем: Патент подтверждает, что Google представляет документы как векторы (Document Signatures) в многомерном тематическом пространстве. Каждое измерение — это тема (Topic), а значение — вес (Weight).
Схожесть через геометрию (Cosine Similarity): Тематическая схожесть определяется не совпадением ключевых слов, а геометрической близостью векторов в этом пространстве. Это позволяет находить концептуально близкий контент, даже если лексика различается.
Приоритет абстрактных тем: Система оперирует абстрактными Topics, сгенерированными на основе содержания (NLP), а не просто извлеченными терминами. Это подчеркивает важность семантического анализа.
Важность весов (Weights): Недостаточно просто упомянуть тему. Важно, насколько сильно эта тема выражена в документе. Два документа будут считаться очень похожими, только если у них совпадают темы с высокими весами.
Эффективность за счет индексации: Ключевым элементом эффективности является Topics Index. Он позволяет избежать сравнения исходного документа со всеми документами в базе, ограничивая вычисления только теми, которые имеют хотя бы одну общую тему.

Best practices (это мы делаем)

Фокус на тематической глубине и когерентности: Создавайте контент, который глубоко раскрывает основные темы. Цель — добиться высоких весов (Weights) для ключевых тем в Document Signature. Это повышает вероятность высокого Cosine Similarity с другими авторитетными документами или запросами по этой теме.
Оптимизация под концепции (Topical Authority): Сосредоточьтесь на полном раскрытии концепций и сущностей. Так как система использует абстрактные Topics, важно обеспечить семантическую полноту контента, а не просто наличие ключевых слов.
Оптимизация для рекомендательных систем (Discover/News): Чтобы контент рекомендовался пользователям, интересующимся определенной темой, он должен иметь высокую тематическую схожесть (Cosine Similarity) с контентом, который они уже потребляют. Это требует четкого тематического фокуса.
Создание тематических хабов (Topic Clusters): При создании кластеров убедитесь, что страницы внутри кластера имеют высокие показатели Cosine Similarity. Это укрепляет семантическую связь между страницами и помогает строить Topical Authority.

Worst practices (это делать не надо)

Создание несфокусированного контента (Topic Dilution): Контент, который поверхностно затрагивает множество разных тем, получит низкие веса по всем этим темам. Такой документ будет иметь низкий Cosine Similarity с любым сфокусированным контентом и вряд ли будет считаться высокорелевантным.
Игнорирование семантики и Keyword Stuffing: Попытки манипулировать релевантностью путем повторения ключевых слов неэффективны, так как система анализирует абстрактные темы и их веса, а не плотность терминов.
Создание почти дублированного контента (Near-Duplicate): Этот механизм может использоваться для эффективного обнаружения страниц с очень высоким Cosine Similarity (близким к 1.0). Создание множества страниц с минимальными отличиями приведет к их кластеризации и каноникализации не в пользу дублей.

Стратегическое значение

Патент описывает фундаментальный механизм, лежащий в основе семантического поиска и векторного представления данных в Google. Он демонстрирует, как Google математически интерпретирует тематическое содержание и его схожесть. Понимание Cosine Similarity и концепции векторов тем критически важно для Senior SEO-специалистов, так как эти принципы используются повсеместно. Стратегия должна строиться вокруг создания сильных, четких тематических сигналов и построения Topical Authority.

Практические примеры

Сценарий: Анализ тематического фокуса и оптимизация релевантности

Анализ контента:

Статья А (Сфокусированная): Глубокое погружение в SEO и контент-маркетинг.
- Предполагаемая Сигнатура: {"SEO": 0.6, "Контент-маркетинг": 0.35, "Цифровой маркетинг": 0.05}
Статья Б (Обзорная): Краткий обзор всех направлений (SEO, SMM, PPC).
- Предполагаемая Сигнатура: {"SEO": 0.2, "SMM": 0.3, "PPC": 0.3, "Цифровой маркетинг": 0.2}
Запрос пользователя (Интерпретация): «Стратегии SEO».
- Предполагаемая Сигнатура запроса: {"SEO": 0.9, "Стратегии": 0.1}

Вычисление схожести:

Система вычислит Cosine Similarity между запросом и статьями.

Схожесть (Запрос, Статья А): Будет высокой, так как обе сигнатуры имеют значительный вес для темы "SEO" (0.9 и 0.6).
Схожесть (Запрос, Статья Б): Будет низкой. Хотя Статья Б содержит тему "SEO", ее вес (0.2) значительно ниже, а фокус размыт другими темами (SMM, PPC), что снизит итоговый показатель схожести с узким запросом.

Результат для SEO: Статья А будет признана значительно более релевантной для данного сфокусированного запроса, чем обзорная Статья Б.

Что такое «Document Signature» и почему это важно для SEO?

Document Signature — это тематический профиль документа, представленный в виде вектора тем (Topics) и их весов (Weights). Для SEO это критически важно, так как это показывает, как поисковая система понимает ваш контент на семантическом уровне. Это не просто список ключевых слов, а взвешенная оценка того, насколько центральной является та или иная концепция для вашего документа.

Что такое Cosine Similarity простыми словами и почему это важно?

Cosine Similarity измеряет угол между двумя векторами в многомерном пространстве тем. Если представить документы как стрелки, исходящие из одной точки, то Cosine Similarity показывает, насколько эти стрелки сонаправлены. Если они указывают в одном направлении (угол близок к 0), схожесть максимальна (1.0). Это важно, потому что именно так Google математически определяет тематическую близость контента, независимо от его длины.

Как Google определяет темы (Topics) и веса (Weights) для документа?

Патент упоминает использование Natural Language Processing (NLP), но не раскрывает конкретный метод. На момент подачи патента (2012) это могли быть методы тематического моделирования. Сегодня Google использует гораздо более продвинутые нейросетевые модели (BERT, MUM) для генерации эмбеддингов, которые служат той же цели — созданию векторного представления документа, отражающего его семантику.

Отличается ли этот патент от современных векторных эмбеддингов (Embeddings)?

Да, отличается методом генерации векторов, но не принципом их сравнения. Патент описывает векторы, состоящие из интерпретируемых тем и весов. Современные эмбеддинги — это плотные векторы, сгенерированные нейросетями, где измерения не имеют явной интерпретации. Однако и в том, и в другом случае для сравнения схожести часто используется тот же математический аппарат — Cosine Similarity.

Как этот патент влияет на оптимизацию под Google Discover?

Влияние критическое. Google Discover предлагает контент на основе интересов пользователя. Чтобы понять, соответствует ли новый контент этим интересам, система должна вычислить его схожесть с контентом, который пользователь потреблял ранее. Механизм, описанный в патенте (тематические векторы и Cosine Similarity), обеспечивает эффективное вычисление этой тематической схожести.

Как добиться высоких весов (Weights) для ключевых тем моего контента?

Необходимо сфокусироваться на глубине раскрытия этих тем и тематической когерентности документа. Избегайте отклонений в сторону несвязанных тем. Используйте семантически богатый язык, раскрывайте связанные сущности и концепции. Чем большая часть документа посвящена основной теме, тем выше будет ее вес в Document Signature.

Может ли страница ранжироваться, если она охватывает много тем?

Да, но она будет лучше ранжироваться по широким, обзорным запросам. Если страница охватывает много тем, каждая из них, вероятно, получит низкий Topic Weight. Такая страница будет иметь низкий Similarity Score по сравнению с узкоспециализированными запросами, где интент требует глубокого погружения в одну конкретную тему.

Что такое «Topics Index» и зачем он нужен?

Topics Index — это инвертированный индекс, который для каждой темы хранит список документов, содержащих эту тему. Он нужен для повышения эффективности. Вместо того чтобы сравнивать исходный документ с миллиардами других, система сначала использует этот индекс, чтобы найти только те документы, которые имеют хотя бы одну общую тему, и только затем выполняет вычисление Cosine Similarity.

В патенте упоминается, что тема не обязательно должна присутствовать в тексте. Что это значит?

Это означает, что система использует семантический анализ для вывода абстрактных концепций. Например, если документ описывает автомобили, самолеты и поезда, система может идентифицировать тему «Транспортные средства», даже если эта фраза не используется в тексте. Это подчеркивает важность общего смысла контента, а не отдельных слов.

Применяется ли этот механизм для определения дублированного контента?

Да, это одно из ключевых применений. Дублированный или почти дублированный контент будет иметь практически идентичные Document Signatures (одинаковые темы и веса), что приведет к очень высокому Cosine Similarity (близкому к 1.0). Система может использовать этот механизм для идентификации дубликатов на этапе индексирования или ранжирования.

Как Google использует тематические векторы, косинусное сходство и анализ когезии кластеров для автоматической классификации контента

Патент Google, описывающий технологию автоматической организации документов. Система создает тематическую сигнатуру документа (вектор тем и их весов) и сравнивает её с существующими наборами документов, используя Cosine Similarity. Затем вычисляется Оценка Уверенности на основе среднего сходства и однородности набора. Патент раскрывает фундаментальные механизмы Information Retrieval, которые Google использует для понимания семантики и оценки тематической когезии контента.

US8458194B1
2013-06-04

Семантика и интент

Как Google строит и динамически обновляет индекс на основе тем и векторных представлений для семантического поиска

Google индексирует документы, присваивая им семантическую "сигнатуру" — вектор, состоящий из абстрактных тем (Topics) и весов (Weights), определяющих их значимость. Патент описывает инфраструктуру для эффективного обновления этого тематического индекса при изменении контента или обновлении моделей NLP Google. Система использует эти векторы для быстрого определения схожести контента через Cosine Similarity.

US8756236B1
2014-06-17

Индексация
Семантика и интент

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз

Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.

US7958136B1
2011-06-07

Семантика и интент

Как Google использует семантические сигнатуры на основе фраз для выявления и удаления дубликатов контента

Google использует механизм для обнаружения дубликатов и почти дубликатов контента. Система анализирует, какие семантически связанные фразы (related phrases) содержатся в документе. Затем она выбирает несколько ключевых предложений с наибольшей концентрацией этих фраз для создания уникальной сигнатуры документа. Если сигнатуры двух документов совпадают, они считаются дубликатами и удаляются из индекса или поисковой выдачи.

US7711679B2
2010-05-04

Семантика и интент
Индексация
SERP

Как Google переранжирует результаты поиска в реальном времени, скрывая контент, который пользователь уже видел на других сайтах

Google использует механизм оценки новизны информации для динамической корректировки поисковой выдачи во время сессии пользователя. Система вычисляет «Information Gain Score» для непросмотренных документов, определяя, сколько новой информации они содержат по сравнению с уже посещенными сайтами. Результаты с уникальной информацией повышаются, а повторяющийся контент понижается, чтобы уменьшить избыточность.

US11354342B2
2022-06-07

SERP
Семантика и интент
Персонализация

Как Google идентифицирует экспертов на основе их активности и позволяет фильтровать выдачу по их контенту

Google использует систему для идентификации людей (членов социальной сети), тесно связанных с темой запроса, на основе их активности (посты, взаимодействия, репосты) и квалификации. Система отображает этих людей в специальных блоках (Display Areas) рядом с результатами поиска, позволяя пользователям просматривать их профили или фильтровать выдачу, чтобы увидеть только контент, созданный, одобренный или прокомментированный этими экспертами.

US9244985B1
2016-01-26

EEAT и качество
Поведенческие сигналы
SERP

Как Google определяет свежесть документа, анализируя возраст ссылающихся страниц и динамику появления ссылок (Link Velocity)

Google использует методы для оценки свежести документа, когда дата его обновления неизвестна или ненадежна. Система анализирует даты обновления страниц, которые ссылаются на документ, а также историю появления и удаления этих ссылок (Link Velocity). Если на документ ссылаются недавно обновленные страницы или количество ссылок растет, он считается свежим.

US7797316B2
2010-09-14

Свежесть контента
Ссылки
Техническое SEO

Как Google использует распределение кликов в выдаче для определения брендовых (навигационных) и общих (тематических) запросов

Google анализирует поведение пользователей в поисковой выдаче для классификации интента запроса. Если клики сконцентрированы на одном результате (низкое разнообразие, высокая частота), запрос классифицируется как навигационный или брендовый (Data-Creator Targeting). Если клики распределены по разным сайтам, запрос считается общим (Content Targeting). Эта классификация используется для адаптации поисковой выдачи.

US20170068720A1
2017-03-09

Семантика и интент
Поведенческие сигналы
SERP

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google использует последовательность кликов пользователей (Co-selection) для классификации изображений и фильтрации контента (SafeSearch)

Google анализирует, какие изображения пользователи выбирают последовательно в рамках одной сессии (co-selection). Если Изображение Б часто выбирается сразу после Изображения А (с известной темой), система присваивает Изображению Б ту же тему. Этот механизм использует графовый анализ поведения для уточнения тематики изображений, что критично для повышения релевантности и работы фильтров, таких как SafeSearch.

US8856124B2
2014-10-07

Безопасный поиск
Поведенческие сигналы
Семантика и интент

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования

Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.

US8195654B1
2012-06-05

Поведенческие сигналы
SERP

Как Google использует данные о кликах и пропусках для валидации и удаления неэффективных синонимов в поиске

Google постоянно тестирует правила подстановки (синонимы) для расширения запросов. Этот патент описывает механизм оценки эффективности этих правил с помощью анализа поведения пользователей (клики и пропуски результатов). Если пользователи часто пропускают результаты, содержащие подставленный термин, система автоматически удаляет это правило, очищая понимание запросов от нерелевантных синонимов.

US8965875B1
2015-02-24

Поведенческие сигналы
Семантика и интент
EEAT и качество

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа

Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.

US8307005B1
2012-11-06

Поведенческие сигналы
Ссылки
SERP

Как Google снижает влияние ссылок с аффилированных сайтов и PBN для борьбы с манипуляциями в ранжировании

Патент Google описывает систему ранжирования, которая идентифицирует группы сайтов под общим контролем (аффилированные узлы или PBN). Система резко снижает вес ссылок внутри такой группы и ограничивает общее влияние группы на другие сайты, учитывая только одну, самую сильную ссылку от всей группы. Также описывается механизм "Доверенных авторитетов", чьи ссылки передают максимальный вес независимо от количества исходящих ссылок.

US8719276B1
2014-05-06

Антиспам
Ссылки
Техническое SEO

Как Google определяет интент запроса, анализируя классификацию контента, который кликают пользователи

Google использует данные о поведении пользователей для классификации запросов. Система определяет, какой контент пользователи считают наиболее релевантным для запроса (на основе кликов и времени пребывания). Затем она анализирует классификацию этого контента (например, «продукт», «новости», «взрослый контент») и присваивает доминирующую классификацию самому запросу. Это позволяет уточнить интент и скорректировать ранжирование.

US8838587B1
2014-09-16

Семантика и интент
Поведенческие сигналы
SERP

Как Google вычисляет семантическую схожесть контента с помощью векторов тем и косинусного сходства

Описание