SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google извлекает ключевые концепции и сущности, анализируя контекст вокруг повторяющихся цитат и отрывков текста

IDENTIFYING KEY TERMS RELATED TO SIMILAR PASSAGES (Идентификация ключевых терминов, связанных с похожими отрывками)
  • US9323827B2
  • Google LLC
  • 2008-01-30
  • 2016-04-26
  • Семантика и интент
  • Индексация
  • Knowledge Graph
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует, как одни и те же отрывки текста (например, цитаты) используются в разных документах. Система собирает весь окружающий текст (контекст) вокруг каждого вхождения отрывка и использует статистический анализ (например, TF-IDF), чтобы определить ключевые термины, сущности и концепции, связанные с этим отрывком. Это позволяет связывать документы по смыслу и улучшать навигацию.

Описание

Какую проблему решает

Патент решает проблему навигации в больших цифровых корпусах текста (например, Google Books или научные архивы), где отсутствуют гиперссылки между документами. Это затрудняет просмотр связанных по смыслу материалов (browsing by concept). Изобретение направлено на автоматическое создание концептуальных связей путем анализа повторяющихся отрывков текста и их контекста использования.

Что запатентовано

Запатентована система для автоматического извлечения ключевых терминов (Key Terms), связанных с отрывками текста, которые повторяются в нескольких документах корпуса (Similar Passages). Суть изобретения заключается в агрегировании контекста (окружающего текста) всех экземпляров данного отрывка (Context Aggregation) и последующем анализе этого агрегированного контекста для выявления значимых концепций или сущностей.

Как это работает

Система работает в несколько этапов (преимущественно офлайн):

  • Идентификация отрывков: Passage Mining Engine находит фрагменты текста (цитаты), которые повторяются в разных документах.
  • Агрегация контекста: Для каждого вхождения отрывка извлекается окружающий текст (например, N слов до и M слов после) и метаданные документа. Все эти контексты объединяются.
  • Извлечение ключевых терминов: Key Term Generation Engine анализирует агрегированный контекст. Для выявления значимых терминов используются статистические методы (например, TF-IDF) или сравнение с базой данных известных сущностей (Terms DB).
  • Определение связей: Система анализирует совместную встречаемость (co-location) терминов в разных контекстах, чтобы определить связанные концепции (Related Key Terms).
  • Использование: Извлеченные термины отображаются как навигационные гиперссылки.

Актуальность для SEO

Средне-Высокая. Патент подан в 2008 году. Хотя современные NLP-модели (BERT, MUM) ушли далеко вперед от TF-IDF, фундаментальные принципы, описанные здесь — анализ окружающего контекста для понимания значения фрагмента и извлечение сущностей на основе совместной встречаемости — остаются крайне актуальными. Эти методы лежат в основе построения Графа Знаний и понимания семантики текста.

Важность для SEO

Патент имеет значительное влияние на понимание SEO (7/10). Он не описывает алгоритмы ранжирования веб-поиска, но демонстрирует конкретную методологию Google для анализа контекста и извлечения сущностей. Это критически важно для понимания того, как Google интерпретирует околоссылочный текст, контекст упоминания брендов и семантические связи между концепциями на странице.

Детальный разбор

Термины и определения

Context (Контекст)
Информация, связанная с экземпляром похожего отрывка. Включает Pre-context (слова до отрывка) и Post-context (слова после отрывка). Также может включать метаданные документа (автор, тема, дата).
Context Aggregation (Агрегация контекста)
Объединенный набор всех контекстов, извлеченных для всех экземпляров одного и того же Similar Passage.
Corpus (Корпус)
Набор цифровых документов (например, книги, статьи).
Key Term (Ключевой термин)
Термин (слово или фраза/n-грамма), извлеченный из Context Aggregation и признанный релевантным для данного отрывка. Представляет концепцию или сущность.
Key Term Generation Engine
Компонент системы, отвечающий за агрегацию контекстов и извлечение ключевых терминов.
Passage Mining Engine
Компонент системы, который анализирует корпус для выявления повторяющихся отрывков текста.
Similar Passage (Похожий отрывок)
Отрывок текста (часто цитата), который встречается в схожей форме в двух или более документах корпуса. Конкретное вхождение называется instance (экземпляр).
Terms DB (База данных терминов)
Опциональная база данных, содержащая предопределенный список возможных ключевых терминов (например, именованные сущности, концепции).
TF-IDF (Term Frequency-Inverse Document Frequency)
Статистическая мера для оценки важности термина в агрегированном контексте относительно всего корпуса.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации ключевых терминов для похожего отрывка.

  1. Система идентифицирует несколько документов в корпусе, содержащих экземпляры (instances) похожего отрывка (similar passage).
  2. Для каждого экземпляра извлекаются слова, находящиеся в пределах порогового количества слов ДО и ПОСЛЕ отрывка (контекст).
  3. Извлеченные слова для всех экземпляров объединяются в Context Aggregation.
  4. Система определяет ключевые термины (Key Terms) на основе этой агрегации. Один из методов — сравнение слов в агрегации с базой данных терминов (Terms DB) и извлечение совпадений.
  5. Ключевые термины представляются пользователю как гиперссылки.
  6. При выборе гиперссылки пользователю показывается подмножество похожих отрывков, связанных с этим ключевым термином.

Claim 2 и 3 (Зависимые): Уточняют альтернативные методы определения ключевых терминов.

Определение Key Terms может включать выполнение анализа TF-IDF на Context Aggregation (Claim 2). Или же, генерацию кандидатов в n-граммы из агрегации и выполнение TF-IDF анализа этих n-грамм (Claim 3).

Claim 4 (Зависимый): Расширяет определение контекста.

В Context Aggregation могут быть добавлены слова из метаданных (например, автор, тема), описывающих документы, содержащие отрывок.

Claim 6 (Зависимый от 5): Описывает механизм определения связей между терминами (Related Key Terms).

Связь между двумя ключевыми терминами (первым и вторым) определяется, если они совместно расположены (co-located) в наборе ключевых терминов, связанных с *другим* похожим отрывком. Если да, они объявляются связанными.

Где и как применяется

Изобретение применяется в основном на этапе предварительной обработки данных корпуса.

INDEXING – Индексирование и извлечение признаков
Это основной этап применения патента. Процессы выполняются офлайн (off-line), асинхронно по отношению к запросам пользователей.

  1. Поиск отрывков: Passage Mining Engine анализирует корпус и идентифицирует Similar Passages.
  2. Извлечение и Агрегация контекста: Key Term Generation Engine извлекает окружающий текст и метаданные для каждого экземпляра и объединяет их.
  3. Генерация ключевых терминов: Используются методы (TF-IDF, сравнение с Terms DB) для определения Key Terms из агрегированного контекста.
  4. Анализ связей: Определяются Related Key Terms на основе совместного расположения (co-location).

Результаты сохраняются в базах данных (Similar Passage DB, Key Term DB).

METASEARCH / Взаимодействие с пользователем
Когда пользователь просматривает документ (например, в Google Books), Web Server использует предварительно рассчитанные данные для отображения Key Terms в виде навигационных ссылок.

Входные данные:

  • Корпус документов (текст и метаданные).
  • Опционально: База данных известных терминов (Terms DB).

Выходные данные:

  • База данных похожих отрывков с их местоположением.
  • База данных ключевых терминов, ассоциированных с каждым похожим отрывком.
  • Данные о связях между ключевыми терминами.

На что влияет

  • Конкретные типы контента: Наибольшее влияние на корпуса с большим количеством цитирований и повторяющегося текста, но малым количеством гиперссылок (книги, научные статьи, новостные архивы).
  • Концептуальный браузинг: Основное влияние — создание возможности навигации по концепциям и сущностям внутри корпуса.

Когда применяется

  • Условия работы алгоритма: Алгоритм применяется к тем фрагментам текста, которые были идентифицированы как Similar Passages (встречаются в нескольких документах).
  • Временные рамки: Основные вычисления выполняются офлайн и периодически обновляются по мере обновления корпуса.

Пошаговый алгоритм

Этап 1: Идентификация похожих отрывков (Офлайн)

  1. Passage Mining Engine обрабатывает документы в корпусе для поиска повторяющихся фрагментов текста.
  2. Найденные отрывки и их местоположение сохраняются в Similar Passage DB.

Этап 2: Генерация ключевых терминов (Офлайн)

  1. Идентификация контекста: Для каждого экземпляра (instance) выбранного Similar Passage определяется контекст: извлекается Pre-context (N слов до) и Post-context (M слов после). Пороги N и M могут быть разными. Опционально извлекаются метаданные.
  2. Агрегация контекстов: Все извлеченные контексты объединяются в Context Aggregation.
  3. Извлечение ключевых терминов: Context Aggregation анализируется для идентификации Key Terms. Используются методы:
    1. TF-IDF анализ: Расчет TF-IDF для терминов (или сгенерированных n-грамм) в агрегации. Термины с высокими показателями выбираются как ключевые.
    2. Сравнение с базой данных: Сравнение терминов в агрегации с Terms DB. Совпадения извлекаются как ключевые термины.
  4. Нормализация и Взвешивание: Слияние вариантов написания (например, "JFK" и "John F. Kennedy"). Опциональное повышение веса (boosting), если термин найден во внешнем ресурсе (например, Wikipedia).

Этап 3: Определение связанных терминов (Офлайн)

  1. Анализ совместной встречаемости (co-location) ключевых терминов в наборах, ассоциированных с разными Similar Passages.
  2. Если два термина часто появляются вместе, они помечаются как Related Key Terms.

Этап 4: Оценка и Использование (Онлайн)

  1. Key Term Scoring Module оценивает термины (например, по TF-IDF скору) для выбора наиболее релевантных для отображения.
  2. Термины отображаются пользователю как гиперссылки для навигации.

Какие данные и как использует

Данные на входе

  • Контентные факторы: Критически важные данные — текст, окружающий похожие отрывки (Context). Именно этот текст анализируется для извлечения ключевых терминов.
  • Структурные факторы (Метаданные): Патент явно упоминает использование метаданных документа (автор, тема, дата публикации) как части контекста.
  • Системные данные: Используется Terms DB — предварительно составленный список потенциально важных терминов (сущностей, концепций).

Какие метрики используются и как они считаются

  • TF-IDF (Term Frequency-Inverse Document Frequency): Основная метрика для оценки важности термина в агрегированном контексте. Высокий TF-IDF указывает на потенциальный Key Term.
  • Пороги контекстного окна: Заданное количество слов до (Pre-context) и после (Post-context) отрывка.
  • Частота совместной встречаемости (Co-location Frequency): Используется для определения связей между ключевыми терминами.
  • N-граммы: Используются как метод генерации кандидатов в ключевые термины.
  • Веса (Weights): Вес термина может быть повышен (boosted), если он найден во внешнем авторитетном источнике (например, Wikipedia).

Выводы

  1. Контекст определяет значение: Патент формализует принцип, что значение фрагмента текста определяется тем, как и где он используется. Google анализирует текст, окружающий фрагмент, чтобы понять его семантику и связанные концепции.
  2. Агрегация контекста для выявления устойчивых связей: Система агрегирует контексты со всех мест использования фрагмента. Это позволяет отсеять шум и выявить наиболее сильные и устойчивые ассоциации между фрагментом и ключевыми терминами (сущностями).
  3. Комбинированный подход к извлечению сущностей: Google использует как статистические методы (TF-IDF, n-граммы), так и подходы, основанные на знаниях (Terms DB, валидация через внешние источники типа Wikipedia), для идентификации Key Terms.
  4. Построение связей через совместную встречаемость: Связи между сущностями (Related Key Terms) устанавливаются, если они часто упоминаются вместе в контекстах разных фрагментов. Это базовый механизм построения семантического графа.
  5. Нормализация сущностей: Система включает механизмы слияния (merging) разных форм одного и того же термина (например, аббревиатур и полных имен).

Практика

Best practices (это мы делаем)

Хотя патент сфокусирован на анализе корпуса книг, его принципы напрямую применимы к веб-поиску, особенно в отношении анализа контекста ссылок и упоминаний сущностей.

  • Оптимизация околоссылочного текста: Убедитесь, что текст, окружающий внутренние и исходящие ссылки (Context), содержит релевантные сущности и семантически связанные термины. Этот контекст помогает поисковым системам лучше понять тематику и назначение ссылки, выходя за рамки анкорного текста.
  • Насыщение контекста сущностями: При упоминании важных концепций или сущностей (брендов, продуктов, людей) окружайте их тематически релевантным текстом. Это укрепляет ассоциации в графе знаний Google.
  • Использование совместной встречаемости (Co-occurrence): Если вы хотите связать две концепции, убедитесь, что они естественно упоминаются рядом друг с другом в вашем контенте. Это увеличивает вероятность того, что система определит их как Related Key Terms.
  • Присутствие в базах знаний: Учитывая упоминание повышения веса терминов, присутствующих в онлайн-энциклопедиях (Wikipedia), работайте над присутствием ключевых сущностей компании в авторитетных базах знаний (Knowledge Graph, Wikipedia/Wikidata).

Worst practices (это делать не надо)

  • Ссылки и упоминания вне контекста: Размещение ссылок или упоминаний бренда в контенте, который семантически не связан с вашей тематикой. Если контекст размыт или нерелевантен, это не принесет пользы.
  • Игнорирование текста вокруг ссылок: Фокусироваться только на анкорном тексте и игнорировать окружающий текст (особенно при внутренней перелинковке).
  • Манипуляции с контекстом (Keyword Stuffing): Попытки искусственно перенасытить контекст ключевыми словами. Система использует TF-IDF, что помогает выявлять неестественное распределение терминов.

Стратегическое значение

Патент подтверждает стратегический курс Google на семантический поиск и извлечение сущностей. Он демонстрирует, что важно не только *что* вы говорите или на *кого* ссылаетесь, но и *в каком окружении* это происходит. Для SEO это означает, что построение Topical Authority требует создания богатого контекста, в котором основные темы окружены связанными сущностями и релевантными терминами.

Практические примеры

Сценарий: Оптимизация контекста внутренней ссылки

Применение принципов анализа контекста для улучшения внутренней перелинковки.

  • Плохо: В конце статьи блок: "Читайте также: Быстрые диеты". Здесь контекст минимален.
  • Хорошо (основано на патенте): В тексте абзаца: "Многие эксперты по питанию, включая доктора Джона Смита, предупреждают, что краткосрочные быстрые диеты могут дать временный результат, но часто вредят метаболизму. Для устойчивого похудения лучше сосредоточиться на долгосрочном изменении привычек."
  • Анализ: Во втором примере ссылка окружена релевантным контекстом (Context), включающим связанные сущности ("эксперты по питанию", "доктор Джон Смит") и концепции ("метаболизм", "устойчивое похудение"). Согласно патенту, анализ этого контекста поможет системе извлечь релевантные Key Terms для целевой страницы.

Вопросы и ответы

Откуда именно извлекаются ключевые термины: из самого отрывка или из окружающего текста?

Ключевые термины извлекаются из окружающего текста (Context), а не из самого похожего отрывка (цитаты). Система собирает текст до и после каждого вхождения отрывка, агрегирует его и затем анализирует этот агрегированный массив данных для поиска значимых терминов.

Что такое "Context Aggregation" и почему это важно?

Context Aggregation — это процесс объединения окружающего текста из всех мест, где встречается определенный отрывок. Это важно, потому что анализ одного контекста может быть неполным или смещенным. Агрегация позволяет системе получить комплексное представление о том, какие темы и концепции наиболее часто обсуждаются в связи с этим отрывком во всем корпусе.

Какую роль играет TF-IDF в этом патенте?

TF-IDF используется как основной статистический метод для извлечения Key Terms из агрегированного контекста. Он помогает идентифицировать термины, которые часто встречаются рядом с данным фрагментом, но при этом относительно редки во всем корпусе документов. Это позволяет отделить действительно значимые концепции от общеупотребительных слов.

Как система определяет, что два ключевых термина связаны между собой (Related Key Terms)?

Связь определяется на основе совместной встречаемости (co-location). Если два ключевых термина часто появляются вместе в наборах ключевых терминов, ассоциированных с разными похожими отрывками, система маркирует их как связанные. Это основа для построения семантических связей между концепциями.

Упоминает ли патент использование внешних баз знаний, таких как Wikipedia?

Да. Патент упоминает, что веса (weights) кандидатов в ключевые термины могут быть повышены (boosted), если термин определен во внешнем ресурсе. В качестве примера приводится онлайн-энциклопедия (Wikipedia). Это подчеркивает важность присутствия ключевых сущностей в авторитетных источниках.

Как этот патент связан с анализом околоссылочного текста в SEO?

Принципы патента напрямую переносятся на анализ околоссылочного текста. Ссылка может рассматриваться как Similar Passage (повторяющийся элемент), а окружающий ее текст — как Context. Google может анализировать этот контекст, чтобы лучше понять релевантность и тематику целевой страницы, выходя за рамки только анкорного текста.

Применяется ли этот алгоритм в реальном времени при обработке запроса?

Нет. Основные процессы — идентификация похожих фрагментов, агрегация контекста и извлечение ключевых терминов — выполняются офлайн (off-line) во время индексирования и анализа корпуса. В реальном времени система только извлекает эти предварительно рассчитанные данные.

Могут ли метаданные документа (например, имя автора) стать ключевым термином?

Да. Патент явно указывает (Claim 4), что метаданные документа (автор, тема, дата публикации) могут быть включены в Context Aggregation. Если имя автора часто встречается в метаданных документов, цитирующих определенный отрывок, оно может быть извлечено как ключевой термин.

Как система обрабатывает разные формы одного и того же термина (например, «США» и «Соединенные Штаты»)?

Патент упоминает процесс слияния (merging) кандидатов в ключевые термины на основе анализа вариаций в написании, морфологических вариаций или альтернативных представлений. Это позволяет нормализовать сущности и объединить данные по ним.

Что важнее для SEO, исходя из этого патента: сам факт упоминания или контекст упоминания?

Контекст упоминания критически важен. Весь патент посвящен тому, как анализ окружающего текста (Context) используется для извлечения значения и связанных концепций (Key Terms). Для SEO это означает, что необходимо уделять пристальное внимание тому, в каком семантическом окружении появляются ссылки на ваш сайт или упоминания вашего бренда.

Похожие патенты

Как Google использует шинглирование для обнаружения дубликатов и связывания повторяющихся фрагментов текста в разных документах
Google использует технологию шинглирования (shingling) для анализа больших коллекций документов (например, книг или веб-страниц) с целью выявления идентичных или почти идентичных отрывков текста. Система находит общие последовательности текста, ранжирует их по значимости (длине и частоте) и создает гиперссылки между документами, содержащими эти отрывки.
  • US8122032B2
  • 2012-02-21
  • Индексация

  • Ссылки

Как Google вычисляет схожесть документов, используя значимость слов, их описательность и распознавание фраз
Google использует алгоритм для определения схожести документов, который превосходит традиционный TF-IDF. Система вычисляет Оценку Значимости (Prominence Score) и Оценку Описательности (Descriptiveness Score) для отдельных слов и фраз. Учитывается, где именно на странице расположены термины и насколько информативными они являются в целом. Это позволяет точнее определять релевантность и тематическую близость контента.
  • US7958136B1
  • 2011-06-07
  • Семантика и интент

Как Google находит, оценивает и показывает «интересные факты» о сущностях в поиске
Google идентифицирует «уникальные» или «интересные» факты о сущностях, анализируя документы, на которые ссылаются с использованием триггеров (например, «fun facts»). Система извлекает предложения, кластеризует их для поиска лучшей формулировки и оценивает качество факта на основе авторитетности источника, уникальности терминов и топикальности. Эти факты затем показываются в выдаче в виде специальных блоков.
  • US11568274B2
  • 2023-01-31
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов
Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.
  • US7536408B2
  • 2009-05-19
  • Индексация

  • Семантика и интент

  • Ссылки

Как Google автоматически определяет ключевые темы в медиапотоках (ТВ, аудио, текст) и использует механизм "Boosting" для поиска релевантного контента
Система анализирует мультимедийные потоки (например, ТВ-трансляции) в реальном времени, преобразует их в текст и автоматически генерирует поисковые запросы. Используются классические методы IR (TF-IDF, стемминг, анализ контекста). Ключевой особенностью является механизм пост-обработки "Boosting", который переранжирует результаты поиска на основе дополнительного контекста, не вошедшего в исходный запрос.
  • US8868543B1
  • 2014-10-21
  • Мультимедиа

  • Семантика и интент

  • SERP

Популярные патенты

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует клики пользователей для определения составных фраз (N-грамм) в запросах
Google анализирует, какие результаты поиска выбирают пользователи, чтобы понять, являются ли последовательные слова в запросе единой фразой (например, "Нью Йорк") или отдельными терминами. Если пользователи преимущественно кликают на результаты, содержащие эту последовательность как неразрывную фразу, система определяет ее как составную (Compound) и использует это знание для улучшения ранжирования и понимания запроса.
  • US8086599B1
  • 2011-12-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента
Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.
  • US8145636B1
  • 2012-03-27
  • Семантика и интент

  • Поведенческие сигналы

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов
Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.
  • US9015152B1
  • 2015-04-21
  • Семантика и интент

  • Поведенческие сигналы

  • Local SEO

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google связывает документы на основе поведения пользователей, времени взаимодействия и контентной близости для персонализации поиска
Google использует систему для определения "меры ассоциации" между различными документами (статьями, веб-страницами, письмами). Ассоциация рассчитывается на основе того, насколько близко по времени пользователь взаимодействовал с этими документами, насколько похож их контент и совпадают ли метаданные (например, автор). Эти связи используются для понимания пути пользователя и персонализации последующих результатов поиска.
  • US8131754B1
  • 2012-03-06
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы
Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.
  • US8392435B1
  • 2013-03-05
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует исторические данные о кликах по Сущностям для ранжирования нового или редко посещаемого контента
Google решает проблему «холодного старта» для новых страниц, у которых нет собственных поведенческих данных. Система агрегирует историю кликов на уровне Сущностей (Entities). Если сущности, упомянутые на новой странице, исторически имеют высокий CTR по целевому запросу, страница получает бустинг в ранжировании, наследуя поведенческие сигналы через эти сущности.
  • US10303684B1
  • 2019-05-28
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore