SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует близость цитирований (ссылок) для кластеризации результатов поиска

CLUSTERING DOCUMENTS USING CITATION PATTERNS (Кластеризация документов с использованием паттернов цитирования)
  • US8612411B1
  • Google LLC
  • 2003-12-31
  • 2013-12-17
  • Ссылки
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google может группировать результаты поиска, анализируя, как документы ссылаются друг на друга. Система оценивает силу связи между документами, проверяя контекстуальную близость общих цитирований. Ссылки, расположенные в одном предложении (co-citation) или абзаце, имеют значительно больший вес, чем ссылки, просто присутствующие в документе. Это позволяет формировать точные тематические кластеры, отсеивая группы со слабыми связями.

Описание

Какую проблему решает

Патент решает проблему организации большого набора результатов поиска в когерентные и логически связанные группы (кластеры). Стандартная выдача ранжируется по релевантности запросу, но не учитывает взаимосвязи между самими результатами. Это усложняет навигацию, особенно в научных или технических областях, где результаты могут относиться к разным подтемам или методологиям. Изобретение предлагает метод выявления доминирующих кластеров (dominant clusters) на основе анализа структуры цитирования.

Что запатентовано

Запатентована система кластеризации документов, использующая паттерны цитирования (citation patterns) для определения силы связи между документами. Ключевая инновация заключается в многоуровневом анализе перекрытия цитирований (overlapping citations) на разных уровнях специфичности: весь документ, абзац, конкретная фраза (co-citation). Система придает значительно больший вес более специфичным (контекстуально близким) совпадениям.

Как это работает

Система работает следующим образом:

  • Отбор документов: Выбирается набор документов (например, Топ-200 результатов поиска).
  • Анализ цитирований: В каждом документе идентифицируются цитаты (ссылки) на другие документы из набора.
  • Расчет оценок близости: Для каждой пары документов рассчитывается взвешенная оценка перекрытия (Weighted Citation Overlap Score). Оценка выше, если общие цитаты находятся в одном предложении или абзаце, и ниже, если они просто присутствуют в документе.
  • Кластеризация: Используется факторный анализ (Factor Analysis, например, PCA) для группировки документов на основе этих оценок.
  • Ранжирование и фильтрация: Определяются Dominant Clusters. Кластеры, основанные только на слабых связях (только уровень документа), пенализируются.
  • Вывод: Результаты представляются пользователю сгруппированными по этим кластерам.

Актуальность для SEO

Средняя. Патент подан в 2003 году. Описанные методы анализа цитирований критически важны для систем типа Google Scholar или поиска по патентам. Хотя современные методы кластеризации в основном веб-поиске больше полагаются на NLP и векторные представления, фундаментальный принцип патента — контекстуальная близость определяет силу связи — остается высоко актуальным и применяется при анализе ссылок и сущностей.

Важность для SEO

Влияние на SEO умеренное (6/10). Патент не описывает алгоритмы ранжирования, а фокусируется на организации результатов после ранжирования, особенно в специализированных корпусах (например, научные статьи). Однако он дает критически важное понимание того, как Google оценивает связи: близость расположения ссылок (в одном абзаце/предложении) значительно важнее, чем просто факт их наличия в документе.

Детальный разбор

Термины и определения

Citation Generality / Document Structure Level (Общность цитирования / Уровень структуры документа)
Степень специфичности контекста, в котором происходит цитирование. Включает разные уровни:
  • Document-level (Уровень документа): Цитата существует где-либо в документе (например, в библиографии). Наименее специфичный уровень.
  • Paragraph-level (Уровень абзаца): Цитата существует в рамках конкретного абзаца.
  • Citation-level (Co-citation / Уровень цитирования): Цитаты на несколько документов встречаются в одной фразе или одном экземпляре цитирования (например, [1, 2, 3]). Наиболее специфичный уровень.
Citation Patterns (Паттерны цитирования)
Способ, которым документы ссылаются (цитируют) другие документы.
Dominant Clusters (Доминирующие кластеры)
Наиболее значимые, когерентные и логически связанные группы документов, выявленные в ходе анализа.
Factor Analysis (Факторный анализ)
Статистические методы, такие как Principal Component Analysis (PCA) или Principal Factor Analysis (PFA). Используются для выявления базовых отношений (факторов) между переменными и группировки документов на основе их оценок пересечения.
Overlapping Citations (Перекрывающиеся цитирования)
Ситуация, когда два документа цитируют один и тот же третий документ.
Weighted Citation Overlap Score (Взвешенная оценка перекрытия цитирований)
Метрика, представляющая силу связи между двумя документами. Рассчитывается путем объединения оценок перекрытия с разных уровней общности, придавая больший вес более специфичным уровням (Co-citation > Абзац > Документ).

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Определяет основной метод кластеризации документов.

  1. В документах коллекции обнаруживаются цитирования.
  2. Для каждой пары документов выполняется:
    • Сравнение на основе перекрывающихся цитирований на первом структурном уровне (например, Document-level).
    • Сравнение на основе перекрывающихся цитирований на втором, более специфичном структурном уровне (например, Paragraph-level).
    • Генерация citation overlap score для пары.
  3. Определение кластеров на основе этих оценок.
  4. Ранжирование кластеров, включающее:
    • Генерацию взвешенной оценки кластера.
    • Пенализацию (Penalizing) оценки кластера, если он содержит документы, которые имеют перекрывающиеся цитирования *только* на первом (самом общем) уровне структуры.
  5. Предоставление списка кластеров на основе ранжирования.

Ядро изобретения — это использование многоуровневого анализа специфичности и явная пенализация кластеров, основанных на слабых, неконтекстных связях. Это гарантирует, что доминирующие кластеры будут основаны на сильных контекстуальных связях.

Claim 2 (Зависимый от 1): Расширяет анализ, включая третий, еще более специфичный структурный уровень (например, Citation-level).

Claim 7 (Зависимый от 6): Определяет механизм взвешивания. Пересекающиеся цитаты, найденные на более специфичном структурном уровне, получают больший вес, чем цитаты, найденные на менее специфичном уровне.

Claim 8 (Зависимый от 1): Указывает, что Factor Analysis используется как метод определения кластеров на основе результатов сравнения.

Где и как применяется

Изобретение применяется на финальных этапах обработки поискового запроса для организации уже отобранных результатов.

INDEXING – Индексирование и извлечение признаков
На этом этапе система должна извлечь из документов не только контент, но и цитаты (ссылки) вместе с их точным структурным местоположением (абзац, предложение). Эти данные необходимы для последующего анализа.

RANKING – Ранжирование
Генерируется первоначальный набор результатов поиска. Из этого набора выбирается подмножество (например, Топ-200 документов) для последующей кластеризации.

RERANKING – Переранжирование / METASEARCH – Метапоиск и Смешивание
Это основной этап применения патента. Это не переранжирование в классическом смысле, а организация (кластеризация) результатов перед показом пользователю.

  1. Входные данные: Набор выбранных документов (selected search result documents).
  2. Обработка: Модуль кластеризации (Clustering Module) анализирует документы. Citations Locator находит ссылки. Document Pair Comparator вычисляет Weighted Citation Overlap Scores. Factor Analyzer определяет кластеры. Cluster Ranking Module ранжирует их и применяет пенализацию.
  3. Выходные данные: Структурированный список документов, сгруппированных в ранжированные кластеры.

На что влияет

  • Конкретные типы контента и ниши: Механизм в первую очередь нацелен на корпуса документов, где распространено явное цитирование: научные публикации (Google Scholar), патенты, юридические документы. В патенте указано, что система особенно подходит для научных документов (scientific documents). Он менее применим к общему веб-контенту или e-commerce.
  • Специфические запросы: Влияет на широкие информационные запросы, где результаты охватывают различные подтемы или методологии, требующие группировки.

Когда применяется

  • Условия применения: Требуется, чтобы документы содержали извлекаемые цитаты (ссылки) и чтобы существовали перекрытия цитирований между документами в наборе результатов.
  • Триггеры активации: Применяется после генерации результатов поиска. Может быть стандартным способом организации выдачи в специализированных индексах (например, Scholar) или активироваться, когда результаты богаты цитированиями.

Пошаговый алгоритм

  1. Инициализация: Получение поискового запроса и генерация первичного набора результатов поиска.
  2. Отбор кандидатов: Выбор подмножества документов (например, Топ-200) для кластеризации.
  3. Извлечение цитирований: В каждом выбранном документе система находит все цитирования на другие документы (в патенте указано, что это могут быть цитирования на другие документы из этого же выбранного набора). Фиксируется местоположение каждого цитирования.
  4. Сравнение пар и расчет оценок: Система сравнивает каждую пару документов из набора:
    • Определяется пересечение цитирований на уровне документа (Document-level).
    • Определяется пересечение цитирований на уровне абзаца (Paragraph-level).
    • Определяется пересечение цитирований на уровне фразы (Citation-level / Co-citation).
    • Рассчитывается Weighted Citation Overlap Score для пары. Веса назначаются в пользу большей специфичности (Co-citation > Абзац > Документ).
  5. Факторный анализ: Применение Factor Analysis (например, PCA или PFA) к матрице оценок перекрытия для выявления потенциальных кластеров.
  6. Определение доминантных кластеров: Анализ и ранжирование полученных кластеров. Рассчитывается оценка кластера (например, средняя оценка пересечения пар внутри кластера).
  7. Пенализация слабых кластеров: Оценка кластера понижается, если пары документов внутри него имеют только слабые связи (например, только пересечение на уровне документа).
  8. Вывод результатов: Возвращение пользователю результатов поиска, сгруппированных в соответствии с ранжированием доминантных кластеров. Документы вне кластеров могут быть помещены в группу "Разное".

Какие данные и как использует

Данные на входе

Патент фокусируется исключительно на анализе структуры цитирования.

  • Структурные факторы: Система анализирует структуру документа для определения уровней специфичности: весь документ, абзацы, фразы, библиографические списки, сноски.
  • Ссылочные факторы (Цитирования): Основные данные. Идентифицируются ссылки из одного документа на другой. Анализируется контекст и близость расположения цитирований.

Другие факторы (контентные, поведенческие и т.д.) в патенте не упоминаются как входные данные для этого механизма.

Какие метрики используются и как они считаются

  • Citation Overlap Levels: Количественная мера общих цитирований на разных уровнях структуры (Document, Paragraph, Citation).
  • Weighted Citation Overlap Score: Комбинированная оценка для пары документов. Рассчитывается путем суммирования перекрытий на разных уровнях с применением весовых коэффициентов. Патент утверждает, что более специфичные уровни имеют больший вес.
  • Cluster Score (Оценка кластера): Метрика для ранжирования кластеров. Может быть средним значением Weighted Citation Overlap Score для всех пар документов в кластере.
  • Penalization (Пенализация): Корректировка Cluster Score. Оценка снижается для кластеров, где документы связаны только на самом общем уровне (Document-level).
  • Методы анализа: Factor Analysis (PCA/PFA) используется для выполнения кластеризации.

Выводы

  1. Контекстуальная близость определяет силу связи: Ключевой вывод патента — Google придает значительно большее значение контексту, в котором расположены ссылки (цитаты). Близость расположения является сильным индикатором тесной связи. Ссылки в одном предложении (Co-citation) весят больше, чем в одном абзаце, которые, в свою очередь, весят больше, чем ссылки, просто присутствующие где-то в документе (например, в библиографии).
  2. Предпочтение сильным тематическим связям (Quality over Quantity): Механизм пенализации оценок кластеров гарантирует, что группы, основанные только на слабых (общих, неконтекстных) связях, будут понижены. Это позволяет выводить на передний план кластеры с глубокой тематической когерентностью.
  3. Специализированное применение и общие принципы: Хотя метод оптимально работает с документами, имеющими формальные цитирования (наука, патенты), он иллюстрирует общий принцип, применимый и к веб-ссылкам: контекстуальная близость и расположение в основном контенте ценится выше, чем неконтекстное размещение.

Практика

Best practices (это мы делаем)

Хотя патент сфокусирован на цитированиях (например, в Google Scholar), его принципы можно обобщить для стандартного SEO:

  • Контекстуальная перелинковка и цитирование: При выполнении внутренней перелинковки или цитировании внешних источников критически важна близость. Размещайте ссылки на связанные концепции близко друг к другу. В идеале — в одном абзаце (Paragraph-level) или даже предложении (Co-citation). Это усиливает семантическую связь между страницами.
  • Структурирование контента: Используйте четкую структуру с логическими абзацами, которые объединяют концепции и соответствующие им ссылки. Это помогает системе правильно интерпретировать связи на уровне абзаца.
  • Развитие тематических хабов (Topical Authority): Документы внутри одного тематического хаба должны активно ссылаться друг на друга в релевантном контексте. Размещение ссылок на страницы хаба в тесной близости усилит их взаимосвязь и поможет Google лучше понять структуру кластера.
  • Стратегия построения ссылочного профиля: При получении обратных ссылок стремитесь к размещению в основном контенте донора, в окружении тематически связанного текста и рядом со ссылками на другие авторитетные ресурсы по теме.

Worst practices (это делать не надо)

  • Беспорядочная перелинковка: Размещение ссылок без учета контекста или близости к связанным ссылкам (например, в футере, боковой панели или случайных местах текста). Это создает только слабые связи уровня документа (Document-level).
  • Списки ссылок без контекста: Создание страниц типа "Ресурсы" или размещение всех исходящих ссылок в одном блоке в конце страницы. Согласно патенту, такие связи имеют наименьший вес.
  • Игнорирование структуры абзацев: Написание сплошного текста без разбивки на логические абзацы мешает системе идентифицировать связи на уровне абзаца (Paragraph-level) между цитатами/ссылками.

Стратегическое значение

Патент подтверждает фундаментальный принцип информационного поиска: контекст и структура имеют решающее значение. Для Google важно не только то, на кого вы ссылаетесь (или кто ссылается на вас), но и *как* и *где* это происходит. Близость элементов (ссылок, сущностей, терминов) является ключевым фактором для определения силы их связи. Это подчеркивает важность качественного копирайтинга и логичной структуры контента, где ссылки являются органичной частью повествования.

Практические примеры

Сценарий: Оптимизация внутренней перелинковки в статье.

  1. Задача: Усилить связь между обзорной статьей по SEO и подробными гайдами по "Анализу логов" и "Оптимизации Crawl Budget".
  2. Плохая практика: Гайды упоминаются в разных разделах статьи. Ссылки на них разбросаны. Связь слабая (Document-level).
  3. Применение принципов патента: Создать абзац, посвященный техническому SEO. Разместить ссылки на гайды в этом абзаце (Paragraph-level overlap). Еще лучше, разместить их в одном предложении: "Эффективное управление Crawl Budget невозможно без регулярного Анализа логов сервера." (Co-citation).
  4. Ожидаемый результат: Усиление семантической связи между статьей и страницами-гайдами. Поисковая система лучше понимает тематическую близость этих двух гайдов, что способствует их кластеризации и пониманию структуры сайта.

Вопросы и ответы

Описывает ли этот патент алгоритм ранжирования?

Нет, напрямую он не описывает, как Google определяет релевантность документа запросу. Он описывает механизм, который применяется *после* ранжирования для организации (кластеризации) уже отобранных результатов в логические группы на основе анализа того, как эти документы цитируют друг друга.

Что такое "уровни общности цитирования" (Citation Generality)?

Это разные структурные уровни контекста, в котором могут пересекаться цитаты. Патент выделяет три примера: Document-level (самый слабый – цитаты просто есть где-то в документе), Paragraph-level (средний – цитаты находятся в одном абзаце) и Citation-level или Co-citation (самый сильный – цитаты находятся в одной фразе или предложении).

Как вес уровня цитирования влияет на результат?

Чем специфичнее уровень (т.е. чем ближе расположены цитаты), тем больший вес он получает. Пересечение на уровне Co-citation считается гораздо более сильным сигналом связи между документами, чем пересечение на уровне всего документа. Кластеры, основанные на сильных связях, считаются более качественными.

Что означает "пенализация кластеров", упомянутая в Claim 1?

Это критически важный механизм обеспечения качества. Если документы в кластере связаны между собой только на самом общем уровне (Document-level), например, у них просто совпадают пункты в библиографии, но в тексте они обсуждаются в разном контексте, оценка такого кластера искусственно занижается. Это позволяет отсеивать группы со слабыми связями.

Актуален ли этот патент, учитывая его давность (подача в 2003 году)?

Хотя конкретная реализация, вероятно, эволюционировала, фундаментальный принцип, заложенный в патенте, высоко актуален. Принцип гласит, что контекстуальная близость элементов (ссылок, сущностей, терминов) является ключевым фактором для определения силы их связи. Сам механизм анализа цитирований активно используется в Google Scholar.

Применим ли этот патент только к академическим статьям?

Патент упоминает, что он особенно подходит для научных документов (scientific documents). Однако описанные принципы анализа ссылок и их близости могут быть обобщены и применены к любому типу веб-документов, использующих гиперссылки для связи контента.

Как SEO-специалист может использовать знание о Co-citation на практике?

При создании контента следует размещать ссылки на связанные темы (внутренние или внешние) максимально близко друг к другу, в идеале — в одном предложении или абзаце. Это помогает поисковой системе понять контекст ссылки и укрепить семантическую связь между страницами.

Что такое факторный анализ (Factor Analysis) в контексте этого патента?

Это статистический метод (например, PCA или PFA), который система использует для анализа матрицы оценок сходства между всеми парами документов. Он позволяет выявить скрытые структуры и сгруппировать документы с наиболее сильными взаимосвязями в кластеры.

Влияет ли этот механизм на внутреннюю перелинковку?

Да, принципы патента напрямую применимы к стратегии внутренней перелинковки. Размещение ссылок на страницы одного тематического хаба в тесной близости друг к другу (в одном абзаце) усилит их взаимосвязь и поможет Google лучше понять структуру вашего сайта и авторитетность кластера.

Заменяет ли этот механизм анализ анкорного текста?

Нет, он дополняет его. Анализ анкорного текста помогает понять, о чем цитируемая страница. Анализ близости цитирования (описанный в патенте) помогает понять силу связи и контекст, в котором эта ссылка используется, а также отношения между несколькими ссылками, расположенными рядом.

Похожие патенты

Как Google использует анализ со-цитирования (Co-citation) для группировки результатов поиска по темам
Google использует механизм кластеризации для организации поисковой выдачи, особенно при неоднозначных запросах. Система анализирует, какие внешние страницы одновременно ссылаются на несколько результатов поиска (со-цитирование). На основе этого вычисляется показатель сходства, который учитывает и нормализует популярность страниц, чтобы точно сгруппировать результаты по конкретным темам (например, отделить «Saturn» как планету от «Saturn» как автомобиль).
  • US7213198B1
  • 2007-05-01
  • Ссылки

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google ранжирует документы, используя качество источника, свежесть, оригинальность и кластеризацию контента
Google оценивает документы, анализируя авторитетность и экспертизу источника публикации, свежесть контента и его оригинальность. Документы группируются в кластеры по темам (например, новостные сюжеты). Оценка кластера (например, разнообразие и важность источников внутри него) также влияет на ранжирование отдельных документов.
  • US8090717B1
  • 2012-01-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google использует метаданные для поиска дубликатов, объединения версий документов и консолидации сигналов ранжирования
Патент описывает, как Google идентифицирует различные версии одного и того же документа (например, научных статей) путем генерации, нормализации и сравнения нескольких идентификаторов на основе метаданных (автор, название, дата). Это позволяет Google объединять дубликаты в кластеры и консолидировать сигналы ранжирования, такие как общее количество цитирований.
  • US8316292B1
  • 2012-11-20
  • Индексация

  • Техническое SEO

Как Google анализирует сессии пользователей и кластеризует концепции для генерации блока "Связанные запросы" (Related Searches)
Google анализирует последовательности запросов пользователей в рамках одной сессии для выявления шаблонов уточнений. Система кластеризует эти уточнения по смыслу, анализируя контент ранжирующихся по ним документов или другие запросы, ведущие на эти документы. Это позволяет предлагать пользователям концептуально различные варианты для сужения или изменения темы поиска.
  • US8065316B1
  • 2011-11-22
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Популярные патенты

Как Google использует визуальные цитаты и обратную связь для генерации и уточнения ответов в мультимодальном поиске
Google генерирует ответы на мультимодальные запросы (изображение + текст), находя визуально похожие изображения в интернете и используя текст с их исходных страниц как основу для LLM. Система показывает эти изображения как «визуальные цитаты» для подтверждения ответа и позволяет пользователям исключать нерелевантные источники, чтобы мгновенно уточнить сгенерированный результат.
  • US20240378236A1
  • 2024-11-14
  • Мультимедиа

  • EEAT и качество

  • Ссылки

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

Как Google персонализирует подсказки Autocomplete, анализируя запросы похожих пользователей и обновляя локальный кэш устройства
Google персонализирует подсказки Autocomplete (Search Suggest), анализируя поведение пользователей со схожими профилями (местоположение, интересы, история поиска). Система генерирует кастомизированное обновление для локального кэша устройства на основе запросов, введенных этими похожими пользователями. Это означает, что разные пользователи видят разные подсказки для одного и того же ввода.
  • US8868592B1
  • 2014-10-21
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google использует анализ сущностей в результатах поиска для подтверждения интента и продвижения авторитетного контента
Google анализирует сущности (Topics/Entities) и их типы, общие для топовых результатов поиска, чтобы определить истинный интент запроса. Если интент подтверждается этим тематическим консенсусом выдачи, система продвигает "авторитетные кандидаты" (например, полные фильмы). Если консенсуса нет, продвижение блокируется для предотвращения показа нерелевантных результатов.
  • US9213745B1
  • 2015-12-15
  • Семантика и интент

  • EEAT и качество

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google игнорирует часто меняющийся контент и ссылки в нем, определяя "временные" блоки шаблона сайта
Google использует механизм для отделения основного контента от динамического шума (реклама, виджеты, дата). Система сравнивает разные версии одной страницы, чтобы найти часто меняющийся контент. Затем она анализирует HTML-структуру (путь) этого контента и статистически определяет, является ли этот структурный блок "временным" для всего сайта. Такой контент игнорируется при индексации и таргетинге рекламы, а ссылки в нем могут не учитываться при расчете PageRank.
  • US8121991B1
  • 2012-02-21
  • Индексация

  • Техническое SEO

  • Структура сайта

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента
Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.
  • US9449095B1
  • 2016-09-20
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google определяет скрытый интент сессии, используя универсальные уточняющие слова, и переранжирует выдачу
Google идентифицирует универсальные слова-модификаторы (например, «фото», «отзывы», «pdf»), которые пользователи часто добавляют к разным запросам. Если такое слово появляется в сессии, система определяет скрытый интент пользователя. Затем Google переранжирует выдачу, основываясь на том, какие документы исторически предпочитали пользователи с таким же интентом, адаптируя результаты под контекст сессии.
  • US8868548B2
  • 2014-10-21
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

seohardcore