SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует структурированные данные для борьбы с дублированием страниц с одинаковыми сущностями (например, фасеты и сортировки)

USING STRUCTURED DATA FOR SEARCH RESULT DEDUPLICATION (Использование структурированных данных для дедупликации результатов поиска)
  • US20140280084A1
  • Google LLC
  • 2013-03-15
  • 2014-09-18
  • Семантика и интент
  • SERP
  • Индексация
  • Техническое SEO
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google анализирует структурированные данные (например, Schema.org) на веб-страницах, чтобы определить, какие сущности (товары, объекты) на них представлены. Если несколько страниц, особенно с одного сайта, содержат одинаковый набор сущностей (например, листинги с разной сортировкой), Google идентифицирует их как дубликаты. Система понижает или удаляет эти дубликаты из выдачи для повышения разнообразия результатов.

Описание

Какую проблему решает

Патент решает проблему избыточности и дублирования в результатах поиска, когда несколько страниц, часто с одного и того же веб-сайта, представляют идентичный набор базовых сущностей. Это типично для E-commerce и сайтов-каталогов, где один и тот же список товаров может быть доступен по разным URL из-за параметров сортировки (по цене, популярности) или фасетной навигации. Цель — повысить разнообразие поисковой выдачи (SERP diversity) и предотвратить засорение выдачи одним сайтом (host crowding).

Что запатентовано

Запатентована система дедупликации, основанная на анализе структурированных данных (markup language structured data items). Система идентифицирует сущности (entities) на веб-страницах и формирует для каждой страницы «Набор сущностей» (Entity Set). Сравнивая эти наборы, система выявляет дубликаты (duplicative) и модифицирует их индексацию или ранжирование, чтобы уменьшить их присутствие в выдаче.

Как это работает

Механизм работает в несколько этапов:

  • Извлечение и Сопоставление: Система парсит структурированные данные и использует их свойства (например, название товара) как псевдонимы (aliases) для идентификации сущностей в своей базе знаний.
  • Разрешение Неоднозначностей (Disambiguation): Если псевдоним соответствует нескольким сущностям, система использует контекст и связанные сущности для выбора наиболее вероятной.
  • Формирование Entity Set: Для каждой страницы создается список идентифицированных сущностей.
  • Определение Дубликатов: Сравниваются Entity Sets разных страниц (обычно с одного сайта). Дублирование определяется, если один набор является подмножеством другого (Subset) или с помощью алгоритмов покрытия множеств (Set Cover Problem) для поиска оптимального представления.
  • Действие: Дедупликация может происходить на этапе индексации (страница помечается как дубликат или исключается из основного индекса) или на этапе ранжирования (Ranking Score понижается или результат удаляется из выдачи).

Актуальность для SEO

Высокая. Понимание контента через сущности (Entities) и использование структурированных данных являются фундаментальными элементами современного поиска Google. Управление фасетной навигацией, сортировками и обеспечение разнообразия выдачи остаются критически важными задачами, особенно в E-commerce. Этот патент описывает конкретный семантический подход к дедупликации контента.

Важность для SEO

Патент имеет высокое значение (8/10) для SEO-стратегий, особенно для E-commerce, маркетплейсов и агрегаторов. Он напрямую влияет на то, как индексируются и ранжируются страницы листингов и фасетной навигации. Понимание этого механизма критично для разработки стратегии индексации и внедрения микроразметки, гарантируя, что в выдачу попадут наиболее ценные и уникальные представления контента, а не технические дубликаты.

Детальный разбор

Термины и определения

Entity (Сущность)
Реальный объект, человек, место, вещь или идея. Система присваивает каждой сущности уникальный идентификатор (Entity Identifier) и хранит информацию о ней.
Entity Alias (Псевдоним сущности)
Текстовая строка, связанная с сущностью. Значения свойств в структурированных данных используются как псевдонимы для идентификации сущностей.
Entity Set (Набор сущностей)
Набор идентификаторов сущностей, которые были идентифицированы на конкретной веб-странице через анализ её структурированных данных.
Duplicative Entity Set (Дублирующийся набор сущностей)
Entity Set, который признан избыточным по сравнению с другими наборами (например, является подмножеством другого набора или не требуется для оптимального покрытия всех сущностей).
Entity Index Database (База данных индекса сущностей)
Хранилище данных о сущностях. Включает Entity Alias Index (сопоставляет псевдонимы с сущностями и оценками вероятности) и Entity Relationship Index (хранит связи между сущностями и оценки значимости связей).
Markup Language Structured Data Item (Элемент структурированных данных языка разметки)
Данные, встроенные в исходный код страницы с использованием языка разметки (например, HTML5, Schema.org), которые описывают свойства сущности.
Set Cover Problem (Задача о покрытии множества)
Алгоритмическая задача, используемая для определения минимального количества страниц (Entity Sets), необходимого для представления всех сущностей. Страницы, не вошедшие в минимальный набор, могут считаться дублирующимися.
Structured Data Engine
Компонент системы, отвечающий за парсинг структурированных данных и сопоставление их с сущностями.

Ключевые утверждения (Анализ Claims)

Патент описывает два основных сценария применения механизма дедупликации: во время ранжирования и во время индексации.

Claim 1 (Независимый пункт) — Дедупликация при Ранжировании: Описывает метод реагирования на поисковый запрос.

  1. Система получает набор результатов поиска. Каждый результат идентифицирует ресурс со структурированными данными и ассоциирован с Entity Set.
  2. Система определяет, что конкретный Entity Set является дублирующим (duplicative).
  3. В ответ на это система модифицирует ranking score результата поиска, связанного с этим дублирующим Entity Set.

Claim 2 (Зависимый от 1): Уточняет, что модификация ранга включает применение понижения (demotion) к оценке или удаление результата из выдачи.

Claim 3 (Зависимый от 2): Важное уточнение: определение дублирования может происходить по отношению к Entity Sets ресурсов, расположенных на том же самом веб-сайте (same web site).

Claim 15 (Независимый пункт) — Дедупликация при Индексировании: Описывает метод индексации ресурсов.

  1. Indexing Engine получает ресурсы со структурированными данными.
  2. Для ресурсов определяются Entity Sets. Значения свойств используются как Entity Alias.
  3. Система определяет, что конкретный Entity Set является дублирующим.
  4. В ответ на это система индексирует ресурс с дублирующим набором, добавляя индикацию (пометку) о том, что этот набор является дублирующим.

Claims 5, 6, 7 (Зависимые): Детализируют процесс идентификации сущностей, включая получение свойств из разметки, сопоставление их с псевдонимами сущностей и использование связанных сущностей (через другие свойства) для подтверждения идентификации.

Где и как применяется

Изобретение применяется на этапах индексирования и ранжирования для управления видимостью и разнообразием результатов.

CRAWLING – Сканирование и Сбор данных
Система собирает сырой контент, включая HTML с разметкой структурированных данных.

INDEXING – Индексирование и извлечение признаков
Основной этап обработки. Indexing Engine и Structured Data Engine взаимодействуют для:

  • Парсинга структурированных данных.
  • Сопоставления свойств с сущностями и разрешения неоднозначностей (Disambiguation).
  • Формирования Entity Set для каждого ресурса.
  • Дедупликация (Claim 15): Сравнение Entity Sets (часто в рамках одного сайта). Дублирующиеся ресурсы помечаются в индексе. Патент также упоминает возможность исключения дубликатов из основного (primary index), но сохранения их во вторичном (secondary index).

RANKING / RERANKING – Ранжирование и Переранжирование
Корректировка выдачи в реальном времени.

  • Система получает кандидатов для ранжирования и их Entity Sets из индекса.
  • Дедупликация (Claim 1): Ranking Engine анализирует Entity Sets результатов (особенно с одного сайта). Если обнаружены дубликаты, система модифицирует Ranking Scores (понижает или удаляет результаты) для повышения разнообразия SERP.

На что влияет

  • Конкретные ниши и типы контента: Наибольшее влияние на E-commerce, маркетплейсы, сайты недвижимости, агрегаторы вакансий. Влияет на страницы листингов, категорий, результатов поиска по сайту.
  • Технические реализации: Сайты, активно использующие фасетную навигацию, параметры сортировки в URL и пагинацию.
  • Структурные факторы: Критически зависит от наличия и качества микроразметки (например, Schema.org/Product, ItemList).

Когда применяется

  • Триггеры активации: Наличие в ресурсах распознаваемых структурированных данных, которые могут быть сопоставлены с сущностями.
  • Условия применения: Когда система обрабатывает несколько ресурсов (во время индексирования или ранжирования), особенно с одного и того же веб-сайта (same web site), и их Entity Sets пересекаются или идентичны.

Пошаговый алгоритм

Процесс можно разделить на три части: Идентификация сущностей, Дедупликация при индексации и Дедупликация при ранжировании.

Часть А: Идентификация Сущностей (Entity Identification)

  1. Получение ресурса и извлечение свойств: Structured Data Engine парсит структурированные данные и извлекает свойства (пары имя-значение).
  2. Идентификация кандидатов: Значения свойств используются как Aliases для запроса к Entity Alias Index. Возвращается список сущностей-кандидатов (CE) и их начальные оценки (Initial Score, IS).
  3. Разрешение неоднозначности (Disambiguation): Если кандидатов несколько:
    1. Система ищет связанные сущности (RE) через другие свойства или текст страницы.
    2. Из Entity Relationship Index извлекаются оценки связей (Link Score, W) между CE и RE.
    3. Вычисляется модификатор (M) для каждой связи:

      Mi=IS(Ai,REi)×W(CE,REi)M_{i}=IS(A_{i},RE_{i})\times W(CE,RE_{i})

    4. Вычисляется модифицированная оценка (MS) для кандидата:

      MS=IS(Ac,CE)+∑MiMS=IS(A_{c},CE)+\Sigma M_{i}

    5. Выбирается кандидат с наивысшей MS.
  4. Формирование Entity Set: Идентификаторы всех выбранных сущностей объединяются в Entity Set ресурса.

Часть Б: Дедупликация при Индексации (Indexing Deduplication)

  1. Группировка и Сравнение: Система сравнивает Entity Sets группы ресурсов (часто с одного сайта).
  2. Определение дубликатов: Применяются критерии дублирования:
    1. Критерий подмножества (Subset): Если Entity Set B является подмножеством A, B может быть признан дубликатом.
    2. Критерий покрытия (Set Cover): Определяется минимальный набор страниц, необходимый для представления всех сущностей. Остальные страницы признаются дубликатами.
  3. Индексация: Ресурсы с дублирующими Entity Sets индексируются с соответствующей пометкой или исключаются из основного индекса.

Часть В: Дедупликация при Ранжировании (Ranking Deduplication)

  1. Получение результатов: Система получает предварительный набор результатов поиска и их Entity Sets.
  2. Определение дубликатов: Применяются критерии дублирования (Subset или Set Cover), как в Части Б, часто фокусируясь на результатах с одного сайта.
  3. Модификация ранжирования: К результатам-дубликатам применяется понижение (demotion) ranking score, или они удаляются из выдачи.

Какие данные и как использует

Данные на входе

  • Структурные факторы (Микроразметка): Основной тип данных. Анализируются markup language structured data items. Извлекаются свойства (itemprop), такие как "name", "manufacturer", "productID". Значения этих свойств используются как Entity Aliases.
  • Контентные факторы: Текст ресурса может использоваться на этапе разрешения неоднозначности (Disambiguation) для поиска упоминаний связанных сущностей.
  • Системные данные (Entity Data): Данные из Entity Index Database: псевдонимы, идентификаторы, связи между сущностями и предварительно рассчитанные оценки (IS, W).

Какие метрики используются и как они считаются

Метрики используются в основном для идентификации и разрешения неоднозначности сущностей:

  • Initial Score (IS) (Начальная оценка): Вероятность того, что псевдоним (A) ссылается на сущность (E). Получается из Entity Alias Index.
  • Link Score (W) (Оценка связи): Важность связи между сущностью-кандидатом (CE) и связанной сущностью (RE). Получается из Entity Relationship Index.
  • Modifier (M) (Модификатор): Оценка, корректирующая начальную оценку на основе связанной сущности.

    Mi=IS(Ai,REi)×W(CE,REi)M_{i}=IS(A_{i},RE_{i})\times W(CE,RE_{i})

  • Modified Score (MS) (Модифицированная оценка): Итоговая оценка уверенности для кандидата (CE).

    MS=IS(Ac,CE)+∑MiMS=IS(A_{c},CE)+\Sigma M_{i}

Критерии дедупликации:

  • Subset Comparison: Сравнение Entity Sets на предмет включения.
  • Set Cover Algorithms: Алгоритмы оптимизации для выбора минимального набора страниц.

Выводы

  1. Структурированные данные как инструмент семантической дедупликации: Патент показывает, что Google использует микроразметку для понимания контента на уровне сущностей. Это позволяет проводить дедупликацию более точно, чем при анализе только текста или URL, особенно для страниц листингов.
  2. Entity Set как отпечаток контента: Система формирует Entity Set — точный список сущностей на странице. Именно этот набор служит основой для сравнения страниц, независимо от порядка сортировки или текстового оформления.
  3. Фокус на внутрисайтовой дедупликации (Host Crowding): Механизм в первую очередь направлен на устранение дубликатов в пределах одного сайта (same web site). Google стремится показать разнообразную выдачу, а не разные версии одной и той же информации от одного источника.
  4. Сложные критерии выбора предпочтительной версии: Google использует конкретные критерии для выбора:
    • Полнота (Subset): Предпочтение может отдаваться более полным страницам. Страницы-подмножества могут быть понижены.
    • Эффективность (Set Cover): Система стремится найти минимальный набор страниц для представления всех сущностей.
  5. Важность точной идентификации сущностей: Эффективность механизма зависит от точности сопоставления данных с сущностями. Сложный процесс разрешения неоднозначностей (Disambiguation) подчеркивает важность предоставления полной и точной информации в разметке.

Практика

Best practices (это мы делаем)

  • Комплексное внедрение микроразметки на листингах: Для E-commerce и агрегаторов критически важно размечать все элементы на страницах категорий (например, используя Schema.org/Product и Schema.org/ItemList). Это позволяет Google сформировать точный Entity Set.
  • Использование уникальных идентификаторов: Внедряйте стабильные и уникальные идентификаторы (GTIN, MPN, productID) в разметку. Это помогает системе использовать свойства как надежные Entity Aliases и упрощает процесс Disambiguation.
  • Обеспечение контекста для сущностей: Заполняйте связанные свойства в микроразметке (например, brand, category). Эти связанные сущности используются системой для разрешения неоднозначности основных сущностей на странице.
  • Контроль каноникализации сортировок: Для страниц с разными параметрами сортировки (по цене, алфавиту), которые содержат идентичный Entity Set, необходимо использовать rel="canonical", указывающий на основную версию категории. Это позволяет контролировать дедупликацию.
  • Обеспечение полноты на канонических страницах: Так как система может использовать критерий подмножества (Subset), убедитесь, что канонические страницы содержат наиболее полный набор сущностей.
  • Стратегическое управление фасетной навигацией: Открывайте для индексации только те страницы фасетов, которые формируют уникальные Entity Sets и отвечают реальному поисковому спросу. Избегайте индексации страниц, которые являются незначительными подмножествами основной категории.

Worst practices (это делать не надо)

  • Открытие всех параметров сортировки и фасетов для индексации: Это создает огромное количество страниц с дублирующимися Entity Sets. Данный патент напрямую направлен на борьбу с такой практикой, что приведет к пессимизации или исключению этих страниц из выдачи.
  • Использование неоднозначных данных в разметке: Отсутствие уникальных идентификаторов или использование общих названий затрудняет сопоставление с сущностями и может привести к формированию некорректных Entity Sets.
  • Несогласованная разметка: Если один и тот же товар размечен по-разному на разных страницах, это может помешать системе понять, что это одна и та же сущность, нарушая логику дедупликации.
  • Игнорирование структурированных данных на листингах: Отсутствие разметки не позволит Google применить этот точный механизм, заставляя его полагаться на другие, менее надежные методы дедупликации.

Стратегическое значение

Патент подтверждает стратегию Google по переходу к Entity-First пониманию контента. Для сайтов с каталогами и листингами управление структурированными данными и архитектура сайта становятся определяющими факторами для успешной индексации. Патент показывает, что SEO-стратегия должна фокусироваться на уникальности предлагаемого контента на уровне набора сущностей, а не только на уникальности текста.

Практические примеры

Сценарий 1: Дедупликация страниц с разной сортировкой в E-commerce

Сайт продает 4 модели камер (C1, C2, C3, C4). Есть три страницы категории:

  • Page A: /cameras (По популярности). Entity Set {C1, C2, C3, C4}.
  • Page B: /cameras?sort=price (По цене). Entity Set {C1, C2, C3, C4}.
  • Page C: /cameras?sort=az (По алфавиту). Entity Set {C1, C2, C3, C4}.
  1. Анализ Google: Система определяет, что Entity Sets всех трех страниц идентичны.
  2. Дедупликация: Система признает Page B и Page C дублирующими.
  3. Результат: При ранжировании по запросу "камеры", Ranking Scores для Page B и C понижаются (demotion) или они удаляются из SERP. В выдаче остается только Page A (или другая страница, выбранная на основе стандартных сигналов ранжирования).

Сценарий 2: Применение метода Set Cover

Сайт недвижимости имеет три страницы:

  • Page X (Все квартиры): Entity Set {A1, A2, A3, A4}.
  • Page Y (Однокомнатные): Entity Set {A1, A2}.
  • Page Z (Двухкомнатные): Entity Set {A3, A4}.
  1. Анализ Google: Система анализирует Entity Sets.
  2. Определение дублирования (Set Cover): Система может определить, что комбинация Page Y и Page Z покрывает все сущности {A1, A2, A3, A4} с минимальным пересечением.
  3. Результат: Система может решить, что Page X является избыточной (дублирующей) в контексте этого набора, и предпочесть показ Page Y и Page Z (или наоборот, в зависимости от запроса и других факторов), так как они представляют оптимальное покрытие.

Вопросы и ответы

Как этот патент влияет на управление фасетной навигацией и страницами фильтров?

Патент напрямую влияет на обработку URL, сгенерированных фасетной навигацией. Если разные комбинации фильтров или сортировок приводят к страницам с идентичными или очень похожими наборами товаров (Entity Sets), Google может классифицировать большинство этих страниц как дубликаты и исключить их из выдачи. Это подчеркивает необходимость открывать для индексации только те комбинации, которые формируют уникальные наборы сущностей и отвечают реальному спросу.

Означает ли это, что разные варианты сортировки (например, по цене и по алфавиту) всегда будут считаться дубликатами?

Да, если они содержат один и тот же набор товаров. С точки зрения патента, порядок представления сущностей не меняет сам Entity Set. Если набор сущностей идентичен, страницы являются кандидатами на дедупликацию. Необходимо использовать rel="canonical" для консолидации сигналов на основной версии страницы.

Как Google определяет, какую страницу оставить, а какую считать дубликатом, если Entity Sets идентичны?

Патент не уточняет, как выбирается "главная" страница среди идентичных дубликатов. Он фокусируется на механизме идентификации дублирования. На практике выбор, вероятно, основывается на стандартных сигналах ранжирования: страница с более высоким исходным Ranking Score, лучшими поведенческими факторами, сильным ссылочным профилем или явно указанная как каноническая будет выбрана в качестве основной.

Что такое "Задача о покрытии множества" (Set Cover Problem) в контексте SEO?

Это концепция, согласно которой Google стремится найти минимальное количество страниц с вашего сайта, которое наилучшим образом представляет весь ассортимент ваших сущностей (товаров, услуг). Вместо того чтобы показывать 10 страниц с перекрывающимся контентом, Google может выбрать 2-3 страницы, которые вместе покрывают все уникальные сущности с наименьшим дублированием. Это стимулирует создание четко структурированных категорий.

Как обеспечить точную идентификацию сущностей в микроразметке?

Ключ к точной идентификации — использование однозначных данных в разметке. Используйте глобальные идентификаторы (GTIN, MPN) в свойстве productID или соответствующих полях. Указывайте точное название бренда и модели в name. Заполнение связанных свойств (brand, manufacturer) помогает в процессе разрешения неоднозначности (Disambiguation), описанном в патенте.

Влияет ли этот механизм на страницы пагинации?

Да, может влиять. Каждая страница пагинации имеет свой Entity Set. Если существует страница «Показать все», то Entity Sets отдельных страниц пагинации будут являться подмножествами страницы «Показать все». В этом случае отдельные страницы пагинации могут быть признаны дубликатами согласно методу Subset в пользу более полной страницы.

Применяется ли эта дедупликация только к результатам с одного сайта?

Патент (в частности, Claim 3 и Claim 17) делает явный акцент на дедупликации ресурсов, расположенных на одном и том же веб-сайте (same web site). Он направлен на борьбу с внутренним дублированием и host crowding, а не на дедупликацию контента между разными сайтами.

Что произойдет, если на сайте нет структурированных данных?

Если структурированные данные отсутствуют, описанный в патенте механизм не может быть применен, так как он основан на парсинге markup language structured data items. В этом случае Google будет полагаться на другие, традиционные методы дедупликации (например, анализ текста, заголовков, ссылок), которые могут быть менее точными для страниц листингов.

Как этот патент взаимодействует с атрибутом rel="canonical"?

Патент не упоминает rel="canonical". Однако каноникализация обычно происходит до этапа ранжирования. Если каноникализация настроена корректно, Google консолидирует сигналы на канонической версии. Описанный механизм, вероятно, применяется к набору уже каноникализированных страниц или в ситуациях, когда сигналы каноникализации отсутствуют или противоречивы, позволяя Google алгоритмически определить семантическое дублирование.

Происходит ли дедупликация во время индексирования или ранжирования?

Патент описывает оба варианта. Дедупликация может происходить во время индексирования (Claim 15), когда ресурс помечается как дубликат в индексе или исключается из основного индекса. Также она может происходить во время ранжирования (Claim 1), когда Ranking Score дублирующегося результата модифицируется непосредственно перед показом пользователю. Это дает Google гибкость в применении.

Похожие патенты

Как Google распознает и объединяет дубликаты сущностей в Knowledge Graph, используя агрессивную нормализацию имен
Google использует многоэтапный процесс для разрешения сущностей (Entity Resolution). Система агрессивно нормализует имена сущностей (удаляя стоп-слова, титулы, знаки препинания и сортируя слова по алфавиту), чтобы сгруппировать потенциальные дубликаты. Затем она сравнивает другие атрибуты (факты) этих сущностей, чтобы принять окончательное решение об их объединении в Knowledge Graph.
  • US8700568B2
  • 2014-04-15
  • Knowledge Graph

Как Google использует структурированные данные (Schema) для отслеживания вовлеченности пользователей на уровне сущностей, а не только URL
Google может отслеживать поведение пользователей (например, время пребывания на странице и клики) и связывать его с конкретными сущностями (продуктами, людьми, темами), идентифицированными через структурированные данные, а не только с URL-адресом. Это позволяет агрегировать метрики вовлеченности для определенной темы на разных страницах и сравнивать эффективность сайтов.
  • US20140280133A1
  • 2014-09-18
  • Семантика и интент

  • Поведенческие сигналы

  • Knowledge Graph

Как Google использует шаблоны сайтов и структурированные компоненты для извлечения и расширения наборов сущностей (Entity Set Expansion)
Патент описывает, как Google автоматически расширяет наборы данных (например, таблицы или списки). Система анализирует существующие сущности и ищет новые похожие элементы в интернете. Для этого используются два ключевых метода: анализ повторяющихся шаблонов веб-страниц (Template Analysis) и извлечение данных из структурированных компонентов (HTML-таблиц и списков) на сайтах.
  • US8452791B2
  • 2013-05-28
  • Knowledge Graph

  • Семантика и интент

  • Структура сайта

Как Google объединяет разные URL в один результат, если они ведут на одну и ту же страницу (например, при мобильных редиректах)
Google использует механизм дедупликации для повышения разнообразия выдачи. Если несколько разных URL в результатах поиска перенаправляют пользователя на одну и ту же целевую страницу (например, из-за редиректа на мобильную версию, страницу входа или главную страницу), Google объединяет эти функциональные дубликаты в один замещающий результат.
  • US10007731B2
  • 2018-06-26
  • SERP

  • Техническое SEO

  • Индексация

Как Google использует иерархическую популярность связанных сущностей и данные веб-поиска для ранжирования в вертикальном поиске
Google использует механизм иерархического скоринга для ранжирования сущностей (например, брендов или исполнителей) в вертикальных поисках (non-WWW corpus). Популярность родительской сущности рассчитывается на основе агрегированной популярности дочерних (например, товаров или треков). Система использует данные о запросах и CTR из основного веб-поиска (WWW corpus) для определения популярности и применяет геолокацию и язык для устранения неоднозначности.
  • US9626435B2
  • 2017-04-18
  • Google Shopping

Популярные патенты

Как Google использует данные о кликах пользователей (CTR и Click Ratio) для определения официального сайта по навигационным запросам
Google анализирует журналы запросов, чтобы определить, какой результат пользователи подавляюще предпочитают по конкретному запросу. Если результат демонстрирует исключительно высокий CTR и/или Click Ratio по популярному запросу, система помечает его как «авторитетную страницу». Затем этот результат может отображаться на выдаче с особым выделением, потенциально переопределяя стандартное ранжирование.
  • US8788477B1
  • 2014-07-22
  • Поведенческие сигналы

  • EEAT и качество

  • SERP

Как Google вычисляет семантическую близость запросов, анализируя поведение пользователей при переформулировках
Google использует механизм для определения семантического расстояния между запросами (Generalized Edit Distance). Вместо подсчета изменений символов система анализирует исторические логи, чтобы понять, как пользователи переформулируют запросы. На основе этих данных вычисляется «стоимость» замены одного термина на другой с помощью Pointwise Mutual Information (PMI), что позволяет генерировать более релевантные подсказки и расширения запросов.
  • US8417692B2
  • 2013-04-09
  • Семантика и интент

  • Поведенческие сигналы

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче
Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.
  • US9418156B2
  • 2016-08-16
  • Local SEO

  • SERP

  • Ссылки

Как Google выбирает Sitelinks, анализируя визуальное расположение и структуру DOM навигационных меню
Google использует механизм для генерации Sitelinks путем рендеринга страницы и анализа DOM-структуры. Система определяет визуальное расположение (координаты X, Y) гиперссылок и группирует их на основе визуальной близости и общих родительских элементов. Sitelinks выбираются исключительно из доминирующей группы (например, главного меню), а ссылки из других групп игнорируются.
  • US9053177B1
  • 2015-06-09
  • SERP

  • Ссылки

  • Структура сайта

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP
Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.
  • US9275421B2
  • 2016-03-01
  • Семантика и интент

  • SERP

  • Ссылки

Как Google выбирает предлагаемые запросы, анализируя вероятность завершения поиска и коммерческую ценность
Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.
  • US8751520B1
  • 2014-06-10
  • SERP

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует CTR и E-E-A-T сигналы для определения контекста ссылок и оценки качества внешних упоминаний
Google использует двухэтапный механизм для анализа внешних комментариев (например, блог-постов). Сначала система определяет истинный объект обсуждения, если в комментарии несколько ссылок, анализируя CTR, длину URL и тематику. Затем она оценивает качество комментария, используя рейтинг автора, авторитетность источника, свежесть и обратную связь пользователей, чтобы отобрать наиболее релевантный контент.
  • US8656266B2
  • 2014-02-18
  • Ссылки

  • EEAT и качество

  • Свежесть контента

Как Google использует длительность кликов, Pogo-Sticking и уточнение запросов для оценки качества поиска (Click Profiles)
Google анализирует поведение пользователей после клика для оценки удовлетворенности. Система создает «Профили взаимодействия» (Click Profiles), учитывая длительность клика (Dwell Time), возврат к выдаче (Pogo-Sticking) и последующее уточнение запроса. Эти данные используются для сравнения эффективности алгоритмов ранжирования и выявления спама или кликбейта.
  • US9223868B2
  • 2015-12-29
  • Поведенческие сигналы

  • SERP

  • Антиспам

Как Google определяет авторитетные сайты для конкретных тем, анализируя «гибридные запросы» пользователей
Google анализирует «гибридные запросы» (например, «back pain WebMD»), чтобы понять, какие сайты пользователи считают лучшими источниками информации по конкретным темам. Система создает карты соответствия между темами и авторитетными ресурсами. Эти данные используются для повышения релевантности авторитетных сайтов в выдаче по информационным запросам и для улучшения поисковых подсказок.
  • US9244972B1
  • 2016-01-26
  • EEAT и качество

  • Семантика и интент

  • SERP

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс
Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.
  • US8255386B1
  • 2012-08-28
  • Индексация

  • Поведенческие сигналы

seohardcore