SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google реконструирует дискуссионные треды для обогащения поисковой выдачи

PROVIDING POSTS TO DISCUSSION THREADS IN RESPONSE TO A SEARCH QUERY (Предоставление постов из дискуссионных тредов в ответ на поисковый запрос)
  • US8402021B2
  • Google LLC
  • 2009-07-31
  • 2013-03-19
  • SERP
  • Индексация
  • Краулинг
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google идентифицирует, когда результат поиска является частью дискуссионного треда (форума, блога). Система реконструирует весь тред, находя другие его страницы, даже если они не попали в выдачу. Затем извлекается агрегированная статистика (количество постов, авторов, дата последней активности), которая отображается в сниппете, предоставляя пользователю интегрированное представление дискуссии.

Описание

Какую проблему решает

Патент решает проблему фрагментированного представления контента дискуссионных форумов в поисковой выдаче. Стандартные алгоритмы могут отображать отдельные страницы длинного обсуждения (треда) как изолированные результаты, лишенные контекста. Изобретение улучшает пользовательский опыт, предоставляя «интегрированное представление» (integrated view) всего треда, позволяя оценить объем и актуальность дискуссии непосредственно в SERP.

Что запатентовано

Запатентован метод обогащения результатов поиска, относящихся к дискуссионным форумам. Когда система (Thread Identification Module) идентифицирует результат поиска как пост в треде (First Resource), она активно реконструирует весь тред. Для этого она находит связанные страницы (Second Resources), включая те, которые не присутствовали в исходном наборе результатов поиска. Система извлекает агрегированные метаданные из всех страниц треда и представляет их пользователю.

Как это работает

Механизм работает в несколько этапов:

  • Идентификация: Система определяет, что результат поиска является страницей дискуссионного треда (discussion thread web page), используя структурные признаки и ключевые слова.
  • Реконструкция треда: Система ищет другие страницы этого же обсуждения, анализируя навигационные ссылки (например, пагинацию, «Next/Previous») и проверяя принадлежность к одному сайту.
  • Извлечение данных: Со всех найденных страниц треда (включая те, что не ранжировались) извлекаются метаданные: количество постов, количество уникальных авторов, временные метки (time stamps).
  • Презентация: Извлеченная информация агрегируется (например, определяется дата последнего поста) и отображается в поисковой выдаче рядом со сниппетом и ссылкой на исходный результат.

Актуальность для SEO

Высокая. Концепция понимания структуры UGC (User-Generated Content) и предоставления контекста остается крайне актуальной. Google активно интегрирует контент форумов (Reddit, Quora и т.д.) в выдачу, например, через блоки «Discussions and forums». Этот патент описывает базовую логику для идентификации, парсинга и представления такого типа контента, включая оценку его свежести.

Важность для SEO

(5/10). Патент имеет умеренное значение для SEO. Он не описывает алгоритмы ранжирования, но раскрывает механизмы обработки, индексации и представления контента форумов, блогов и Q&A сайтов. Это критически важно для владельцев UGC-площадок, так как описанные механизмы влияют на то, как Google понимает структуру сайта и формирует сниппет, что может значительно повлиять на CTR.

Детальный разбор

Термины и определения

Discussion Forum (Дискуссионный форум)
Общий термин для платформ, поддерживающих обсуждения. Включает традиционные форумы, веблоги (Weblogs) с комментариями, треды (threaded discussions) и микроблоги.
Discussion Thread Web Page (Веб-страница дискуссионного треда)
Отдельная веб-страница (ресурс), содержащая один или несколько постов, являющихся частью более крупного обсуждения (треда).
First Resource (Первый ресурс)
Страница треда, которая была идентифицирована поисковой системой как удовлетворяющая запросу и включена в результаты поиска.
Second Resources (Вторые ресурсы)
Другие страницы, принадлежащие тому же дискуссионному треду, что и First resource. Они связаны с ним прямо или косвенно (например, через пагинацию). Важно, что они могут включать ресурсы, не попавшие в исходный набор результатов поиска.
Outlinks (Исходящие ссылки)
В контексте патента — это преимущественно навигационные ссылки на странице треда (например, «Next», «Previous», номера страниц), используемые для идентификации связанных страниц.
Thread Identification Module (Модуль идентификации тредов)
Компонент системы, отвечающий за классификацию страниц как частей треда, реконструкцию структуры обсуждения и извлечение метаданных.
Time stamp (Временная метка)
Дата и время публикации поста, используемые для анализа активности и свежести треда.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс обогащения результата поиска.

  1. Система получает набор ресурсов, найденных по запросу (plurality of resources).
  2. Определяется, что Первый ресурс (First resource) из этого набора является постом на форуме.
  3. Идентифицируются Вторые ресурсы (Second resources) — другие страницы того же треда, связанные с Первым ресурсом прямо или косвенно.
  4. Критически важно: эти Вторые ресурсы включают как минимум один ресурс, которого НЕ было в исходном наборе результатов поиска.
  5. Извлекается информация о форуме (треде) из Первого и всех найденных Вторых ресурсов (включая те, что не были в выдаче).
  6. Извлеченная информация предоставляется вместе со ссылкой на Первый ресурс как часть ответа на запрос.

Ядром изобретения является активная реконструкция треда путем анализа страниц, которые не ранжировались по исходному запросу, с целью получения полных метаданных о дискуссии.

Claim 4 (Зависимый): Уточняет типы извлекаемой информации. Она включает: количество авторов в треде, время самого свежего поста (time when a most recent post was provided), количество постов от одного автора и количество ответов.

Claim 15 (Независимый пункт): Описывает сценарий специализированного поиска по форумам (Forum Search).

  1. Система получает запрос на поиск именно по дискуссионным форумам.
  2. Получаются результаты поиска от поисковой системы.
  3. Среди результатов идентифицируются страницы дискуссионных тредов.
  4. Эти страницы группируются (grouping) по принадлежности к конкретным дискуссионным форумам (тредам).
  5. Извлекается информация о каждом форуме (треде).
  6. Предоставляется извлеченная информация вместе со ссылкой на каждый из форумов (тредов).

В этом режиме система стремится показать результаты как набор тредов, а не как набор отдельных страниц.

Где и как применяется

Изобретение затрагивает этапы индексирования и финального формирования выдачи.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходят ключевые процессы:

  1. Классификация страниц: Система определяет, является ли страница частью дискуссионного треда. Для этого используется анализ признаков: наличие ключевых слов («forum», «reply»), наличие дат и имен пользователей, структура документа. Может использоваться система машинного обучения для взвешивания этих признаков.
  2. Реконструкция тредов (Link Graph): Система анализирует Outlinks (навигацию) для построения связей между страницами одного треда. Проверяются критерии: ссылки указывают друг на друга (би-дирекциональность), страницы принадлежат одному сайту. Эта информация может сохраняться в индексе.

RANKING – Ранжирование
Страницы тредов ранжируются стандартными алгоритмами. Система определяет First resource.

METASEARCH – Метапоиск и Смешивание / RERANKING – Переранжирование (Presentation Layer)
На этапе формирования финальной выдачи Thread Identification Module применяет логику патента:

  1. Если результат поиска (First resource) классифицирован как страница треда, система извлекает информацию о связанных страницах (Second resources) из индекса или находит их динамически.
  2. Происходит агрегация данных со всех страниц треда.
  3. Сниппет модифицируется для включения агрегированной информации (кол-во постов, авторов, дата).
  4. В сценарии специализированного поиска (Claim 15) система группирует результаты по тредам.

На что влияет

  • Конкретные типы контента: В первую очередь влияет на User-Generated Content (UGC) — форумы, Q&A сайты (Quora, Stack Overflow), платформы сообществ (Reddit), ветки комментариев в блогах.
  • Специфические запросы: Информационные запросы, запросы мнений, решений проблем, где контент форумов часто бывает релевантен.

Когда применяется

  • Условия работы: Алгоритм активируется, когда ресурс, попавший в результаты поиска, успешно классифицирован как discussion thread web page.
  • Триггеры активации: Для успешного применения система должна быть способна реконструировать структуру треда (найти Second resources) и извлечь необходимые метаданные (даты, авторы).

Пошаговый алгоритм

Процесс А: Обработка результатов поиска (в реальном времени)

  1. Получение результатов: Система получает информацию о ресурсах, удовлетворяющих запросу.
  2. Идентификация типа: Система идентифицирует Первый ресурс как пост на дискуссионном форуме (используя классификатор на основе признаков).
  3. Поиск связанных ресурсов (Реконструкция треда): Идентифицируются Вторые ресурсы, принадлежащие тому же треду. Этот шаг включает:
    • Анализ Outlinks (пагинация).
    • Проверку связей (прямые/косвенные ссылки, би-дирекциональность).
    • Валидацию домена (все страницы на одном сайте).
  4. Извлечение информации: Система извлекает метаданные (кол-во постов, авторов, даты) из Первого и всех Вторых ресурсов.
  5. Предоставление данных: Извлеченная агрегированная информация предоставляется вместе со ссылкой на Первый ресурс (обогащение сниппета).
  6. (Опционально) Группировка: В режиме специализированного поиска результаты группируются по тредам.

Какие данные и как использует

Данные на входе

Система использует разнообразные данные для классификации страниц и реконструкции тредов:

  • Контентные факторы: Наличие специфических ключевых слов на странице («forum», «thread», «post», «posted by», «reply»). Имена авторов (User names).
  • Технические факторы: URL страниц (используются для определения принадлежности к одному веб-сайту/домену).
  • Ссылочные факторы (Внутренние): Outlinks — навигационные ссылки (page numbers, «Next», «Previous»). Ссылки, ведущие обратно на корень форума (forum root page).
  • Временные факторы: Time stamps — даты и время, связанные с постами.
  • Структурные факторы: Структура документа (HTML layout), характерная для страниц с постами в дискуссионных тредах.

Какие метрики используются и как они считаются

  • Оценка классификации страницы: Патент упоминает использование полинома, где переменные — это наличие или отсутствие признака (например, ссылки «Next» или слова «thread»), а коэффициенты — это эмпирически определенные веса (возможно, с помощью машинного обучения). Если значение полинома превышает порог, страница классифицируется как discussion thread web page.
  • Метрики треда (Extracted Information): Эти метрики вычисляются путем парсинга всех идентифицированных страниц треда (First и Second resources):
    • Number of posts (Количество постов).
    • Number of authors (Количество уникальных авторов).
    • Time of most recent post (Время самого свежего поста).
    • Количество ответов (Replies).

Выводы

  1. Понимание контента на уровне тредов, а не страниц: Google стремится интерпретировать UGC-контент в контексте всего обсуждения. Система не просто индексирует отдельные страницы, но и активно реконструирует связи между ними, рассматривая тред как составную сущность.
  2. Анализ неранжирующихся страниц для контекста: Ключевой вывод из Claim 1: система анализирует страницы треда, которые не ранжируются по данному запросу (Second resources), чтобы извлечь статистику и контекст для страницы, которая ранжируется (First resource).
  3. Техническая структура критична для UGC: Идентификация и реконструкция тредов сильно зависит от технических сигналов на сайте: консистентности HTML-разметки, наличия доступных для краулинга навигационных ссылок (пагинации) и четкого выделения метаданных (авторы, даты).
  4. Фокус на презентации и CTR: Патент фокусируется на улучшении пользовательского опыта за счет модификации сниппета и добавления информации об активности и свежести дискуссии, что напрямую влияет на CTR.
  5. Специализированный поиск и группировка: Система предусматривает возможность группировки результатов по тредам (Claim 15), что актуально для вертикального поиска по форумам или для объединения результатов в основной выдаче.

Практика

Best practices (это мы делаем)

Рекомендации актуальны в первую очередь для форумов, Q&A сайтов, блогов с разветвленными комментариями и других UGC-площадок.

  • Обеспечить четкую и краулируемую навигацию по тредам: Используйте стандартную пагинацию с явными ссылками (<a href>) на следующие, предыдущие и пронумерованные страницы. Это критически важно для того, чтобы Thread Identification Module мог найти все Second Resources и корректно реконструировать тред.
  • Использовать консистентную структуру HTML: Поддерживайте единообразный HTML-шаблон и структуру для всех страниц внутри одного треда. Это облегчает классификацию страниц и извлечение данных.
  • Явно выделять метаданные постов: Убедитесь, что дата, время (time stamp) и автор каждого поста четко указаны в коде и имеют консистентную разметку. Использование стандартных форматов дат предпочтительнее относительных («вчера»).
  • Использовать структурированные данные: Внедрение микроразметки (например, DiscussionForumPosting или QAPage в Schema.org) помогает Google более точно извлекать эту информацию.
  • Поддерживать актуальность контента: Поскольку дата последнего поста является ключевым элементом извлеченной информации, поддержание активности в важных тредах повышает их привлекательность в SERP.

Worst practices (это делать не надо)

  • Сложная JavaScript-пагинация без SSR: Использование нестандартных скриптов для подгрузки следующих страниц треда (например, бесконечный скролл без изменения URL или пагинация без реальных HTML-ссылок) может помешать Google найти Second Resources и реконструировать тред.
  • Блокировка пагинации от индексации: Запрет на сканирование страниц пагинации (в robots.txt) или некорректное использование noindex/canonical мешает Google получить полные метаданные треда.
  • Нерегулярная структура страниц: Различия в верстке или структуре HTML между первой и последующими страницами одного треда могут сбить с толку алгоритмы идентификации.
  • Скрытие или обфускация метаданных: Отсутствие четких временных меток или имен авторов усложнит извлечение агрегированной информации.

Стратегическое значение

Патент подтверждает, что для успешного продвижения UGC-контента критически важна техническая оптимизация, направленная на помощь поисковым системам в понимании структуры обсуждений. Google не хочет показывать пользователю вырванную из контекста страницу, а стремится предоставить информацию обо всем обсуждении. Хотя специфический формат отображения статистики в сниппетах мог эволюционировать, лежащие в основе патента технологии индексации и анализа структуры форумов остаются фундаментом для работы с UGC и функционирования блоков типа «Discussions and forums».

Практические примеры

Сценарий: Оптимизация структуры форума для улучшения сниппетов

  1. Ситуация: Форум по ремонту автомобилей ранжируется по запросу, но в сниппете отображается только дата создания треда, а не дата последнего ответа. CTR низкий.
  2. Анализ по патенту: Вероятно, Thread Identification Module не смог корректно реконструировать тред или извлечь время последнего поста. Причиной может быть сложная пагинация (например, только через JS) или отсутствие четких временных меток.
  3. Действия:
    • Внедрение стандартной HTML-пагинации с использованием <a href>, доступной для краулера.
    • Обеспечение того, что все страницы пагинации доступны для сканирования.
    • Переключение отображения дат с относительного («вчера») на абсолютный формат (например, «29 Сентября 2025»).
  4. Ожидаемый результат: Google успешно реконструирует весь тред, находит последний пост и извлекает его дату. В SERP сниппет обновляется и показывает актуальную дату и общее количество постов. Это повышает привлекательность результата и CTR.

Вопросы и ответы

Влияет ли описанный в патенте механизм на ранжирование форумов?

Патент не описывает факторы ранжирования. Он фокусируется на этапе индексирования (понимание структуры треда) и на этапе представления результатов (обогащение сниппета). Прямого влияния на позиции нет, но улучшение вида сниппета может положительно сказаться на поведенческих факторах, таких как CTR.

Анализирует ли Google страницы треда, которые не ранжировались по запросу?

Да, это ключевой момент патента (Claim 1). Система идентифицирует Second Resources (другие страницы треда), даже если они не были включены в исходные результаты поиска. Это необходимо для того, чтобы получить полные и точные метаданные о дискуссии, например, найти самый свежий пост, который может находиться на последней странице.

Как помочь Google правильно понять структуру моего форума или блога?

Ключевыми факторами являются техническая чистота и консистентность. Убедитесь, что навигация между страницами треда (пагинация) реализована через стандартные, доступные для сканирования HTML-ссылки (<a href>). Используйте одинаковую структуру HTML для всех страниц треда и четко размечайте метаданные каждого поста (автор и дата).

Что делать, если мой форум использует бесконечную прокрутку (infinite scroll) вместо пагинации?

Бесконечная прокрутка может затруднить реконструкцию треда, так как она полагается на анализ исходящих ссылок между страницами. Необходимо реализовать бесконечную прокрутку с поддержкой пагинации (например, обновляя URL и предоставляя краулеру стандартные ссылки на страницы), чтобы Google мог получить доступ ко всем частям треда.

Какую конкретно информацию Google извлекает для сниппета согласно патенту?

Патент явно упоминает извлечение следующих данных: количество авторов, которые предоставили посты в тред; время, когда был предоставлен самый свежий пост; количество постов, предоставленных одним и тем же автором; и количество ответов. На практике это часто агрегируется в общее количество постов и дату последнего ответа.

Как Google определяет, что страница вообще является частью форума?

Система ищет набор признаков: наличие ключевых слов (например, «thread», «reply», «posted by»), характерную структуру документа, наличие множества дат и имен пользователей на одной странице, а также ссылки, ведущие на главную страницу форума. Для принятия решения используется взвешенная оценка этих признаков или ML-модель.

Актуален ли этот патент, учитывая изменения в отображении сниппетов?

Хотя конкретный формат представления, показанный в патенте, мог измениться, лежащие в его основе технологии крайне актуальны. Способность Google идентифицировать страницы форумов и реконструировать треды необходима для качественной индексации UGC и для работы современных функций, таких как блоки «Discussions and forums» в выдаче.

Как система определяет, что две страницы принадлежат одному треду?

Используется несколько критериев. Во-первых, наличие прямых или косвенных ссылок между страницами (например, через пагинацию), желательно би-дирекциональных. Во-вторых, структурное сходство страниц и наличие общих атрибутов. В-третьих, обязательная проверка того, что обе страницы принадлежат одному и тому же веб-сайту.

Может ли этот механизм объединить посты с разных сайтов в один тред?

Нет. Патент явно указывает, что обязательным условием для включения страниц в один тред является их принадлежность к одному и тому же веб-сайту. Дискуссионный тред, согласно этому механизму, не может охватывать несколько сайтов.

Если в выдачу попало несколько страниц одного и того же треда, как они будут показаны?

Патент описывает возможность группировки (Claim 15), особенно в режиме специализированного поиска. Система может объединить эти результаты в одну запись, представляющую весь тред, и отобразить сводную информацию о нем. В стандартном поиске они могут быть показаны отдельно, но каждая будет содержать обогащенные данные всего треда.

Похожие патенты

Как Google агрегирует, оценивает и ранжирует комментарии, отзывы и упоминания о веб-странице из разных источников
Google собирает комментарии, отзывы и посты в блогах, относящиеся к определенной веб-странице. Система использует сложные алгоритмы для определения основной темы упоминаний (особенно если в них несколько ссылок) и ранжирует эти комментарии на основе авторитетности автора, свежести, качества языка и обратной связи пользователей, чтобы представить наиболее полезные мнения.
  • US8745067B2
  • 2014-06-03
  • EEAT и качество

  • Свежесть контента

  • Семантика и интент

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

Как Google встраивает ленту социальных обсуждений в реальном времени прямо в результаты поиска по трендовым запросам
Google использует механизм для идентификации трендовых запросов ("active keywords"), связанных с текущими событиями. Если пользователь ищет по такому запросу, система отбирает релевантные посты из социальных сетей, созданные во время события, и отображает их в виде специальной встроенной ленты ("discussion stream") прямо на странице результатов поиска, отделяя их от более старых социальных постов.
  • US9984155B2
  • 2018-05-29
  • SERP

  • Свежесть контента

  • Персонализация

Как Google автоматически создает шаблоны для извлечения структурированных данных из форумов и UGC-сайтов
Google использует систему для автоматического понимания структуры сайтов с пользовательским контентом (UGC), таких как форумы. Система разделяет страницы на статичные элементы («boilerplate») и динамический контент («posts»), определяет различные типы постов (например, посты модераторов и обычных пользователей) и создает шаблоны для точного извлечения и аннотации ключевых данных: автора, даты и основного текста.
  • US8458584B1
  • 2013-06-04
  • Краулинг

  • Структура сайта

Как Google находит, объединяет и обогащает связанные таблицы, разбросанные по разным веб-страницам
Google использует механизм для идентификации связанных таблиц ("stitchable tables") на разных веб-страницах. Система проверяет семантическую эквивалентность заголовков, извлекает скрытые атрибуты из окружающего контекста (текст, URL) и объединяет все данные в единую, обогащенную таблицу ("union table") для лучшего понимания структурированных данных в вебе.
  • US9720896B1
  • 2017-08-01
  • Семантика и интент

Популярные патенты

Как Google классифицирует интент запросов (например, поиск порнографии), анализируя историю использования фильтров (SafeSearch)
Google использует данные о том, как часто пользователи включают или отключают фильтры контента (например, SafeSearch) при вводе конкретного запроса. Анализируя нормализованное соотношение фильтрованных и нефильтрованных поисковых операций, система классифицирует запрос как целенаправленно ищущий определенный тип контента (например, adult). Эта классификация затем используется для повышения или понижения релевантности соответствующего контента в выдаче.
  • US9152701B2
  • 2015-10-06
  • Семантика и интент

  • Безопасный поиск

  • Поведенческие сигналы

Как Google динамически обновляет выдачу в реальном времени, если пользователь не кликает на результаты
Google отслеживает взаимодействие с поисковой выдачей в реальном времени. Если пользователь просматривает результаты, но не кликает на них в течение определенного времени (определяемого моделью поведения), система интерпретирует это как имплицитную отрицательную обратную связь. На основе анализа этих «отвергнутых» результатов Google автоматически пересматривает запрос (корректируя веса или заменяя термины) и динамически предоставляет новый набор результатов.
  • US20150169576A1
  • 2015-06-18
  • Поведенческие сигналы

  • SERP

  • Семантика и интент

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче
Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.
  • US8392429B1
  • 2013-03-05
  • Ссылки

  • SERP

  • EEAT и качество

Как Google фильтрует персонализированные предложения запросов на основе контента просматриваемой страницы
Google использует механизм для генерации предложений следующего запроса после того, как пользователь покинул страницу выдачи. Система создает кандидатов на основе истории поиска пользователя, а затем фильтрует их, проверяя релевантность контенту страницы, которую пользователь просматривает в данный момент. Это гарантирует, что предложения соответствуют как интересам пользователя, так и текущему контексту просмотра.
  • US8392435B1
  • 2013-03-05
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)
Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).
  • US7584177B2
  • 2009-09-01
  • Семантика и интент

  • SERP

  • Персонализация

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует структуру сайта и анкорные тексты для извлечения Сущностей из шумных заголовков (Title)
Google использует метод для точного определения основного объекта (Сущности) веб-страницы, когда заголовок (Title) содержит лишнюю информацию (брендинг, рубрики). Система анализирует заголовки похожих страниц на том же сайте (Peer Documents) и анкорные тексты, ссылающиеся на них. Выявляя повторяющиеся шаблоны (префиксы и суффиксы) в заголовках, Google отделяет название Сущности от шума.
  • US7590628B2
  • 2009-09-15
  • Семантика и интент

  • Структура сайта

  • Ссылки

Как Google использует позиционный CTR (Selection Rate) для ранжирования и группировки вертикалей в Универсальном поиске
Google использует механизм для структурирования поисковой выдачи путем группировки результатов по категориям (вертикалям), таким как Новости, Видео или Веб. Система определяет порядок этих категорий, основываясь на ожидаемой частоте кликов (Selection Rate/CTR) тех позиций, которые занимают результаты категории в исходном смешанном ранжировании. Это определяет структуру Универсального поиска (Universal Search).
  • US8498984B1
  • 2013-07-30
  • SERP

  • Поведенческие сигналы

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google определяет географическую релевантность веб-страницы, анализируя физическое местоположение её посетителей
Google анализирует физическое местоположение (используя GPS, IP и т.д.) пользователей, которые взаимодействуют с веб-страницей (например, совершают клик и долго её изучают). Агрегируя эти данные, система определяет географическую релевантность страницы («Центр») и область её популярности («Дисперсию»), даже если на самой странице нет адреса. Эта информация используется для повышения позиций страницы в поиске для пользователей, находящихся в этой области.
  • US9552430B1
  • 2017-01-24
  • Local SEO

  • Поведенческие сигналы

seohardcore