SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует кластеризацию контента и результаты поиска для определения авторства и формирования профилей сущностей

ASSOCIATING RESOURCES WITH ENTITIES (Ассоциация ресурсов с сущностями)
  • US9400789B2
  • Google LLC
  • 2013-07-17
  • 2016-07-26
  • Knowledge Graph
  • Семантика и интент
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует механизм для точной ассоциации контента (статей, веб-страниц) с конкретными сущностями (авторами, людьми). Система предварительно группирует похожий контент в кластеры. При запросе имени автора система ранжирует эти кластеры, сравнивая их содержимое с результатами поиска по этому имени. Это позволяет разрешать неоднозначность авторов, формировать точные профили (например, в Google Scholar или Knowledge Graph) и автоматически их обновлять.

Описание

Какую проблему решает

Патент решает проблему точной и комплексной идентификации ресурсов (например, научных статей, веб-страниц, новостей), связанных с конкретной сущностью (например, автором), в большом корпусе данных. Основная задача — disambiguation (разрешение неоднозначности) сущностей с похожими или одинаковыми именами и автоматизация процесса создания и обновления профилей этих сущностей (например, списка публикаций автора).

Что запатентовано

Запатентована система для ассоциации ресурсов с сущностями, использующая двухэтапный подход. На первом этапе ресурсы кластеризуются офлайн в Resource Groups на основе общих признаков (авторство, цитирования, тематика). На втором этапе, в ответ на запрос о сущности, эти группы ранжируются на основе их совпадения с результатами поиска по этому запросу. Также запатентован метод автоматического обновления профилей сущностей с использованием Correspondence Score.

Как это работает

Система работает следующим образом:

  • Кластеризация (Офлайн): Система анализирует ресурсы и группирует их в Resource Groups. Каждая группа ассоциируется с именем собственным (например, именем автора). Кластеризация основана на признаках: имена авторов, email, аффилиации, названия, места публикации, цитирования.
  • Обработка запроса: Поступает запрос, содержащий имя сущности (Entity Query). Система выполняет поиск и получает ранжированный список релевантных ресурсов.
  • Ранжирование групп: Система сравнивает предварительно созданные Resource Groups с полученным списком результатов поиска. Группы ранжируются выше, если они содержат больше документов из результатов поиска, если эти документы имеют высокий ранг в поиске, и если имя группы совпадает с именем в запросе.
  • Формирование и обновление профиля: Ранжированные группы могут быть предложены пользователю для подтверждения авторства или использованы для автоматического формирования Profile (коллекции ресурсов сущности). Система также автоматически обновляет существующие профили, если новые кластеры имеют высокий Correspondence Score с профилем.

Актуальность для SEO

Высокая. Точное определение авторства и ассоциация контента с сущностями являются фундаментом для E-E-A-T, работы Knowledge Graph и сервисов типа Google Scholar (изобретатель Anurag Acharya является основателем Google Scholar). Механизмы disambiguation и автоматического связывания контента критически важны в современном поиске, особенно с акцентом на авторитетность авторов.

Важность для SEO

Патент имеет высокое значение (8/10) для стратегий Entity SEO и управления репутацией. Он раскрывает конкретные механизмы, которые Google может использовать для определения того, какой контент принадлежит конкретному автору или организации. Понимание этих механизмов критически важно для обеспечения того, чтобы сигналы E-E-A-T корректно агрегировались вокруг нужной сущности, а не рассеивались между несколькими похожими или ошибочными профилями.

Детальный разбор

Термины и определения

Entity (Сущность)
Представляет одного или нескольких людей (конкретного человека, группу людей, компанию, организацию). Может быть как общей (например, «президент США»), так и конкретной (например, «Джордж Вашингтон»).
Resource (Ресурс)
Любой тип цифровой информации, доступной по сети (документы, научные статьи, веб-страницы, видео, изображения, книги, патенты, сообщения в социальных сетях и т.д.).
Resource Group / Document Group (Группа ресурсов / Группа документов)
Кластер ресурсов, сгруппированных на основе общих признаков (например, предполагаемого авторства). Каждая группа ассоциирована с именем собственным (Proper Name).
Profile (Профиль)
Коллекция ресурсов, которая подтверждена (вручную или автоматически) как связанная с конкретной сущностью. Например, список публикаций автора.
Entity Query (Запрос о сущности)
Запрос, который идентифицирует как минимум одну сущность, часто по имени собственному. Может включать дополнительную информацию (аффилиацию, email).
Resource Clusterer (Кластеризатор ресурсов)
Компонент системы, который анализирует ресурсы в индексной базе и группирует их в Resource Groups.
Correspondence Score (Оценка соответствия)
Метрика, определяющая уровень соответствия между ресурсами в Resource Group и ресурсами, уже включенными в Profile. Используется для автоматического обновления профилей.
Name Matching Score (Оценка совпадения имен)
Метрика, представляющая сходство между именем, связанным с Resource Group, и именем, указанным в запросе или связанным с Profile.

Ключевые утверждения (Анализ Claims)

Патент содержит несколько групп независимых пунктов, описывающих процесс идентификации информации для добавления в профиль автора.

Claim 1 (Независимый пункт): Описывает метод идентификации информации для профиля автора путем предоставления ранжированных групп документов для выбора автором.

  1. Кластеризация: Множество первых документов кластеризуется в одну или несколько Document Groups. Каждая группа связана с именем автора.
  2. Получение информации и генерация запроса: После кластеризации система получает информацию от автора и генерирует запрос, включающий имя автора и полученную информацию.
  3. Получение результатов поиска: Генерируется список документов, удовлетворяющих запросу, ранжированных по Document Rank.
  4. Ранжирование групп: Document Groups ранжируются на основе того, сколько документов из списка результатов поиска содержится в каждой группе. Предпочтение отдается группам с большим количеством совпадений.
  5. Предоставление данных: Данные, описывающие Document Groups, предоставляются в порядке ранжирования для выбора автором с целью включения в его профиль.

Claim 25 (Независимый пункт): Описывает метод автоматического назначения групп документов профилю автора на основе ранжирования.

  1. Назначение документов в группы: Документы назначаются в Document Groups, каждая из которых связана с именем автора.
  2. Получение ввода и генерация запроса: От пользователя принимается ввод имени автора и дополнительная информация (аффилиации и т.д.). Генерируется запрос.
  3. Получение результатов поиска: Получаются результаты поиска, идентифицирующие документы, удовлетворяющие запросу.
  4. Ранжирование групп: Document Groups ранжируются на основе количества документов из результатов поиска, включенных в каждую группу.
  5. Назначение профилю: Одна или несколько Document Groups назначаются профилю автора на основе этого ранжирования.

Claim 3 и Claim 26 (Зависимые): Детализируют механизм автоматического обновления профиля после его первоначального создания.

После создания профиля (как описано в Claim 1 или 25), система кластеризует новый набор документов. Для каждой новой группы вычисляется Correspondence Score относительно существующего профиля автора. Если этот показатель превышает порог, документы из новой группы добавляются в профиль автора.

Claim 4, 20, 27 (Зависимые): Определяют основу для расчета Correspondence Score.

Оценка основана на: (i) количестве документов, присутствующих и в группе, и в профиле; (ii) количестве документов в группе, которые никогда не были в профиле; (iii) количестве документов в группе, которые были удалены из профиля.

Где и как применяется

Изобретение затрагивает несколько этапов поиска, в основном фокусируясь на обработке данных для построения связей между сущностями и контентом.

INDEXING – Индексирование и извлечение признаков
На этом этапе происходит извлечение ключевых признаков из ресурсов, необходимых для кластеризации: имена авторов, аффилиации, email адреса, названия публикаций, данные о цитировании (кто цитирует и кого цитируют). Это Feature Extraction.

(Вне стандартного real-time pipeline) – Офлайн обработка и кластеризация
Система (в частности, Resource Clusterer) использует извлеченные признаки для выполнения кластеризации. Это ресурсоемкий офлайн-процесс, результатом которого являются Resource Groups. Этот процесс может быть частью построения или обновления Knowledge Graph.

QUNDERSTANDING – Понимание Запросов / RANKING – Ранжирование
Когда поступает Entity Query, стандартные механизмы поиска используются для генерации первичного списка ранжированных ресурсов, релевантных запросу.

RERANKING – Переранжирование / Специализированный Поиск
Основное применение патента происходит здесь или в рамках специализированного поискового вертикала (например, Google Scholar, Поиск по Людям). Система использует результаты стандартного ранжирования для оценки и ранжирования предварительно рассчитанных Resource Groups. Это не столько переранжирование существующих результатов, сколько генерация нового типа результата — агрегированного профиля сущности.

Входные данные:

  • Индексированные ресурсы с извлеченными признаками (авторы, аффилиации, цитаты).
  • Entity Query (имя, дополнительная информация).
  • Существующие Profiles (для механизма обновления).

Выходные данные:

  • Ранжированные Resource Groups, предложенные для ассоциации с сущностью.
  • Обновленные Profiles сущностей.

На что влияет

  • Конкретные типы контента: Наибольшее влияние оказывается на контент, где авторство является ключевым признаком: научные статьи (основной пример в патенте), новостные статьи, книги, патенты, блоги. Также упоминаются ресурсы социальных сетей (фото, видео, посты).
  • Специфические запросы: Запросы, связанные с именами людей (авторов, экспертов), особенно распространенными именами, где требуется разрешение неоднозначности.
  • Конкретные ниши или тематики: Академическая сфера, журналистика, YMYL-тематики, где авторитетность автора (E-E-A-T) имеет критическое значение.

Когда применяется

  • Триггеры активации (Real-time): Получение запроса, который система идентифицирует как поиск сущности (Entity Query), особенно если запрос направлен на создание или подтверждение профиля (например, автор подтверждает свои работы в Google Scholar).
  • Триггеры активации (Офлайн): Периодическое обновление индекса и появление новых ресурсов запускают процесс перекластеризации и последующего автоматического обновления профилей (Profile Update).
  • Пороговые значения: Механизм автоматического обновления активируется, только если Correspondence Score между группой и профилем превышает установленный порог.

Пошаговый алгоритм

Процесс А: Кластеризация ресурсов (Офлайн)

  1. Извлечение признаков: Система анализирует ресурсы и извлекает признаки: название, место публикации, имена авторов, email авторов, аффилиации авторов, цитируемые документы, цитирующие документы.
  2. Определение ассоциаций: Анализируются признаки для определения связей между ресурсами.
  3. Кластеризация: Используется алгоритм кластеризации для группировки ресурсов в Resource Groups на основе выявленных ассоциаций. Каждая группа ассоциируется с именем собственным.

Процесс Б: Ранжирование групп по запросу (Real-time или по требованию)

  1. Получение запроса: Система получает Entity Query (например, от автора, желающего создать профиль), включающий имя и, возможно, дополнительную информацию.
  2. Генерация результатов поиска: Система выполняет поиск по запросу и генерирует ранжированный список релевантных ресурсов (Result List).
  3. Сопоставление (Mapping): Система сопоставляет ресурсы из Result List с ресурсами в предварительно созданных Resource Groups.
  4. Расчет оценок для групп: Для каждой группы вычисляется оценка на основе:
    • Количества совпадающих ресурсов.
    • Ранга совпадающих ресурсов в Result List.
    • Name Matching Score (сходство имени группы с именем в запросе).
  5. Ранжирование групп: Resource Groups сортируются по рассчитанным оценкам.
  6. Предоставление результатов: Ранжированные группы предоставляются пользователю (например, для выбора и создания профиля) или используются системой для автоматического назначения профилю.

Процесс В: Автоматическое обновление профиля (Офлайн/Периодически)

  1. Идентификация профиля: Система идентифицирует существующий Profile сущности.
  2. Расчет Correspondence Score: Для новых или обновленных Resource Groups вычисляется Correspondence Score относительно профиля. Расчет учитывает совпадения, новые документы и ранее удаленные документы.
  3. Проверка порога: Система определяет, превышает ли Correspondence Score установленный порог.
  4. Обновление профиля: Если порог превышен, ресурсы из Resource Group добавляются в Profile.

Какие данные и как использует

Данные на входе

Патент явно указывает на использование следующих факторов для кластеризации и ассоциации:

  • Контентные факторы: Название ресурса (title), место публикации (place of publication).
  • Ссылочные факторы (Цитирования): Документы, на которые ссылается ресурс (documents referenced by the first documents), и документы, которые ссылаются на ресурс (documents that reference the first documents).
  • Факторы сущностей (Авторские): Имена собственные авторов (proper names of authors), email адреса авторов (author email addresses), аффилиации авторов (author affiliations).
  • Поведенческие факторы (Обратная связь): Данные о том, какие ресурсы пользователь вручную добавил или удалил из своего профиля. Это используется для корректировки алгоритма кластеризации.
  • Данные социальных сетей: Упоминается кластеризация ресурсов из социальных сетей (фото, видео, посты), включая взаимодействия (просмотры, лайки, теги).

Какие метрики используются и как они считаются

  • Name Matching Score (X4X_4X4​): Оценка сходства имен. Использует эвристики для реструктуризации имен (например, перестановка имени и фамилии, использование инициалов) для поиска наилучшего совпадения. Может рассчитываться как взвешенная сумма совпадений по компонентам имени (фамилия, имя).
  • Ranking Score (для Resource Groups): Рассчитывается как функция от количества совпадающих ресурсов между группой и результатами поиска, ранга этих ресурсов в поиске и Name Matching Score.
  • Correspondence Score (CS): Метрика для автоматического обновления профиля. Оценивает соответствие между Resource Group и Profile.

    Определяются переменные:

    • X1X_1X1​: Количество ресурсов в группе И в профиле.
    • X2X_2X2​: Количество ресурсов в группе, которые были УДАЛЕНЫ из профиля.
    • X3X_3X3​: Количество ресурсов в группе, которые НИКОГДА не были в профиле.

    Пример формулы:

    CS=C1X1−C2X2−C3X3CS = C_1X_1 - C_2X_2 - C_3X_3CS=C1​X1​−C2​X2​−C3​X3​ (где CiC_iCi​ — константы).

    Это показывает, что совпадения (X1X_1X1​) увеличивают оценку, а ранее удаленные ресурсы (X2X_2X2​) сильно ее уменьшают.

  • Assignment Score (AS): Используется для разрешения конфликтов, если ресурс из профиля встречается в нескольких группах. Ресурс назначается группе, максимизирующей AS. Пример формулы:

    AS=W1X4+W2X1−W3X2−W4(X3−W5X4)AS = W_1X_4 + W_2X_1 - W_3X_2 - W_4(X_3 - W_5X_4)AS=W1​X4​+W2​X1​−W3​X2​−W4​(X3​−W5​X4​) (где WiW_iWi​ — веса).

Выводы

  1. Ассоциация контента с сущностями — это процесс кластеризации: Google не просто ищет упоминания имени. Система активно кластеризует контент в Resource Groups на основе множества сигналов, пытаясь воссоздать корпус работ конкретного автора.
  2. Ключевые сигналы для кластеризации: Для успешной ассоциации контента с автором критически важны не только имена, но и контекстуальные данные: аффилиации, email адреса, а также сеть цитирования (кто ссылается на работу и на кого ссылается автор).
  3. Результаты поиска как валидатор кластеров: Система использует результаты поиска в реальном времени (Result List) для валидации и ранжирования предварительно рассчитанных кластеров. Если кластер содержит много высокоранжирующихся документов по запросу имени автора, этот кластер считается релевантным.
  4. Автоматизация и обратная связь: Система стремится автоматизировать обновление профилей (Profiles) с помощью Correspondence Score, но при этом учитывает историю взаимодействий. Ресурсы, которые автор ранее удалил из профиля (X2X_2X2​), имеют сильный негативный вес, что предотвращает повторное добавление неверного контента.
  5. Важность разрешения неоднозначности (Disambiguation): Весь механизм направлен на то, чтобы отличить одного автора от другого, даже если у них одинаковые имена, используя контекстные сигналы и структуру связей.

Практика

Best practices (это мы делаем)

  • Обеспечение консистентности данных об авторе (NAP Consistency для людей): Используйте консистентное написание имени автора, его аффилиации (места работы, учебы) и контактной информации (email, профили в соцсетях) во всех публикациях и на всех платформах. Это облегчает системе задачу кластеризации (Resource Clustering).
  • Использование разметки Schema.org (Author): Тщательно размечайте контент, используя Person, author, affiliation, email, sameAs (для связи с профилями в Knowledge Graph, соцсетях, ORCID). Это предоставляет системе четкие признаки для кластеризации.
  • Управление цитированием и совместной работой: Поощряйте цитирование ваших работ авторитетными источниками и участвуйте в совместных проектах. Сеть цитирования и соавторства является сильным сигналом для кластеризации и помогает разрешить неоднозначность авторов.
  • Активное управление профилями сущностей: Если возможно (например, в Google Scholar или через Knowledge Panel), активно управляйте профилем автора. Подтверждайте правильный контент и удаляйте ошибочно ассоциированный. Это дает системе обратную связь, которая учитывается в Correspondence Score (переменная X2X_2X2​) при будущих обновлениях.
  • Создание централизованной страницы автора: Создайте авторитетную страницу автора на сайте (Author Page), которая агрегирует все его работы, аффилиации и связи. Это поможет системе сформировать точный Resource Group.

Worst practices (это делать не надо)

  • Неконсистентное представление автора: Использование разных вариантов имени (например, John Smith, J. A. Smith, John A. Smith) без явной связи между ними, частая смена аффилиаций без обновления биографии. Это затрудняет кластеризацию и может привести к фрагментации профиля автора.
  • Игнорирование контекстных сигналов: Публикация контента без указания аффилиации, биографии или связей с предыдущими работами, особенно если у автора распространенное имя.
  • Попытки манипуляции авторством (Authorship Hijacking): Попытки ассоциировать свой контент с авторитетным автором путем имитации его сигналов. Механизмы кластеризации, учитывающие сеть цитирования и обратную связь от реального автора (Correspondence Score), направлены на борьбу с этим.

Стратегическое значение

Этот патент подчеркивает стратегическую важность управления сущностями (Entity Management) как ключевого компонента SEO, особенно в контексте E-E-A-T. Google стремится понять, кто стоит за контентом, и использует сложные механизмы кластеризации для построения профилей авторов. Для SEO-специалистов это означает, что работа над авторитетностью автора должна включать не только создание качественного контента, но и обеспечение максимальной четкости и консистентности сигналов, позволяющих Google корректно ассоциировать этот контент с автором.

Практические примеры

Сценарий: Разрешение неоднозначности авторов в YMYL-нише (Медицина)

Задача: Обеспечить корректную ассоциацию статей медицинского эксперта Dr. Maria Garcia, работающего в Cleveland Clinic, и отличить ее от другого автора Maria Garcia, работающего в сфере финансов.

  1. Действия (Кластеризация): Во всех статьях Dr. Garcia последовательно указывается ее имя, ученая степень и аффилиация (Cleveland Clinic). Используется разметка Schema.org/author с указанием affiliation.
  2. Действия (Цитирование): Ее медицинские статьи цитируют друг друга и другие работы в области кардиологии.
  3. Результат (Системный процесс): Система Google формирует два отдельных Resource Groups. Группа 1 (Медицина) кластеризуется вокруг имени «Dr. Maria Garcia», аффилиации «Cleveland Clinic» и сети медицинских цитирований. Группа 2 (Финансы) кластеризуется вокруг других сигналов.
  4. Результат (Поиск): При запросе «Dr. Maria Garcia Cardiology», система генерирует Result List, который сильно пересекается с Группой 1. Эта группа получает высокий ранг и используется для формирования Knowledge Panel и ассоциации сигналов E-E-A-T с правильной сущностью.

Вопросы и ответы

Как этот патент связан с E-E-A-T?

Напрямую. E-E-A-T во многом зависит от авторитетности автора контента. Чтобы оценить авторитетность, Google должен сначала точно определить, какой контент принадлежит этому автору. Этот патент описывает механизм, как Google решает задачу ассоциации контента с авторами (сущностями) и разрешения неоднозначности, формируя основу для последующей оценки E-E-A-T.

Какие сигналы наиболее важны для того, чтобы Google правильно связал контент с моим автором?

Патент выделяет несколько ключевых сигналов для кластеризации: консистентное написание имени автора, аффилиации (место работы/учебы), контактные данные (email). Также критически важна сеть цитирования — ссылки на другие работы автора и ссылки авторитетных источников на его работы. Консистентность этих сигналов является решающей.

Что такое Resource Group и чем он отличается от Profile?

Resource Group — это автоматически сгенерированный кластер документов, которые система считает связанными (например, принадлежащими одному автору). Это предположение системы. Profile — это подтвержденная коллекция документов, связанных с сущностью. Профиль может быть создан путем подтверждения одного или нескольких Resource Groups вручную автором или автоматически системой, если уверенность высока.

Как Google решает проблему авторов с одинаковыми именами?

Система использует контекстные сигналы для кластеризации. Если два автора имеют одинаковое имя, но разные аффилиации, разные email, работают в разных тематиках и имеют разные сети цитирования, система сформирует два отдельных Resource Groups. При поиске система выберет ту группу, которая лучше соответствует контексту запроса и результатам поиска.

Как работает механизм автоматического обновления профилей?

Система периодически пересчитывает кластеры (Resource Groups). Затем она вычисляет Correspondence Score между новыми кластерами и существующими профилями. Если оценка высока (много совпадений с текущим профилем и мало контента, который ранее был удален), система автоматически добавляет новый контент из кластера в профиль.

Что произойдет, если я вручную удалю неверно ассоциированную статью из своего профиля (например, в Google Scholar)?

Это действие является важным сигналом обратной связи. В формуле Correspondence Score есть переменная X2X_2X2​ (удаленные ресурсы), которая имеет сильный негативный вес. Это значительно снижает вероятность того, что система автоматически добавит эту статью или похожие статьи из того же кластера обратно в ваш профиль.

Применяется ли этот патент только к научным статьям и Google Scholar?

Нет. Хотя научные статьи являются основным примером в патенте, он определяет «ресурсы» очень широко: веб-страницы, новости, видео, изображения, а также контент из социальных сетей. Механизмы кластеризации и ассоциации могут применяться для построения профилей любых публичных личностей, экспертов или авторов в основном поиске и Knowledge Graph.

Как использование разметки Schema.org помогает этому процессу?

Разметка Schema.org (например, author, affiliation, sameAs) предоставляет системе четкие, структурированные данные о признаках, которые используются на этапе кластеризации (Feature Extraction). Это значительно упрощает системе задачу точного формирования Resource Groups и снижает вероятность ошибок при ассоциации контента.

Может ли этот механизм объяснить, почему мой контент не отображается в Knowledge Panel автора?

Да. Если ваш контент не был корректно кластеризован в Resource Group, связанный с автором, или если этот Resource Group не был ассоциирован с официальным Profile (который питает Knowledge Panel), контент не будет отображаться. Причиной могут быть неконсистентные сигналы авторства или недостаток авторитетных связей (цитирований).

Как система определяет, какой вариант имени использовать для кластера?

Система использует Name Matching Score и эвристики для анализа различных вариантов имен (например, с инициалами или полные имена), встречающихся в документах кластера. Она пытается найти наилучшее совпадение и может нормализовать различные варианты к одному каноническому имени, которое будет ассоциировано с Resource Group.

Похожие патенты

Как Google ранжирует сущности (например, людей с одинаковыми именами) с помощью кластеризации, контекстной авторитетности и персонализации
Google использует систему двухуровневого ранжирования для обработки неоднозначных запросов (например, имен людей). Сначала ресурсы группируются в кластеры, представляющие разные сущности. Ресурсы внутри кластера ранжируются на основе их качества и авторитетности внутри этого кластера. Затем сами кластеры ранжируются с учетом релевантности запросу и сильной персонализации (социальные связи и местоположение пользователя).
  • US8645393B1
  • 2014-02-04
  • Персонализация

  • Семантика и интент

  • SERP

Как Google использует сущности, онтологии и векторные представления для кластеризации и организации поисковой выдачи
Google использует этот механизм для структурирования поисковой выдачи по широким запросам. Система группирует результаты в кластеры на основе их связи с сущностями из Базы Знаний. Для объединения кластеров используются онтологические связи (иерархия, синонимы) и векторная близость (embedding similarity). Система параллельно тестирует несколько алгоритмов и выбирает наилучшую структуру SERP на основе метрик качества (покрытие, баланс, пересечение, силуэт).
  • US10496691B1
  • 2019-12-03
  • SERP

  • Семантика и интент

  • Knowledge Graph

Как Google определяет, когда показывать обогащенный результат для сущности, и использует консенсус веба для исправления данных
Google использует механизм для определения того, когда запрос явно относится к конкретной сущности (например, книге). Если один результат значительно доминирует над другими по релевантности, система активирует «обогащенный результат». Этот результат агрегирует данные из разных источников (структурированные данные, веб-страницы, каталоги товаров) и использует наиболее популярные варианты данных из интернета для проверки и исправления информации о сущности.
  • US8577897B2
  • 2013-11-05
  • SERP

  • Семантика и интент

  • EEAT и качество

Как Google оценивает качество новостных источников, кластеризует статьи и ранжирует новости на основе свежести, оригинальности и авторитетности
Детальный разбор основополагающего патента Google News. Система оценивает источники по скорости реакции на события, оригинальности контента и авторитетности (ссылки, просмотры). Новостные сюжеты (кластеры) ранжируются по свежести и качеству источников. Статьи внутри сюжета сортируются с использованием «Модифицированной оценки свежести», которая дает значительное преимущество авторитетным изданиям.
  • US7568148B1
  • 2009-07-28
  • Свежесть контента

  • EEAT и качество

Как Google идентифицирует и ранжирует людей, связанных с запросом, и различает однофамильцев с помощью контекста
Google использует механизм для определения людей, наиболее релевантных поисковому запросу. Система анализирует контекст вокруг имен в документах, используя «термины классификации» (например, должности, локации, email), чтобы сгруппировать упоминания и различить людей с одинаковыми именами (дисамбигуация). Это позволяет точно идентифицировать сущности и организовать выдачу вокруг них.
  • US9245022B2
  • 2016-01-26
  • Семантика и интент

  • Индексация

  • SERP

Популярные патенты

Как Google интегрирует поиск в инструменты создания контента и использует распространение ссылок для расчета репутации автора
Google разработал систему (UDS), интегрирующую поиск в инструменты создания контента (Email, блоги, форумы). Система автоматически уточняет запросы на основе контекста и профилей пользователей. Если автор вставляет ссылку, а читатель кликает по ней, Google использует это взаимодействие для расчета «оценки репутации» автора и как поведенческий сигнал качества контента.
  • US7844603B2
  • 2010-11-30
  • Ссылки

  • Поведенческие сигналы

  • EEAT и качество

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google интерпретирует последовательные запросы для автоматического уточнения поискового намерения пользователя
Google использует механизм для понимания контекста сессии, анализируя последовательные запросы (например, Q1: [рестораны в Москве], затем Q2: [итальянские]). Система автоматически объединяет их в уточненный запрос (Q3: [итальянские рестораны в Москве]), основываясь на исторических данных о том, как пользователи обычно уточняют запросы. Это позволяет системе лучше понимать намерение пользователя в диалоговом режиме.
  • US9116952B1
  • 2015-08-25
  • Семантика и интент

  • Поведенческие сигналы

Как Google предсказывает намерения пользователя и выполняет поиск до ввода запроса (Predictive Search)
Google использует механизм для прогнозирования тем, интересующих пользователя в конкретный момент времени, основываясь на его истории и контексте. При обнаружении сигнала о намерении начать поиск (например, открытие страницы поиска), система проактивно выполняет запрос по предсказанной теме и мгновенно показывает результаты или перенаправляет пользователя на релевантный ресурс.
  • US8510285B1
  • 2013-08-13
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google динамически изменяет вес синонимов в ранжировании на основе поведения пользователей
Google не присваивает фиксированный вес синонимам (замещающим терминам) при ранжировании. Вес синонима динамически корректируется для каждого документа в зависимости от того, насколько релевантен исходный термин запроса этому документу. Эта релевантность определяется на основе поведенческих данных (клики, время просмотра), что позволяет точнее интерпретировать значение синонимов в контексте конкретной страницы.
  • US9116957B1
  • 2015-08-25
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий
Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.
  • US7840407B2
  • 2010-11-23
  • Поведенческие сигналы

  • Семантика и интент

  • Структура сайта

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования
Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.
  • US7933890B2
  • 2011-04-26
  • Структура сайта

  • Техническое SEO

  • Индексация

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов
Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.
  • US8495483B1
  • 2013-07-23
  • Индексация

  • Ссылки

  • SERP

Как Google определяет связанность документов с использованием Co-citation, анализа текста вокруг ссылок и паттернов пользовательского доступа
Google использует методы для ограничения результатов поиска на основе заданного контекста (например, набора URL-адресов или категории). Патент детализирует, как система определяет «связанность» между документами, используя такие методы, как анализ совместного цитирования (co-citation), анализ текста, окружающего ссылки в цитирующих документах, и анализ корреляции паттернов доступа пользователей.
  • US7305380B1
  • 2007-12-04
  • Ссылки

  • SERP

  • Поведенческие сигналы

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

seohardcore