SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

SYSTEMS AND METHODS FOR IDENTIFYING A NAMED ENTITY (Системы и методы идентификации именованной сущности)
  • US9009153B2
  • Google LLC
  • 2004-03-31
  • 2015-04-14
  • Персонализация
  • Семантика и интент
  • Поведенческие сигналы
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

Описание

Какую проблему решает

Патент решает проблему доступа к релевантной информации без необходимости явного поискового запроса. Пользователи часто не ищут информацию, которая могла бы быть им полезна, потому что они забывают о ее существовании (например, в старых письмах или локальных файлах) или не хотят отвлекаться от текущей задачи для формулирования запроса. Система направлена на проактивное предоставление этой информации на основе текущего контекста пользователя.

Что запатентовано

Запатентована система для генерации имплицитных (фоновых) поисковых запросов (implicit search query). Ядром изобретения является механизм идентификации и использования «именованных сущностей» (Named Entities). Система отслеживает контекст пользователя (события), идентифицирует в нем значимые сущности (имена людей, конкретные темы, email-адреса) и автоматически формирует поисковые запросы на их основе.

Как это работает

Система функционирует в двух основных режимах:

  • Построение списка сущностей: Система анализирует данные пользователя (email, историю сообщений, документы), чтобы создать и поддерживать список именованных сущностей (Named Entity List). Сущностям присваивается вес (Weight Attribute), отражающий их значимость.
  • Генерация имплицитных запросов: Система отслеживает текущие действия пользователя (Events), такие как набор текста или чтение письма. Она идентифицирует именованные сущности в этом контексте. Затем формируется имплицитный запрос, в котором больший приоритет отдается сущностям с более высоким весом. Запрос выполняется (в локальном или глобальном индексе), и результаты проактивно показываются пользователю.

Актуальность для SEO

Высокая. Технологии распознавания именованных сущностей (NER), описанные в патенте, являются фундаментальными для современного поиска и понимания языка (NLP). Хотя патент описывает применение этих технологий в контексте имплицитного поиска (например, Google Desktop или ранние версии проактивных ассистентов), сами методы NER критически важны для работы Knowledge Graph и семантического анализа контента в основном поиске Google.

Важность для SEO

Влияние на SEO косвенное, но значительное (6/10). Патент не описывает алгоритмы ранжирования основного веб-поиска. Однако он детально раскрывает методы, которые Google использует для идентификации, извлечения и приоритизации сущностей (NER). Понимание того, как Google определяет Named Entities (используя частотность, часть речи, капитализацию и т.д.), критически важно для оптимизации контента под Knowledge Graph и обеспечения правильной интерпретации тематики сайта.

Детальный разбор

Термины и определения

Article (Статья/Документ)
Любой элемент контента, с которым взаимодействует пользователь: документ word processor, email, веб-страница, файл PDF, аудио/видео файл и т.д.
Event (Событие)
Действие пользователя или системное событие, фиксируемое системой. События используются для определения текущего контекста пользователя. Делятся на Contextual Events (краткосрочные, например, последние набранные слова) и Real-time Events (более значимые, например, открытие файла).
Implicit Search Query (Имплицитный поисковый запрос)
Поисковый запрос, сгенерированный системой автоматически на основе контекста пользователя, без явного ввода запроса пользователем.
Named Entity (Именованная сущность)
Термин, фраза или идентификатор, который система определила как релевантный или значимый. Примеры: имена людей, email-адреса, названия организаций, конкретные темы или часто используемые фразы.
Named Entity List (Список именованных сущностей)
Коллекция идентифицированных именованных сущностей, часто хранимая в оперативной памяти (например, в виде хэш-таблицы) для быстрого доступа.
Part of Speech (PoS) Tagging (Разметка частей речи)
Процесс анализа текста и определения грамматической роли каждого слова (существительное, глагол, прилагательное и т.д.). Используется для более точного извлечения сущностей.
TF-IDF (Term Frequency-Inverse Document Frequency)
Метрики, используемые для оценки важности слова. TF (частота термина в документе) и IDF (обратная частота документа – насколько редко слово встречается в корпусе документов). Слова с низким IDF (частые слова) часто игнорируются, а слова с высоким IDF могут быть идентифицированы как сущности.
Weight Attribute (Атрибут веса)
Числовое значение, присваиваемое именованной сущности, указывающее на вероятность того, что данный термин действительно является значимой сущностью. Используется для приоритизации при генерации запросов.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод генерации имплицитного запроса на основе взвешенных сущностей.

  1. Система определяет коллекцию именованных сущностей (named entity terms) в хранилище данных, связанных с пользователем. Каждой сущности присвоен вес (associated weight), указывающий на вероятность того, что это значимая сущность.
  2. Идентифицируется событие (event), представляющее собой взаимодействие пользователя с документом (article).
  3. В рамках этого события идентифицируется набор именованных сущностей.
  4. Для каждой идентифицированной сущности извлекается ее вес из коллекции.
  5. Автоматически создается имплицитный поисковый запрос (implicit search query) на основе сущностей и их весов. Запрос формируется так, что он в большей степени зависит от сущностей с высоким весом (более высокая вероятность значимости), чем от сущностей с низким весом.
  6. Генерируются результаты поиска, релевантные этому запросу.
  7. Результаты предоставляются для отображения.

Claim 15 (Независимый пункт): Описывает схожий процесс с фокусом на пороговые значения для отображения результатов.

  1. Система определяет коллекцию взвешенных именованных сущностей.
  2. Получается событие, связанное с взаимодействием пользователя с документом.
  3. Идентифицируются сущности в событии и их веса.
  4. Автоматически создается имплицитный запрос, приоритизирующий сущности с более высоким весом.
  5. Запрос передается поисковой системе.
  6. Получается набор результатов (result set).
  7. Результаты выводятся пользователю только в том случае, если связанная с ними оценка (associated score, например, релевантность) превышает определенный порог.

Где и как применяется

Важно понимать, что этот патент описывает систему для имплицитного (контекстного) поиска, которая часто работает на стороне клиента (например, в браузере или как отдельное приложение) и использует персонализированные данные. Однако описанные технологии (NER) применяются и в основном веб-поиске Google.

INDEXING – Индексирование и извлечение признаков

  • Персонализированное индексирование: Система индексирует локальные данные пользователя (письма, документы, историю IM) для построения персонализированного Named Entity List. Используются методы NLP, такие как PoS Tagging и расчет IDF, для идентификации значимых сущностей.
  • Веб-индексирование (Технология): Методы NER, описанные в патенте (идентификация имен, организаций, редких терминов), используются Google при индексировании веб-контента для извлечения сущностей и их связи с Knowledge Graph.

QUNDERSTANDING – Понимание Запросов

  • Имплицитные запросы: Основное применение патента. Система анализирует текущий контекст (Event), извлекает из него Named Entities, используя Named Entity List, и формирует имплицитный запрос.

RANKING и RERANKING

  • Ранжирование имплицитных результатов: Система выполняет сгенерированный запрос и ранжирует результаты. Ранжирование может учитывать персонализированные сигналы и вес сущностей, инициировавших запрос. Результаты фильтруются по порогу релевантности (Claim 15).

Входные данные:

  • Текущие события пользователя (Events): набранный текст, открытый документ, полученное сообщение.
  • Named Entity List с весами (Weight Attribute).
  • Корпус документов пользователя (для расчета IDF и построения списка сущностей).

Выходные данные:

  • Имплицитный поисковый запрос.
  • Набор результатов поиска, отфильтрованный по релевантности.

На что влияет

  • Типы контента: Влияет на все типы контента, с которыми взаимодействует пользователь (emails, документы, веб-страницы). Особенно эффективно для контента с четко выраженными сущностями (имена, адреса, специфические темы).
  • Персонализация: Патент напрямую связан с персонализацией поиска, так как Named Entity List часто строится на основе личных данных пользователя.

Когда применяется

  • Триггеры активации: Система активируется при возникновении событий (Events). Это может быть набор определенного количества слов, завершение предложения (ввод знака препинания), открытие нового документа, получение email или сообщения в мессенджере.
  • Условия: Применяется, когда система может идентифицировать в текущем контексте одну или несколько значимых именованных сущностей из своего списка.

Пошаговый алгоритм

Процесс А: Построение и поддержка Списка Именованных Сущностей (Офлайн/Фоновый режим)

  1. Сбор данных: Анализ корпуса данных пользователя (логи мессенджеров, почтовые ящики, документы, история браузера, списки контактов).
  2. Извлечение кандидатов: Идентификация потенциальных сущностей. Методы включают:
    • Извлечение адресатов/отправителей из полей To/From/Cc/Bcc.
    • Извлечение имен из списков контактов/IM.
    • Использование PoS Tagging для идентификации существительных и имен собственных.
    • Идентификация часто используемых фраз или терминов из явных запросов пользователя.
  3. Фильтрация и Оценка:
    • Расчет частотности (DF или IDF). Фильтрация слишком частых слов (например, общих имен или стоп-слов).
    • Присвоение веса (Weight Attribute) каждой сущности на основе ее типа и значимости для пользователя.
  4. Хранение: Сохранение Named Entity List. Приоритетные сущности хранятся в оперативной памяти (RAM) для быстрого доступа.

Процесс Б: Генерация Имплицитного Запроса (Реальное время)

  1. Получение события: Система фиксирует событие (например, пользователь набирает текст).
  2. Извлечение текста: Извлечение текста, связанного с событием (например, последнее предложение).
  3. Идентификация сущностей: Поиск терминов из текста в Named Entity List.
  4. Формирование запроса: Создание имплицитного поискового запроса на основе найденных сущностей. Запрос взвешивается так, чтобы сущности с большим Weight Attribute имели большее влияние.
  5. Выполнение запроса: Передача запроса поисковой системе (локальной или глобальной).
  6. Обработка результатов: Получение и ранжирование результатов.
  7. Фильтрация и отображение: Применение порога релевантности. Если результаты превышают порог, они отображаются пользователю.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных, связанных с пользователем и его активностью:

  • Контентные факторы: Текст активных документов, электронных писем (включая тему и тело), сообщений мессенджеров, просматриваемых веб-страниц (включая заголовки и текст), имена файлов и директорий, анкорный текст ссылок на просмотренные страницы.
  • Поведенческие факторы: Термины, которые пользователь часто использует в явных поисковых запросах; частота использования определенных терминов в документах; паттерны коммуникации (с кем пользователь часто общается).
  • Пользовательские данные: Списки контактов (Contact lists), списки задач (To-do lists), данные из календаря.
  • Внешние данные: Упоминается возможность загрузки списка сущностей из новостей.

Какие метрики используются и как они считаются

  • Weight Attribute (Вес сущности): Метрика, определяющая значимость сущности. Рассчитывается на основе типа сущности (например, email адрес может иметь больший вес, чем обычное существительное) и ее релевантности пользователю.
  • TF (Term Frequency): Частота термина в конкретном документе или потоке данных.
  • IDF (Inverse Document Frequency): Обратная частота документа. Используется для идентификации редких, а значит, потенциально важных терминов. Патент указывает, что существительные с высоким IDF (т.е. редко встречающиеся в репозитории пользователя) добавляются в список сущностей.
  • DF (Document Frequency): Частота документа. Используется для фильтрации слишком общих слов (высокий DF).
  • Part of Speech (PoS) Tagging: Используется для определения грамматической роли слов. Система может приоритизировать существительные (Nouns) и имена собственные (Proper Nouns).
  • Relevance Score (Оценка релевантности): Используется для фильтрации результатов имплицитного поиска перед показом пользователю (порог).

Выводы

  1. Фокус на распознавании сущностей (NER): Патент демонстрирует ранние, но фундаментальные методы Google для идентификации именованных сущностей. Это подтверждает, что идентификация конкретных объектов (людей, мест, тем) является ключевой задачей поисковой системы.
  2. Приоритет специфичности (IDF): Система активно использует метрику IDF для определения важности термина. Предпочтение отдается более редким и специфичным терминам, а не общим словам. Это подчеркивает важность использования точной терминологии в контенте.
  3. Использование грамматического анализа (PoS Tagging): Google использует разметку частей речи для улучшения качества извлечения сущностей. Система может отличать существительные от глаголов и идентифицировать имена собственные, что требует грамматически правильного и структурированного контента.
  4. Взвешивание сущностей: Не все идентифицированные сущности считаются одинаково важными. Система присваивает им веса (Weight Attribute) и при генерации запросов отдает приоритет более значимым сущностям.
  5. Персонализация как источник сущностей: Патент явно указывает на использование личных данных пользователя (email, контакты, документы) для формирования списка релевантных сущностей. Это подчеркивает важность персонализированного контекста в понимании интента.

Практика

Best practices (это мы делаем)

Хотя патент фокусируется на имплицитном поиске, описанные методы NER имеют прямое отношение к тому, как Google анализирует веб-контент.

  • Четкая идентификация сущностей: Убедитесь, что ключевые сущности вашего контента (названия продуктов, имена людей, организации, локации) представлены ясно и недвусмысленно. Используйте имена собственные и последовательную терминологию.
  • Фокус на специфичных терминах (Высокий IDF): При создании контента используйте точную и специфичную для ниши терминологию. Патент показывает, что термины с высоким IDF (более редкие) с большей вероятностью будут идентифицированы как значимые сущности.
  • Использование правильной грамматической структуры: Пишите ясно и грамматически корректно. Использование PoS Tagging означает, что система анализирует структуру предложений для идентификации сущностей (например, определяя существительные и имена собственные по контексту и капитализации).
  • Оптимизация под Knowledge Graph: Применяйте микроразметку Schema.org для явного указания сущностей и их связей. Это помогает системам NER, подобным описанной, корректно интерпретировать контент.

Worst practices (это делать не надо)

  • Использование неоднозначных терминов: Использование терминов, которые могут быть интерпретированы по-разному или имеют множество значений, затрудняет идентификацию конкретной Named Entity.
  • Фокус только на общих запросах (Низкий IDF): Оптимизация исключительно под высокочастотные общие запросы может привести к тому, что контент не будет ассоциирован с конкретными значимыми сущностями.
  • Неструктурированный и грамматически некорректный текст: Текст, написанный с ошибками или в виде сплошного потока без четкой структуры, усложняет работу алгоритмов PoS Tagging и снижает эффективность извлечения сущностей.

Стратегическое значение

Этот патент подтверждает стратегическую важность Named Entity Recognition (NER) в экосистеме Google. Успех в современном SEO напрямую зависит от способности структурировать информацию таким образом, чтобы поисковые системы могли легко идентифицировать ключевые сущности и их атрибуты. Стратегия должна быть направлена на построение семантического кокона и четкое определение тематики сайта через связанные сущности, а не просто набор ключевых слов.

Практические примеры

Сценарий: Оптимизация страницы биографии эксперта

Цель – обеспечить точное извлечение сущностей, связанных с экспертом.

  1. Действие: Убедиться, что полное имя эксперта (Имя Собственное) используется последовательно и выделено (например, в H1).
  2. Обоснование (Патент): Система использует капитализацию и PoS Tagging для идентификации имен собственных как Named Entities.
  3. Действие: Четко указать названия организаций, с которыми связан эксперт (места работы, университеты).
  4. Обоснование (Патент): Названия организаций являются ключевыми Named Entities.
  5. Действие: Использовать специфическую профессиональную терминологию для описания области экспертизы (например, "Специалист по Information Retrieval" вместо "Эксперт по поиску").
  6. Обоснование (Патент): Специфичные термины имеют более высокий IDF и с большей вероятностью будут идентифицированы как значимые сущности, определяющие тематику.
  7. Ожидаемый результат: Поисковая система более точно идентифицирует ключевые сущности на странице, что способствует улучшению позиций по запросам, связанным с этими сущностями, и повышает вероятность попадания в Knowledge Graph.

Вопросы и ответы

Описывает ли этот патент алгоритмы ранжирования основного веб-поиска Google?

Нет, этот патент описывает систему для имплицитного (проактивного) поиска, которая работает на основе текущего контекста пользователя и часто использует персонализированные данные. Он не описывает, как Google ранжирует веб-сайты в ответ на явные запросы на google.com. Однако он описывает технологии (NER), которые используются и в основном поиске.

Что такое «Именованная сущность» (Named Entity) согласно этому патенту?

Это термин, фраза или идентификатор, который система считает значимым. К ним относятся имена людей, email-адреса, "buddy names" в мессенджерах, названия организаций, а также часто используемые пользователем фразы или редкие термины (с высоким IDF), идентифицированные как существительные.

Как система определяет, какие сущности важнее?

Каждой сущности присваивается вес (Weight Attribute). Этот вес указывает на вероятность того, что термин является значимой сущностью. При генерации имплицитного запроса система отдает приоритет сущностям с более высоким весом (Claim 1).

Что такое PoS Tagging и почему это важно для SEO?

Part of Speech (PoS) Tagging — это процесс определения части речи для каждого слова в тексте (существительное, глагол и т.д.). Это важно для SEO, потому что Google использует этот анализ для более точного извлечения сущностей. Грамматически правильный и четко структурированный контент облегчает этот процесс и помогает поисковой системе лучше понять смысл текста.

Какова роль IDF (Inverse Document Frequency) в этом патенте?

IDF играет ключевую роль в идентификации сущностей. Система ищет термины (особенно существительные), которые редко встречаются в общем корпусе документов (высокий IDF). Такие редкие термины часто являются специфичными и значимыми, поэтому они добавляются в Named Entity List. Для SEO это означает важность использования точной и нишевой терминологии.

Использует ли Google мои личные данные (email, контакты) для этого?

Да, согласно патенту, система имплицитного поиска активно анализирует электронную почту, списки контактов, логи мессенджеров и локальные документы для построения персонализированного списка именованных сущностей (Named Entity List), релевантных конкретному пользователю.

Как этот патент связан с Knowledge Graph?

Патент описывает базовые технологии Named Entity Recognition (NER), которые необходимы для наполнения Knowledge Graph. Методы идентификации имен собственных, организаций и специфических тем, описанные здесь, используются для извлечения фактов из веб-контента и их последующего сохранения в базе знаний.

Стоит ли использовать очень редкие слова в контенте, чтобы они были распознаны как сущности?

Использование точной и специфичной терминологии (которая часто имеет высокий IDF) полезно для определения тематики контента. Однако это должны быть релевантные термины, понятные вашей целевой аудитории, а не искусственно вставленные редкие слова. Важен баланс между специфичностью и читабельностью.

Влияет ли капитализация слов на распознавание сущностей?

Да. Патент упоминает, что капитализация может использоваться в сочетании с PoS Tagging для идентификации имен собственных. Например, слово, которое обычно является глаголом, но написано с заглавной буквы в середине предложения, может быть интерпретировано как имя собственное (сущность).

Как SEO-специалисту применить знания из этого патента на практике?

Необходимо сосредоточиться на семантической оптимизации. Это включает четкое определение ключевых сущностей в контенте, использование специфичной терминологии (высокий IDF), поддержание правильной грамматической структуры для помощи PoS Tagging и использование микроразметки для явного указания сущностей.

Похожие патенты

Как Google автоматически категоризирует локальный контент и историю пользователя для контекстного поиска по неявным запросам
Патент Google, описывающий технологию для локального (Desktop) или персонализированного поиска. Система отслеживает взаимодействие пользователя с контентом (события) и использует «схемы событий» для автоматической категоризации файлов, электронных писем и истории просмотров. Эти категории затем используются для предоставления релевантных результатов в ответ на неявные запросы, генерируемые системой на основе текущего контекста пользователя.
  • US7788274B1
  • 2010-08-31
  • Персонализация

  • Поведенческие сигналы

  • Local SEO

Как Google персонализирует рекомендации популярных запросов на основе истории поиска и браузинга пользователя
Google анализирует глобальные тренды поисковых запросов и сопоставляет их с индивидуальной историей пользователя (посещенные сайты, прошлые запросы, категории интересов). Если популярный запрос соответствует выявленным интересам пользователя, он будет рекомендован. Система также применяет фильтры, исключающие запросы, которые пользователь вводил недавно.
  • US9443022B2
  • 2016-09-13
  • Персонализация

  • Поведенческие сигналы

  • Свежесть контента

Как Google определяет сущности (например, болезни) по списку признаков (например, симптомов) в запросе пользователя
Google использует различные методы для ответа на запросы, содержащие список признаков (атрибутов), но не называющие саму сущность. Система определяет, какой тип сущности ищет пользователь (например, медицинское состояние по симптомам), и идентифицирует наиболее релевантные сущности. Для этого анализируется частота упоминания сущностей в результатах поиска по исходному запросу или используются специально сгенерированные комбинированные запросы.
  • US8843466B1
  • 2014-09-23
  • Семантика и интент

  • Knowledge Graph

  • Индексация

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов
Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.
  • US7664734B2
  • 2010-02-16
  • Поведенческие сигналы

  • Персонализация

  • Семантика и интент

Как Google использует распознавание сущностей в тексте (например, в email) для отображения персонализированного медиаконтента и социальных действий
Google анализирует текст (например, электронные письма) для идентификации медиа-сущностей (фильмов, книг, музыки). Система автоматически отображает связанный контент, ссылки для покупки и персонализированную информацию, включая активность социальных связей пользователя. Это демонстрирует возможности Google в извлечении сущностей из неструктурированного текста и их связи с действиями и социальным графом.
  • US9430447B1
  • 2016-08-30
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Популярные патенты

Как Google использует консенсус источников для выбора и валидации фактов в Knowledge Graph и прямых ответах
Система Google для выбора наилучшего ответа на фактические запросы. Она оценивает потенциальные ответы из разных источников и вычисляет «Оценку Поддержки» (Supported Score) на основе их согласованности. Факт отображается, только если он значительно превосходит противоречащие и несвязанные данные, обеспечивая высокую точность ответа.
  • US7953720B1
  • 2011-05-31
  • Knowledge Graph

  • EEAT и качество

  • Семантика и интент

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа
Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.
  • US9208231B1
  • 2015-12-08
  • Мультиязычность

  • Поведенческие сигналы

  • SERP

Как Google использует фразы и тематические кластеры из истории пользователя для персонализации результатов поиска
Google может строить модель интересов пользователя, анализируя семантически значимые фразы и тематические кластеры в контенте, который пользователь потребляет (просматривает, сохраняет, печатает). При последующих запросах система повышает в ранжировании те документы, которые содержат фразы, одновременно релевантные запросу и присутствующие в профиле интересов пользователя.
  • US7580929B2
  • 2009-08-25
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи
Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).
  • US9298777B2
  • 2016-03-29
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google фильтрует поведенческие сигналы, используя совместимость языков и стран пользователей
Google уточняет ранжирование, анализируя, откуда (страна) и на каком языке (язык пользователя) поступали исторические клики по документу. Если эти характеристики считаются «несовместимыми» с текущим пользователем, поведенческие сигналы (клики) от этих групп могут быть исключены или понижены в весе. Это предотвращает искажение релевантности данными от кардинально отличающихся аудиторий.
  • US8498974B1
  • 2013-07-30
  • Поведенческие сигналы

  • Мультиязычность

  • Персонализация

Как Google использует персонализированный PageRank ссылающихся страниц для переоценки значимости анкорного текста
Google может персонализировать поисковую выдачу, изменяя вес анкорного текста ссылок. Вес ссылки зависит не от глобального PageRank ссылающейся страницы, а от её "персонализированного PageRank", рассчитанного на основе предпочтений пользователя (например, любимых сайтов или тематик). Это позволяет повышать в выдаче документы, на которые ссылаются авторитетные для конкретного пользователя источники.
  • US7260573B1
  • 2007-08-21
  • Персонализация

  • Ссылки

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google динамически переоценивает значимость факторов ранжирования, основываясь на их надежности в контексте конкретной выдачи
Google использует механизм для повышения качества ранжирования путем анализа надежности (Trustworthiness) различных факторов, влияющих на позицию документа. Если система обнаруживает значительную разницу в надежности сигналов среди результатов поиска, она снижает влияние менее достоверных факторов. Это гарантирует, что документы, получившие высокие оценки за счет ненадежных или легко манипулируемых сигналов, не будут ранжироваться выше документов с более достоверными показателями качества и релевантности.
  • US9623119B1
  • 2017-04-18
  • EEAT и качество

  • Поведенческие сигналы

  • SERP

Как Google использует организационные структуры (папки, ярлыки) как ссылки для расчета PageRank и ранжирования документов
Google может анализировать, как документы организованы пользователями (например, в папках, через ярлыки или закладки), и использовать эти организационные структуры для расчета рейтинга документа. Документы, концептуально сгруппированные вместе, передают друг другу ранжирующий вес (аналогично PageRank), причем более тесные связи (например, в одной папке) передают больше веса, чем более слабые связи (например, в соседних папках).
  • US8090736B1
  • 2012-01-03
  • Ссылки

  • SERP

  • Структура сайта

seohardcore