Как Google использует NLP, Proximity Score и Query Score для извлечения сущностей и приоритизации контента на основе структуры текста и контекста пользователя

IDENTIFICATION AND PRESENTATION OF INTERNET-ACCESSIBLE CONTENT ASSOCIATED WITH CURRENTLY PLAYING TELEVISION PROGRAMS (Идентификация и представление доступного через Интернет контента, связанного с текущими телевизионными программами)

US9788055B2
Google LLC
2013-03-14
2017-10-10

Патент детально описывает, как Google анализирует текстовые описания, извлекает ключевые именные группы (Noun Phrases/сущности) и превращает их в поисковые запросы. Система ранжирует результаты, используя «Proximity Score» (порядок появления в тексте) и «Query Score» (контекст пользователя), что дает критическое понимание влияния структуры текста на интерпретацию контента.

Какую проблему решает

Патент решает две основные задачи. Первая (инфраструктурная) — идентификация воспроизводимого медиаконтента (например, телепрограммы) без прямого API-доступа к устройству-источнику (Set-Top Box), используя OCR для чтения экранных оверлеев. Вторая (релевантная для SEO) — автоматическое определение и приоритизация наиболее важных тем в описании медиа для генерации релевантных связанных поисковых запросов в интернете.

Что запатентовано

Запатентована система для анализа текстовых описаний и генерации приоритизированных поисковых запросов. Система использует конвейер NLP для извлечения именных групп (Noun Phrases) из текста. Результаты поиска по этим фразам оцениваются и ранжируются с использованием комбинации двух ключевых метрик: Proximity Score (оценка близости), основанной на порядке появления фразы в исходном тексте, и Query Score (оценка запроса), основанной на контексте пользователя.

Как это работает

Хотя часть патента посвящена извлечению текста через OCR с экрана ТВ, ключевой механизм для SEO заключается в обработке этого текста:

Очистка текста: Удаляются данные о показе (время, канал, шаблонный текст) для выделения описательных фраз (Descriptive Phrases).
Извлечение NLP: Из описательных фраз извлекаются именные группы (Noun Phrases), часто путем сравнения с известными сущностями.
Генерация запросов: Лучшие именные группы становятся ключевыми фразами (Keyword Phrases) для поиска.
Скоринг и Ранжирование: Результаты поиска оцениваются. Рассчитывается Proximity Score (порядок появления в исходном тексте) и Query Score (персонализация/контекст). Итоговый Relevance Score является их произведением.

Актуальность для SEO

Средняя. Инфраструктурная часть (OCR для чтения ТВ-меню) менее актуальна в 2025 году. Однако описанный NLP-конвейер для преобразования описаний в приоритизированные запросы остается высоко актуальным. Он дает критически важное представление о том, как Google может автоматически оценивать относительную важность сущностей в тексте на основе порядка их упоминания.

Важность для SEO

Патент имеет важное значение для SEO-стратегии (7/10). Он не описывает основные алгоритмы ранжирования веб-поиска, но предоставляет конкретный blueprint того, как Google анализирует описательный текст для выявления и приоритизации ключевых концепций (именных групп/сущностей). Он явно подчеркивает важность порядка появления информации (Proximity Score) и релевантности концепций для истории пользователя (Query Score), что критически важно для архитектуры текста и Entity SEO.

Термины и определения

Descriptive Phrases (Описательные фразы): Сегменты текста, оставшиеся после удаления Program Showing Data. Содержат основную семантическую информацию о контенте.
Keyword Phrases (Ключевые фразы): Определенное пороговое количество Noun Phrases, выбранных в качестве поисковых запросов.
Noun Phrases (Именные группы / Сущности): Фразы, извлеченные из Descriptive Phrases с помощью NLP или сопоставления с известными именами (known proper names). Являются основными семантическими единицами.
OCR (Optical Character Recognition): Оптическое распознавание символов. В данном патенте — метод извлечения текста из изображения экрана.
Program Showing Data (Данные о показе программы): Метаданные, связанные с трансляцией, а не с содержанием: время, дата, название станции, шаблонные данные (boilerplate data). Эти данные удаляются при анализе.
Proximity Score (Оценка близости): Метрика, присваиваемая каждой Keyword Phrase на основе порядка ее появления (order of appearance) в исходном тексте.
Query Score (Оценка запроса): Метрика, присваиваемая результатам поиска, основанная на контекстуальных данных: местоположении (location data), истории поиска (search history) и предпочтениях пользователя (user preferences).
Relevance Score (Оценка релевантности): Итоговая оценка, используемая для ранжирования результатов. Вычисляется путем умножения Query Score на соответствующий Proximity Score.
Text Overlay (Текстовый оверлей): Информационная панель на экране ТВ, содержащая информацию о программе.

Ключевые утверждения (Анализ Claims)

Патент содержит много утверждений, связанных с аппаратной интеграцией (OCR). Ниже приведен анализ Claims, наиболее релевантных для NLP и SEO.

Claim 1 (Независимый пункт): Описывает общую систему идентификации и поиска контента.

Система получает запрос на поиск контента, связанного с медиапрограммой.
Система получает изображение экрана и анализирует его на наличие информационного оверлея.
При наличии оверлея извлекает текст.
Генерирует поисковые термины из извлеченного текста.
Выполняет интернет-поиск и передает результаты на устройство отображения.

Ядром является автоматизированный процесс генерации релевантных поисковых запросов на основе анализа контекстного текста.

Claim 11 (Зависимый от 1): Детализирует процесс генерации поисковых терминов.

Идентификация именных групп (Noun Phrases) в извлеченном тексте.
Выбор порогового количества именных групп в качестве поисковых терминов.

Это подтверждает, что именные группы (сущности) являются основными семантическими единицами для генерации запросов.

Claim 12 и 13 (Зависимые от 11): Детализируют процесс идентификации именных групп.

Процесс включает удаление Program Showing Data для получения Descriptive Phrases. Затем Noun Phrases идентифицируются путем удаления глаголов (Claim 12) или путем сравнения сегментов текста с известными названиями шоу, фильмов, спортивных событий и именами собственными (Claim 13).

Claim 17 (Зависимый от 16): Детализирует механизм оценки (Scoring) результатов поиска. Это ключевое утверждение для SEO.

Категоризация результатов поиска.
Присвоение Query Score (на основе местоположения, истории поиска и предпочтений пользователя).
Присвоение Proximity Score каждой именной группе (поисковому термину) на основе порядка ее появления в извлеченном тексте.
Умножение Query Score на соответствующий Proximity Score для получения Relevance Score.

Эта формула определяет логику ранжирования связанного контента, явно используя структуру исходного текста (порядок появления) и персонализацию/контекст.

Где и как применяется

Хотя изобретение описано в контексте клиентского устройства (Smart TV), описанные принципы NLP и ранжирования имеют более широкое применение в архитектуре поиска.

INDEXING – Индексирование и извлечение признаков
Описанные NLP-техники (идентификация и приоритизация именных групп на основе порядка появления) напрямую связаны с тем, как поисковые системы анализируют контент во время индексации для понимания основных тем документа и относительной важности упомянутых сущностей.

QUNDERSTANDING – Понимание Запросов
Патент напрямую описывает методы Генерации Запросов (Query Generation). Система берет блок текста и преобразует его в набор приоритизированных поисковых запросов (Keyword Phrases), используя NLP для извлечения сущностей.

RANKING / RERANKING – Ранжирование
Патент описывает конкретный алгоритм ранжирования для найденного контента. Механизм оценки (Relevance Score = Query Score * Proximity Score) демонстрирует принципы, которые Google использует для определения релевантности: важность порядка упоминания в источнике и важность персонализации.

Входные данные:

Текст, извлеченный из источника.
Данные о известных сущностях (known proper names).
Эвристики поиска (Search Heuristics) с сервера.
Контекст пользователя (местоположение, история, предпочтения).

Выходные данные:

Набор приоритизированных поисковых запросов (Keyword Phrases).
Отсортированный список результатов поиска с рассчитанными Relevance Scores.

На что влияет

Структура контента: Влияет на то, как должна быть структурирована информация. Патент предполагает, что порядок упоминания сущностей в тексте влияет на их воспринимаемую важность (Proximity Score).
Типы контента: Наибольшее влияние на контент, содержащий описательные блоки текста (статьи, обзоры, описания продуктов), где необходимо выделить и приоритизировать ключевые сущности.
Пользовательские факторы: Система явно учитывает персонализацию (Query Score) при определении финальной релевантности.

Когда применяется

В контексте патента алгоритм применяется для автоматического поиска связанного контента для медиапрограммы.

В более широком контексте SEO эти принципы NLP применяются всякий раз, когда Google необходимо понять темы и их приоритет в блоке текста, например, при индексации, для генерации связанных поисков (Related Searches) или определения основной тематики страницы.

Пошаговый алгоритм

Детальный алгоритм анализа текста и ранжирования результатов (на основе FIG. 10):

Сегментация и Очистка: Исходный текст анализируется для идентификации Описательных Фраз (Descriptive Phrases). Для этого из текста удаляются Данные о показе программы (Program Showing Data) — время, дата, канал, шаблонные данные.
Семантическое Извлечение: В Descriptive Phrases идентифицируются Именные Группы (Noun Phrases). Используется NLP и сравнение с известными сущностями.
Приоритизация и Выбор: Пороговое количество Noun Phrases выбирается в качестве Ключевых Фраз (Keyword Phrases) для поиска.
Уточнение (Опционально): Keyword Phrases уточняются (исправление ошибок, сверка с известными именами или эвристиками).
Выполнение Поиска: Выполняется интернет-поиск по каждой из Keyword Phrases.
Категоризация: Результаты поиска для каждой фразы категоризируются (например, веб-страница, новость, изображение).
Расчет Query Score: Топовым результатам поиска присваивается Query Score. Эта оценка учитывает контекст пользователя (местоположение, историю, предпочтения).
Расчет Proximity Score: Каждой Keyword Phrase присваивается Proximity Score на основе порядка ее появления в исходном тексте.
Расчет Relevance Score: Соответствующие Query Scores умножаются на Proximity Scores для получения итоговой Оценки Релевантности (Relevance Score).
Ранжирование и Представление: Результаты сортируются на основе Relevance Scores и представляются пользователю.

Какие данные и как использует

Данные на входе

Контентные и Структурные факторы: Используется сырой текст описания. Критически важна структура и порядок слов в этом тексте, так как они определяют Proximity Score.
Пользовательские факторы: Местоположение пользователя (location data), история поиска (search history) и предпочтения пользователя (user preferences) используются для расчета Query Score.
Системные данные:
- Известные имена и сущности (known proper names, названия шоу, фильмов) используются для идентификации и уточнения Noun Phrases.
- Эвристики поиска (Search Heuristics), предоставленные сервером.

Какие метрики используются и как они считаются

Идентификация Noun Phrases: Используются методы NLP и сопоставление с базой известных сущностей.
Query Score: Метрика, основанная на контексте пользователя (история, местоположение, предпочтения).
Proximity Score: Метрика, основанная на порядке появления (order of appearance) ключевой фразы в исходном тексте. Фразы, появившиеся раньше, получают более высокий балл.
Relevance Score: Итоговая оценка ранжирования. Формула расчета: $\text{Relevance Score} = \text{Query Score} \times \text{Proximity Score}$ .

Именные группы (Сущности) как основа семантики: Патент подтверждает, что Noun Phrases являются основными семантическими единицами, которые Google извлекает из текста для понимания его сути и генерации связанных запросов. Это фундамент Entity SEO.
Порядок появления имеет значение (Proximity Score): Это одно из самых важных открытий для SEO. Патент явно указывает, что порядок появления фразы в тексте используется для расчета Proximity Score. Концепции, упомянутые ранее в тексте, считаются более приоритетными.
Важность очистки текста: Система активно удаляет нерелевантные данные (шаблонный текст, служебную информацию), чтобы сфокусироваться на чистых описательных фразах (Descriptive Phrases).
Контекст и персонализация (Query Score): Релевантность концепции не абсолютна. Она зависит от контекста пользователя (история, местоположение), что отражено в Query Score.
Мультипликативная модель ранжирования (R=Q*P): Итоговый рейтинг (Relevance Score) является произведением контекстуальной релевантности (Query Score) и текстуальной значимости (Proximity Score). Обе составляющие должны быть высокими для достижения топа.

Best practices (это мы делаем)

Применение принципа «Перевернутой Пирамиды»: Структурируйте контент так, чтобы наиболее важные сущности и выводы упоминались в самом начале текста (заголовок, лид, первый абзац). Proximity Score явно использует порядок появления как сигнал важности.
Фокус на Entity SEO и именных фразах: Сосредоточьтесь на четком и недвусмысленном описании ключевых сущностей (Noun Phrases). Убедитесь, что система может легко идентифицировать их и сопоставить с Графом Знаний.
Написание четких и описательных текстов: Создавайте контент, богатый Descriptive Phrases. Оптимизируйте описания (Descriptions/Snippets), делая их краткими и емкими, чтобы системы автоматического анализа могли эффективно их обработать.
Минимизация шаблонов в основном контенте: Убедитесь, что основной текст не перегружен шаблонными элементами (boilerplate), которые могут быть отфильтрованы как шум (аналог Program Showing Data) и снизить плотность полезных описательных фраз.

Worst practices (это делать не надо)

«Закапывание» ключевых концепций: Размещение важных сущностей и выводов глубоко в тексте или только в конце документа. Это приведет к низкому Proximity Score для этих концепций при автоматическом анализе.
"Водянистые" тексты без явных сущностей: Контент, перегруженный общими фразами и глаголами, но бедный конкретными именными фразами, будет плохо обрабатываться системами автоматического извлечения сущностей.
Игнорирование контекста пользователя: Создание универсального контента без учета локализации и персонализации. Query Score показывает, что эти факторы критичны для финального ранжирования.

Стратегическое значение

Патент подтверждает стратегическую зависимость Google от NLP и извлечения сущностей для понимания тематики контента. Он предоставляет редкое явное упоминание того, как текстуальная структура (порядок появления) преобразуется в количественную оценку (Proximity Score), используемую при ранжировании. Это подчеркивает, что для Senior SEO-специалистов архитектура информации на странице является не просто вопросом UX, а прямым фактором, влияющим на интерпретацию контента поисковой системой.

Практические примеры

Сценарий: Анализ описания и генерация запросов (на основе примера из патента)

Пример текста из EPG (Electronic Program Guide), упомянутый в патенте: "The Price Is Right 10:00 AM-11:00 AM TV-G Contestants bid for prizes then compete for fabulous showcases."

Процесс анализа:

Извлечение текста: Система получает весь текст.
Фильтрация (Удаление Program Showing Data): Удаляются "10:00 AM-11:00 AM" и "TV-G".
Получение Descriptive Phrases: Остается "The Price Is Right" и "Contestants bid for prizes then compete for fabulous showcases."
Идентификация Noun Phrases (NLP): Система выделяет сущности: "The Price Is Right", "Contestants", "prizes", "fabulous showcases".
Присвоение Proximity Score (Пример весов):
- The Price Is Right (1.0) - упомянуто первым.
- Contestants (0.9)
- prizes (0.8)
- fabulous showcases (0.7) - упомянуто последним.
Генерация Keyword Phrases (Запросов): Система инициирует 4 интернет-поиска по этим фразам.
Результат: Пользователю показываются результаты по запросу "The Price Is Right" с наивысшим приоритетом из-за максимального Proximity Score (при прочих равных Query Score).

Что такое Proximity Score и почему он важен для SEO?

Proximity Score — это метрика, основанная на порядке появления (order of appearance) ключевой фразы в исходном тексте. Согласно патенту, она используется для определения важности этой фразы. Для SEO это означает, что концепции и сущности, упомянутые раньше в тексте, считаются более приоритетными. Это подчеркивает важность использования структуры «Перевернутой пирамиды» в контенте.

Как рассчитывается итоговая оценка Relevance Score?

Relevance Score рассчитывается путем умножения двух метрик: Query Score и Proximity Score. Query Score отражает релевантность результата контексту пользователя (история, местоположение), а Proximity Score отражает важность термина в исходном тексте (порядок появления). Для высокого ранжирования необходимы высокие значения обеих метрик.

Что патент говорит об использовании Noun Phrases (Именных групп)?

Патент определяет Noun Phrases как основные семантические единицы, извлекаемые из текста. Именно они становятся кандидатами для генерации поисковых запросов (Keyword Phrases). Это подтверждает стратегию SEO, ориентированную на сущности (Entities) и четкое описание концепций, а не просто на отдельные ключевые слова.

Влияет ли этот патент на основное ранжирование в Google Поиске?

Патент описывает ранжирование связанного контента в контексте интерактивного ТВ, а не основное ранжирование веб-страниц. Однако используемые принципы (важность порядка упоминания Proximity Score, извлечение Noun Phrases) являются фундаментальными для NLP и, вероятно, применяются Google в различных системах для понимания контента и его релевантности.

Что такое Program Showing Data и Descriptive Phrases?

Program Showing Data — это метаданные, не связанные с содержанием (время, дата, канал, шаблонный текст). Система удаляет их, чтобы получить Descriptive Phrases — чистый описательный текст, который затем анализируется с помощью NLP. Для SEO это означает, что система стремится отделить основное содержание от навигационных или шаблонных элементов.

Как система определяет Noun Phrases?

Патент упоминает несколько методов. Один включает удаление глаголов из Descriptive Phrases. Другой, более важный метод (Claim 13), заключается в сравнении сегментов текста с известными именами собственными (названиями шоу, фильмов, именами людей). Это указывает на использование комбинации лингвистического анализа и данных из Графа Знаний (Knowledge Graph).

Что такое Query Score и как на него повлиять?

Query Score основан на местоположении пользователя, истории поиска и его предпочтениях. Это показатель персонализации. Напрямую повлиять на него сложно, но создание контента, который широко релевантен для целевой аудитории и соответствует ее типичным интересам и интентам, может косвенно улучшить этот показатель.

Какова роль OCR и захвата экрана в этом патенте?

OCR и захват экрана являются инфраструктурной частью патента, решающей проблему получения данных от закрытых систем (Set-Top Boxes) в контексте ТВ. Для веб-SEO эта часть не имеет прямого значения. Ценность патента для SEO заключается в том, как система обрабатывает текст *после* его получения.

Как использовать информацию о Proximity Score при написании статей?

Необходимо размещать ключевые выводы, основные сущности и ответы на главные вопросы пользователя как можно ближе к началу текста. Введение и первый абзац должны четко определять основную тему и самые важные связанные концепции, чтобы максимизировать их Proximity Score.

Каков главный вывод для SEO-стратегии из этого патента?

Главный вывод — необходимость фокуса на сущностях (именных фразах) и структуре контента. Важно не только то, какие сущности упомянуты, но и то, где они расположены в тексте. Контент, оптимизированный с учетом Proximity Score (важное в начале), будет интерпретироваться как более авторитетный по этим темам.

Как Google использует анализ видео и аудио для построения графов зависимостей между эпизодами сериализованного контента

Google анализирует медиаконтент (например, эпизоды сериалов или обучающих курсов), чтобы автоматически понять, какие эпизоды связаны между собой. Изучая фрагменты повторов, транскрипты и визуальные элементы (включая распознавание лиц), система строит «Граф Зависимостей». Это позволяет рекомендовать пользователям необходимые для понимания предыдущие эпизоды, улучшая организацию и потребление сериализованного контента.

US9558407B1
2017-01-31

Мультимедиа
Семантика и интент
Персонализация

Как Google использует контент на экране пользователя для понимания и переписывания неоднозначных запросов

Google использует механизм для понимания неоднозначных запросов (например, «Что это?»), анализируя то, что пользователь видит на экране своего устройства. Система определяет основное изображение, распознает объекты на нем и анализирует окружающий текст. Затем, используя эту информацию и историю поиска пользователя, она переписывает исходный запрос в конкретный поисковый запрос.

US10565256B2
2020-02-18

Семантика и интент
Мультимедиа
Персонализация

Как Google использует консенсус между сайтами для валидации ключевых слов и ранжирования изображений и видео

Google агрегирует описания (метки) изображения или видео со всех сайтов, где этот контент размещен. Чтобы метка была принята как надежная («Final Label») и использовалась для ранжирования, она должна подтверждаться несколькими независимыми группами источников (консенсус). Этот механизм двойной группировки (по домену и по смыслу) снижает влияние спама и значительно повышает релевантность поиска медиаконтента.

US8275771B1
2012-09-25

Антиспам
Семантика и интент
Мультимедиа

Как Google использует изображения и видео на экране пользователя для уточнения неоднозначных поисковых запросов

Google может анализировать активные нетекстовые данные (изображения или видео), отображаемые на устройстве пользователя в момент ввода запроса. Если запрос неоднозначен (например, содержит местоимения или общие фразы), система извлекает из визуального контента сущности, текст (через OCR) или структурированные данные (QR-коды) и использует их для автоматической модификации запроса, чтобы лучше понять намерение пользователя и предоставить точные результаты или инициировать действия.

US9830391B1
2017-11-28

Семантика и интент
Мультимедиа
Персонализация

Как Google анализирует видимый контент на экране пользователя для предоставления контекстной информации без ввода запроса (Contextual Search)

Google использует механизм для анализа контента, активно отображаемого на экране устройства (веб-страницы, приложения, чаты). По общему триггеру (например, долгое нажатие или жест) система идентифицирует ключевые сущности только в видимой области. Она определяет их важность на основе визуального представления (размер, цвет, позиция) и типа контента, причем логика определения важности адаптируется (например, в чате приоритет у недавних сообщений внизу экрана).

US11003667B1
2021-05-11

Семантика и интент
Knowledge Graph

Как Google использует историю местоположений для определения физической активности пользователя и гиперперсонализации поиска

Google анализирует историю перемещений пользователя (местоположения и скорость), чтобы определить его текущую физическую активность (например, поход, шоппинг) и способ передвижения (например, пешком, на автобусе). Эта информация используется для радикальной персонализации: система корректирует ранжирование результатов, изменяет запросы и формирует подсказки, чтобы они соответствовали контексту реальных действий пользователя.

US20150006290A1
2015-01-01

Поведенческие сигналы
Персонализация
Local SEO

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса

Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).

US9195703B1
2015-11-24

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google автоматически определяет связанные домены (например, международные версии сайта) и переранжирует их для повышения локальной релевантности и разнообразия выдачи

Google использует автоматическую систему для идентификации доменов, принадлежащих одной организации (аффилированных доменов), анализируя ссылки между ними и сходство их имен (SLD). Когда в результатах поиска появляется несколько таких доменов, система может понизить или поменять местами их позиции. Это делается для того, чтобы показать пользователю наиболее локально релевантную версию сайта и увеличить разнообразие организаций в топе выдачи.

US9178848B1
2015-11-03

Local SEO
SERP
Ссылки

Как Google использует данные о поведении пользователей для генерации и ранжирования Sitelinks (Дополнительных ссылок сайта)

Патент описывает механизм генерации Sitelinks (дополнительных ссылок под основным результатом поиска). Google анализирует логи доступа пользователей (частоту кликов, время на странице) и другие факторы качества, чтобы определить наиболее важные внутренние страницы сайта. Эти страницы затем отображаются в виде ранжированного списка для ускорения навигации пользователя.

US7996391B2
2011-08-09

Ссылки
Поведенческие сигналы
SERP

Как Google алгоритмически вычисляет и ранжирует экспертов по темам на основе анализа их контента

Google использует систему для автоматического определения экспертности авторов (Identities) в конкретных темах (Topics). Система анализирует корпус документов, оценивая, насколько сильно автор связан с документом (Identity Score) и насколько документ релевантен теме (Topic Score). Эти оценки перемножаются и суммируются по всем документам, формируя итоговый рейтинг экспертности автора в данной области.

US8892549B1
2014-11-18

EEAT и качество
Семантика и интент

Как Google генерирует «синтетический анкорный текст», анализируя структуру и контекст ссылающихся страниц

Google анализирует структурно похожие страницы, ссылающиеся на различные ресурсы. Определяя, где известные поисковые запросы (Seed Queries) появляются в структуре этих ссылающихся страниц (например, в заголовках или Title), Google создает шаблоны. Эти шаблоны затем используются для извлечения текста из аналогичных мест на других страницах, создавая «синтетический описательный текст» (аналог анкорного текста) для целевых ресурсов. Это улучшает ранжирование, даже если фактический анкорный текст низкого качества.

US9208232B1
2015-12-08

Ссылки
Структура сайта
Семантика и интент

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов

Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.

US9009153B2
2015-04-14

Персонализация
Семантика и интент
Поведенческие сигналы

Как Google генерирует блок "Похожие вопросы" (People Also Ask) на основе анализа кликов и поведения пользователей

Google анализирует топовые результаты по исходному запросу и определяет "Тематические запросы" (Topic Sets) — прошлые запросы, по которым пользователи кликали на эти результаты. Затем система ищет популярные вопросы, соответствующие этим темам, фильтрует дубликаты на основе общности кликов и показывает их в блоке PAA для дальнейшего исследования темы.

US9213748B1
2015-12-15

SERP
Семантика и интент
Поведенческие сигналы

Как Google использует язык интерфейса пользователя и поведенческие сигналы для определения языковой релевантности документа

Google определяет, для носителей каких языков релевантен документ, анализируя агрегированные данные о кликах. Система изучает, какой языковой интерфейс поиска (например, google.fr или google.de) использовали пользователи, кликнувшие на результат. Учитывая поведенческие факторы, такие как время пребывания на странице (Dwell Time) и позиция клика, Google рассчитывает Оценку Языковой Релевантности. Это позволяет определить целевую аудиторию страницы независимо от языка ее контента.

US9208231B1
2015-12-08

Мультиязычность
Поведенческие сигналы
SERP

Как Google использует данные веб-поиска и клики пользователей для классификации бизнесов и построения иерархии категорий

Google анализирует логи веб-поиска (введенные ключевые слова и последующие клики по результатам), чтобы понять, как пользователи интуитивно классифицируют бизнесы. Эти данные используются для автоматического построения динамической иерархической структуры категорий. Эта структура затем применяется для улучшения точности поиска, в частности, для оптимизации моделей распознавания речи в голосовых системах.

US7840407B2
2010-11-23

Поведенческие сигналы
Семантика и интент
Структура сайта