Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

FINDING AND DISAMBIGUATING REFERENCES TO ENTITIES ON WEB PAGES (Поиск и устранение неоднозначности ссылок на сущности на веб-страницах)

US8122026B1
Google LLC
2006-10-20
2012-02-21

Google использует итеративный процесс для распознавания и устранения неоднозначности сущностей (людей, мест, понятий) в документах. Система начинает с известных фактов, находит упоминающие сущность документы, анализирует сопутствующие термины для уточнения модели распознавания и автоматически обнаруживает новые признаки. Патент также описывает расчет важности сущности путем суммирования PageRank ссылающихся документов, взвешенного на вероятность ссылки.

Какую проблему решает

Патент решает фундаментальную проблему обработки информации: неоднозначность (Ambiguity) имен и терминов. Он описывает механизм, позволяющий поисковой системе различать разные сущности с одинаковыми именами (например, "Ягуар" как животное и "Ягуар" как автомобиль) и точно определять (Disambiguation), о какой именно сущности идет речь в конкретном документе. Это улучшает точность сбора данных о сущностях и организацию информации.

Что запатентовано

Запатентована система и метод итеративного устранения неоднозначности ссылок на сущности в документах. Система использует процесс бутстрэппинга (итеративного обучения): она начинает с базовой модели распознавания, основанной на известных признаках (Features) сущности, идентифицирует набор релевантных документов, а затем анализирует эти документы для выявления часто встречающихся паттернов. На основе этого анализа строится уточненная модель (subsequent model), и процесс повторяется. Система также рассчитывает оценку важности (importance) сущности.

Как это работает

Ключевой механизм — это итеративное уточнение модели:

Инициализация: Система начинает с известных признаков сущности (например, фактов из Fact Repository) и базовой модели (First Model).
Идентификация: Используя текущую модель, система находит набор документов, вероятно ссылающихся на сущность.
Анализ и Уточнение: Система анализирует частоту встречаемости различных признаков в этом наборе. Признаки, которые часто встречаются в этих документах, но редко в остальном корпусе (дискриминативные признаки), получают больший вес. Создается уточненная модель.
Итерация и Обучение: Процесс повторяется. Система может обнаруживать новые признаки, часто связанные с сущностью, и добавлять их в модель.
Расчет Важности: Система рассчитывает важность сущности (Entity Importance), суммируя показатели важности ссылающихся документов (явно упоминается PageRank), взвешенные на вероятность того, что документ действительно ссылается на эту сущность.

Актуальность для SEO

Высокая. Распознавание именованных сущностей (NER) и устранение неоднозначности (NED) являются краеугольными камнями современного семантического поиска, работы Knowledge Graph и алгоритмов, таких как MUM и BERT. Описанные принципы итеративного обучения и анализа сопутствующих признаков (co-occurrence) остаются фундаментальными для понимания того, как Google интерпретирует контент и определяет авторитетность сущностей (E-E-A-T).

Важность для SEO

Патент имеет критическое значение для SEO (9/10). Он описывает базовые механизмы, с помощью которых Google понимает, о чем именно ваша страница и какие сущности на ней представлены. Понимание процесса дисамбигуации позволяет оптимизаторам стратегически использовать сопутствующие признаки (related features) для обеспечения правильной интерпретации контента. Кроме того, патент явно связывает PageRank документа с расчетом важности самой сущности, подтверждая, что ссылочный авторитет напрямую влияет на значимость сущностей (брендов, авторов) в глазах Google.

Термины и определения

Disambiguation Engine (Механизм устранения неоднозначности): Компонент системы, который рассчитывает вероятность того, что документ ссылается на конкретную сущность, используя итеративные модели.
Entity (Сущность): Конкретный объект, человек, место или концепция (например, Майкл Джексон – певец), который система пытается идентифицировать и отличить от других сущностей с тем же именем.
Fact Repository (Репозиторий фактов): База данных, хранящая фактическую информацию, извлеченную из документов. Факты связаны с сущностями через Object ID. Функциональный аналог Knowledge Graph.
Feature (Признак): Любое свойство, которое может быть представлено в документе и связано с сущностью. Это могут быть факты (дата рождения, профессия), имена, текст, n-граммы, изображения, метаданные, URL источника и т.д.
Importance (Важность сущности): Метрика значимости сущности. Рассчитывается на основе количества и качества (например, PageRank) документов, ссылающихся на нее.
Model (Модель): Набор правил или вероятностная модель, определяющая комбинацию признаков, достаточную для идентификации документа, ссылающегося на конкретную сущность. Модель определяет вероятность ссылки на сущность при наличии определенного набора признаков.
PageRank: Метрика важности документа. Явно используется в патенте как свойство документа (Property of document) для расчета важности сущности.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной итеративный метод идентификации документов, ссылающихся на сущность, и обнаружения новых признаков.

Система идентифицирует первый набор документов, используя Первую Модель (first model) и Первый Набор Признаков (first set of features). Модель определяет, какие комбинации признаков достаточны для идентификации.
Система определяет Вторую Модель (second model) на основе анализа признаков, найденных в первом наборе документов. (Этап уточнения понимания того, какие признаки лучше всего идентифицируют сущность).
Система идентифицирует второй набор документов, используя Вторую Модель.
Система идентифицирует Второй Набор Признаков (потенциально новые признаки) на основе анализа второго набора документов.
Система определяет, связаны ли эти новые признаки с сущностью.
Если ДА, система использует эти новые признаки (и Третью Модель) для идентификации третьего набора документов.

Ядро изобретения — это итеративный процесс обучения (бутстрэппинг), который позволяет системе одновременно уточнять модель дисамбигуации и автоматически обнаруживать новые релевантные признаки (features) для сущности на основе анализа корпуса документов.

Claim 4 (Зависимый от 1): Уточняет механизм определения второй модели.

Определение второй модели включает определение количества вхождений (number of occurrences) первого набора признаков в первом наборе документов. Это указывает на статистический анализ, где частота признаков используется для обучения или уточнения весов в модели.

Claim 8, 9, 10 (Зависимые от 1): Описывают расчет важности сущности.

Важность (importance) сущности оценивается на основе второго набора документов (Claim 8). Эта оценка может базироваться на количестве документов (Claim 9) или на оценке важности самих этих документов (Claim 10), например, их PageRank.

Где и как применяется

Изобретение в первую очередь применяется на этапах анализа данных для построения и уточнения базы знаний Google (Fact Repository или Knowledge Graph).

INDEXING – Индексирование и извлечение признаков
Это основной этап применения. Система извлекает признаки из документов. Описанный механизм (Disambiguation Engine) затем обрабатывает эти данные для устранения неоднозначности сущностей и связывания фактов с правильными Object ID. Это процесс аннотирования контента и его связи с семантической базой данных. Также на этом этапе рассчитывается и обновляется Entity Importance.

RANKING / RERANKING – Ранжирование и Переранжирование
Результаты работы этого алгоритма напрямую влияют на ранжирование:

Понимание контента: Точная идентификация сущностей на странице необходима для оценки ее релевантности запросу.
Сигналы E-E-A-T: Правильная идентификация авторов и организаций критична для оценки авторитетности.
Важность сущности: Рассчитанная оценка важности сущности, основанная на PageRank, может использоваться как сигнал ранжирования или для определения приоритета показа сущности в Knowledge Panel.

Входные данные:

Набор документов (веб-страницы, базы данных и т.д.).
Начальный набор признаков (фактов), связанных с сущностью.
Свойства документов (например, PageRank).

Выходные данные:

Вероятность того, что документ ссылается на сущность.
Уточненные модели для распознавания сущности.
Новые признаки/факты, связанные с сущностью.
Оценка важности сущности (Entity Importance).

На что влияет

Специфические запросы: Наибольшее влияние на информационные запросы, связанные с сущностями, имеющими общие имена (например, запросы о людях, географических названиях, названиях компаний или продуктов).
Конкретные ниши: Критически важно в YMYL-тематиках для правильной идентификации экспертов, организаций и медицинских понятий, где точность идентификации сущности влияет на оценку E-E-A-T.

Когда применяется

Алгоритм применяется в процессе обработки и анализа индекса (офлайн или во время индексации) для построения и обновления Fact Repository. Он активируется, когда необходимо обработать документы, содержащие неоднозначные ссылки на сущности, или когда система стремится расширить знания о конкретной сущности и оценить ее важность. Итеративный процесс останавливается при достижении сходимости (стабилизации модели), исчерпания ресурсов или по достижении заданного числа итераций.

Пошаговый алгоритм

Процесс итеративного распознавания и обучения (Бутстрэппинг).

Инициализация: Выбор Сущности E. Загрузка известных Признаков F1 (например, имя, дата рождения, профессия). Определение начальной Модели M1 (например, "документ релевантен, если содержит Имя + любой другой Признак").
Первичная Идентификация: Поиск и идентификация первого набора документов D1, которые удовлетворяют условиям M1 на основе F1.
Анализ Признаков и Уточнение Модели:
- Анализ частоты встречаемости всех признаков в наборе D1.
- Сравнение этой частоты с частотой встречаемости признаков во всем корпусе документов.
- Выявление дискриминативных признаков (часто встречаются в D1, редко в остальном корпусе).
- Создание уточненной Модели M2, где дискриминативным признакам присваивается больший вес.
Вторичная Идентификация: Поиск и идентификация второго набора документов D2, используя Модель M2. Этот набор более точен, чем D1.
Обнаружение Новых Признаков (Опционально): Идентификация признаков, которые часто встречаются в D2, но еще не входят в F1. Валидация этих новых признаков и добавление их в набор (формирование F2).
Итерация: Повторение шагов 3-5 с использованием обновленных моделей и наборов признаков до достижения сходимости.
Расчет Важности Сущности: Для финального набора идентифицированных документов рассчитывается Важность Сущности (I). В описании патента приводится формула:

Итеративное обучение для понимания сущностей: Google не полагается на фиксированный набор фактов. Система активно и итеративно учится распознавать сущности, анализируя, какие признаки (features) надежно появляются вместе (co-occurrence) в документах, посвященных этой сущности.
Автоматическое расширение знаний (Бутстрэппинг): Механизм позволяет автоматически обнаруживать новые признаки и ассоциации для сущности (Claim 1), расширяя Fact Repository без ручного вмешательства, основываясь на статистических паттернах в контенте.
Важность сущности напрямую зависит от PageRank: Это критически важное подтверждение. Важность сущности (Entity Importance) рассчитывается не просто по количеству упоминаний, а как сумма PageRank документов, которые на нее ссылаются, взвешенная на вероятность того, что ссылка действительно релевантна. Ссылочный авторитет напрямую влияет на значимость сущности.
Контекст и сопутствующие признаки (Co-occurrence) критичны: Для устранения неоднозначности система оценивает весь набор сопутствующих признаков в документе. Признаки, которые являются дискриминативными (уникальными для сущности), имеют наибольший вес.
Гибкое сопоставление и неявные признаки: Система использует не только точное совпадение текста, но и гибкие методы (синонимы, учет опечаток). Также источник (домен) документа может служить неявным признаком контекста.

Best practices (это мы делаем)

Создание семантического кокона (Semantic Richness): При упоминании ключевой сущности (бренда, продукта, автора) необходимо последовательно включать дискриминативные признаки: связанные факты, атрибуты и контекстуально релевантные термины. Это создает надежный паттерн сопутствующих признаков (co-occurrence pattern), который помогает модели правильно идентифицировать сущность.
Стратегическое наращивание авторитета (PageRank для Сущностей): Поскольку PageRank документа напрямую используется для расчета Entity Importance, необходимо активно работать над получением качественных обратных ссылок на страницы, где упоминаются ваши ключевые сущности. Авторитетные ссылки повышают не только позиции страницы, но и значимость самой сущности в глазах Google.
Обеспечение четкой идентификации сущностей: Используйте полные имена, добавляйте дескрипторы (например, "компания Apple" вместо просто "Apple"). Применяйте микроразметку Schema.org (Person, Organization) и используйте свойство sameAs для связи с авторитетными источниками (например, Wikidata), чтобы предоставить системе надежные начальные признаки.
Использование домена как признака: Если ваш домен сильно связан с определенной тематикой (например, сайт о спорте), это может служить неявным признаком для сущностей, обсуждаемых на нем, помогая в дисамбигуации.

Worst practices (это делать не надо)

Неоднозначные ссылки без контекста: Упоминание сущности без достаточного количества сопутствующих дискриминативных признаков. Система может не понять, о чем речь, или связать упоминание с неправильной (часто более доминирующей) сущностью.
Тонкий контент (Thin Content): Создание страниц, сфокусированных только на имени сущности без связанных фактов и деталей. Такие страницы не предоставляют достаточного количества Features для работы алгоритма дисамбигуации.
Смешивание контекстов: Создание контента, который смешивает признаки разных сущностей с одним и тем же именем (например, писать о городе Париж и упоминать признаки Пэрис Хилтон). Это запутает модель и снизит вероятность правильной идентификации.
Игнорирование ссылочного профиля при работе над E-E-A-T: Попытки улучшить восприятие автора или бренда (сущностей) только за счет контентных факторов, игнорируя необходимость в авторитетных ссылках (PageRank), противоречат механизму расчета Entity Importance, описанному в патенте.

Стратегическое значение

Патент подтверждает стратегическую важность Entity-based SEO. Он демонстрирует, что понимание контента Google основано на статистическом анализе связей между сущностями и их признаками. Ключевое стратегическое значение имеет прямая связь между традиционным ссылочным авторитетом (PageRank) и семантическим весом (Entity Importance). Это означает, что классический линкбилдинг и работа над E-E-A-T являются синергетическими: ссылки придают вес сущностям, а контент определяет связи между ними.

Практические примеры

Сценарий: Устранение неоднозначности для названия бренда

Задача: Убедиться, что Google правильно идентифицирует упоминания компании "Аврора" (Aurora), занимающейся беспилотными автомобилями, и отличает ее от "Аврора" (Aurora) – природного явления.

Действие (Контент): На страницах компании SEO-специалист обеспечивает постоянное присутствие сильных дискриминативных признаков: "беспилотный транспорт", "технологии LiDAR", "Крис Урмсон" (CEO), "партнерство с Uber".
Как это работает (Алгоритм): В процессе итеративного обучения система замечает, что эти признаки надежно коррелируют с документами о компании и редко встречаются в документах о природном явлении. Модель обновляется, присваивая этим признакам высокий вес.
Действие (Линкбилдинг): Компания получает ссылки с авторитетных технологических изданий (TechCrunch, Wired) на эти страницы.
Как это работает (Алгоритм): Система рассчитывает Entity Importance компании. Она берет PageRank страниц TechCrunch и Wired, умножает его на высокую вероятность того, что эти страницы ссылаются на компанию (благодаря сильным признакам), и суммирует результат.
Ожидаемый результат: Важность сущности (компании) растет. Google уверенно различает компанию и природное явление в поиске и с большей вероятностью покажет компанию в Knowledge Panel по релевантным запросам.

Как этот патент связан с PageRank и ссылочным продвижением?

Связь прямая и критически важная. Патент явно описывает формулу расчета важности сущности (Entity Importance), которая суммирует PageRank документов, ссылающихся на эту сущность, взвешенный на вероятность того, что документ действительно о ней. Это означает, что авторитетные обратные ссылки напрямую увеличивают значимость ваших сущностей (бренда, авторов) в глазах Google, что является фундаментальным аспектом E-E-A-T.

Что такое "итеративное обучение" или "бутстрэппинг" в контексте этого патента?

Это процесс, при котором Google постоянно уточняет свое понимание сущности. Система начинает с базового предположения о том, какие документы релевантны сущности, затем анализирует эти документы, чтобы найти общие паттерны и признаки (Features), и использует эти находки для создания более точной модели распознавания. Этот цикл повторяется многократно, позволяя системе самообучаться и адаптироваться.

Как система определяет, какие признаки (Features) важны для сущности?

Важность определяется статистически в процессе итеративного обучения. Система сравнивает частоту появления признака в документах, предположительно посвященных сущности, с частотой его появления во всем корпусе документов. Если признак часто встречается в релевантных документах и редко в остальных (дискриминативный признак), он считается сильным индикатором этой сущности и получает больший вес в модели.

Может ли система автоматически узнать новые факты о сущности?

Да. Патент (Claim 1) описывает механизм, позволяющий идентифицировать новые признаки, которые часто встречаются в документах, посвященных сущности. Если эти новые признаки проходят валидацию (система определяет, что они действительно связаны с сущностью), они могут быть добавлены в Fact Repository (Граф Знаний) и использоваться в последующих итерациях распознавания.

Как SEO-специалисту использовать знание о важности сопутствующих признаков (co-occurrence)?

Необходимо обеспечить семантическую полноту контента. При упоминании основной сущности окружайте ее контекстом: связанными фактами, датами, именами, терминами и атрибутами, которые являются дискриминативными для нее. Это создает надежный и последовательный паттерн признаков, который помогает Disambiguation Engine правильно идентифицировать сущность и классифицировать вашу страницу как высокорелевантную.

Учитывает ли система опечатки или разные названия одной и той же сущности?

Да. Патент указывает на использование гибких методов сопоставления признаков (Feature Matching). Сюда входят кластеризация строк, оценка близости, синонимия, семантические категории и модели расстояния редактирования для учета типографских ошибок. Это позволяет системе понять, что разные варианты написания могут относиться к одной и той же сущности.

Влияет ли источник (домен) документа на распознавание сущности?

Да, патент явно упоминает это. Домен, с которого получен документ, может рассматриваться как неявный признак (implicit feature). Например, документ с сайта espn.com может быть неявно связан с признаком "спорт", даже если это слово отсутствует в тексте. Это помогает в устранении неоднозначности.

Что важнее для этого алгоритма: количество упоминаний сущности или качество этих упоминаний?

Качество упоминаний и авторитетность источников имеют решающее значение. Важность сущности рассчитывается с учетом PageRank источника и вероятности того, что упоминание действительно релевантно (что зависит от наличия дискриминативных признаков). Одно упоминание на авторитетном сайте с четким контекстом даст больший вклад в Entity Importance, чем множество упоминаний на низкокачественных сайтах.

Как этот патент связан с Knowledge Graph?

Этот патент описывает фундаментальные механизмы, необходимые для построения и поддержания Knowledge Graph (называемого в патенте Fact Repository). Процессы устранения неоднозначности гарантируют, что факты привязываются к правильным сущностям, а механизм обнаружения новых признаков позволяет автоматически расширять граф новыми знаниями, извлеченными из веба.

Применяется ли этот алгоритм в реальном времени при обработке запроса?

Патент описывает процесс анализа данных и построения моделей, который, скорее всего, происходит офлайн или во время индексации. Однако результаты этой работы — уточненные данные о сущностях, их признаках и их важности — сохраняются в Fact Repository и используются системой ранжирования в реальном времени для интерпретации запросов и оценки релевантности документов.

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google связывает изображения с семантическими сущностями для устранения неоднозначности в поиске по картинкам

Google использует систему для понимания того, что именно изображено на картинке, связывая её с конкретной семантической сущностью (например, статьей в Wikipedia или Freebase). Это позволяет устранить неоднозначность (понимать разницу между «Ягуаром» машиной и животным) и предоставлять более точные результаты при поиске по изображению (например, в Google Lens).

US9171018B2
2015-10-27

Семантика и интент
Knowledge Graph
Мультимедиа

Как Google выбирает сущность для Панели Знаний и решает, когда ее показывать, основываясь на топикальности SERP и CTR

Google использует этот механизм для решения двух задач: выбора наиболее релевантной сущности для Панели Знаний при неоднозначном запросе и определения необходимости показа самой панели. Система анализирует, насколько сущности соответствуют контенту топовых результатов поиска (Topicality Score). Показ панели активируется, если у органических результатов низкий CTR (что указывает на неудовлетворенность пользователей) или если у Google достаточно данных для ее заполнения.

US10922326B2
2021-02-16

Knowledge Graph
SERP
Семантика и интент

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью

Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.

US9348945B2
2016-05-24

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует атрибуты сущностей для генерации «Дополненных запросов» и уточнения поиска

Google использует механизм для помощи в исследовании тем, связанных с сущностями (люди, места, продукты). Система распознает сущность в запросе, определяет ее ключевые атрибуты (анализируя результаты поиска или Knowledge Graph) и автоматически генерирует список предлагаемых «дополненных запросов» (Сущность + Атрибут). Это позволяет пользователю одним кликом запустить новый, более сфокусированный поиск по теме.

US10055462B2
2018-08-21

Семантика и интент
Knowledge Graph
SERP

Как Google кластеризует похожие страницы, анализируя, куда пользователи переходят дальше (Co-visitation)

Google анализирует навигационные пути пользователей для определения схожести документов. Если после просмотра Страницы А и Страницы Б пользователи часто переходят к одному и тому же набору последующих страниц, Google считает Страницу А и Страницу Б похожими и объединяет их в кластер. Этот механизм позволяет определять тематическую близость на основе поведения пользователей.

US8650196B1
2014-02-11

Поведенческие сигналы
SERP
Семантика и интент

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google переносит авторитетность бренда и описательные термины между страницами одного сайта для улучшения ранжирования

Google использует механизмы для улучшения релевантности страниц путем переноса сигналов внутри сайта. Система распространяет "авторитетные" термины (например, бренд) с главной страницы на внутренние разделы и, наоборот, поднимает "высокоописательные" термины (например, адреса, категории, уникальные слова) с внутренних страниц на главную. Это позволяет ранжировать наиболее подходящую страницу сайта, даже если нужные ключевые слова на ней отсутствуют.

US7933890B2
2011-04-26

Структура сайта
Техническое SEO
Индексация

Как Google персонализирует поисковую выдачу, анализируя историю кликов и поведение пользователя на сайте

Google использует механизм для персонализации поисковой выдачи на основе истории взаимодействия пользователя с результатами поиска. Система отслеживает, какие сайты пользователь выбирает, как долго он на них остается (Dwell Time), частоту и контекст выбора. Основываясь на этих данных, предпочитаемые пользователем ресурсы повышаются в ранжировании при его последующих запросах.

US9037581B1
2015-05-19

Персонализация
Поведенческие сигналы
SERP

Как Google использует реальные данные о скорости загрузки страниц (RUM) для повышения быстрых и понижения медленных сайтов в выдаче

Google собирает данные о времени загрузки страниц у реальных пользователей (RUM) и использует их для корректировки ранжирования. Система сравнивает скорость сайта с глобальными порогами, основанными на процентилях. Если сайт медленнее большинства других (например, медленнее 85% или 96%), его рейтинг понижается. Очень быстрые сайты могут получать повышение. Оценка скорости учитывает географию и тип устройства пользователя.

US8645362B1
2014-02-04

Техническое SEO
Поведенческие сигналы
SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками

Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.

US8375025B1
2013-02-12

Мультиязычность
Поведенческие сигналы
Персонализация

Как Google использует личную историю поиска и профиль интересов для персонализации подсказок Autocomplete

Google персонализирует поисковые подсказки (Autocomplete), используя профиль интересов пользователя, созданный на основе его прошлых запросов и кликов. Система сравнивает тематику потенциальных подсказок с интересами пользователя и повышает в списке те варианты, которые соответствуют его предпочтениям, с учетом актуальности этих интересов.

US20140108445A1
2014-04-17

Персонализация
Поведенческие сигналы
Семантика и интент

Как Google использует историю поиска и браузинга для персонализации выдачи и определения предпочтений пользователя

Google записывает и анализирует историю действий пользователя: запросы, клики по результатам и рекламе, посещенные страницы. Система группирует связанные действия в сессии, определяет "Предпочитаемые локации" на основе частоты и времени визитов (stay-time), и использует эту историю для изменения порядка ранжирования, повышая позиции ранее посещенных сайтов в персональной выдаче.

US20060224583A1
2006-10-05

Персонализация
Поведенческие сигналы

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google использует гибридную классификацию и данные о кликах пользователей для точного определения тематики контента

Google использует многоэтапный процесс для классификации контента в детальные иерархические категории. Система комбинирует традиционные методы классификации с анализом поисковых запросов и кликов пользователей (подтвержденных результатов поиска). Это позволяет точно определить узкоспециализированную тематику документа, фильтруя нерелевантные категории и взвешивая релевантность на основе TF-IDF и глубины иерархии.

US8145636B1
2012-03-27

Семантика и интент
Поведенческие сигналы

Как Google итеративно распознает сущности на страницах и рассчитывает их важность с помощью PageRank

Описание