Автор: Виктор Репин

Google отказывается от фиксированных идентификаторов сущностей. Вместо этого сущность (например, бизнес) определяется как «Кластер неизменяемых Наблюдений». Система собирает данные из разных источников и использует «Контекст» (например, NAP) для сопоставления новых данных с нужным кластером. «Система Суммаризации» постоянно определяет текущее состояние сущности, разрешая конфликты и адаптируясь к изменениям, таким как переезд бизнеса.

Google использует систему Reinforcement Learning для динамической адаптации поисковых процессов. Система анализирует поисковые сессии (последовательности запросов и кликов) и учится оптимизировать выдачу, чтобы пользователь быстрее находил нужный результат. Это достигается путем корректировки весов факторов ранжирования, переписывания запросов или даже обновления индекса на лету для конкретных ситуаций.

Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.

Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет «точку зрения» пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.

Google анализирует, с какими рекламными объявлениями (и их ключевыми словами) пользователи взаимодействуют при просмотре видео. Если реклама с определенными ключевыми словами показывает высокую эффективность (CTR), эти ключевые слова ассоциируются с видео. Затем эти тематики могут распространяться на другие похожие видео (например, на том же канале).

Патент Google, описывающий систему ранжирования каналов на видеохостингах (например, YouTube). Система определяет «качество» канала на основе поведения пользователей, в частности, используя данные об оттоке подписчиков (subscriber churn) и вовлеченности. При поиске система модифицирует результаты, повышая позиции качественных каналов, даже если они менее релевантны ключевым словам запроса.

Google использует многоуровневую систему персонализации. Сначала органическая выдача адаптируется под интересы пользователя (User Profile). Затем контент этой персонализированной выдачи анализируется для создания Профиля Поиска (Search Profile). Именно этот профиль, отражающий контекст результатов, используется для выбора релевантной рекламы, а не только исходный запрос.

Google использует механизм для корректировки поисковой выдачи на основе поведения групп пользователей (популяций), к которым принадлежит автор запроса. Система анализирует данные о кликах (clickthrough data) конкретной популяции (например, пользователи из определенной страны, демографической группы или с общими интересами) и повышает в ранжировании те документы, которые эта группа выбирает чаще. Это позволяет персонализировать результаты, делая их более релевантными для контекста пользователя.

Google генерирует блок «Связанные вопросы» (PAA), определяя, какие прошлые запросы приводили пользователей на те же URL, что и текущий запрос. Для обеспечения разнообразия система использует «Граф вопросов», где семантически близкие вопросы (те, по которым кликают на одинаковые результаты) группируются, позволяя выбрать и показать только лучший вариант из группы.

Google использует механизм для динамического обогащения результатов поиска, особенно при навигационных запросах. Система анализирует сущности (продукты, категории) на целевом сайте и сравнивает их с известными интересами пользователя и текущими трендами. При совпадении Google отображает персонализированные прямые ссылки (например, динамические Sitelinks) на эти конкретные разделы или товары прямо в выдаче.

Google использует механизм для уточнения ранжирования изображений путем перекрестной проверки поведенческих сигналов (например, кликов) и данных о визуальном сходстве. Если изображение часто выбирается пользователями И визуально похоже на другие релевантные изображения по этому запросу (условие ко-релевантности), его позиция значительно повышается. Это позволяет валидировать надежность кликов с помощью визуальных данных и бороться с кликбейтом.

Google анализирует, какие запросы в прошлом приводили к кликам на документы, которые сейчас ранжируются по текущему запросу. Эти исторические запросы кластеризуются по смыслу для выявления разных интентов. Лучший запрос из каждого кластера предлагается как уточнение (Related Search), при этом система активно обеспечивает разнообразие предложений.

Google использует агрегированные данные о продолжительности визитов пользователей на сайт для расчета метрики качества этого сайта (Site Quality Score). Система измеряет время взаимодействия (включая Dwell Time — время от клика в выдаче до возврата обратно), фильтрует аномальные визиты и нормализует данные по типам контента. Итоговая оценка используется как независимый от запроса сигнал для ранжирования и принятия решений об индексировании.

Google использует двухэтапную систему для персонализации ранжирования. Сначала выявляются скрытые категории предпочтений на основе данных всего сообщества. Затем для конкретного пользователя определяется его принадлежность к этим категориям (персонализированные веса смешивания). Если данных о пользователе мало, система сглаживает его профиль средними данными по сообществу, решая проблему «холодного старта».

Яндекс патентует метод обучения системы исправления опечаток (Spell Correction). Система автоматически генерирует «реалистичные опечатки» для обучения, учитывая как частоту буквосочетаний в языке, так и физическое расстояние между клавишами на клавиатуре. Затем модель машинного обучения (MLA) валидирует исправления, используя внешние сигналы: частоту слов в URL, на веб-страницах и историю кликов пользователей по подсказкам «Возможно, вы искали…».

Google анализирует логи поисковых запросов для выявления общих шаблонов (Query Patterns), удаляя при этом приватную информацию. Для каждого шаблона система вычисляет агрегированную статистику поведения пользователей (клики, отказы). Если будущий запрос соответствует определенному шаблону, эта статистика используется для корректировки ранжирования результатов или предложений, оптимизируя выдачу под типичное поведение пользователей для данного класса запросов.

Google разработал систему, позволяющую пользователям удалять нежелательные сайты из своей выдачи. Патент описывает, как эти данные агрегируются от «легитимных пользователей» и используются для расчета «Remove List Score» — глобального сигнала качества, который влияет на ранжирование наряду с релевантностью и ссылочными факторами.

Google использует систему для автоматического определения синонимов путем анализа корпуса документов. Система учитывает частоту совместной встречаемости слов, их физическую близость в тексте, корреляцию между словами в заголовках/анкорах и теле документа, а также морфологические сходства. Это позволяет расширять запросы пользователей синонимами, не полагаясь на словари или логи запросов.

Google использует графовую модель для анализа поисковых сессий пользователей. Система определяет, какие уточняющие запросы чаще всего приводят к завершению поиска (становятся «финальным пунктом назначения»). Эти запросы считаются обладающими наибольшей «полезностью» (Utility) и предлагаются пользователю в качестве подсказок или связанных запросов. Система также учитывает коммерческий потенциал этих запросов и может показывать для них релевантные рекламные блоки.

Google использует систему для генерации поисковых подсказок (альтернативных запросов), анализируя текущую сессию пользователя. Система создает кандидатов путем замены терминов (Similarity Matrix) или расширения/сокращения исходного запроса (Expansion/Contraction Table). Подсказки ранжируются по формуле, учитывающей релевантность подсказки истории сессии, вероятность клика по результатам подсказки и позицию клика.