Автор: Виктор Репин

2020 Патенты Яндекс Поведенческие факторы Ранжирование Холодный старт

Как Яндекс генерирует отсутствующие факторы ранжирования, используя данные из похожих прошлых запросов

Яндекс патентует метод генерации (импутации) значений факторов ранжирования для пары запрос-документ, когда данные отсутствуют (проблема «холодного старта»). Если для текущего запроса у документа нет значения признака (например, поведенческих данных), система находит похожие прошлые запросы, по которым этот документ уже показывался. Значения признака из этих прошлых запросов переносятся на текущий запрос пропорционально степени схожести запросов.

2012 Knowledge Graph Патенты Google Персонализация Семантика и интент

Как Google использует профили сущностей, кластеризацию и социальные сигналы для распознавания людей в поисковых подсказках (Autocomplete)

Google патентует механизм для устранения неоднозначности при поиске людей с одинаковыми именами. Система идентифицирует конкретных людей (сущностей) и предлагает их в Autocomplete, используя различающую информацию (фото, профессию, локацию) и сигналы персонализации (социальная близость, местоположение пользователя). Выбор подсказки запускает поиск по кластеру ресурсов, связанных именно с этим человеком.

2016 Индексация Патенты Google Семантика и интент

Как Google ранжирует контент внутри мобильных приложений (App Indexing) с помощью многоуровневой оценки релевантности и стабильности контента

Патент Google, описывающий алгоритм ранжирования контента нативных мобильных приложений (диплинков). Система использует адаптированную модель TF-IDF, включающую частоту термина на экране (Term Score), его редкость внутри приложения (Intra-inverse popularity) и редкость среди всех приложений (Inter-inverse popularity). Также учитывается стабильность контента (Steadiness Score) и популярность приложения.

2014 Индексация Мультимедиа Патенты Google Семантика и интент

Как Google использует глубокое обучение (CNN) для анализа пикселей видео и автоматической генерации аннотаций

Google использует сверточные нейронные сети (CNN) для анализа пикселей видео и автоматического создания аннотаций. Система применяет двухканальный подход, анализируя как общий контекст (в низком разрешении), так и центральную область фокуса (в высоком разрешении), а также учитывает движение между кадрами. Это позволяет индексировать и понимать видеоконтент независимо от текстовых метаданных.

2016 E-commerce SEO SERP Индексация Патенты Яндекс

Как Яндекс генерирует прямые ссылки (Deep Links) на страницы сайтов, минуя их индексацию

Яндекс патентует метод доступа к контенту на сайтах с огромным количеством динамических страниц (например, билеты, товары, погода). Вместо индексации всех вариантов система определяет шаблон URL сайта и подставляет в него параметры из запроса пользователя. Это позволяет генерировать прямую ссылку (Deep Link) на релевантную страницу прямо в SERP, даже если эта страница никогда не была проиндексирована.

2003 Local SEO Индексация Патенты Google Семантика и интент

Как Google классифицирует запросы в бизнес-категории с помощью статистических моделей и разнообразных данных для обучения

Google использует систему для автоматического определения релевантных бизнес-категорий (например, «Желтые страницы») для поискового запроса. Система основана на статистической модели (например, Naïve Bayes), которая обучается на различных источниках данных: каталогах, веб-сайтах компаний, логах запросов и рекламном трафике. Это позволяет сопоставлять запросы с категориями, даже если они не имеют общих слов.

2009 Local SEO Патенты Google Персонализация Семантика и интент

Как Google встраивает поиск (ботов) напрямую в чаты и голосовые звонки с помощью триггерных слов и контекста

Система отслеживает электронные разговоры (чаты, VoIP-звонки) на наличие триггерных слов. При активации она захватывает запрос, может использовать контекст разговора для его уточнения и внедряет краткий ответ обратно в поток беседы. Патент также описывает функцию автоматического звонка по найденному номеру (Search-to-Call).

2006 Мультиязычность Патенты Google Семантика и интент

Как Google валидирует синонимы для фраз, учитывает грамматику (N-gram Agreement) и предотвращает потерю смысла (Pseudo-Drops)

Патент Google, описывающий систему валидации синонимов для многословных фраз. Система использует механизм «N-gram Agreement» для проверки пословного лексического или семантического соответствия, что позволяет учитывать грамматическое согласование и усиливать правила для отдельных слов. Также описан механизм «Pseudo-Drop Detection» для предотвращения потери ключевой информации при перезаписи запроса.

2013 Knowledge Graph Lev Finkelstein SERP Патенты Google Семантика и интент

Как Google использует сущности, шаблоны и Knowledge Graph для уточнения смысла поисковых подсказок (Autocomplete)

Google анализирует поисковые подсказки, чтобы определить, ссылаются ли они на конкретные сущности или являются неоднозначными. Для уточнения смысла система добавляет семантические описания (например, «britney spears — Singer»). Эти описания генерируются на основе данных из Knowledge Graph, анализа авторитетных документов (например, Wikipedia) или предопределенных шаблонов для типов сущностей (например, «Movie [year]»). Это помогает пользователю выбрать правильный интент и может приводить к скрытому переписыванию запроса системой.

2010 Local SEO Патенты Google Персонализация Семантика и интент

Как Google смешивает общие и локальные подсказки в Autocomplete, используя географические кластеры популярности запросов

Система генерации поисковых подсказок (Autocomplete) определяет общее и точное местоположение пользователя для смешивания популярных общих запросов с локальными. Для определения локальной релевантности Google анализирует географические кластеры популярности запросов (Spatial Distribution), не привязываясь к административным границам. Патент также описывает механизм группировки локальных уточнений рядом с соответствующими общими запросами в списке подсказок.

2010 Патенты Google Свежесть контента Семантика и интент

Как Google создает временные шкалы (Timelines), определяя ключевые события и выбирая лучшие статьи для новостных сюжетов

Google использует систему для автоматического построения истории развития новостного сюжета. Анализируя объем, качество и динамику публикаций во времени, система определяет отдельные «события» внутри большой темы. Для каждого события выбирается наиболее качественная и репрезентативная статья, формируя временную шкалу (Timeline).

2012 Патенты Google Ссылки

Как Google использовал специальные токены в запросе (например, «+») для прямой навигации на верифицированные социальные страницы в обход SERP

Google может интерпретировать специальные токены в поисковом запросе (например, «+») как намерение пользователя найти официальную социальную страницу сущности. Если система идентифицирует верифицированный профиль, соответствующий запросу с высокой степенью уверенности, она может перенаправить пользователя прямо на эту страницу, минуя стандартную поисковую выдачу.

2019 Патенты Google Семантика и интент

Как Google определяет структурно похожие запросы (sibling queries) для автоматического обучения NLP-моделей

Google использует метод для идентификации «родственных запросов» (sibling queries) — запросов с одинаковой структурой интента, но разными переменными (например, «погода в Москве» и «погода в Париже»). Система сравнивает шаблоны использования этих запросов в логах, основываясь на поведении пользователей, чтобы понять их взаимосвязь без традиционного NLP. Это позволяет автоматически генерировать масштабные наборы данных для обучения ИИ.

2013 Антиспам Мультиязычность Патенты Google

Как Google обнаруживает спам, использующий подмену символов из разных алфавитов (Homograph Attacks)

Google использует метод обнаружения спама, основанный на анализе переходов между различными наборами символов (например, с латиницы на кириллицу и обратно). Этот метод выявляет попытки спамеров заменить буквы визуально похожими символами (гомоглифами) из других алфавитов, чтобы обойти текстовые фильтры. Высокая частота таких переходов сигнализирует о спаме, в то время как легитимный многоязычный контент игнорируется.

2014 Мультимедиа Патенты Google Семантика и интент

Как Google использует фоновое аудио (например, ТВ-шоу), чтобы понять контекст пользователя и адаптировать поисковую выдачу и подсказки

Google может локально анализировать окружающий звук через микрофон устройства, чтобы определить, какой медиаконтент (ТВ-шоу, фильм) воспроизводится поблизости. Для этого система заранее загружает персонализированный набор аудио-отпечатков. При совпадении этот контекст используется для адаптации поиска: предоставления релевантных подсказок (auto-complete) и персонализации результатов выдачи.

2013 EEAT и качество Google Shopping SERP Патенты Google

Как Google в реальном времени дополняет рекламные объявления данными из органической выдачи

Google использует механизм для динамического улучшения рекламных объявлений (Content Items). Система анализирует органические результаты поиска и извлекает из них релевантную информацию (текст, ссылки, адреса), чтобы дополнить или заменить части связанного рекламного объявления перед показом пользователю.

2010 Local SEO Патенты Google Семантика и интент

Как Google автоматически выполняет действия (звонок или переход на сайт) по результатам голосового поиска

Google может обрабатывать голосовые запросы и автоматически выполнять действия, минуя стандартную выдачу. Если запрос содержит командную фразу (например, «Позвонить») или результат поиска имеет высокую степень уверенности, система может автоматически набрать номер телефона или перенаправить пользователя на веб-сайт после короткого предупреждения.

2012 Dan Popovici Патенты Google Поведенческие сигналы

Как Google использует исторические данные о поведении пользователей для сохранения эффективных синонимов

Google постоянно обновляет модели, определяющие синонимы для расширения запросов. Этот патент описывает защитный механизм: если новая модель отключает синоним, который исторически давал хорошие результаты (пользователи были довольны выдачей), система автоматически вернет этот синоним в работу, опираясь на накопленные данные о поведении пользователей.

2011 Мультиязычность Патенты Google Семантика и интент

Как Google автоматически определяет, на каких языках искать ответ на запрос пользователя (CLIR)

Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.

2010 Патенты Google Семантика и интент

Как Google сегментирует сложные запросы на смысловые компоненты для генерации поисковых подсказок и связанных запросов

Google использует механизм для генерации уточнений запроса (поисковых подсказок или связанных запросов) путем разделения исходного запроса на семантические компоненты (устойчивые фразы) с помощью вероятностного анализа. Система находит уточнения для каждого компонента по отдельности, а затем рекомбинирует их, сохраняя исходный порядок. Финальные кандидаты строго фильтруются на основе пользовательских данных (CTR) и синтаксической схожести.