SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует IDF и CTR для выбора языка перевода запросов в поиске по картинкам и видео (CLIR)

SELECTING RELEVANT LANGUAGES FOR QUERY TRANSLATION (Выбор релевантных языков для перевода запроса)
  • US8577910B1
  • Google LLC
  • 2009-06-09
  • 2013-11-05
  • Мультиязычность
  • Мультимедиа
  • Поведенческие сигналы
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google применяет механизм кросс-язычного поиска (CLIR) для улучшения выдачи изображений и видео. Система автоматически переводит запрос пользователя на другие языки, выбирая наиболее подходящий на основе частотности терминов (IDF) в его корпусе. Результаты поиска по переведенному запросу подмешиваются в основную выдачу, а их ранжирование зависит от статистики качества (например, CTR) этого запроса.

Описание

Какую проблему решает

Патент решает проблему ограниченного количества результатов при поиске визуального медиаконтента (изображений, видео), когда пользователь ищет концепцию на языке, где она слабо представлена, хотя на других языках доступно много релевантного контента. Изобретение улучшает полноту поисковой выдачи (Recall) за счет применения механизма кросс-язычного информационного поиска (Cross-Language Information Retrieval - CLIR).

Что запатентовано

Запатентован метод автоматического выбора релевантных языков для перевода запроса в контексте Visual Media Search. Ключевым является двухэтапный контроль: выбор языка основан на анализе частотности переведенных терминов (используя Inverse Document Frequency - IDF), а ранжирование полученных результатов основано на поведенческих метриках (Quality of Results Statistic, например, CTR или Dwell Time) для переведенного запроса.

Как это работает

Система работает итеративно:

  • Получение запроса: Принимается запрос на поиск визуального медиа.
  • Выбор кандидатов: Идентифицируется список потенциальных языков для перевода, упорядоченный по размеру индекса/корпуса (Corpus).
  • Перевод и Оценка (IDF): Запрос переводится на язык-кандидат. Оценивается IDF переведенных терминов.
  • Фильтрация языка: Язык выбирается, только если IDF терминов попадает в допустимый диапазон (Acceptable Range) — не слишком частые и не слишком редкие.
  • Оценка Качества (CTR): Для выбранного языка извлекается Quality of Results Statistic (например, CTR) переведенного запроса.
  • Объединение и Ранжирование: Генерируется объединенная выдача. Результаты перевода ранжируются с учетом их статистики качества.

Актуальность для SEO

Высокая. Кросс-язычный поиск (CLIR) является фундаментальной задачей для глобальных поисковых систем. Хотя методы машинного перевода и NLP (включая модели типа MUM) значительно эволюционировали с момента подачи патента (2009 г.), базовые принципы использования статистических мер (IDF) для оценки релевантности языка и поведенческих сигналов (CTR) для оценки качества результатов остаются крайне актуальными, особенно в поиске по картинкам и видео.

Важность для SEO

Патент имеет значительное влияние (7.5/10) на международное SEO и стратегии продвижения визуального контента (Image SEO, Video SEO). Он описывает конкретный механизм, позволяющий контенту на одном языке ранжироваться по запросам на других языках. Это подчеркивает важность качественной оптимизации медиаконтента на основном (доминирующем для темы) языке и достижения высоких поведенческих метрик (CTR) для обеспечения глобальной видимости.

Детальный разбор

Термины и определения

Visual Media Search (Поиск по визуальным медиа)
Поиск, ориентированный на нетекстовый контент: изображения, видео, интерактивные медиа. Патент фокусируется именно на этом типе поиска.
Corpus (Корпус документов)
Коллекция документов и медиа, проиндексированная поисковой системой и ассоциированная с определенным языком.
Inverse Document Frequency (IDF) (Обратная частота документа)
Статистическая мера, используемая для оценки распространенности термина в Corpus. В патенте используется как основная метрика (score) для выбора языка перевода. Высокий IDF означает редкий термин, низкий IDF — частый термин.
Acceptable Range (Приемлемый диапазон)
Диапазон значений IDF, ограниченный двумя порогами. Термин должен быть не слишком частым и не слишком редким, чтобы язык был выбран для перевода.
Quality of Results Statistic (Статистика качества результатов)
Метрика, оценивающая предполагаемую полезность или релевантность результатов для переведенного запроса. Используется для ранжирования.
Click Through Rate (CTR) (Показатель кликабельности)
Основной пример Quality of Results Statistic. Мера того, как часто пользователи кликают на результаты после ввода запроса, достаточно похожего на переведенный.
Dwell Time (Время пребывания)
Альтернативный пример Quality of Results Statistic. Время, которое пользователь тратит на просмотр результата поиска после клика.
Confidence Bins (Корзины уверенности)
Дискретные категории (например, "высокая уверенность"), используемые для классификации качества переведенного запроса на основе его Quality of Results Statistic.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод кросс-язычного поиска медиаконтента с выбором языка.

  1. Система получает первый поисковый запрос на первом языке.
  2. Для каждого из множества разных языков выполняется: (i) перевод терминов исходного запроса; (ii) определение оценки (score), измеряющей распространенность каждого переведенного термина в корпусе этого языка.
  3. Выбор второго языка происходит в ответ на определение того, что хотя бы одна из оценок находится между первым и вторым пороговыми значениями (т.е. термин не слишком частый и не слишком редкий – Acceptable Range).
  4. Генерируется второй запрос (перевод на второй язык).
  5. Генерируется объединенный поисковый запрос (combined search query), использующий исходный и второй запросы.
  6. Получается финальная группа результатов. Ранжирование результатов основано частично на Quality of Results Statistic для второго (переведенного) запроса.

Ядро изобретения — двухэтапная валидация: выбор языка через анализ частотности (IDF) и ранжирование через анализ качества (CTR).

Claim 5 (Зависимый от 1): Уточняет, что оценка распространенности (score) — это Inverse Document Frequency (IDF) термина в соответствующем корпусе.

Claim 2 и 3 (Зависимые от 1): Уточняют, что языки рассматриваются в определенном порядке. Этот порядок основан на убывании размера корпуса (descending size of the corpus), связанного с каждым языком. Система отдает приоритет языкам с большим объемом контента.

Claim 6 (Зависимый от 1): Описывает возможность выбора дополнительных языков (например, третьего языка) по тем же критериям и включения их результатов в выдачу с учетом их собственной Quality of Results Statistic.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры и применяется специфично в системах поиска визуального медиа (Image Search, Video Search).

INDEXING – Индексирование и извлечение признаков
На этом этапе выполняются предварительные вычисления, необходимые для работы системы:

  • Формирование языковых корпусов и определение их размеров.
  • Расчет IDF для всех терминов в каждом корпусе.
  • Агрегация поведенческих данных и расчет CTR / Dwell Time для запросов на разных языках.

QUNDERSTANDING – Понимание Запросов
Это основной этап применения. При получении Visual Media Search Query активируется механизм CLIR:

  1. Система определяет порядок проверки языков (по размеру корпуса).
  2. Выполняется итеративный процесс перевода и проверки IDF для выбора наилучшего языка перевода.
  3. Извлекается Quality of Results Statistic (CTR) для переведенного запроса.

RANKING / METASEARCH – Ранжирование / Метапоиск и Смешивание
Генерируется и выполняется объединенный запрос. На этапе смешивания (Blending) и финального ранжирования система корректирует вес результатов, полученных через перевод, используя Quality of Results Statistic (или Confidence Bins).

Входные данные:

  • Исходный Visual Media Search Query.
  • Данные IDF для разных языковых корпусов.
  • Данные Quality of Results Statistic (CTR/Dwell Time) для запросов.

Выходные данные:

  • Объединенный набор результатов поиска (смешанная выдача на разных языках) с скорректированными оценками ранжирования.

На что влияет

  • Типы контента: Влияет строго на Visual Media (поиск по картинкам, видео). Патент подчеркивает, что визуальный контент часто понятен вне зависимости от языка описания.
  • Специфические запросы: Наибольшее влияние на запросы о сущностях, событиях или концепциях, которые имеют разную популярность в разных языках (например, поиск локальных достопримечательностей или специфических продуктов на неродном языке).

Когда применяется

  • Триггеры активации: Механизм активируется специфично для Visual Media Search Queries.
  • Условия работы: Ключевое условие — нахождение языка, в котором переведенные термины имеют IDF в допустимом диапазоне (Acceptable Range).
  • Пороговые значения: Критически важны два порога для IDF: нижний порог отсекает слишком частые термины (стоп-слова), верхний порог отсекает слишком редкие термины (концепция не представлена в языке).

Пошаговый алгоритм

  1. Получение запроса: Система получает Visual Media Search Query на Языке 1.
  2. Сортировка языков: Идентифицируется и упорядочивается список потенциальных языков для перевода по убыванию размера корпуса.
  3. Итерация по языкам: Система начинает перебор языков (Язык N) по списку.
  4. Перевод: Исходный запрос переводится на Язык N.
  5. Оценка частотности (IDF): Для каждого переведенного термина определяется его IDF в корпусе Языка N.
  6. Проверка порогов (Валидация языка): Система проверяет, находятся ли оценки IDF в допустимом диапазоне (Acceptable Range).
    • Если ДА: Язык N выбирается. Процесс итерации останавливается (или продолжается для поиска дополнительных языков, согласно Claim 6). Переход к шагу 7.
    • Если НЕТ: Система переходит к следующему языку (Шаг 3).
  7. Получение статистики качества: Для переведенного запроса на Языке N извлекается Quality of Results Statistic (например, CTR). Она может быть категоризирована в Confidence Bins.
  8. Генерация объединенного запроса: Создается финальный запрос, комбинирующий исходный и переведенный запросы с учетом статистики качества.
  9. Выполнение поиска и Ранжирование: Генерируется финальная группа результатов. Ранжирование результатов, соответствующих переведенному запросу, корректируется на основе его Quality of Results Statistic.

Какие данные и как использует

Данные на входе

  • Контентные/Лингвистические факторы: Термины исходного запроса. Статистические данные корпусов документов на разных языках (для расчета IDF). Словари или модели машинного перевода.
  • Поведенческие факторы: История поисковых запросов пользователей (user search history). Данные о кликах (для расчета CTR). Данные о времени просмотра результатов (для расчета Dwell Time). Популярность запроса.
  • Географические/Пользовательские факторы: Местоположение пользователя (IP-адрес, настройки, доменная зона) может использоваться для сегментации данных при расчете CTR (например, учитывать CTR только от пользователей из региона, где говорят на языке перевода).

Какие метрики используются и как они считаются

  1. Inverse Document Frequency (IDF):

    Используется для выбора языка. Формула, описанная в патенте (Col 4, lines 10-14):

    IDF(term)=log(Общее число документов в корпусеЧисло документов, содержащих термин)IDF(term) = log\left(\frac{\text{Общее число документов в корпусе}}{\text{Число документов, содержащих термин}}\right)IDF(term)=log(Число документов, содержащих терминОбщее число документов в корпусе​)

  2. Пороги IDF (Acceptable Range):

    Используются для валидации языка. Определяются эмпирически. Язык выбирается, если IDF переведенных терминов находится между нижним и верхним порогом (Claim 1).

  3. Quality of Results Statistic (QRS):

    Используется для ранжирования. Основная метрика — CTR. Формула (Col 6, line 65 - Col 7, line 4):

    CTR(query)=Количество кликов по результатамОбщее количество отправок запросаCTR(query) = \frac{\text{Количество кликов по результатам}}{\text{Общее количество отправок запроса}}CTR(query)=Общее количество отправок запросаКоличество кликов по результатам​

    Также могут использоваться Dwell Time и популярность запроса.

  4. Confidence Bins (Корзины уверенности):

    Система может использовать дискретные значения вместо непрерывных значений QRS. Например, CTR может быть преобразован в категории: «очень низкая уверенность», «низкая», «средняя», «высокая» (Col 7, lines 58-67). Эти категории используются при ранжировании.

Выводы

  1. CLIR как ключевой компонент визуального поиска: Google активно использует кросс-язычный поиск (CLIR) для Visual Media Search, признавая, что ценность изображений и видео часто не зависит от языка описания.
  2. Выбор языка основан на статистике корпуса (IDF): Система не переводит запрос на случайные языки. Выбор целевого языка строго контролируется через IDF. Перевод используется, только если концепция адекватно представлена в языке (термины не слишком редки) и различима (термины не слишком часты).
  3. Приоритет языков с большими корпусами: Система предпочитает проверять языки с большим объемом индекса (например, английский) в первую очередь (Claim 3), что увеличивает потенциальное количество найденных результатов.
  4. Поведенческие факторы валидируют перевод и определяют ранжирование: Ранжирование результатов, найденных через перевод, критически зависит от Quality of Results Statistic (CTR, Dwell Time). Только если пользователи активно взаимодействуют с результатами на целевом языке, эти результаты получат высокий ранг в смешанной выдаче.
  5. Глобальная видимость локального контента: Этот механизм позволяет контенту, оптимизированному на одном языке, достигать глобальной аудитории без прямой локализации, при условии высокого качества и вовлеченности.

Практика

Best practices (это мы делаем)

  • Оптимизация медиа на доминирующих языках: Обеспечьте качественную оптимизацию метаданных (alt-текст, заголовки, окружающий текст) визуального контента на языке, где ваша тематика наиболее популярна (часто это английский). Это увеличивает вероятность того, что ваш контент будет найден через механизм CLIR по запросам на других языках.
  • Фокус на повышении CTR и Dwell Time: Работайте над привлекательностью сниппетов изображений и видео. Высокие поведенческие метрики на основном языке служат сигналом Quality of Results Statistic, который напрямую влияет на ранжирование этого контента при кросс-язычном поиске.
  • Использование общепринятой терминологии: Описывайте контент, используя стандартные, четкие термины. Это повышает вероятность того, что IDF термина попадет в "допустимый диапазон" (Acceptable Range), и система выберет этот язык для перевода.
  • Точное описание глобальных сущностей: Если контент описывает глобально известные сущности (бренды, локации, события), используйте их общепринятые названия на ключевых языках, чтобы максимизировать охват через CLIR.

Worst practices (это делать не надо)

  • Игнорирование английского языка (если он доминирует в нише): Оптимизация медиа только на локальном языке. Это ограничивает охват, так как система часто предпочитает переводить на языки с большими корпусами и может не найти достаточного количества качественного локального контента.
  • Использование слишком редких или жаргонных терминов: Описание контента терминами, которые используются крайне редко (слишком высокий IDF). Система может не посчитать язык подходящим для перевода, так как концепция в нем слабо представлена.
  • Использование слишком общих слов: Описание контента только общими словами (слишком низкий IDF). Система отфильтрует такой перевод, чтобы избежать нерелевантных результатов (шума).
  • Манипуляции с метаданными (Keyword Stuffing): Переспам в описаниях и alt-текстах может снизить CTR, что приведет к понижению в ранжировании при кросс-язычном поиске из-за низкого Quality of Results Statistic.

Стратегическое значение

Патент демонстрирует, что в поиске визуального контента границы между языками стираются. Контент конкурирует глобально. Для Senior SEO-специалистов это подчеркивает стратегическую важность International SEO и механизмов CLIR. Анализ семантики и конкуренции должен учитывать, как ключевые концепции представлены на доминирующих языках, и выстраивать стратегию оптимизации с учетом потенциального глобального охвата через автоматический перевод запросов.

Практические примеры

Сценарий: Оптимизация изображений для международного туристического сайта (на основе примера из патента FIG. 2 и FIG. 3)

  1. Задача: Сайт на итальянском языке публикует фотографии Пизанской башни. Необходимо привлечь трафик из других стран.
  2. Действие на основе патента:
    • Изображения оптимизируются под запрос "torretta di inclinazione famosa di Pisa" на итальянском языке.
    • Проводится работа над качеством статьи и привлекательностью изображений для максимизации CTR в итальянской выдаче (в патенте указан пример высокого CTR 0.935).
  3. Работа механизма Google: Пользователь в Португалии ищет "torre inclinada famosa de Pisa". Google анализирует языки. Итальянский язык (имеющий большой корпус) рассматривается. Перевод проходит проверку IDF (термины находятся в Acceptable Range). Система видит высокий CTR для итальянского запроса (высокий Quality of Results Statistic).
  4. Ожидаемый результат: Итальянская страница сайта подмешивается с высоким ранжированием в португальскую выдачу поиска по картинкам.

Вопросы и ответы

На какие типы поиска распространяется этот патент?

Патент сфокусирован исключительно на Visual Media Search — поиске изображений, видео и встроенного медиаконтента. В патенте подчеркивается, что визуальный контент часто понятен пользователям независимо от языка его описания, что делает его идеальным кандидатом для кросс-язычного поиска (CLIR).

Как система решает, на какой язык переводить запрос в первую очередь?

Патент предлагает упорядочивать языки для рассмотрения по убыванию размера их индексированного корпуса (descending size of the corpus) (Claim 3). Это означает, что система, скорее всего, сначала попытается перевести запрос на языки с наибольшим количеством контента (например, английский), при условии, что они удовлетворяют критериям IDF.

Что такое "допустимый диапазон" (Acceptable Range) IDF и почему он важен?

Система использует два порога для IDF (Claim 1). Если IDF слишком низкий (термин слишком частый, как стоп-слово), перевод может привести к нерелевантным результатам. Если IDF слишком высокий (термин крайне редок), концепция слабо представлена в языке. "Допустимый диапазон" гарантирует, что переведенный термин является значимым и достаточно распространенным для качественного поиска.

Что важнее для этого алгоритма: IDF или CTR?

Они выполняют разные функции и оба критичны. IDF используется как фильтр для выбора языка перевода (должен ли перевод вообще состояться). CTR (или другая Quality of Results Statistic) используется как фактор ранжирования для результатов, полученных после перевода (насколько высоко они должны стоять в выдаче).

Как Quality of Results Statistic влияет на ранжирование?

Эта метрика (например, CTR или Dwell Time) используется для корректировки оценки ранжирования результатов, полученных по переведенному запросу. Если у переведенного запроса высокий CTR на его родном языке, результаты получат повышение (boost) при смешивании с результатами исходного запроса. Это механизм контроля качества.

Означает ли это, что я должен оптимизировать весь визуальный контент на английском?

Это означает, что оптимизация метаданных (alt-тексты, заголовки) на английском или другом доминирующем языке в вашей нише является стратегически выгодной. Если ваш контент на этом языке качественный и имеет высокий CTR, он сможет эффективно ранжироваться по запросам пользователей, ищущих на других языках, через этот механизм CLIR.

Может ли система перевести запрос на несколько языков одновременно?

Да, патент (в частности, Claim 6) предусматривает возможность выбора дополнительных языков (третий язык и т.д.). Система может продолжить итерацию и добавить результаты поиска по дополнительным переведенным запросам в финальную выдачу, учитывая Quality of Results Statistic для каждого из них.

Как я могу повлиять на IDF терминов, описывающих мой контент?

Напрямую повлиять на IDF (глобальную статистику корпуса) нельзя. Однако вы можете выбирать для описания контента термины, которые являются общепринятыми — не слишком общими и не слишком редкими. Анализ семантики и стандартных фраз в нише помогает выбрать термины с оптимальным IDF.

Что такое Confidence Bins и как они используются?

Confidence Bins — это способ упростить использование CTR при ранжировании. Вместо использования точного значения CTR (например, 0.935), система классифицирует его в одну из категорий (например, «High Confidence»). Это позволяет применять стандартизированные коэффициенты повышения для разных уровней качества перевода.

Использует ли система информацию о местоположении пользователя при расчете CTR?

Да, патент упоминает такую возможность. CTR может быть рассчитан для определенной популяции пользователей, например, только для тех, кто находится в регионе, где говорят на целевом языке перевода. Для этого могут использоваться IP-адреса, доменные зоны или настройки пользователя.

Похожие патенты

Как Google использует визуальное сходство изображений для проверки качества перевода и улучшения кросс-язычного поиска (CLIR)
Google проверяет точность перевода фраз, сравнивая визуальное сходство результатов поиска по картинкам и видео для исходной фразы и её перевода. Если топовые визуальные результаты похожи и показывают высокое качество взаимодействия, перевод считается валидным. Этот механизм используется для расширения запроса и показа релевантного контента на других языках (Cross-Lingual Information Retrieval).
  • US8538957B1
  • 2013-09-17
  • Мультиязычность

  • Мультимедиа

  • EEAT и качество

Как Google использует машинный перевод для поиска контента на иностранных языках (Cross-Language Information Retrieval)
Google использует механизмы Cross-Language Information Retrieval (CLIR) для поиска релевантного контента независимо от языка запроса. Система может перевести запрос пользователя на другие языки и искать в индексах этих языков (Query Translation), либо заранее перевести контент сайтов на язык пользователя (Document Translation). Это позволяет предоставлять пользователю лучшие результаты, даже если они изначально опубликованы на иностранном языке.
  • US7890493B2
  • 2011-02-15
  • Мультиязычность

  • Индексация

Как Google автоматически определяет, на каких языках искать ответ на запрос пользователя (CLIR)
Google использует механизм для автоматического определения наиболее релевантных языков для поиска по запросу пользователя. Система анализирует термины, связанные с запросом, и их привязку к различным языкам на основе структурированных данных (например, Википедии). Если система определяет, что ценный контент существует на других языках, она переводит запрос, выполняет поиск и подмешивает переведенные результаты в выдачу.
  • US8862595B1
  • 2014-10-14
  • Мультиязычность

Как Google решает, когда переводить запрос пользователя на другие языки, а когда уважать его языковой выбор
Google использует систему фильтрации для управления межъязыковым поиском (CLIR). Система анализирует язык запроса, язык интерфейса пользователя и его местоположение. Если пользователь вводит запрос на языке, отличном от языка интерфейса, Google предполагает мультиязычность и не переводит запрос, экономя ресурсы. Перевод активируется, если язык запроса совпадает с языком интерфейса, особенно если локальных результатов мало.
  • US9824147B1
  • 2017-11-21
  • Мультиязычность

  • Персонализация

  • Семантика и интент

Как Google использует поведенческие данные и визуальные превью для предложения вариантов поиска картинок на других языках
Google использует механизм для улучшения поиска изображений, предлагая пользователю варианты запроса на других языках. Если система определяет, что перевод запроса может вернуть лучшие результаты, она отображает эти альтернативные запросы с визуальным превью. Выбор лучших переводов основан на анализе поведенческих данных: частоте запросов (Frequency of Submission), CTR и том, как часто пользователи сами переформулируют запросы между языками (Frequency of Revision).
  • US8856162B2
  • 2014-10-07
  • Мультиязычность

  • Поведенческие сигналы

  • Мультимедиа

Популярные патенты

Как Google Assistant адаптирует выдачу на лету, позволяя пользователям навигировать по результатам и запоминать предпочтения по источникам и темам
Google использует механизм для диалоговых систем (например, Google Assistant), позволяющий пользователям взаимодействовать с поисковой выдачей через естественный язык. Система предоставляет результаты последовательно и адаптирует порядок выдачи в ответ на команды навигации (например, «Вернись к новости о Кафе»). Кроме того, система фиксирует отношение пользователя к атрибутам контента (например, «Не показывай новости из Источника 1») и использует эти данные для фильтрации или изменения ранжирования в текущих и будущих сессиях.
  • US10481861B2
  • 2019-11-19
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google снижает ценность кликов по результатам, полученным из слишком общих запросов
Google использует механизм для корректировки показателей популярности (например, кликов) документа. Если документ получил клик в ответ на очень общий (широкий) запрос, ценность этого клика снижается. Это предотвращает искусственное завышение популярности документов, которые часто показываются по высокочастотным общим запросам, и повышает значимость кликов, полученных по более специфическим запросам.
  • US7925657B1
  • 2011-04-12
  • Поведенческие сигналы

Как Google использует данные о выделении текста пользователями (явно или неявно) для генерации сниппетов и анализа контента
Google может собирать данные о том, какие фрагменты текста пользователи выделяют на веб-страницах, используя специальные инструменты или просто выделяя текст мышью. Эти данные агрегируются для определения наиболее важных частей документа. На основе этой "популярности" Google может динамически генерировать поисковые сниппеты, включающие наиболее часто выделяемые фрагменты.
  • US8595619B1
  • 2013-11-26
  • Поведенческие сигналы

  • SERP

Как Google проверяет работоспособность Deep Links и обратную совместимость перед индексированием контента мобильных приложений
Google использует автоматизированную систему верификации для индексирования контента мобильных приложений. Перед добавлением в индекс система эмулирует запуск приложения по Deep Link, проверяя корректность загрузки, отсутствие ошибок и соответствие контента связанной веб-странице. Также система тестирует обратную совместимость ссылок при обновлениях приложения, гарантируя, что в поиск попадают только функциональные результаты.
  • US9645980B1
  • 2017-05-09
  • Индексация

  • Ссылки

  • Техническое SEO

Как Google рассчитывает авторитетность страниц на основе их близости к доверенным сайтам-источникам (Seed Sites)
Google использует метод ранжирования страниц, основанный на измерении «расстояния» в ссылочном графе от набора доверенных исходных сайтов (Seed Sites) до целевой страницы. Чем короче путь от доверенных источников до страницы, тем выше ее рейтинг авторитетности. Длина ссылки увеличивается (а ее ценность падает), если исходная страница имеет большое количество исходящих ссылок. Этот механизм позволяет эффективно рассчитывать показатели доверия (Trust) в масштабах всего веба.
  • US9165040B1
  • 2015-10-20
  • Ссылки

  • EEAT и качество

  • Антиспам

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)
Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.
  • US9317605B1
  • 2016-04-19
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует социальные связи и анализ контекста рекомендаций (Endorsements) для персонализации поисковой выдачи
Google анализирует контент (например, посты в микроблогах и социальных сетях), созданный контактами пользователя. Система определяет, является ли ссылка в этом контенте "подтверждением" (Endorsement) на основе окружающих ключевых слов. Если да, то при поиске пользователя эти результаты могут быть аннотированы, указывая, кто из контактов и через какой сервис подтвердил результат, и потенциально повышены в ранжировании.
  • US9092529B1
  • 2015-07-28
  • Поведенческие сигналы

  • Персонализация

  • EEAT и качество

Как Google ранжирует комментарии и UGC, используя объективное качество и субъективную персонализацию
Google использует двухфакторную модель для ранжирования пользовательского контента (комментариев, отзывов). Система вычисляет объективную оценку качества (репутация автора, грамотность, длина, рейтинги) и субъективную оценку персонализации (является ли автор другом или предпочтительным автором, соответствует ли контент интересам и истории поиска пользователя). Итоговый рейтинг объединяет обе оценки для показа наиболее релевантного и качественного UGC.
  • US8321463B2
  • 2012-11-27
  • Персонализация

  • EEAT и качество

  • Поведенческие сигналы

Как Google использует исторические данные о кликах (CTR) по категориям для определения доминирующего интента неоднозначных запросов
Google анализирует, на какие категории результатов пользователи кликали чаще всего в прошлом (CTR) по неоднозначному запросу (например, "Pool"). Система определяет доминирующие интенты, выявляя резкие перепады в CTR между категориями или используя иерархию категорий, и повышает в ранжировании результаты, соответствующие наиболее популярным интерпретациям.
  • US8738612B1
  • 2014-05-27
  • Семантика и интент

  • Поведенческие сигналы

  • SERP

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей
Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.
  • US8595225B1
  • 2013-11-26
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

seohardcore