SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует местоположение пользователя для улучшения распознавания текста на изображениях и поиска источника контента

IDENTIFYING MATCHING CANONICAL DOCUMENTS IN RESPONSE TO A VISUAL QUERY AND IN ACCORDANCE WITH GEOGRAPHIC INFORMATION (Идентификация совпадающих канонических документов в ответ на визуальный запрос и в соответствии с географической информацией)
  • US8805079B2
  • Google LLC
  • 2011-12-01
  • 2014-08-12
  • Мультиязычность
  • Local SEO
  • EEAT и качество
  • Мультимедиа
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует географическое положение пользователя для выбора наиболее подходящей языковой модели при распознавании текста (OCR) на изображениях (визуальных запросах). Это позволяет системе учитывать региональные различия в языке (например, орфографию или терминологию) для более точной интерпретации контента. Цель — найти оригинальный канонический документ, соответствующий тексту на изображении.

Описание

Какую проблему решает

Патент решает проблему неточности оптического распознавания символов (OCR) при обработке визуальных запросов (изображений, содержащих текст), особенно когда язык имеет региональные вариации (например, различия в орфографии между британским и американским английским). Система улучшает качество OCR и точность идентификации контента за счет учета географического положения пользователя в момент подачи запроса.

Что запатентовано

Запатентована система, которая интегрирует географическую информацию пользователя в процесс OCR визуального запроса. Система выбирает специфическую языковую модель (language model), соответствующую местоположению пользователя, и использует ее для оценки вероятности распознанных символов. Это позволяет более точно идентифицировать высококачественные текстовые строки (high quality textual strings) и находить соответствующий им канонический документ (canonical document) — авторитетный источник контента.

Как это работает

Система работает следующим образом:

  • Получение данных: Принимается визуальный запрос (изображение) и географическое положение клиента.
  • OCR и Локализация: Выполняется OCR. Ключевой шаг — выбор языковой модели на основе местоположения пользователя.
  • Оценка символов: Каждый распознанный символ оценивается на вероятность (language-conditional character likelihood) в контексте выбранной локализованной языковой модели.
  • Идентификация строк: Выявляются строки с высокой оценкой качества.
  • Поиск источника: Система ищет канонический документ, содержащий эти высококачественные строки.
  • Ответ: Пользователю возвращается часть канонического документа (в виде текста или изображения).

Актуальность для SEO

Средняя/Высокая. Технологии визуального поиска (например, Google Lens) активно развиваются, и точное распознавание текста остается критически важной задачей. Использование контекста пользователя (включая местоположение) для улучшения понимания запроса крайне актуально. Хотя конкретные методы OCR, описанные в патенте 2014 года, могли эволюционировать с развитием нейросетей, базовый принцип использования локализованных языковых моделей остается релевантным.

Важность для SEO

Патент имеет ограниченное прямое влияние на традиционные стратегии веб-SEO (оценка 4/10). Он описывает инфраструктуру для визуального поиска (Visual Search) и OCR, а не алгоритмы ранжирования веб-страниц. Однако он демонстрирует технические возможности Google по использованию местоположения для выбора специфических языковых моделей и понимания региональных языковых нюансов. Это важно для международного и локального SEO, подтверждая необходимость точной локализации контента (орфография, терминология) для соответствия ожиданиям пользователей в конкретном регионе.

Детальный разбор

Термины и определения

Visual Query (Визуальный запрос)
Изображение (например, фотография, скан документа), отправленное в поисковую систему в качестве запроса.
Geographic Location (Географическое положение)
Местоположение клиентского устройства в момент подачи визуального запроса. Используется как ключевой сигнал для выбора языковой модели.
Language Model (Языковая модель)
Статистическая модель, предсказывающая вероятность появления определенной последовательности символов или слов в конкретном языке или диалекте.
Language-conditional character likelihood/probability (Вероятность символа, обусловленная языком)
Метрика, показывающая, насколько распознанный символ и предшествующие ему символы соответствуют выбранной языковой модели.
Text Quality Score (Оценка качества текста)
Метрика, присваиваемая распознанным символам или строкам, основанная на вероятности символов и других индикаторах качества OCR.
High Quality Textual Strings (Высококачественные текстовые строки)
Строки, распознанные с высокой степенью уверенности, часто благодаря использованию локализованной языковой модели.
Canonical Document (Канонический документ)
Авторитетный, оригинальный источник контента (например, цифровая версия книги или газетной статьи), который система пытается найти по тексту, распознанному на изображении.
Structural Information (Структурная информация)
Данные о макете текста на изображении (относительные позиции, размеры, шрифт). Упоминается в патенте (например, в описании FIG. 23) как фактор, который может использоваться для точного сопоставления с источником.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод обработки визуального запроса с учетом географии.

  1. Система получает визуальный запрос и информацию о географическом положении клиента.
  2. Выполняется OCR для получения текстовых данных.
  3. Происходит оценка (scoring) каждого текстового символа. Ключевой аспект: оценка производится в соответствии с географическим положением клиента.
  4. Детализация оценки: генерируется language-conditional character likelihood, которая показывает, насколько последовательность символов соответствует языковой модели, выбранной (!) в соответствии с географическим положением клиента.
  5. Идентифицируются высококачественные текстовые строки на основе этой оценки.
  6. Выполняется поиск и извлечение канонического документа, содержащего эти строки.
  7. Часть канонического документа отправляется клиенту.

Ядром изобретения является использование географического положения для выбора специфической языковой модели, которая затем используется для оценки результатов OCR. Это позволяет системе адаптироваться к региональным языковым особенностям.

Claim 2 (Зависимый от 1): Дополняет метод идентификацией веб-результатов.

Система также идентифицирует веб-результаты, релевантные как визуальному запросу, так и географическому положению клиента, и отправляет их пользователю.

Claim 3 (Зависимый от 2): Детализирует процесс поиска веб-результатов.

Для поиска веб-результатов система идентифицирует географический термин в распознанном тексте и ищет результаты, связанные как с этим термином, так и с местоположением клиента. Это механизм географической дисамбигуации (например, определение, какой именно "Лондон" имеется в виду).

Claim 11 (Независимый пункт): Описывает альтернативный метод с акцентом на выбор формата ответа в зависимости от качества.

Метод повторяет шаги 1-5 из Claim 1 (получение запроса и локации, OCR, оценка с учетом географии, идентификация строк). Ключевое отличие в шаге извлечения канонического документа:

  1. Рассчитывается quality score для высококачественных строк.
  2. Если оценка ниже порога — извлекается версия канонического документа в виде изображения (image version).
  3. Если оценка на уровне или выше порога — извлекается версия в виде машиночитаемого текста (machine readable text version).

Где и как применяется

Этот патент описывает технологию, применяемую в системах визуального поиска (таких как Google Goggles или Google Lens), где пользователь фотографирует объект, содержащий текст.

QUNDERSTANDING – Понимание Запросов
Основной этап применения патента. Система должна интерпретировать визуальный ввод. Здесь происходит интеграция географического контекста пользователя для выбора правильной языковой модели, что критически важно для точного понимания текста на изображении (OCR).

RANKING / RETRIEVAL – Ранжирование и Извлечение
После того как текст распознан и оценен, система использует эти high quality textual strings как запрос для поиска в базе данных канонических документов. Происходит ранжирование потенциальных совпадений и извлечение наиболее релевантного источника.

Входные данные:

  • Визуальный запрос (изображение).
  • Географическое положение клиента (например, GPS-координаты).
  • База данных языковых моделей, индексированных по регионам.
  • База данных канонических документов.

Выходные данные:

  • Часть канонического документа (в виде текста или изображения).
  • Опционально: дополнительные веб-результаты, релевантные контенту и местоположению.

На что влияет

  • Конкретные типы контента: Наибольшее влияние на контент, имеющий физическое представление и цифровую копию (книги, газеты, журналы, меню, брошюры, вывески).
  • Специфические запросы: Визуальные запросы, содержащие текст, особенно если этот текст содержит географически неоднозначные термины или региональную орфографию.
  • Языковые и географические ограничения: Система специально разработана для работы в регионах с различными языковыми особенностями (например, страны с разными диалектами или вариантами одного языка — UK, US, Canada, Australia).

Когда применяется

  • Триггеры активации: Получение визуального запроса, содержащего распознаваемый текст, одновременно с наличием данных о местоположении пользователя.
  • Условия работы: Когда система имеет доступ к различным языковым моделям для разных регионов и может выбрать подходящую на основе локации пользователя.

Пошаговый алгоритм

Процесс обработки визуального запроса с учетом географии

  1. Получение данных: Система получает визуальный запрос и географическое положение от клиентского устройства.
  2. Выбор языковой модели: На основе географического положения система выбирает соответствующую региональную языковую модель.
  3. Оптическое распознавание (OCR): Выполняется OCR для извлечения потенциальных текстовых символов из изображения.
  4. Оценка символов (Scoring):
    1. Для каждого символа генерируется language-conditional character likelihood. Эта вероятность рассчитывается на основе того, насколько символ и предшествующая ему последовательность символов соответствуют выбранной локализованной языковой модели.
    2. Генерируется Text Quality Score для каждого символа (может учитывать уверенность OCR и языковую вероятность).
  5. Идентификация строк: На основе оценок качества символов система идентифицирует одну или несколько high quality textual strings.
  6. Географическая дисамбигуация (Опционально): Если в строках обнаружены географические термины, система использует местоположение клиента для их уточнения.
  7. Поиск канонического документа: Система ищет в базе данных canonical document, который содержит идентифицированные высококачественные строки.
  8. Формирование ответа:
    1. Извлекается соответствующая часть канонического документа. Формат (текст или изображение) может зависеть от достигнутого quality score (Claim 11).
    2. Опционально генерируются дополнительные веб-результаты, релевантные тексту и локации.
  9. Отправка результата: Ответ отправляется на клиентское устройство.

Какие данные и как использует

Данные на входе

  • Контентные факторы (Визуальные): Данные изображения (пиксели) в визуальном запросе, которые анализируются модулем OCR.
  • Географические факторы: Местоположение клиентского устройства (Geographic Location). Это критически важный входной сигнал для выбора языковой модели.
  • Системные данные: Набор языковых моделей (Language Models) для разных регионов и база данных канонических документов (Canonical Documents).

Какие метрики используются и как они считаются

  • Language-conditional character likelihood/probability: Статистическая метрика, рассчитываемая для каждого символа. Она определяет вероятность появления символа в контексте предшествующих символов согласно выбранной локализованной языковой модели.
  • Text Quality Score: Агрегированная оценка качества для символов, слов или строк. Она может комбинировать уверенность самого OCR-движка и Language-conditional character likelihood. В патенте упоминается, что оценка может быть бинарной (высокое/низкое качество) и может зависеть от оценок соседних символов.
  • Quality Score (для выбора формата ответа): Метрика, используемая в Claim 11 для определения формата возвращаемого канонического документа (текст или изображение) путем сравнения с пороговым значением.

Выводы

  1. Географический контекст для понимания языка: Патент демонстрирует, как Google использует физическое местоположение пользователя не только для поиска локальных бизнесов, но и для фундаментального понимания языка. Местоположение используется как сигнал для выбора конкретной языковой модели.
  2. Учет региональных различий (Локализация): Система способна адаптироваться к региональным особенностям языка, таким как орфография (например, 'centre' vs 'center') и использование специфической терминологии. Это повышает точность интерпретации контента в зависимости от того, где находится пользователь.
  3. Дисамбигуация сущностей: Местоположение пользователя используется для разрешения неоднозначностей географических названий, найденных в тексте (например, определение, что "Лондон" в тексте, сфотографированном в Канаде, скорее всего, относится к Лондону, Онтарио).
  4. Связь физического мира с цифровым (Canonical Documents): Цель системы — не просто распознать текст, а найти его авторитетный цифровой источник (canonical document). Это подчеркивает стремление Google каталогизировать и верифицировать информацию из офлайн-источников.
  5. Качество определяет формат: Система может динамически выбирать формат ответа (чистый текст или изображение источника) в зависимости от уверенности в качестве распознавания (Claim 11).

Практика

Best practices (это мы делаем)

Хотя патент описывает внутренние механизмы визуального поиска, он дает важные стратегические инсайты для SEO:

  • Точная локализация контента (International SEO): Необходимо тщательно прорабатывать локализацию контента для разных регионов, используя соответствующую орфографию, лексику и идиомы (например, UK English vs US English). Патент подтверждает, что у Google есть технические средства (локализованные языковые модели) для распознавания и предпочтения регионально корректного языка.
  • Обеспечение доступности канонических версий: Если ваш бизнес распространяет физические материалы (меню, каталоги, локальные публикации), убедитесь, что их цифровые канонические версии легко доступны для индексации. Google стремится связать фотографию физического объекта с его цифровым источником.
  • Управление локальными сущностями: При упоминании географических названий на сайте (или в печатных материалах, которые могут быть сфотографированы) предоставляйте достаточно контекста для дисамбигуации. Однако патент показывает, что Google может использовать местоположение пользователя как дополнительный сигнал для уточнения.

Worst practices (это делать не надо)

  • Игнорирование региональных языковых стандартов: Использование "универсального" английского (или другого языка) для всех регионов может снизить релевантность. Если языковая модель Google ожидает увидеть британскую орфографию для пользователя из UK, американский вариант может быть воспринят как менее качественный или менее релевантный.
  • Создание контента только в виде изображений: Размещение важной информации (например, меню ресторана) только в виде изображений без текстовой канонической версии затрудняет ее использование. Хотя OCR совершенствуется, опора только на него рискованна.

Стратегическое значение

Патент подчеркивает важность контекста пользователя (в данном случае — географического положения) для интерпретации запросов. Он демонстрирует, что для Google "понимание языка" не является монолитным процессом; оно адаптируется к региональным особенностям. Стратегически это подтверждает движение в сторону гиперлокализации и персонализации поиска, где контент должен максимально соответствовать локальному контексту и языковым нормам пользователя.

Практические примеры

Сценарий: Локализация веб-сайта для Канады и США

  1. Ситуация: Компания имеет два сайта: .com (для США) и .ca (для Канады).
  2. Действие (на основе патента): Убедиться, что на сайте .ca используется канадский вариант английского языка (например, слова 'centre', 'honour', 'colour').
  3. Обоснование: Патент показывает, что Google может применять языковую модель, специфичную для Канады, при анализе контента для канадского пользователя. Использование корректной орфографии повышает вероятность того, что контент будет воспринят как высококачественный и релевантный в этом регионе.
  4. Ожидаемый результат: Повышение релевантности и потенциальное улучшение ранжирования сайта .ca в канадской выдаче.

Сценарий: Обеспечение доступности меню ресторана

  1. Ситуация: Посетитель фотографирует меню ресторана с помощью Google Lens.
  2. Действие (на основе патента): Ресторан должен иметь на своем веб-сайте актуальное меню в текстовом формате (HTML), которое Google может индексировать как canonical document.
  3. Обоснование: Система, описанная в патенте, попытается распознать текст на фото и найти соответствующий канонический источник.
  4. Ожидаемый результат: Вместо потенциально ошибочного OCR-текста пользователь получит ссылку на официальное текстовое меню на сайте ресторана.

Вопросы и ответы

Что такое "канонический документ" (Canonical Document) в контексте этого патента?

Это авторитетный цифровой источник контента, который пользователь сфотографировал. Например, если пользователь делает фото страницы книги, каноническим документом будет цифровая версия этой книги в базе данных Google (например, Google Books). Система стремится найти именно этот источник, а не просто распознать текст.

Как именно географическое положение влияет на распознавание текста?

Географическое положение используется для выбора подходящей языковой модели (Language Model). Если пользователь находится в Великобритании, система выберет модель британского английского. При оценке распознанных символов система будет отдавать предпочтение словам, соответствующим этой модели (например, 'colour' будет иметь более высокий балл, чем 'color').

Означает ли это, что Google использует разные алгоритмы ранжирования для разных диалектов?

Этот патент не описывает алгоритмы ранжирования веб-страниц. Он описывает, как Google улучшает понимание языка в визуальном поиске с помощью локализованных языковых моделей. Однако наличие таких моделей подтверждает техническую возможность Google учитывать региональные языковые различия, что крайне важно для международного SEO.

Как система использует локацию для разрешения неоднозначностей?

Патент описывает механизм (Claim 3), где система идентифицирует географический термин в тексте (например, название города "Лондон") и использует текущее местоположение пользователя для его уточнения. Если пользователь находится в Канаде, система предположит, что речь идет о Лондоне, Онтарио, а не о Лондоне, Великобритания.

Какое практическое значение этот патент имеет для локального SEO?

Он подчеркивает важность использования корректной локальной терминологии и орфографии на сайтах и в физических материалах. Для локального бизнеса важно, чтобы их цифровой контент соответствовал языковым нормам региона, в котором они работают, так как Google оснащен инструментами для распознавания этих норм.

Что произойдет, если система не уверена в качестве распознавания?

Согласно Claim 11, если рассчитанный Quality Score распознанного текста ниже определенного порога, система предпочтет вернуть пользователю изображение (image version) найденного канонического документа. Если же уверенность высока, она вернет машиночитаемый текст (text version).

Влияет ли этот патент на работу Google Lens?

Да, этот патент напрямую связан с функциональностью систем визуального поиска, таких как Google Lens (ранее Google Goggles). Он описывает базовые механизмы, позволяющие этим системам точно интерпретировать текст на фотографиях в зависимости от того, где находится пользователь.

Нужно ли мне оптимизировать изображения на сайте под этот патент?

Нет, этот патент не про оптимизацию изображений на вашем сайте. Он про то, как Google обрабатывает изображения, поступающие от пользователей (визуальные запросы). Ваша задача — обеспечить наличие качественного текстового контента (канонического источника), который Google сможет найти, если кто-то сфотографирует ваш материал.

Как этот патент связан с E-E-A-T?

Связь косвенная, через концепцию Canonical Document. Система стремится найти авторитетный источник информации. Это перекликается с принципами E-E-A-T, где предпочтение отдается надежным и авторитетным источникам. Наличие индексируемого канонического документа повышает авторитетность вашего контента.

Может ли система ошибиться, если я путешествую и фотографирую текст на местном языке?

Да, система использует текущее географическое положение для выбора языковой модели. Если вы находитесь в США, но фотографируете текст на британском английском, система изначально применит модель американского английского. Это может привести к снижению точности распознавания, если в тексте много региональных особенностей.

Похожие патенты

Как Google использует OCR и канонические документы для улучшения результатов визуального поиска
Google использует технологию визуального поиска для идентификации текста в изображениях (визуальных запросах). Система оценивает качество распознанного текста (OCR), находит соответствующие строки в своей базе канонических документов (например, веб-страниц или книг) и генерирует комбинированный результат. Этот результат может накладывать чистый текст или изображение из канонического источника поверх исходного визуального запроса, создавая «исправленную» версию изображения.
  • US9176986B2
  • 2015-11-03
  • Мультимедиа

  • Индексация

  • EEAT и качество

Как Google находит оригинальный цифровой документ по фотографии текста с помощью продвинутого OCR
Google использует технологию для обработки визуальных запросов (например, фотографий страниц книги). Система выполняет OCR и применяет сложный алгоритм оценки качества распознавания, учитывающий контекст и языковые модели. Это позволяет выделить наиболее надежные строки текста, которые затем используются для точного поиска и возврата пользователю оригинального канонического документа (цифровой версии).
  • US9183224B2
  • 2015-11-10
Как Google идентифицирует первоисточник текста на изображении, анализируя OCR и структуру верстки (Structural Information)
Google использует эту технологию для обработки визуальных запросов (например, фотографий текста). Анализируя как распознанный текст (OCR), так и его точную верстку (шрифт, расположение, размеры — структурную информацию), Google идентифицирует оригинальный авторитетный источник (канонический документ). Это позволяет найти точное издание или формат, гарантируя совпадение не только содержания, но и внешнего вида.
  • US8811742B2
  • 2014-08-19
  • Мультимедиа

  • EEAT и качество

Как Google использует текст внутри изображений (например, Street View) для индексации и ранжирования в локальном и имиджевом поиске
Google извлекает текст непосредственно из изображений (например, названия улиц, вывески бизнесов в Street View), используя передовые методы OCR и улучшения качества (Superresolution). Этот текст ассоциируется с точными географическими координатами (GPS). Это позволяет Google индексировать информацию из реального мира и использовать её для ответа на локальные поисковые запросы и повышения релевантности поиска по картинкам.
  • US8098934B2
  • 2012-01-17
  • Индексация

  • Local SEO

  • Мультимедиа

Как Google сравнивает изображения документов, анализируя геометрическое расположение слов без распознавания текста (OCR)
Google использует метод для сравнения изображений текстовых страниц (например, сканов книг или PDF), который не зависит от языка и качества текста. Система определяет положение слов и создает "сигнатуры" на основе углов и расстояний до соседних слов. Это позволяет эффективно находить дубликаты страниц или идентифицировать документ по фотографии, анализируя только его визуальную структуру.
  • US8151186B1
  • 2012-04-03
  • Индексация

Популярные патенты

Как Google ранжирует и рекомендует источники контента (каналы, профили) на основе внутренних ссылок, аннотаций и кликов по ним
Google использует механизм для ранжирования и рекомендации источников контента (например, YouTube-каналов или профилей) внутри платформ. Система анализирует, как часто источник упоминается в аннотациях, описаниях и комментариях к контенту, который просматривал пользователь. Ключевым фактором ранжирования является не только количество упоминаний, но и общее число кликов (активаций) по этим ссылкам.
  • US9235625B2
  • 2016-01-12
  • Ссылки

  • Поведенческие сигналы

  • Мультимедиа

Как Google использует околоссылочный текст и заголовки (Web Quotes) для индексирования страниц и генерации сниппетов
Google анализирует текст на страницах, ссылающихся на целевой документ, извлекая «Web Quotes». Это не только текст абзаца, окружающего ссылку, но и текст из ближайших заголовков. Эти цитаты ранжируются по качеству ссылающегося источника (например, PageRank) и используются для индексирования целевой страницы (даже если этих слов на ней нет) и для формирования сниппета в результатах поиска.
  • US8495483B1
  • 2013-07-23
  • Индексация

  • Ссылки

  • SERP

Как Google использует историю навигации и клики по рекламе для генерации ключевых слов, гео-таргетинга и выявления MFA-сайтов
Патент Google, описывающий три механизма, основанных на анализе поведения пользователей (selection data). Система использует путь навигации пользователя для генерации новых ключевых слов для рекламы, улучшает гео-таргетинг объявлений на основе предпочтений пользователей, а также выявляет низкокачественные сайты (MFA/манипулятивные) по аномально высокому CTR рекламных блоков.
  • US8005716B1
  • 2011-08-23
  • Поведенческие сигналы

  • Семантика и интент

  • Антиспам

Как Google извлекает сущности из активности пользователя для запуска проактивных (имплицитных) поисковых запросов
Анализ патента Google, описывающего метод идентификации «именованных сущностей» (людей, тем, фраз) путем мониторинга действий пользователя, таких как электронная почта, просмотр веб-страниц и набор текста. Система использует эти сущности для проактивного запуска фоновых поисковых запросов (имплицитных запросов), релевантных текущему контексту пользователя, часто с использованием персонализированных данных.
  • US9009153B2
  • 2015-04-14
  • Персонализация

  • Семантика и интент

  • Поведенческие сигналы

Как Google использует офлайн-сигналы и авторитетность сущностей для ранжирования контента
Google использует реальные, офлайн-сигналы авторитетности для ранжирования документов, у которых отсутствует естественная ссылочная структура (например, оцифрованные книги). Система оценивает коммерческий успех документа (данные о продажах, списки бестселлеров), репутацию связанных сущностей (автора и издателя) и может переносить ссылочный авторитет с официальных сайтов этих сущностей на сам документ для улучшения его позиций в поиске.
  • US8799107B1
  • 2014-08-05
  • EEAT и качество

  • SERP

  • Поведенческие сигналы

Как Google запоминает вопросы без авторитетного ответа и автономно сообщает его позже через Ассистента
Патент Google описывает механизм для обработки запросов, на которые в момент поиска нет качественного или авторитетного ответа. Система запоминает информационную потребность и продолжает мониторинг. Когда появляется информация, удовлетворяющая критериям качества (например, в Knowledge Graph), Google автономно доставляет ответ пользователю, часто встраивая его в следующий диалог с Google Assistant, даже если этот диалог не связан с исходным вопросом.
  • US11238116B2
  • 2022-02-01
  • Knowledge Graph

  • Семантика и интент

  • EEAT и качество

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов
Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.
  • US8478773B1
  • 2013-07-02
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google использует контекст пользователя для предложения запросов до начала ввода текста (Zero-Input Queries)
Google анализирует историю поисковых запросов, группируя их в «контекстные кластеры» на основе схожести темы и обстоятельств ввода (время, местоположение, интересы). Когда пользователь открывает строку поиска, система оценивает его текущий контекст и мгновенно предлагает релевантные категории запросов (например, «Кино» или «Рестораны»), предсказывая намерение еще до ввода символов.
  • US10146829B2
  • 2018-12-04
  • Семантика и интент

  • Персонализация

  • Поведенческие сигналы

Как Google определяет синонимы и варианты слов, анализируя категории выбранных пользователями результатов
Google использует метод стемминга, основанный на поведении пользователей и категориях сущностей. Если пользователи ищут разные слова (например, «пицца» и «пиццерия») и выбирают результаты одной категории («ресторан»), система идентифицирует эти слова как варианты одной основы (Stem Variants). Это происходит, если слова похожи по написанию ИЛИ если объем кликов статистически значим.
  • US9104759B1
  • 2015-08-11
  • Семантика и интент

  • Поведенческие сигналы

  • Персонализация

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска
Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.
  • US8117195B1
  • 2012-02-14
  • EEAT и качество

  • Антиспам

  • Ссылки

seohardcore