SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует консенсус между сайтами для валидации ключевых слов и ранжирования изображений и видео

NON-TEXT CONTENT ITEM SEARCH (Поиск нетекстового контента)
  • US8275771B1
  • Google LLC
  • 2010-06-07
  • 2012-09-25
  • Антиспам
  • Семантика и интент
  • Мультимедиа
  • SERP
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google агрегирует описания (метки) изображения или видео со всех сайтов, где этот контент размещен. Чтобы метка была принята как надежная («Final Label») и использовалась для ранжирования, она должна подтверждаться несколькими независимыми группами источников (консенсус). Этот механизм двойной группировки (по домену и по смыслу) снижает влияние спама и значительно повышает релевантность поиска медиаконтента.

Описание

Какую проблему решает

Патент решает проблему ненадежности и зашумленности текстовых описаний, связанных с нетекстовым контентом (изображения, видео, аудио) на отдельно взятой веб-странице. Текст рядом с изображением (proximate text) или его метаданные могут быть неточными, спамными или контекстуальным шумом, что ухудшает качество поиска. Изобретение направлено на выявление точных и надежных меток путем достижения консенсуса между несколькими источниками.

Что запатентовано

Запатентована система для выбора высоконадежных меток (Final Labels) для нетекстового контента путем внедрения механизма консенсуса. Система агрегирует все исходные метки (Initial Labels) со всех страниц, где размещен контент. Ключевая инновация заключается в том, что метка принимается, только если она подтверждается пороговым количеством независимых групп источников, что обеспечивает валидацию данных и защиту от манипуляций.

Как это работает

Система использует многоэтапный процесс фильтрации:

  • Сбор данных: Собираются все Initial Labels для нетекстового элемента со всех источников.
  • Двойное Группирование: Метки группируются двумя способами: 1) По схожести источников (Matching Web Pages) – например, все метки с одного домена или от одного издателя. 2) По схожести содержания (Matching Labels) – например, метки с похожим текстом или концепцией.
  • Анализ Консенсуса: Из групп извлекаются слова и фразы (N-граммы). N-грамма становится Final Label, только если она встречается в пороговом количестве различных групп.
  • Ранжирование: При совпадении запроса с Final Label, базовый рейтинг контента (Baseline Result Score) значительно увеличивается с помощью Boost Factor.

Актуальность для SEO

Высокая. Точная интерпретация и маркировка изображений и видео критически важны для качества вертикального поиска (Google Images, Video) и интеграции мультимедиа в основную выдачу. Методы достижения консенсуса для валидации данных и борьбы со спамом являются фундаментальными в современных системах Information Retrieval.

Важность для SEO

Патент имеет высокое значение (8.5/10) для стратегий Image SEO и Video SEO. Он детально описывает, как Google определяет, каким ключевым словам доверять. Это означает, что оптимизация на одной конкретной странице (например, через alt-text) может быть неэффективна, если она не соответствует тому, как этот контент описывается в среднем по интернету. Консистентность описаний и естественное распространение контента на разнообразных ресурсах становятся ключевыми факторами ранжирования.

Детальный разбор

Термины и определения

Baseline Result Score (Базовая оценка результата)
Исходная оценка ранжирования нетекстового контента до применения корректировок, описанных в патенте.
Boost Factor (Коэффициент повышения)
Множитель (обычно > 1.0), применяемый к Baseline Result Score, если запрос совпадает с Final Label. Его значение зависит от Match Score.
Final Label (Финальная метка)
Надежная метка (N-грамма), прошедшая процесс валидации консенсусом. Используется для определения релевантности и бустинга ранжирования.
Initial Label (Исходная метка)
Текст, ассоциированный с нетекстовым контентом на конкретной веб-странице (окружающий текст, метаданные, имена файлов). Включает сам текст и идентификатор источника (URL).
Initial Label Group (Группа исходных меток)
Набор Initial Labels, сгруппированных по общему признаку. Группы формируются на основе Matching Web Pages или Matching Labels.
Matching Labels (Совпадающие метки)
Две или более Initial Labels, имеющие достаточную степень схожести (Label Similarity Score выше порога). Схожесть может быть текстуальной (общие слова) или семантической (общая концепция, высокая cosine similarity).
Matching Web Pages (Совпадающие веб-страницы)
Две или более веб-страницы, имеющие общие характеристики источника. Конкретно упоминаются страницы с одного домена или от одного издателя (same publisher).
Match Score (Оценка совпадения)
Мера схожести между поисковым запросом пользователя и Final Label.
Non-text content item (Нетекстовый элемент контента)
Контент, предоставленный в нетекстовом формате (изображения, видео, аудио, мультимедиа).

Ключевые утверждения (Анализ Claims)

Claim 1 и Claim 17 (Независимые пункты): Описывают ядро системы и метода валидации меток.

  1. Система получает набор Initial Labels для нетекстового элемента, каждый с идентификатором источника.
  2. Параллельный процесс группировки:
    1. Группировка по Источнику (Claims 4, 5, 27, 28): Идентифицируются наборы Matching Web Pages (один домен или издатель). Исходные метки из этих страниц группируются в отдельные Initial Label Groups.
    2. Группировка по Содержанию (Claims 29, 30, 31): Идентифицируются наборы Matching Labels (похожий текст, концепция или cosine similarity). Эти метки группируются в другие отдельные Initial Label Groups.
  3. Выбор Финальных Меток (Консенсус): Система выбирает в качестве Final Labels те N-граммы, которые присутствуют в как минимум пороговом количестве (Threshold Number) сформированных ранее Initial Label Groups.

Ключевая инновация — требование консенсуса не по количеству упоминаний, а по количеству различных групп. Группировка по источнику специально предназначена для нейтрализации манипуляций со стороны одного сайта.

Claim 18 (Зависимый): Описывает применение Final Labels в ранжировании.

  1. Система получает запрос и определяет совпадение с Final Label.
  2. Если ДА, оценка ранжирования (Result Score) для этого элемента увеличивается.

Claim 21, 22, 23 (Зависимые): Детализируют механизм повышения.

  • Повышение происходит путем умножения Baseline Result Score на Boost Factor (>1.0).
  • Вычисляется Match Score между запросом и Final Label.
  • Boost Factor выбирается на основе Match Score и может быть пропорционален ему (чем лучше совпадение, тем выше бустинг).

Claim 32 (Зависимый): Упоминает обработку уникальных меток.

  • Метки, которые не попали ни в одну из групп (ни по источнику, ни по содержанию), могут быть сгруппированы в отдельные (уникальные) Initial Label Groups и также участвовать в расчете консенсуса.

Где и как применяется

Изобретение затрагивает несколько этапов поисковой архитектуры, связывая процессы индексирования и ранжирования для нетекстового контента.

CRAWLING и INDEXING (Предварительный этап) – Сбор данных и извлечение признаков
На этом этапе система обнаруживает нетекстовый контент, идентифицирует все страницы, где он используется (включая дубликаты или близкие копии), и извлекает Initial Labels (окружающий текст, метаданные). Эти данные сохраняются (например, в Label Store).

INDEXING (Основной процесс / Офлайн-анализ)
Основной алгоритм патента (выбор Final Labels) работает на этом этапе. Система (Image Search Component) анализирует агрегированные Initial Labels, выполняет двойное группирование и определяет Final Labels на основе консенсуса. Эти финальные метки индексируются и ассоциируются с нетекстовым элементом.

RANKING / RERANKING – Ранжирование и Переранжирование
Во время обработки запроса (например, в Google Images или Video) система использует предварительно рассчитанные Final Labels. Вычисляется Match Score между запросом и метками. Если совпадение есть, система рассчитывает Boost Factor и применяет его к Baseline Result Score. Это влияет на финальную позицию контента в выдаче.

Входные данные:

  • Набор Initial Labels для нетекстового элемента.
  • Идентификаторы ресурсов (URL) для каждой исходной метки.
  • Данные о доменах и издателях.

Выходные данные:

  • Набор Final Labels, ассоциированных с нетекстовым элементом.

На что влияет

  • Конкретные типы контента: Изображения, видео, аудио и мультимедийный контент. Влияет на ранжирование в вертикальных поисках и мультимедийных блоках в веб-поиске.
  • Конкретные ниши: Наибольшее влияние на контент, который часто копируется или встраивается на разных сайтах (товары в e-commerce, стоковые фото, новостные сюжеты, популярные видео).

Когда применяется

  • Условия работы алгоритма (Выбор меток): Алгоритм применяется, когда нетекстовый элемент встречается на нескольких веб-страницах (multiple web pages).
  • Триггеры активации (Ранжирование): Механизм бустинга активируется, когда поисковый запрос пользователя совпадает с одной из предварительно рассчитанных Final Labels.
  • Пороговые значения: Критическим является «пороговое количество» (threshold number) групп меток для достижения консенсуса. Также используется порог сходства (similarity threshold) для определения Matching Labels.

Пошаговый алгоритм

Процесс А: Выбор Финальных Меток (Офлайн / Индексирование)

  1. Выбор контента: Выбирается нетекстовый элемент, связанный с несколькими веб-страницами.
  2. Получение данных: Извлекается набор Initial Labels (текст и URL источника).
  3. Группировка по Источнику:
    1. Идентифицируются наборы Matching Web Pages (например, по домену или издателю).
    2. Для каждого набора создается отдельная Initial Label Group.
  4. Группировка по Содержанию:
    1. Идентифицируются наборы Matching Labels (например, по текстовой схожести или концепции).
    2. Для каждого набора создается отдельная Initial Label Group.
  5. Обработка уникальных меток (Опционально): Метки, не попавшие в группы, могут формировать собственные уникальные группы.
  6. Генерация N-грамм: Для каждой Initial Label Group генерируются N-граммы (слова и фразы) на основе текста меток внутри группы.
  7. Анализ Консенсуса: Подсчитывается количество уникальных Initial Label Groups, в которых встречается каждая N-грамма.
  8. Выбор Финальных Меток: N-граммы, количество упоминаний которых достигло или превысило пороговое значение (Threshold Number), выбираются как Final Labels.

Процесс Б: Применение в Ранжировании (Онлайн / Query Time)

  1. Получение запроса: Система получает поисковый запрос.
  2. Вычисление Совпадения: Вычисляется Match Score между запросом и набором Final Labels нетекстового элемента.
  3. Выбор Коэффициента: Если совпадение есть, выбирается Boost Factor, основанный на значении Match Score (может быть пропорционален ему).
  4. Корректировка Оценки: Baseline Result Score нетекстового элемента увеличивается (например, умножается) с использованием Boost Factor.
  5. Формирование Выдачи: Результаты сортируются на основе скорректированных оценок.

Какие данные и как использует

Данные на входе

Система фокусируется на контекстуальных и технических факторах, связанных с размещением контента.

  • Контентные и Структурные факторы:
    • Proximate Text: Текст, расположенный в пределах порогового количества пикселей от нетекстового элемента или в том же разделе страницы.
    • Заголовки страниц или разделов.
  • Технические факторы и Метаданные:
    • Метаданные элемента: Имена файлов, данные об авторстве, описания (включая alt-text).
    • Resource Identifier (URL): Используется для идентификации источника метки.
    • Domain/Publisher Information: Данные о домене и издателе используются для идентификации Matching Web Pages.
  • Поведенческие факторы:
    • Пользовательские метки: Текст, предоставленный пользователями для описания контента (упоминается как возможный источник Initial Labels).

Какие метрики используются и как они считаются

  • Threshold Number of Separate Initial Label Groups (Порог консенсуса): Ключевая метрика патента. Минимальное количество различных групп меток, в которых должна появиться N-грамма, чтобы стать Final Label.
  • Label Similarity Score (Оценка схожести меток): Метрика для определения Matching Labels. Может рассчитываться как:
    • Количество общих слов.
    • Семантическая схожесть с концепцией.
    • Cosine similarity measure (косинусное сходство).
  • Match Score (Оценка совпадения): Мера схожести между поисковым запросом и Final Label.
  • Boost Factor (Коэффициент повышения): Множитель для Baseline Result Score. В патенте указано, что он может быть пропорционален Match Score.

Выводы

  1. Консенсус как основа доверия: Ключевой вывод — Google не доверяет описанию изображения или видео из одного источника. Для формирования надежной метки (Final Label) требуется подтверждение (консенсус) из нескольких независимых групп источников или контекстов.
  2. Механизм защиты от манипуляций на уровне сайта: Группировка меток с одного домена или от одного паблишера (Matching Web Pages) в одну группу нейтрализует попытки спама. Многократное повторение ключевого слова на одном сайте будет засчитано как один «голос» в пользу этого ключевого слова.
  3. Важность разнообразия источников и контекстов: Чтобы термин стал Final Label, он должен появиться в разных группах. Это подчеркивает важность того, чтобы контент был описан схожим образом на разных доменах (разнообразие источников) и/или разными релевантными фразами (разнообразие контекстов).
  4. Финальные метки как сильный фактор бустинга: Final Labels не просто определяют релевантность, но и активно повышают ранжирование через Boost Factor. Наличие высоконадежной метки, совпадающей с запросом, может значительно улучшить позиции контента.
  5. Семантическое понимание описаний: Система учитывает не только точное совпадение слов, но и концептуальную схожесть (Matching Labels, cosine similarity), что указывает на применение семантического анализа для группировки меток.

Практика

Best practices (это мы делаем)

  • Комплексная и точная оптимизация контекста: Обеспечивайте наличие релевантного и точного текстового контекста везде, где используется изображение или видео. Это включает оптимизацию Proximate Text (окружающий текст, подписи), метаданных (включая имена файлов) и атрибутов (например, alt text). Это формирует качественные Initial Labels, которые с большей вероятностью найдут подтверждение у других источников.
  • Стимулирование распространения контента на качественных внешних ресурсах (Digital PR): Поскольку для достижения консенсуса требуются метки из разных групп, важно, чтобы ваш контент (инфографика, видеообзоры) размещался на авторитетных внешних сайтах с релевантным текстовым окружением. Это создает дополнительные независимые Initial Label Groups.
  • Консистентность при синдикации: Если вы предоставляете контент партнерам (например, фото товаров для маркетплейсов), убедитесь, что предоставляемые метаданные и описания точны и последовательны. Это увеличивает вероятность формирования сильных Final Labels за счет консенсуса между вашим сайтом и сайтами партнеров.
  • Использование разнообразной семантики: Используйте синонимы и связанные концепции в описаниях. Система может группировать метки по смыслу (Matching Labels), даже если слова разные. Это увеличивает вероятность формирования разнообразных групп, подтверждающих основную тему контента.

Worst practices (это делать не надо)

  • Манипуляции на одном домене (Keyword Stuffing): Создание множества страниц на одном домене с одним и тем же изображением и переоптимизированным текстом неэффективно. Все эти упоминания будут объединены в одну группу по источнику (Matching Web Pages) и дадут только один голос при расчете консенсуса.
  • Использование нерелевантных или кликбейтных описаний: Использование текста, который не соответствует содержанию изображения/видео, приведет к формированию нерелевантных Initial Labels. Если эти метки не найдут подтверждения в других источниках, они будут отфильтрованы.
  • Манипуляция метками через сеть сателлитов (PBN): Попытка создать искусственный консенсус на сети контролируемых сайтов может быть неэффективной, если Google определит, что эти сайты принадлежат одному издателю (publisher). В этом случае все они попадут в одну Initial Label Group.

Стратегическое значение

Патент подтверждает стратегию Google по борьбе с манипуляциями и повышению точности поиска за счет анализа сигналов со всего интернета. Для SEO это означает, что оптимизация нетекстового контента — это не только On-Page задача, но и Off-Page. Стратегия должна включать PR и контент-маркетинг, направленные на то, чтобы ключевые визуальные активы компании появлялись в правильном контексте на авторитетных ресурсах, тем самым формируя необходимый консенсус.

Практические примеры

Сценарий 1: Оптимизация изображения продукта в E-commerce (Успех)

Изображение: Фотография кроссовок "Nike Air Max 90, синие".

  1. Сбор Initial Labels:
    • Сайт A (Магазин): Метка "Распродажа кроссовок Nike".
    • Сайт B (Блог обзорщика): Метка "Обзор Air Max 90 синего цвета".
    • Сайт C (Форум): Метка "Посмотрите на мои новые кроссовки".
    • Сайт D (Другой магазин): Метка "Синие Air Max 90 в наличии".
  2. Группировка и Генерация N-грамм: Система создает 4 группы по источникам (предполагая, что сайты независимы) и дополнительные группы по схожести меток. N-граммы генерируются для каждой группы.
  3. Консенсус (Порог = 2 группы):
    • "Nike": 2+ группы. -> Final Label.
    • "Air Max 90": 2+ группы. -> Final Label.
    • "Синие" / "Синего цвета": 2+ группы. -> Final Label.
    • "Распродажа": 1 группа. -> Отклонено.
  4. Результат: При запросе "Синие кроссовки Air Max 90" это изображение получит значительный Boost Factor, так как запрос хорошо совпадает с валидированными Final Labels. Текст о "распродаже" игнорируется.

Сценарий 2: Попытка манипуляции (Неудача)

  1. Ситуация: SEO-специалист хочет ранжировать изображение кота по запросу "дешевая страховка авто".
  2. Действия: Он размещает изображение кота на своем сайте 10 раз, каждый раз с alt-text "Лучшее фото дешевой страховки авто".
  3. Работа алгоритма: Система видит 10 Initial Labels. Но все они с одного домена (Matching Web Pages). Они группируются в ОДНУ Initial Label Group.
  4. Отсутствие консенсуса: Другие сайты, использующие это фото кота, описывают его как "смешной кот".
  5. Результат: N-грамма "дешевая страховка авто" появляется только в одной группе. Порог не достигнут, она не становится Final Label. Изображение не ранжируется по страховым запросам.

Вопросы и ответы

Как система обрабатывает несколько разных описаний одного изображения на одном домене?

Согласно патенту, страницы с одного домена или от одного издателя определяются как Matching Web Pages. Все исходные метки (Initial Labels) с этих страниц объединяются в одну Initial Label Group. Это означает, что весь домен рассматривается как один источник мнения (один «голос») в процессе достижения консенсуса, что предотвращает манипуляции путем многократного повторения ключевых слов на одном сайте.

Что важнее для формирования Final Label: схожесть источников или схожесть текста меток?

Важны оба аспекта, так как система генерирует группы на основе обоих критериев параллельно. Final Label должна появиться в пороговом количестве групп, независимо от того, как эти группы были сформированы. Цель системы — обеспечить максимальное разнообразие подтверждающих сигналов, поэтому идеальная ситуация — когда метка подтверждается разными доменами и разными релевантными формулировками.

Как система определяет «Matching Labels», если текст разный?

Патент предусматривает несколько методов определения схожести меток (Label Similarity Score). Это может быть не только наличие общих слов, но и наличие слов, относящихся к одной концепции (семантическая близость), или высокая оценка cosine similarity. Это указывает на использование NLP для понимания смысла меток, а не только их текстового совпадения.

Влияет ли этот патент только на Google Images или на основной поиск тоже?

Патент описывает поиск по нетекстовому контенту в целом (Images, Video, Audio). Результаты этого процесса напрямую влияют на основной поиск (Web Search) через механизмы Universal Search. Если изображение или видео получает высокий скорректированный рейтинг благодаря Final Labels и Boost Factor, оно с большей вероятностью будет показано в мультимедийных блоках (карусели изображений, видео-блоки) на странице выдачи.

Насколько сильным может быть Boost Factor?

Повышение может быть значительным. Патент указывает, что Boost Factor — это значение больше 1.0, используемое для умножения базовой оценки. Также указано, что коэффициент может быть пропорционален Match Score (качеству совпадения запроса и Final Label). Это предполагает, что хорошо подтвержденные метки, точно соответствующие запросу, могут дать значительное преимущество в ранжировании.

Как этот механизм влияет на SEO для стоковых фотографий или изображений, которые часто используются повторно?

Этот механизм идеально подходит для анализа таких изображений. Поскольку они используются в разных контекстах на многих сайтах, система соберет много Initial Labels. Механизм консенсуса отфильтрует специфический контекст отдельных статей и выделит то, что действительно изображено на фото. Ваш собственный контекст добавит новые данные, но может не переопределить уже сложившийся консенсус.

Что произойдет, если изображение используется только на одной странице?

Если изображение используется только на одной странице, механизм консенсуса не может быть полноценно применен, так как будет сформировано недостаточно Initial Label Groups для достижения порога. В этом случае система, вероятно, будет полагаться на стандартные методы ранжирования (Baseline Result Score) без применения значительного Boost Factor, описанного в этом патенте.

Учитывает ли система авторитетность сайтов, с которых берутся метки?

Патент не упоминает использование авторитетности или качества сайта (Site Quality) в этом конкретном процессе выбора Final Labels или расчета Boost Factor. Он фокусируется на достижении консенсуса через разнообразие групп. Однако авторитетность сайта, вероятно, учитывается при расчете исходного Baseline Result Score.

Как обрабатываются метки на разных языках?

В описании патента упоминается, что схожесть меток (Label Similarity) может основываться на переводах. Например, слово на английском и его эквивалент на другом языке могут считаться схожими. Это предполагает, что система может достигать консенсуса кросс-лингвально, объединяя метки на разных языках, если они семантически эквивалентны.

Что такое «Proximate Text» и насколько он важен?

Proximate Text — это текст, который отображается в пределах порогового количества пикселей от нетекстового элемента на веб-странице или в том же разделе. Он является одним из основных источников для Initial Labels, наряду с метаданными и именами файлов. Его важность высока, так как он формирует контекст, который система анализирует для понимания содержания изображения или видео.

Похожие патенты

Как Google агрегирует и ранжирует пользовательские метки для идентификации объектов в Визуальном поиске (Google Lens)
Google использует этот механизм для повышения точности идентификации объектов при поиске по изображению. Система находит множество визуально похожих изображений, загруженных пользователями (UGC), и анализирует их текстовые метки. Метки группируются по смыслу, а затем эти группы ранжируются на основе совокупной визуальной релевантности. Это позволяет определить наиболее вероятное название объекта, опираясь на коллективное мнение.
  • US9424279B2
  • 2016-08-23
  • Мультимедиа

  • Семантика и интент

  • SERP

Как Google использует визуальное сходство и графовый анализ (VisualRank) для валидации и ранжирования меток изображений
Google валидирует текстовые метки изображений (например, Alt-текст или имена файлов) с помощью визуального анализа. Система строит граф, связывающий визуально похожие изображения. Симулируя навигацию пользователя по этому графу (алгоритм, подобный PageRank), Google определяет, какие метки наиболее релевантны фактическому содержанию изображения, отфильтровывая шум и повышая качество поиска по картинкам.
  • US7961986B1
  • 2011-06-14
  • Мультимедиа

  • SERP

Как Google определяет текстовое описание изображения для визуального поиска, анализируя похожие картинки и связанные с ними запросы
Google использует систему визуального поиска, которая позволяет пользователям отправлять изображение в качестве запроса. Для этого система создает индекс визуальных признаков и анализирует метаданные (запросы, по которым кликали на картинку, и текст на ссылающихся страницах). При получении изображения система находит визуально похожие картинки в индексе, анализирует связанные с ними текстовые фразы (n-граммы) и выбирает наилучшее описание. Затем выполняется стандартный поиск по этому текстовому описанию.
  • US8761512B1
  • 2014-06-24
  • Индексация

  • Мультимедиа

  • Семантика и интент

Как Google объединяет текстовые описания с разных сайтов для улучшения поиска по картинкам
Google улучшает поиск по картинкам, находя дубликаты или похожие изображения на разных сайтах. Система собирает все текстовые метки (из alt-текста, заголовков, окружающего текста), связанные с каждой копией изображения, объединяет их в единый набор и присваивает его всем копиям. Это позволяет находить изображение по любому из описаний, использованных в сети.
  • US7460735B1
  • 2008-12-02
  • Мультимедиа

  • Индексация

  • Семантика и интент

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных
Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.
  • US9652462B2
  • 2017-05-16
  • Мультимедиа

  • SERP

  • Семантика и интент

Популярные патенты

Как Google предсказывает, какие сайты будут интересны пользователю на основе его контекста (местоположение, время, интересы) без поискового запроса
Google использует агрегированные данные о поведении пользователей для прогнозирования контента. Система анализирует контекст пользователя (местоположение, время, интересы, историю) и определяет, какие сайты посещают похожие пользователи в аналогичном контексте значительно чаще, чем пользователи в целом. Этот механизм позволяет предлагать релевантный контент без явного запроса (например, в Google Discover).
  • US9195703B1
  • 2015-11-24
  • Персонализация

  • Поведенческие сигналы

  • Семантика и интент

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования
Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).
  • US7096214B1
  • 2006-08-22
  • EEAT и качество

  • Антиспам

  • SERP

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR
Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).
  • US10650066B2
  • 2020-05-12
  • Ссылки

  • SERP

Как Google динамически фильтрует и изменяет подсказки Autocomplete в реальном времени при вводе навигационного запроса
Google использует систему для оптимизации функции автозаполнения (Autocomplete). При вводе частичного запроса система определяет широкий набор потенциальных навигационных ссылок (Superset) и фильтрует его до узкого подмножества (Subset) на основе сигналов, таких как история поиска, популярность и тип документа. Интерфейс может динамически изменять отображаемые подсказки, если пользователь делает паузу при вводе.
  • US9454621B2
  • 2016-09-27
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

Как Google использует машинное обучение (Learning to Rank) для имитации оценок асессоров и улучшения ранжирования
Google использует технологию Learning to Rank для обучения статистических моделей, которые имитируют оценки человеческих асессоров. Модели анализируют объективные сигналы (статические и поведенческие) для пары запрос/документ и предсказывают, насколько релевантным этот документ сочтет человек. Эти прогнозы затем используются для ранжирования результатов поиска.
  • US8195654B1
  • 2012-06-05
  • Поведенческие сигналы

  • SERP

Как Google использует машинное обучение для оптимизации обхода Knowledge Graph и поиска связанных концепций
Google оптимизирует обход Knowledge Graph для эффективного поиска семантически связанных фраз. Вместо анализа всех связей сущности система использует ML-модели для выбора только тех отношений (свойств), которые вероятнее всего приведут к ценным результатам. Этот выбор основан на истории поисковых запросов и контексте пользователя, что позволяет экономить вычислительные ресурсы и повышать релевантность предложений.
  • US10140286B2
  • 2018-11-27
  • Knowledge Graph

  • Семантика и интент

  • Персонализация

Как Google использует клики (CTR) и время на сайте (Click Duration) для выявления спама и корректировки ранжирования в тематических выдачах
Google использует итеративный процесс для улучшения классификации контента и выявления спама, анализируя поведенческие сигналы (CTR и продолжительность клика). Если пользователи быстро покидают документ или игнорируют его в выдаче, он помечается как спам или нерелевантный теме. Эти данные затем используются для переобучения классификатора и корректировки ранжирования для будущих тематических запросов.
  • US7769751B1
  • 2010-08-03
  • Поведенческие сигналы

  • Антиспам

  • SERP

Как Google обучается на поведении пользователя для персонализации весов источников в поисковой выдаче
Google использует сигналы интереса пользователя (клики, время просмотра) для динамической корректировки весов различных источников данных (например, ключевых слов, тем, типов контента). Система определяет, какие источники наиболее полезны для конкретного пользователя, и повышает их значимость при ранжировании последующих результатов поиска, тем самым персонализируя выдачу.
  • US8631001B2
  • 2014-01-14
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче
Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.
  • US9424360B2
  • 2016-08-23
  • Local SEO

  • Поведенческие сигналы

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore