SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует код Gamma(k) для сжатия Инвертированного Индекса и ускорения поиска

VARIABLE-LENGTH COMPRESSION TECHNIQUE FOR ENCODING OR DECODING A SEQUENCE OF INTEGERS (Техника сжатия переменной длины для кодирования или декодирования последовательности целых чисел)
  • US7652596B1
  • Google LLC
  • 2008-12-30
  • 2010-01-26
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Анализ инфраструктурного патента Google, описывающего алгоритм сжатия Gamma(k). Этот метод используется для эффективного хранения огромных объемов данных в инвертированном индексе. Он позволяет Google уменьшить размер индекса и ускорить процесс извлечения результатов поиска за счет адаптивного кодирования и оптимизации для параллельной обработки.

Описание

Какую проблему решает

Патент решает проблему неэффективности хранения огромных последовательностей целых чисел, которые составляют основу поисковой инфраструктуры Google, в частности Inverted Index (Инвертированный индекс) и Compressed Repository (Сжатый репозиторий документов). Стандартные методы сжатия (например, Elias gamma code) часто используют избыточное количество бит. Цель изобретения — минимизировать объем занимаемого дискового пространства и значительно ускорить процесс декодирования данных при выполнении поисковых запросов.

Что запатентовано

Патент описывает внутренние процессы Google, связанные с инфраструктурой хранения данных, без прямых рекомендаций для SEO. Запатентована система кодирования и декодирования данных, названная код Gamma(k). Это техника сжатия переменной длины, которая адаптируется к распределению размеров кодируемых чисел путем определения порогового значения K (Threshold Value K). Кроме того, запатентован метод разделения закодированных данных на два потока (Tag Stream и Remaining Bit Stream) для обеспечения быстрого параллельного декодирования.

Как это работает

Система работает следующим образом:

  • Анализ данных: Система анализирует последовательность целых чисел (например, идентификаторы документов в индексе) и определяет их средний или медианный размер (Порог K).
  • Кодирование: Каждое число (длиной N бит) кодируется в зависимости от того, больше оно K или нет. Число разделяется на «Тег» (Tag), указывающий на длину относительно K, и «Остаточные биты» (Remaining Bits).
  • Оптимизация: Если число меньше или равно K, оно дополняется нулями до длины K, что позволяет использовать минимальный тег.
  • Параллельное декодирование: Теги и Остаточные биты хранятся в отдельных потоках. Это позволяет системе декодировать сразу несколько чисел параллельно (например, используя специализированные аппаратные инструкции), что критично для скорости поиска.

Актуальность для SEO

Высокая (для инфраструктуры). Эффективность хранения и скорость доступа к индексу являются фундаментальными задачами для любой поисковой системы. По мере роста интернета потребность в эффективных методах сжатия только возрастает. Принципы, описанные в патенте (адаптивное сжатие и оптимизация для параллельной обработки), остаются критически важными для производительности.

Важность для SEO

Патент имеет минимальное (1/10) и исключительно инфраструктурное значение для SEO. Он не описывает факторы ранжирования, методы анализа контента или ссылок. Его влияние на SEO косвенное: более эффективное сжатие позволяет Google хранить больший и более полный индекс, а более быстрое декодирование позволяет быстрее обрабатывать запросы. Это не дает конкретных тактических преимуществ SEO-специалистам.

Детальный разбор

Термины и определения

Gamma(k) Code (Код Gamma(k))
Описанная в патенте техника сжатия переменной длины. Вариант кода Гамма, оптимизированный путем введения порогового значения K.
Threshold Value K (Пороговое значение K)
Значение, определяемое на основе анализа распределения размеров кодируемых чисел (например, средний или медианный размер). Используется как точка отсчета для оптимизации длины кода.
Integer Bit Length (N) (Битовая длина целого числа)
Количество бит, необходимое для представления конкретного целого числа.
Tag (Тег)
Часть закодированного числа, закодированная в унарном формате, которая указывает на длину (N) числа относительно порога K (обычно N-K).
Remaining Bits (Остаточные биты)
Часть закодированного числа, содержащая его фактическое значение (иногда с удаленным старшим битом или дополненное нулями).
Inverted Index (Инвертированный индекс)
Основная структура данных поисковой системы, которая для каждого термина указывает, в каких документах и на каких позициях он встречается. Состоит из огромных последовательностей целых чисел.
Compressed Repository (Сжатый репозиторий)
Хранилище, содержащее сжатые версии документов (веб-страниц), используемое для быстрого извлечения контента (например, сниппетов).
Tag Stream / Remaining Bit Stream
Раздельные потоки данных, позволяющие реализовать параллельное декодирование для ускорения доступа.

Ключевые утверждения (Анализ Claims)

Патент является чисто техническим и описывает алгоритм сжатия данных.

Claim 1 и 2 (Независимый и зависимый пункты): Описывают основной метод сжатия Gamma(k).

  1. Система сканирует последовательность целых чисел и определяет Пороговое значение K.
  2. Для каждого числа определяется его битовая длина N.
  3. Логика кодирования (Часть 1, Claim 1): Если N−K>0N-K > 0N−K>0 (число больше порога):
    • Тег генерируется как последовательность из N−KN-KN−K нулей, за которыми следует единица.
    • Остаточные биты генерируются как N−1N-1N−1 младших значащих битов числа (старший бит удаляется).
  4. Логика кодирования (Часть 2, Claim 2): Если N−K≤0N-K \leq 0N−K≤0 (число меньше или равно порогу):
    • Тег генерируется как одиночная единица.
    • Остаточные биты генерируются путем дополнения (padding) N битов числа нулями спереди так, чтобы общая длина составила K бит.

Ядро изобретения — это адаптация длины кода к статистическому распределению данных (через K), что позволяет достичь лучшего сжатия.

Claim 4 (Зависимый): Описывает метод хранения закодированных данных для оптимизации скорости.

  1. Все Теги хранятся в первом потоке (Tag Stream).
  2. Все Остаточные биты хранятся во втором потоке (Remaining Bit Stream).

Это позволяет аппаратному обеспечению обрабатывать Теги (определять длины) и Остаточные биты (извлекать значения) параллельно, ускоряя декодирование.

Claim 7 (Независимый): Описывает процесс декодирования.

  1. Система получает закодированную последовательность и значение K.
  2. Для числа сканируется его Тег: подсчитывается количество нулей L до первой встреченной единицы. Единица отбрасывается.
  3. Логика декодирования:
    • Если L=0: Декодированное число формируется из следующих K Остаточных битов.
    • Если L>0: Декодированное число формируется из следующих K+L−1K+L-1K+L−1 Остаточных битов, к которым в начало добавляется единица (восстанавливается старший значащий бит).

Где и как применяется

Изобретение является инфраструктурным и применяется на низкоуровневых этапах хранения и извлечения данных.

CRAWLING – Сканирование и Сбор данных
Compressor (Компрессор) может использовать этот метод для сжатия исходных документов перед их сохранением в Compressed Repository.

INDEXING – Индексирование и извлечение признаков
Основное применение. Indexer (Индексатор) генерирует Inverted Index, который состоит из списков целых чисел (идентификаторы документов, позиции в документе). Этот метод используется для сжатия этих списков перед записью на диск. Система вычисляет оптимальное значение K для каждого списка.

RANKING – Ранжирование (L1 Retrieval)
На этапе отбора кандидатов (Retrieval) система должна быстро извлечь списки документов из Inverted Index. Здесь применяется Gamma(k) Decoder. Благодаря оптимизации для параллельной обработки (разделение на Tag Stream и Remaining Bit Stream), извлечение происходит с минимальной задержкой.

Входные данные:

  • Последовательность целых чисел.

Выходные данные (Кодирование):

  • Пороговое значение K.
  • Сжатые потоки (Tag Stream и Remaining Bit Stream).

На что влияет

Алгоритм влияет исключительно на эффективность инфраструктуры Google.

  • Типы контента/Запросы/Ниши/Языки: Не влияет на конкретные типы контента, запросы, ниши (включая YMYL) или языки с точки зрения ранжирования. Он применяется универсально ко всем данным в индексе.
  • Производительность: Влияет на скорость ответа поисковой системы за счет ускорения фазы извлечения данных из индекса.
  • Объем индекса: Влияет на объем дискового пространства, необходимого для хранения индекса.

Когда применяется

  • При кодировании: Всякий раз, когда обновляется Inverted Index или когда новый документ добавляется в Compressed Repository.
  • При декодировании: При каждом поисковом запросе, когда система обращается к Inverted Index для извлечения списков документов.

Пошаговый алгоритм

Процесс А: Кодирование (Gamma(k) Encoding)

  1. Получение данных и Анализ: Система получает последовательность целых чисел и вычисляет пороговое значение K (например, средний размер в битах).
  2. Инициализация потоков: Создаются два потока вывода: Tag Stream и Remaining Bit Stream.
  3. Обработка числа: Выбирается следующее число. Определяется его битовая длина N.
  4. Проверка условия (N > K): Сравнивается длина числа N с порогом K.
  5. Кодирование (если N > K):
    • Генерируется Тег: Последовательность из N−KN-KN−K нулей, завершающаяся единицей. Записывается в Tag Stream.
    • Генерируются Остаточные биты: N−1N-1N−1 младших битов числа. Записываются в Remaining Bit Stream.
  6. Кодирование (если N <= K):
    • Генерируется Тег: Одиночная единица. Записывается в Tag Stream.
    • Генерируются Остаточные биты: N битов числа дополняются слева K−NK-NK−N нулями до длины K. Записываются в Remaining Bit Stream.
  7. Повторение: Процесс повторяется до обработки всех чисел.

Процесс Б: Декодирование (Gamma(k) Decoding)

  1. Получение данных: Система получает значение K, Tag Stream и Remaining Bit Stream.
  2. Чтение Тега: Из Tag Stream считывается следующий Тег. Подсчитывается количество ведущих нулей (L) до первой единицы. Единица игнорируется. (Этот шаг может выполняться параллельно для нескольких тегов).
  3. Проверка условия (L=0): Определяется, были ли ведущие нули.
  4. Декодирование (если L=0): Из Remaining Bit Stream считываются следующие K битов. Они формируют декодированное число.
  5. Декодирование (если L>0):
    • Определяется длина: K+L−1K+L-1K+L−1 битов.
    • Из Remaining Bit Stream считываются эти биты.
    • К считанным битам слева добавляется единица (восстановление старшего бита), формируя декодированное число.

Какие данные и как использует

Данные на входе

Патент описывает алгоритм сжатия и не использует традиционные SEO-факторы (контентные, ссылочные, поведенческие и т.д.).

  • Системные данные: Последовательности целых чисел (sequence of integers). В контексте поисковой системы это данные, хранящиеся в Inverted Index (например, идентификаторы документов (DocIDs), позиции терминов).

Какие метрики используются и как они считаются

  • Threshold Value K (Пороговое значение K): Вычисляется путем анализа распределения размеров входных чисел. В патенте предлагается использовать средний размер (average size) или медианный размер (median size) в битах.
  • Integer Bit Length N (Битовая длина N): Количество бит, необходимое для представления конкретного числа.
  • Length L (Длина L): Количество ведущих нулей в Теге при декодировании. Соответствует N−KN-KN−K, если N>KN>KN>K.

Выводы

Патент описывает внутренние инфраструктурные процессы Google без прямых рекомендаций для SEO.

  1. Фокус на инфраструктурной эффективности: Основная цель патента — оптимизация хранения данных (Inverted Index) и скорости доступа к ним. Google активно инвестирует в низкоуровневые алгоритмы сжатия для поддержания своей масштабируемости.
  2. Адаптивное сжатие (Gamma(k)): Использование порогового значения K позволяет алгоритму Gamma(k) адаптироваться к конкретному набору данных и достигать лучшего сжатия, чем стандартные методы, экономя дисковое пространство.
  3. Оптимизация скорости поиска: Разделение закодированных данных на Tag Stream и Remaining Bit Stream является критически важной оптимизацией. Это позволяет использовать возможности современного оборудования для параллельного декодирования, что напрямую ускоряет фазу извлечения кандидатов (L1 Retrieval).
  4. Отсутствие влияния на ранжирование: Алгоритм не вводит новых сигналов ранжирования и не изменяет способы оценки качества контента или авторитетности сайтов.
  5. Косвенное влияние на охват: Более эффективное сжатие позволяет Google индексировать и хранить больше документов при тех же аппаратных ресурсах, что потенциально улучшает общий охват поиска.

Практика

Патент является чисто техническим и описывает инфраструктурные процессы Google. Он не дает практических выводов для SEO-специалистов по оптимизации сайтов.

Best practices (это мы делаем)

Информация о лучших практиках SEO в данном патенте отсутствует. Патент не подтверждает и не опровергает какие-либо стратегии, связанные с контентом, ссылками или технической оптимизацией сайта. Он описывает, как Google хранит данные после того, как они были собраны и обработаны.

Worst practices (это делать не надо)

Информация о худших практиках SEO в данном патенте отсутствует. Алгоритм не направлен против каких-либо SEO-манипуляций; это алгоритм сжатия данных.

Стратегическое значение

Стратегическое значение патента заключается в понимании инженерных приоритетов Google. Эффективность инфраструктуры критична для работы в масштабах всего интернета. Этот патент демонстрирует, как Google решает проблемы хранения и скорости доступа к индексу. Для SEO это означает, что Google продолжает улучшать свою способность быстро обрабатывать огромные объемы данных, что позволяет имплементировать сложные алгоритмы ранжирования и поддерживать актуальность индекса.

Практические примеры

Практических примеров применения в SEO нет, так как патент описывает внутренний механизм сжатия данных.

Ниже приведен технический пример работы алгоритма Gamma(k) для понимания механизма.

Сценарий: Кодирование списка идентификаторов документов

  1. Входные данные: Список DocID: [10, 500, 15].
  2. Определение K: Допустим, анализ данных показал, что оптимальный порог K = 6 бит (числа до 64).
  3. Кодирование числа 10:
    • Бинарное представление: 1010 (N=4 бита).
    • Условие: N (4) <= K (6).
    • Тег: 1.
    • Остаточные биты: Дополняем до K бит. K−N=6−4=2K-N = 6-4=2K−N=6−4=2 нуля. Результат: 001010.
  4. Кодирование числа 500:
    • Бинарное представление: 111110100 (N=9 бит).
    • Условие: N (9) > K (6).
    • Тег: N−K=9−6=3N-K = 9-6=3N−K=9−6=3 нуля + 1. Результат: 0001.
    • Остаточные биты: N−1=8N-1=8N−1=8 младших битов (удаляем старшую 1). Результат: 11110100.
  5. Кодирование числа 15:
    • Бинарное представление: 1111 (N=4 бита).
    • Условие: N (4) <= K (6).
    • Тег: 1.
    • Остаточные биты: 001111.
  6. Результат:
    • Tag Stream: 1 | 0001 | 1
    • Remaining Bit Stream: 001010 | 11110100 | 001111

Вопросы и ответы

Влияет ли этот патент на ранжирование сайтов?

Нет, этот патент не влияет на ранжирование. Он описывает исключительно инфраструктурный механизм — алгоритм сжатия данных Gamma(k). Он используется для эффективного хранения индекса и быстрого извлечения данных, но не содержит информации о факторах ранжирования, оценке качества контента или E-E-A-T.

Какое практическое значение этот патент имеет для SEO-специалиста?

Прямого практического значения для SEO-тактик этот патент не имеет. Он не дает рекомендаций по оптимизации сайта. Его ценность заключается в понимании того, как устроена инфраструктура Google и какие инженерные задачи она решает для обеспечения скорости и масштабируемости поиска.

Что такое инвертированный индекс и почему его нужно сжимать?

Inverted Index — это база данных, которая для каждого слова указывает, в каких документах оно встречается. Он огромен, так как содержит данные по миллиардам документов. Сжатие необходимо для экономии места на серверах и, что более важно, для ускорения чтения данных с диска или из памяти во время поиска.

Что такое код Gamma(k) и чем он лучше других методов?

Gamma(k) — это метод сжатия чисел переменной длины. Он лучше стандартных методов (таких как код Гамма Элиаса), потому что он адаптируется к данным. Он вычисляет средний размер чисел (K) и кодирует длину числа относительно этого среднего значения, а не абсолютную длину. Это позволяет использовать меньше битов для представления данных.

В патенте упоминается разделение на Tag Stream и Remaining Bit Stream. Зачем это нужно?

Это ключевая оптимизация для скорости. Tag Stream содержит информацию о длине чисел, а Remaining Bit Stream — их значения. Разделение позволяет процессору декодировать сразу несколько чисел параллельно (например, используя векторные инструкции или специализированные схемы). Это значительно ускоряет процесс извлечения результатов из индекса.

Может ли этот алгоритм повлиять на то, какие страницы попадают в индекс?

Косвенно. Алгоритм сам по себе не принимает решений об индексировании. Однако, обеспечивая более эффективное сжатие, он позволяет Google хранить больший объем данных при тех же затратах на оборудование. Это потенциально позволяет увеличить размер и полноту индекса.

Используется ли этот метод для сжатия контента веб-страниц?

Патент упоминает, что этот метод может использоваться в Compressed Repository, где хранятся сжатые версии документов. Таким образом, он может применяться не только для индекса, но и для хранения самого контента, что ускоряет генерацию сниппетов и доступ к кэшированным версиям страниц.

Что такое пороговое значение K и как оно выбирается?

Пороговое значение K — это точка отсчета для кодирования длины. Оно выбирается путем анализа статистического распределения размеров чисел в наборе данных, который нужно сжать. Обычно это средний или медианный размер числа в битах. Правильный выбор K максимизирует степень сжатия.

На каком этапе поиска используется этот алгоритм?

Он используется на двух основных этапах. Во время Индексирования (INDEXING) данные сжимаются и записываются на диск. Во время Ранжирования (RANKING), на фазе отбора кандидатов (L1 Retrieval), данные быстро декодируются для извлечения списков документов, соответствующих запросу.

Актуален ли этот патент сегодня, учитывая развитие нейронных сетей и векторного поиска?

Да, он остается актуальным. Хотя векторный поиск играет все большую роль, традиционный Inverted Index по-прежнему является фундаментальной частью большинства поисковых систем для быстрого и точного поиска по ключевым словам. Эффективность его хранения и скорость доступа к нему критически важны для общей производительности системы.

Похожие патенты

Как Google использует адаптивное сжатие "Gammal Code" для оптимизации хранения и ускорения доступа к поисковому индексу
Патент Google, описывающий инфраструктурный механизм сжатия (Gammal code или Gamma1) для эффективного хранения целых чисел в инвертированном индексе. Технология адаптируется к данным для экономии пространства и использует параллельную обработку (SIMD) для ускорения декодирования во время поиска. Патент не влияет на алгоритмы ранжирования.
  • US7609000B1
  • 2009-10-27
  • Индексация

Как Google разделяет визуальные паттерны (Shape) и их интенсивность (Gain) для точного и быстрого поиска похожих изображений
Google использует метод квантования "Shape-Gain" для повышения точности и скорости поиска похожих изображений. Система разделяет векторы признаков на направление (Shape/Форма, определяющее визуальный паттерн) и магнитуду (Gain/Усиление, определяющее интенсивность). Раздельное кодирование этих компонентов позволяет создавать более точные компактные коды (хэши) для эффективного сравнения миллиардов изображений.
  • US20150169644A1
  • 2015-06-18
  • Мультимедиа

  • Индексация

Как Google эффективно извлекает Топ-N результатов с помощью итеративного битового поиска по ранжирующим оценкам
Патент Google, описывающий инфраструктурный механизм для повышения эффективности поиска. Система использует итеративный битовый поиск по атрибутам документов (Sort Keys), таким как качество или дата, чтобы быстро найти заданное количество результатов (Топ-N). Это позволяет избежать полного сканирования и сортировки всех релевантных документов, оптимизируя скорость извлечения данных.
  • US10235432B1
  • 2019-03-19
  • SERP

  • Свежесть контента

  • Индексация

Как Google использует фразовую индексацию и многоуровневую архитектуру (Primary/Secondary Index) для масштабирования поиска и определения тематической релевантности
Google использует архитектуру множественных индексов (Primary и Secondary) для эффективной индексации миллиардов документов на основе фраз. Система определяет связанные фразы с помощью показателя Information Gain и использует эти данные для ранжирования. Primary Index хранит только наиболее релевантные документы в порядке ранжирования, в то время как Secondary Index хранит остальные, оптимизируя хранение и скорость.
  • US7567959B2
  • 2009-07-28
  • Индексация

  • Семантика и интент

Как Google оптимизирует индексы для распознавания контента с помощью хешей переменной длины
Патент описывает инфраструктурный механизм оптимизации индексов, используемых для сопоставления контента (например, аудио/видео). Система динамически регулирует длину хеш-значений (LSH bands). Если хеш слишком общий и имеет много совпадений, его длина увеличивается для повышения точности. Это повышает эффективность поиска совпадений, но не влияет на алгоритмы ранжирования.
  • US9236056B1
  • 2016-01-12
  • Индексация

  • Мультимедиа

  • Техническое SEO

Популярные патенты

Как Google использует клики пользователей в Поиске по Картинкам для определения реального содержания изображений
Google использует данные о поведении пользователей для автоматической идентификации содержания изображений. Если пользователи вводят определенный запрос (Идею) и массово кликают на конкретное изображение в результатах поиска, система ассоциирует это изображение с Концептом, производным от запроса. Это позволяет Google понимать, что изображено на картинке, не полагаясь исключительно на метаданные или сложный визуальный анализ, и улучшает релевантность ранжирования в Image Search.
  • US8065611B1
  • 2011-11-22
  • Поведенческие сигналы

  • Семантика и интент

  • Мультимедиа

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент
Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.
  • US8458196B1
  • 2013-06-04
  • EEAT и качество

  • Семантика и интент

Как Google использует распределение кликов по разным типам запросов для оценки общего качества сайта (Website Quality Score)
Google оценивает качество сайта не по общему CTR, а по тому, в ответ на какие запросы он получает клики. Система сегментирует пользовательский фидбек (клики, CTR) по различным параметрам запроса (например, конкурентность, длина, популярность). Сайт считается качественным, если он получает много кликов в ответ на высококонкурентные и популярные запросы, а не только на низкочастотные или нечеткие.
  • US8615514B1
  • 2013-12-24
  • Поведенческие сигналы

Как Google создает мгновенные интерактивные результаты на SERP, предварительно загружая и персонализируя скрытый контент
Google использует механизм для создания интерактивных блоков ответов (Answer Boxes), таких как Погода или Панели Знаний. Система отправляет пользователю не только видимый результат, но и дополнительный скрытый контент («карточки»), выбранный на основе истории взаимодействий пользователя. При взаимодействии с блоком (свайп или клик) дополнительный контент отображается мгновенно, без отправки нового запроса на сервер.
  • US9274683B2
  • 2016-03-01
  • SERP

  • Персонализация

  • Поведенческие сигналы

Как Google использует вовлеченность пользователей на связанных страницах (Reachability Score) для ранжирования основного документа
Google рассчитывает «Оценку Достижимости» (Reachability Score), анализируя, как пользователи взаимодействуют со страницами, на которые ссылается основной документ (внутренние и исходящие ссылки). Если пользователи активно переходят по этим ссылкам (высокий CTR) и проводят время на целевых страницах (высокое время доступа), основной документ получает повышение в ранжировании. Этот механизм измеряет потенциальную глубину и качество пользовательской сессии.
  • US8307005B1
  • 2012-11-06
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует клики пользователей в поиске по картинкам для понимания содержания изображений и улучшения таргетинга
Google анализирует поведение пользователей в поиске по картинкам для идентификации содержания изображений. Если пользователи ищут определенный запрос (идею) и массово кликают на конкретное изображение в результатах, система связывает это изображение с данным запросом (концепцией). Эти данные используются для улучшения ранжирования в поиске картинок и для предложения релевантных ключевых слов рекламодателям, загружающим схожие изображения.
  • US11409812B1
  • 2022-08-09
  • Поведенческие сигналы

  • Семантика и интент

  • SERP

Как Google персонализирует поисковые подсказки (Autocomplete) на основе недавно просмотренного медиаконтента
Google использует информацию о недавно потребленном пользователем медиаконтенте (видео, аудио, книги, игры) для персонализации поисковых подсказок. Система извлекает атрибуты (аспекты) из этого контента, такие как названия, имена актеров или артистов, и повышает в ранжировании те подсказки, которые соответствуют этим атрибутам. Влияние потребления медиа на подсказки зависит от времени, прошедшего с момента просмотра, типа контента и того, делился ли им пользователь.
  • US9268880B2
  • 2016-02-23
  • Персонализация

  • Семантика и интент

  • Мультимедиа

Как Google использует анализ аномалий в показах и кликах для выявления фейковых локальных бизнес-листингов (Map Spam)
Google анализирует статистику взаимодействий (кликов) для групп связанных бизнес-листингов (Common Business). Система вычисляет статистически нормальный уровень активности и устанавливает порог (Anomaly Detection Threshold). Резкий всплеск активности выше этого порога (например, на два стандартных отклонения) сигнализирует о наличии фейковых или спамных листингов, созданных для манипуляции локальной выдачей.
  • US20150154610A1
  • 2015-06-04
  • Local SEO

  • Антиспам

  • Поведенческие сигналы

Как Google использует машинное обучение и данные о длительности сессий для выявления битых Deep Links в мобильных приложениях
Google использует систему машинного обучения для анализа того, как долго пользователи взаимодействуют с контентом в приложении после перехода по Deep Link (Presentation Duration). Анализируя распределение этих временных интервалов, система классифицирует ссылку как рабочую или битую без необходимости прямого сканирования контента. Это позволяет Google удалять неработающие ссылки из индекса.
  • US10628511B2
  • 2020-04-21
  • Ссылки

  • Индексация

  • Поведенческие сигналы

Как Google динамически перестраивает выдачу, если пользователь игнорирует результаты, связанные с определенной сущностью
Google использует механизм уточнения интента пользователя в реальном времени при обработке неоднозначных запросов. Система группирует результаты поиска по связанным сущностям. Если пользователь демонстрирует отсутствие интереса к одной из групп (например, прокручивает или смахивает результаты), система динамически модифицирует выдачу, понижая или удаляя все результаты, связанные с этой отклоненной сущностью.
  • US9348945B2
  • 2016-05-24
  • Семантика и интент

  • SERP

  • Поведенческие сигналы

seohardcore