Как Google идентифицирует конкретные видео (фильмы, клипы, эпизоды) на веб-страницах, анализируя окружающий текст

MATCHING VIDEO CONTENT TO VIDEO BIBLIOGRAPHIC DATA (Сопоставление видеоконтента с библиографическими данными видео)

US8983945B1
Google LLC
2012-01-03
2015-03-17

Google использует библиографические данные (название, актеры, длина) для поиска и идентификации конкретных видео на веб-страницах. Система анализирует текст, расположенный рядом с видеоплеером («associated text»), и вычисляет «оценку совпадения» (Occurrence Score), чтобы точно понять, какой именно фильм, клип или эпизод представлен на странице.

Какую проблему решает

Патент решает проблему низкой точности (precision) результатов видеопоиска, вызванную недостатком метаданных и неоднозначностью описаний видеоконтента в интернете. Задача — разработать механизм для точной идентификации того, что конкретное видео на веб-странице соответствует известному видео-объекту (например, конкретному фильму, музыкальному клипу или эпизоду телешоу), описанному в базе библиографических данных.

Что запатентовано

Запатентована система идентификации видеоконтента (Video Identification Engine). Она сопоставляет видео, найденные на веб-ресурсах, с записями в базе библиографических данных (Database of Video Bibliographic Entries). Для этого система генерирует поисковые запросы на основе библиографических данных (например, название, режиссер, актеры), находит потенциальные ресурсы и вычисляет Occurrence Score. Эта оценка определяет, насколько хорошо библиографические данные совпадают с текстом, ассоциированным с видео на странице.

Как это работает

Система работает в несколько этапов:

Формулирование запроса: На основе полей библиографической записи (например, название фильма) создается поисковый запрос. Он может быть уточнен с помощью Refinement Engine.
Поиск кандидатов: Запрос отправляется в поисковую систему для получения списка ресурсов, содержащих видео.
Обработка результатов: Система анализирует текст на странице, который находится рядом (adjacent text) с видеоконтентом.
Вычисление Occurrence Score: Рассчитывается оценка, основанная на том, сколько полей из библиографической записи найдено в ассоциированном тексте. Учитываются веса полей, URL ресурса и наличие границ фраз (phrase boundaries).
Выбор и сохранение: Ресурсы, чья оценка превышает порог, выбираются как содержащие искомое видео. Связь между ресурсом и библиографической записью сохраняется для использования в поиске.

Актуальность для SEO

Высокая. Точная идентификация видеоконтента и его привязка к сущностям (Entities) в Knowledge Graph является критически важной задачей для Google. Это необходимо для функционирования вертикального поиска по видео, формирования видео-каруселей и других обогащенных результатов (Rich Results). Описанные методы анализа окружающего текста остаются актуальными для извлечения информации (Information Extraction).

Важность для SEO

Патент имеет высокое значение для SEO, особенно для Video SEO. Он детально описывает механизм, который Google использует для понимания того, какое именно видео размещено на странице. Если система не сможет точно сопоставить видео с известной библиографической записью (сущностью), видимость этого видео в специализированных поисковых вертикалях и блоках будет крайне ограничена. Патент дает четкие указания на важность текста, расположенного в непосредственной близости к видеоплееру.

Термины и определения

Associated Text (Ассоциированный текст): Текст на веб-странице, связанный с конкретным экземпляром видеоконтента. В патенте часто определяется как Adjacent Text.
Adjacent Text (Прилегающий текст): Текст в ресурсе, который находится на расстоянии менее заданного порога от видеоконтента при рендеринге страницы в браузере.
Database of Video Bibliographic Entries (База данных библиографических записей видео): Хранилище структурированных данных о известных видео-объектах (фильмах, клипах, эпизодах). Каждая запись разделена на поля (атрибуты), такие как название, режиссер, актеры, длина, дата выпуска.
Occurrence Score (Оценка совпадения): Метрика, рассчитываемая для ресурса. Показывает уверенность системы в том, что видео на ресурсе соответствует библиографической записи. Основана на совпадении полей записи с текстом, ассоциированным с видео.
Phrase Boundary (Граница фразы): Символы, указывающие на окончание одной фразы и начало другой. Делятся на внутрипредложенческие (запятая, тире, скобки) и межпредложенческие (точка, абзац). Используются для повышения точности сопоставления текста.
Refinement Engine (Система уточнения запросов): Компонент, который предлагает уточнения (Query Refinement) для исходного запроса с целью улучшения качества поиска. Анализирует логи поисковых сессий.
Video Identification Engine (Система идентификации видео): Основная система, описанная в патенте, которая выполняет процесс сопоставления видеоконтента с библиографическими данными.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод идентификации видео.

Система формулирует запрос на основе полей библиографической записи видео.
Получает результаты поиска (ресурсы).
Идентифицирует ресурсы, содержащие видеоконтент.
Вычисляет Occurrence Score для каждого ресурса. Оценка основана на трех ключевых факторах:
- Совпадение терминов из библиографической записи с терминами, ассоциированными с ресурсом.
- Нахождение этих терминов в тексте, прилегающем (adjacent) к видеоконтенту на ресурсе.
- URL (uniform resource locator) ресурса.
Выбирает ресурсы, чья Occurrence Score удовлетворяет пороговому значению.
Сохраняет информацию об ассоциации между библиографической записью и выбранными ресурсами.
Использует эту сохраненную информацию для обработки другого (пользовательского) запроса на поиск видеоконтента.

Claim 3 (Зависимый): Уточняет, что сформулированный запрос может быть основан на уточнениях запроса (query refinements) для терминов из определенного поля библиографической записи.

Система может использовать данные из логов поиска (через Refinement Engine), чтобы понять, как лучше сформулировать запрос для поиска конкретного видео, а не просто использовать его название напрямую.

Claim 4 (Зависимый): Уточняет, что Occurrence Score основан на дифференцированном взвешивании полей библиографической записи.

Совпадение по одним полям (например, Название) может иметь больший вес в итоговой оценке, чем совпадение по другим (например, Актер второго плана).

Claim 5 (Зависимый): Уточняет, что Occurrence Score зависит от того, связан ли ассоциированный текст с границей фразы (phrase boundary) рядом с вхождением термина из библиографической записи.

Это механизм повышения точности. Система проверяет наличие знаков препинания или разделителей рядом с найденным термином, чтобы убедиться, что это точное совпадение фразы, а не случайное сочетание слов.

Claim 6 (Зависимый): Уточняет, что Occurrence Score зависит от количества экземпляров видеоконтента на ресурсе.

Ресурс может быть страницей видеогалереи. Система учитывает этот фактор при оценке уверенности.

Где и как применяется

Изобретение является частью процесса извлечения информации и индексирования контента.

CRAWLING – Сканирование и Сбор данных
Система обнаруживает и загружает ресурсы, содержащие видеоконтент.

INDEXING – Индексирование и извлечение признаков
Основной этап применения патента. Video Identification Engine работает как система извлечения признаков (Feature Extraction). Она анализирует проиндексированные ресурсы (из Collection of Resources) и пытается сопоставить найденный видеоконтент с известными сущностями из Database of Video Bibliographic Entries. Происходит анализ текста, прилегающего к видео, и расчет Occurrence Score. Результатом является аннотация ресурса, указывающая на связь с конкретной видео-сущностью.

RANKING / METASEARCH – Ранжирование / Метапоиск
Результаты работы системы (сохраненные ассоциации) используются на этих этапах. Когда пользователь вводит запрос на поиск видео (как указано в Claim 1), система использует предварительно рассчитанные ассоциации для отбора и ранжирования релевантных видеорезультатов, а также для формирования блоков, таких как Видео-карусели.

Входные данные:

Запись из Database of Video Bibliographic Entries (структурированные данные: название, длина, актеры и т.д.).
Collection of Resources (индекс веб-страниц).
Данные логов поиска (для Refinement Engine).

Выходные данные:

Данные, ассоциирующие выбранные ресурсы (URL) с конкретной библиографической записью (Entity ID).

На что влияет

Конкретные типы контента: Влияет на любые страницы, содержащие видеоконтент, который может быть сопоставлен с известными сущностями: фильмы, трейлеры, эпизоды телешоу, музыкальные клипы, записи выступлений.
Специфические запросы: Влияет на запросы, где пользователь ищет конкретное видео (например, название фильма или клипа).
Форматы выдачи: Напрямую влияет на формирование выдачи в Google Видео (Video Search) и появление видео-каруселей или блоков с видео в основной веб-выдаче.

Когда применяется

Временные рамки: Процесс применяется во время индексирования контента. Он может запускаться периодически для всего индекса или активироваться при обнаружении нового или обновленного ресурса, содержащего видео.
Условия работы: Алгоритм применяется, когда системе необходимо идентифицировать видео на странице и проверить, соответствует ли оно известной библиографической записи.

Пошаговый алгоритм

Процесс идентификации видео для конкретной библиографической записи.

Формулирование запроса:
- Система выбирает одну или несколько библиографических записей для обработки.
- Для записи формулируется запрос на основе терминов из ее полей (например, Название + Режиссер).
- Опционально: запрос может быть отправлен в Refinement Engine для получения более эффективной формулировки на основе анализа логов поиска.
Поиск кандидатов:
- Сформулированный запрос отправляется в поисковую систему.
- Система получает список ресурсов (веб-страниц), релевантных запросу и содержащих видеоконтент.
Анализ ресурсов и Извлечение текста:
- Для каждого ресурса система идентифицирует экземпляры видеоконтента.
- Определяется текст, ассоциированный с видео (associated text), например, текст, находящийся в непосредственной близости к видео при рендеринге (adjacent text).
Сопоставление и Расчет Occurrence Score:
- Система ищет вхождения терминов из полей библиографической записи в ассоциированном тексте. Может использоваться "мягкое сопоставление" (soft matching) с учетом нормализации и расстояния редактирования.
- Рассчитывается Occurrence Score. При расчете учитывается:
  - Количество совпавших полей.
  - Веса полей (дифференцированное взвешивание).
  - Наличие границ фраз (phrase boundaries) рядом с совпадениями для повышения точности.
  - URL ресурса (некоторые URL могут повышать или понижать оценку).
  - Количество экземпляров видео на странице.
Выбор и Фильтрация:
- Ресурсы ранжируются по их Occurrence Score.
- Выбираются ресурсы, чья оценка превышает заданный порог уверенности.
Сохранение ассоциаций:
- Данные, связывающие выбранные ресурсы с библиографической записью, сохраняются.
- Эта информация используется поисковой системой при обработке пользовательских запросов.

Какие данные и как использует

Данные на входе

Система использует следующие типы данных для идентификации видео:

Контентные факторы: Критически важным является текст, ассоциированный с видео (associated text) или прилегающий к нему (adjacent text). Это основной источник данных для сопоставления.
Технические факторы: URL (uniform resource locator) ресурса используется как один из факторов при расчете Occurrence Score (Claim 1).
Структурные факторы (Анализ макета): Система анализирует расположение текста относительно видеоконтента при рендеринге страницы для определения adjacent text.
Внутренние данные (Библиографические): Структурированные данные из Database of Video Bibliographic Entries. Упомянутые поля включают: title, description, genre, director, producer, cast members, length, release date, awards, production company, song name, artist(s), album(s) и т.д.

Какие метрики используются и как они считаются

Occurrence Score: Основная метрика патента. Это взвешенная оценка уверенности.
Методы расчета включают:
- Soft Matching (Мягкое сопоставление): Для сравнения строковых полей с текстом может использоваться порог расстояния редактирования (edit distance). Для числовых полей (например, длина видео) — сравнение разницы с пороговым значением.
- Нормализация: Применение стемминга и удаления стоп-слов к тексту перед сопоставлением.
- Weighted Average (Взвешенное среднее): Разные поля имеют разный вес (Claim 4). Совпадение по более уникальным или важным полям дает больший вклад в оценку.
- Phrase Boundary Adjustment: Повышение оценки, если рядом с совпадением обнаружена граница фразы (Claim 5).
- URL Adjustment: Модификация оценки на основе URL ресурса (Claim 1).
- Video Instances Count: Учет количества видео на странице (Claim 6).
Порог Occurrence Score: Пороговое значение, которое должна превысить оценка ресурса, чтобы система подтвердила идентификацию видео.

Критическая важность прилегающего текста: Основной механизм идентификации видео основан на анализе текста, расположенного в непосредственной близости к видеоплееру (adjacent text). Расположение контента на странице имеет решающее значение для Video SEO.
Идентификация сущностей, а не ключевых слов: Цель системы — не просто найти ключевые слова, а однозначно сопоставить видео с конкретной сущностью (Video Bibliographic Entry). Это требует совпадения по нескольким атрибутам.
Взвешивание атрибутов: Не все атрибуты видео одинаково важны. Система использует дифференцированное взвешивание полей, предполагая, что совпадение по названию или режиссеру может быть более сильным сигналом, чем по актеру второго плана.
Точность превыше полноты (Precision over Recall): Механизм использования границ фраз (phrase boundaries) указывает на стремление к высокой точности идентификации. Система пытается избежать ложных срабатываний, проверяя контекст и структуру предложений вокруг найденных атрибутов.
Использование URL как сигнала: URL ресурса явно включен в расчет Occurrence Score, что подтверждает использование характеристик URL (и, возможно, домена) для оценки достоверности контента.
Комплексный подход к формулированию запросов: Система не просто ищет по названию. Она может использовать комбинации полей и применять Query Refinements, основанные на поведении пользователей, для более эффективного поиска кандидатов.

Best practices (это мы делаем)

Оптимизация расположения текста (Layout Optimization): Размещайте ключевую информацию о видео (точное название, исполнитель/режиссер, дата выпуска, длина) в тексте, который находится в непосредственной близости к видеоплееру. Этот текст должен быть легко идентифицирован как adjacent text.
Четкость и точность формулировок: Используйте точные названия и имена, соответствующие общепринятым библиографическим данным (например, данным из Wikipedia/IMDb). Это облегчит процесс soft matching.
Использование естественной структуры предложений: Описывайте видео, используя четкую структуру предложений со знаками препинания. Это позволит системе использовать сигналы phrase boundaries для подтверждения точности совпадений (например, "Фильм: [Название], Режиссер: [Имя]").
Предоставление множественных атрибутов: Указывайте как можно больше релевантных атрибутов видео рядом с плеером. Чем больше полей система сможет сопоставить, тем выше будет Occurrence Score.
Оптимизация URL (по возможности): Если применимо, используйте чистые и описательные URL для страниц с видео, так как URL является фактором в расчете Occurrence Score.

Worst practices (это делать не надо)

Разделение видео и его описания: Размещение описания видео далеко от плеера (например, внизу страницы или на другой вкладке). Система может не распознать этот текст как adjacent text.
Зашумленный прилегающий текст: Размещение нерелевантного контента (рекламы, блоков похожих видео, длинных списков тегов) непосредственно рядом с плеером, что затрудняет выделение ключевых атрибутов видео.
Неоднозначные или неточные названия: Использование кликбейтных или измененных названий видео, которые не соответствуют библиографическим данным.
Отсутствие текстового описания: Публикация видео только с минимальными метаданными без сопутствующего текста на странице.

Стратегическое значение

Патент подтверждает стратегию Google по извлечению структурированных данных из неструктурированного текста для понимания контента и идентификации сущностей. Для успешного Video SEO недостаточно просто разместить видео на сайте; необходимо обеспечить условия, при которых Google сможет однозначно идентифицировать это видео. Это подчеркивает важность оптимизации макета страницы (Layout) и качества окружающего текста как ключевых факторов для видимости в видео-вертикалях поиска.

Практические примеры

Сценарий: Оптимизация страницы музыкального клипа на сайте исполнителя

Задача: Гарантировать, что Google точно идентифицирует официальный клип для песни "Song X" исполнителя "Artist Y".
Действия (согласно патенту):
- Разместить видеоплеер на видном месте.
- Непосредственно над или под плеером разместить блок текста.
- В этом блоке четко указать атрибуты, используя естественные разделители (phrase boundaries): "Официальное видео на песню: 'Song X'. Исполнитель: Artist Y. Альбом: 'Album Z' (2025). Продолжительность: 3:45."
- Убедиться, что рядом с плеером нет отвлекающего контента, который мог бы быть ошибочно интерпретирован как описание.
Ожидаемый результат: Video Identification Engine анализирует adjacent text, успешно сопоставляет поля (Song Name, Artist, Album, Length) с библиографической записью, вычисляет высокий Occurrence Score и ассоциирует страницу с сущностью клипа. Страница получает приоритет в Google Видео и Видео-каруселях по соответствующим запросам.

Что такое «Adjacent Text» (Прилегающий текст) и как он определяется?

Согласно патенту, Adjacent Text — это текст на ресурсе, который находится на расстоянии менее заданного порога от видеоконтента, когда ресурс рендерится в браузере или другом приложении. Это подчеркивает важность визуального расположения текста относительно видеоплеера.

Заменяет ли этот механизм необходимость использования разметки Schema.org (VideoObject)?

Нет, не заменяет. Патент описывает механизм извлечения информации из неструктурированного текста (associated text). Разметка Schema.org предоставляет структурированные метаданные напрямую. Рекомендуется использовать оба подхода: внедрять корректную разметку и оптимизировать прилегающий текст для максимальной уверенности системы в идентификации видео.

Что такое «Phrase Boundaries» (Границы фраз) и почему они важны для SEO?

Phrase Boundaries — это разделители, такие как знаки препинания (запятые, точки) или переводы строк. Система использует их для повышения точности сопоставления. Если атрибут (например, название фильма) отделен границей фразы, это снижает вероятность случайного совпадения слов. Для SEO это означает, что использование четкой структуры предложений при описании видео повышает уверенность Google.

Как URL влияет на идентификацию видео согласно патенту?

URL ресурса явно указан в Claim 1 как один из факторов, влияющих на расчет Occurrence Score. Хотя детали не раскрываются, это предполагает, что определенные шаблоны URL или характеристики домена могут повышать или понижать уверенность системы в том, что ресурс содержит искомое видео.

Что означает «дифференцированное взвешивание полей» при расчете Occurrence Score?

Это означает, что разные атрибуты видео имеют разный вес. Например, точное совпадение по уникальному названию может дать больший вклад в Occurrence Score, чем совпадение по жанру или имени менее известного актера. SEO-специалистам следует фокусироваться на точном указании наиболее важных и уникальных идентификаторов видео.

Как система обрабатывает страницы, на которых много видео (например, галереи)?

Патент учитывает это. В Claim 6 указано, что Occurrence Score зависит от количества экземпляров видеоконтента на ресурсе. Система должна уметь определять adjacent text для каждого отдельного видео на странице, чтобы корректно их идентифицировать.

Что такое «Soft Matching» (Мягкое сопоставление) в контексте этого патента?

Это техника сравнения текста, которая допускает небольшие различия. Для строковых полей (например, название) может использоваться расстояние редактирования (edit distance), позволяющее игнорировать мелкие ошибки или вариации. Для числовых полей (например, длина видео) допускается небольшая разница в значениях.

Использует ли система метаданные самого видеофайла?

В патенте упоминается, что associated text отделен от метаданных, которые являются частью самого видеофайла. Однако в некоторых реализациях (implementations) указано, что Occurrence Score может дополнительно основываться на совпадении библиографических данных с метаданными видеофайла (например, описание, дата производства).

Как используется «Refinement Engine» и что это значит для SEO?

Refinement Engine анализирует логи поисковых сессий, чтобы найти лучшие формулировки запросов для поиска конкретного видео. Это означает, что Google активно изучает, как пользователи ищут видео, и использует эти данные для улучшения процесса идентификации. Для SEO это подчеркивает важность понимания интента и формулировок, используемых целевой аудиторией.

Какова основная рекомендация для сайтов с большим количеством видеоконтента?

Основная рекомендация — обеспечить чистоту макета и четкую ассоциацию между каждым видео и его текстовым описанием. Необходимо, чтобы ключевые идентификаторы (название, автор/режиссер, длина) находились в непосредственной визуальной близости к соответствующему плееру и были четко сформулированы.

Как Google использует данные веб-поиска для распознавания сущностей в специализированных вертикалях (на примере поиска медиаконтента)

Google использует двухэтапный процесс для ответа на описательные запросы в специализированных поисках (например, поиск фильмов по сюжету). Сначала система ищет информацию в основном веб-индексе, анализирует топовые результаты для выявления релевантных сущностей (названий фильмов), а затем использует эти сущности для поиска в специализированной базе данных.

US9063984B1
2015-06-23

Семантика и интент
Мультимедиа
Индексация

Как Google ранжирует сущности (например, фильмы или книги), используя популярность связанных веб-страниц и поисковых запросов в качестве прокси-сигнала

Google использует механизм для определения популярности контентных сущностей (таких как фильмы, телешоу, книги), когда прямые данные о потреблении недоступны. Система идентифицирует авторитетные «эталонные веб-страницы» (например, страницы Википедии) и связанные поисковые запросы. Затем она измеряет популярность сущности, анализируя объем трафика на эти эталонные страницы и частоту связанных запросов в поиске, используя эти данные как прокси-сигнал для ранжирования сущности.

US9098551B1
2015-08-04

EEAT и качество
Поведенческие сигналы
SERP

Как Google использует визуальное сходство для связывания изображений и видео, кластеризации выдачи и обогащения метаданных

Google анализирует визуальное содержимое изображений и ключевых кадров видео для выявления сходств. Это позволяет связывать разнотипный контент, даже если у него мало текстовых данных. Система использует эти связи для переноса метаданных (например, ключевых слов или геопозиции) от одного ресурса к другому, а также для кластеризации и смешивания изображений и видео в результатах поиска.

US9652462B2
2017-05-16

Мультимедиа
SERP
Семантика и интент

Как Google создает видео-нарезки (Composite Videos) на лету, используя текстовый запрос и анализ аудиодорожек

Google может анализировать аудиодорожки (транскрипты) видео для идентификации конкретных сегментов, где произносятся слова из запроса пользователя. Система автоматически объединяет эти сегменты из разных видео в одно новое сводное видео (Composite Video). Для выбора сегментов используются метрики релевантности, популярности и свежести исходного контента.

US9672280B2
2017-06-06

Мультимедиа
Индексация
Семантика и интент

Как Google использует контекст внешних страниц для понимания и идентификации видео и аудио контента

Google анализирует внешние веб-страницы, которые ссылаются на медиафайлы или встраивают их (например, видео YouTube). Система извлекает метаданные из контекста этих страниц — заголовков, окружающего текста, URL. Надежность данных проверяется частотой их повторения на разных сайтах. Эта информация используется для улучшения понимания содержания медиафайла и повышения эффективности систем идентификации контента (Content ID).

US10318543B1
2019-06-11

Ссылки
Индексация
Мультимедиа

Как Google использует контекст пользователя для генерации неявных поисковых запросов и проактивного показа результатов

Система Google отслеживает контекст пользователя в реальном времени (набираемый текст, открытые документы, письма). На основе этого контекста автоматически генерируются множественные неявные запросы. Система объединяет результаты из разных источников (локальных и глобальных) и проактивно показывает их пользователю, используя поведенческие данные (клики) для улучшения релевантности.

US7664734B2
2010-02-16

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)

Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.

US9317605B1
2016-04-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует структурированные данные для отображения прямых ссылок на песни в результатах поиска (Rich Snippets)

Google улучшает результаты поиска музыки, извлекая детали песен (названия, альбомы, продолжительность) из структурированной разметки (например, HTML5 microdata) на веб-страницах. Это позволяет Google отображать прямые ссылки на конкретные песни (вторичные ссылки) внутри основного блока результатов поиска, при условии соблюдения определенных порогов качества и популярности.

US9128993B2
2015-09-08

Ссылки
SERP
Индексация

Как Google нормализует поведенческие сигналы (Dwell Time), калибруя показатели «короткого» и «длинного» клика для разных категорий сайтов

Google использует механизм для устранения предвзятости в поведенческих сигналах, таких как продолжительность клика (Dwell Time). Поскольку пользователи взаимодействуют с разными типами контента по-разному, система определяет, что считать «коротким кликом» и «длинным кликом» отдельно для каждой категории (например, Новости, Недвижимость, Словари). Это позволяет более точно оценивать качество ресурса, сравнивая его показатели с нормами его конкретной ниши.

US8868565B1
2014-10-21

Поведенческие сигналы
SERP

Как Google использует время просмотра (Watch Time) и поведение пользователей для расчета независимой от запроса оценки качества видео

Google рассчитывает независимый от запроса сигнал качества (Q) для видео, анализируя корреляции между поведенческими метриками: временем просмотра, рейтингами и количеством просмотров. Система использует математические функции (Predictor и Voting) для моделирования качества и определения достоверности данных, а также активно фильтрует спам в рейтингах. Этот сигнал Q затем используется для ранжирования видео в поиске.

US8903812B1
2014-12-02

Поведенческие сигналы
SERP
Антиспам

Как Google автоматически добавляет текст существующих объявлений к сайтлинкам (Sitelinks) для повышения CTR

Google использует систему для автоматического улучшения сайтлинков в рекламных объявлениях. Система анализирует существующие текстовые объявления (креативы) рекламодателя и определяет их конечные целевые страницы, игнорируя параметры отслеживания. Затем она сопоставляет их с URL сайтлинков и добавляет наиболее релевантный и эффективный текст креатива к сайтлинку для повышения кликабельности (CTR).

US10650066B2
2020-05-12

Ссылки
SERP

Как Google идентифицирует, связывает и индексирует концепции (фразы) для понимания тем документов

Фундаментальный патент Google, описывающий переход от индексирования слов к индексированию концепций (фраз). Система определяет «хорошие фразы» на основе частотности и их способности прогнозировать появление других фраз (Information Gain). Документы индексируются не только по содержащимся в них фразам, но и по наличию связанных фраз, что позволяет системе определять основные и второстепенные темы документа, а также контекстуально оценивать анкорный текст ссылок.

US7536408B2
2009-05-19

Индексация
Семантика и интент
Ссылки

Как Google использует географическое положение и историю поведения пользователей для разрешения неоднозначных запросов

Google применяет механизм для интерпретации неоднозначных поисковых запросов, которые имеют несколько географических или категориальных значений. Система определяет доминирующий интент, анализируя, как пользователи в том же регионе ранее уточняли похожие запросы и насколько они были удовлетворены результатами. На основе этих локализованных данных (гистограмм и метрик неудовлетворенности) выбирается наиболее вероятная интерпретация, и выдача фильтруется соответственно.

US8478773B1
2013-07-02

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google позволяет вебмастерам управлять весом и интерпретацией исходящих ссылок через атрибуты тега (Основа nofollow)

Google запатентовал механизм, позволяющий вебмастерам добавлять в теги ссылок () специальные пары "параметр=значение" (например, rel=nofollow или linkweight=0.5). Эта информация используется краулером и поисковой системой для изменения способа обработки ссылки, например, для корректировки передаваемого веса (PageRank) или блокировки ее учета.

US7979417B1
2011-07-12

Ссылки
Краулинг
Техническое SEO

Как Google использует контекст текущей сессии и поведение похожих пользователей для персонализации и переранжирования выдачи

Google анализирует недавнюю активность пользователя (запросы и клики в рамках сессии), чтобы определить его краткосрочный интерес. Система сравнивает, как другие пользователи с таким же интересом взаимодействовали с результатами по текущему запросу, по сравнению с общим поведением. Если предпочтения статистически значимо различаются, Google переранжирует выдачу, повышая результаты, предпочитаемые «похожей» аудиторией, учитывая при этом время взаимодействия с контентом (Dwell Time).

US8972391B1
2015-03-03

Персонализация
Поведенческие сигналы
SERP