Как Google объединяет данные из RSS-фидов, веб-страниц и профилей авторов для индексации и ранжирования блогов

INDEXING AND RETRIEVAL OF BLOGS (Индексирование и извлечение блогов)

US7765209B1
Google LLC
2005-09-13
2010-07-27

Google создает "гибридный документ" для индексации блогов, объединяя информацию из разных источников: контент поста, данные из RSS/Atom фида, контекст всего блога (например, блогролл) и внешние связанные страницы (например, профиль автора). Это позволяет точнее определять релевантность и использовать контекстные сигналы для ранжирования отдельных постов.

Какую проблему решает

Патент решает задачу повышения качества и точности поиска по блогам. Традиционное индексирование может упускать важный контекст, который находится за пределами основного контента поста (например, информация об авторе или ссылки в сайдбаре). Кроме того, система адресует проблему потенциальных расхождений между контентом в фидах (например, RSS/Atom) и фактическим контентом на веб-странице, что может быть признаком спама или манипуляций (cloaking).

Что запатентовано

Запатентована система создания обогащенного представления блога или отдельного поста, называемого Hybrid Document (Гибридный документ). Этот документ формируется путем извлечения и объединения данных из нескольких источников: фида блога (RSS или Atom), самой веб-страницы блога, страницы поста и других связанных документов (например, отдельной страницы профиля автора). Этот Hybrid Document затем используется поисковой системой для определения релевантности.

Как это работает

Система функционирует на этапе индексирования:

Сбор данных: Система получает фид блога и загружает соответствующие веб-документы (блог, пост).
Извлечение информации: Из фида извлекаются метаданные (заголовки, временные метки, авторы) и контент. Из веб-документов извлекается контент, профиль автора, блогролл (список ссылок на другие блоги) и ссылки на внешние профили.
Анализ связанных документов: Система может переходить по ссылкам (например, на страницу полного профиля автора) и извлекать дополнительную информацию (например, географическое положение).
Верификация (Анти-спам): Контент из фида сравнивается с контентом из веб-документа. Значительные расхождения могут сигнализировать о спаме.
Создание гибридного документа: Вся извлеченная информация объединяется в Hybrid Document, который индексируется поисковой системой.

Актуальность для SEO

Средняя. Принципы, заложенные в патенте (важность контекста за пределами поста, значимость профиля автора как раннего сигнала E-E-A-T), остаются фундаментальными. Однако методы реализации, описанные в патенте (подача 2005 года), такие как парсинг блогроллов и сильная зависимость от структуры RSS/Atom, вероятно, устарели. Современные системы Google используют значительно более продвинутые NLP и ML модели для извлечения сущностей и понимания контекста, но базовый принцип обогащения индекса остается актуальным.

Важность для SEO

Патент имеет важное значение для понимания процессов индексирования контента. Он демонстрирует, что информация, отсутствующая в основном контенте страницы (например, местоположение автора, указанное на отдельной странице профиля, или ссылки в сайдбаре), может быть извлечена, связана с постом на этапе индексирования и использована для определения его релевантности. Это подчеркивает важность обеспечения доступности и полноты контекстной информации (особенно данных об авторе) для поисковых систем.

Термины и определения

Blog (Блог): Публикация личных мыслей, часто обновляемая новыми записями (постами).
Post (Пост): Отдельная запись (journal entry) в блоге.
Feed (Фид): Структурированное представление информации о блоге и его обновлениях. Упоминаются форматы RSS (Rich Site Summary) и Atom.
Hybrid Document (Гибридный документ): Внутреннее представление блога или поста, созданное путем объединения информации, извлеченной из фида, веб-документов блога/поста и связанных документов. Этот документ не доступен пользователю напрямую, а используется поисковой системой для индексации и определения релевантности.
Blogroll (Блогролл): Список ссылок на другие блоги, часто размещаемый на странице блога (например, в сайдбаре).
Author Profile (Профиль автора): Информация об авторе блога, которая может включать географическое положение, возраст, пол и т.д. Может быть размещена непосредственно в блоге или на отдельной связанной странице.
IR Score (Information Retrieval Score): Оценка релевантности документа (в данном случае, гибридного документа) поисковому запросу.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод создания и использования гибридного документа для отдельного поста.

Получение первой информации из поста блога (который содержит несколько постов).
Извлечение второй информации, связанной с блогом, из источника, отличного от постов этого блога.
Создание Hybrid Document путем объединения первой и второй информации.
Использование Hybrid Document для определения релевантности поста поисковому запросу.

Ядро изобретения заключается в том, что для ранжирования поста используется не только его собственное содержимое (Первая информация), но и контекст, извлеченный из других источников (Вторая информация).

Claim 2, 3, 4 (Зависимые): Уточняют источники и типы Второй информации.

Источником может быть RSS или Atom фид.
Вторая информация может включать заголовок блога, автора блога, профиль автора (извлеченные из фида или из самого блога), или блогролл (извлеченный из блога).

Claim 5, 6 (Зависимые): Уточняют еще один источник Второй информации.

Источником может быть документ, на который ссылается блог (например, страница профиля автора).

Claim 11 (Независимый пункт): Описывает процесс поиска с использованием индекса, созданного из гибридных документов.

Получение поискового запроса.
Определение релевантности блога или поста запросу с использованием поискового индекса.
Индекс формируется путем объединения информации, извлеченной из поста, и информации, извлеченной из источника, который связан с блогом, но не связан (т.е. не является частью) ни с одним из постов блога.
Предоставление информации о блоге или посте, если он признан релевантным.

Claim 24 (Независимый пункт): Описывает метод индексации последующих постов на основе данных, полученных с главной страницы.

Парсинг главной страницы блога для получения Первой информации (из поста) и Второй информации (из источника, отличного от постов).
Индексирование впоследствии полученного поста блога на основе его содержимого, а также ранее полученной Первой и Второй информации.
Определение релевантности поста запросу на основе этого индексирования.

Этот пункт описывает, как контекстная информация, собранная ранее (например, при сканировании главной страницы), может быть применена к новым постам при их индексации.

Claim 25 (Независимый пункт): Описывает комплексный процесс индексации и поиска.

Получение фидов блогов.
Извлечение Первой информации (из фидов).
Извлечение Второй информации (из блогов и постов).
Извлечение Третьей информации (из документов, на которые ссылаются блоги, причем эта информация не специфична для конкретного поста).
Создание поискового индекса путем объединения Первой, Второй и Третьей информации.
Получение запроса и определение релевантности на основе этого индекса.

Где и как применяется

Изобретение применяется на ранних этапах поискового конвейера, формируя основу для последующего ранжирования.

CRAWLING – Сканирование и Сбор данных
Система активно получает данные из разных источников: принимает или загружает фиды (RSS/Atom), сканирует веб-документы блога и поста, а также переходит по ссылкам на связанные документы (например, профиль автора).

INDEXING – Индексирование и извлечение признаков
Основное применение патента. На этом этапе происходит:

Извлечение признаков (Feature Extraction) из всех полученных источников (фиды, документы).
Верификация данных: сравнение информации из фида и веб-документа для обнаружения спама.
Создание Hybrid Document путем синтеза извлеченной информации.
Индексирование Hybrid Document и сохранение его (или индекса на его основе) в базе данных.

RANKING – Ранжирование
Алгоритмы ранжирования используют индекс, созданный на основе Hybrid Documents. Оценка релевантности (IR Score) рассчитывается с учетом обогащенной информации, содержащейся в гибридном документе.

Входные данные:

Фиды блога (RSS, Atom).
Веб-документы блога (например, главная страница).
Веб-документы отдельных постов.
Связанные документы (например, страница полного профиля автора).

Выходные данные:

Hybrid Documents, представляющие собой обогащенное внутреннее представление блогов и постов.
Поисковый индекс, построенный на основе Hybrid Documents.
Сигналы о спаме (в случае расхождения данных в фиде и документе).

На что влияет

Конкретные типы контента: Патент напрямую сфокусирован на блогах и отдельных постах блогов.
Специфические запросы: Механизм повышает точность для запросов, где важен контекст, извлекаемый извне поста. Например, запросы с локальным интентом (если из профиля автора извлечено местоположение) или запросы, требующие оценки экспертизы автора.

Когда применяется

Алгоритм применяется в процессе индексирования (или переиндексирования) контента, идентифицированного как блог или пост блога. Сравнение данных и создание Hybrid Document происходит каждый раз, когда система обрабатывает фид блога или сканирует его веб-страницы.

Пошаговый алгоритм

Процесс создания Гибридного Документа

Получение фида: Система получает фид (RSS, Atom), ассоциированный с блогом. Фид содержит информацию об обновлениях, включая новые посты.
Получение документов: Система загружает документы, относящиеся к посту, включая документ самого поста и документ блога (например, главную страницу).
Извлечение информации из фида: Из фида извлекаются данные: временные метки (создание/обновление поста), контент поста, заголовок поста, автор поста, автор блога, заголовок блога, профиль автора (если доступен в фиде).
Извлечение информации из документов блога и поста: Из документов блога и поста извлекаются данные: профиль автора, контент поста, блогролл.
Верификация контента (Опционально): Информация, извлеченная из фида, сравнивается с информацией из документов. Например, сравнивается контент поста. Если контент не совпадает, это может быть индикатором попытки спама (например, для повышения рейтинга). В этом случае Hybrid Document может не создаваться или ему присваивается очень низкий рейтинг.
Извлечение информации из связанных документов: Если документ блога содержит ссылки на другие релевантные документы (например, страницу полного профиля автора), система загружает их и извлекает дополнительную информацию (например, географическое положение, возраст, пол автора).
Создание гибридного документа: Вся извлеченная информация из фида, документов блога/поста и связанных документов комбинируется для создания Hybrid Document.
Индексирование: Hybrid Document (или информация из него) сохраняется в поисковом индексе.

Какие данные и как использует

Данные на входе

Система использует широкий спектр данных, извлеченных из разных источников:

Контентные факторы: Контент поста, заголовок поста, заголовок блога (извлекаются из фидов и/или документов).
Технические факторы: Данные фида (структура RSS/Atom). URL документов блога, поста и связанных страниц.
Ссылочные факторы: Блогролл (Blogroll) – исходящие ссылки на другие блоги, извлеченные со страницы блога. Ссылки на полные профили авторов.
Временные факторы: Временные метки (Timestamps) создания, модификации и публикации поста (извлекаются преимущественно из фида).
Структурные факторы: Расположение информации на странице (например, идентификация блогролла или краткого профиля автора на странице блога).
Географические факторы: Географическое положение автора (извлекается из профиля автора, который может находиться в блоге или на отдельной связанной странице).
Пользовательские факторы (Авторы): Имя автора поста, имя автора блога, профиль автора (возраст, пол, описание).

Какие метрики используются и как они считаются

Патент не предоставляет конкретных формул или метрик ранжирования, но описывает следующие механизмы оценки:

Оценка релевантности (IR Score): Релевантность поисковому запросу определяется путем сопоставления терминов запроса с индексом, построенным на основе Hybrid Documents. Упоминаются стандартные методы расчета IR Score (количество вхождений терминов, местоположение терминов, вес терминов, близость терминов).
Оценка легитимности (Spam Detection): Метрика основана на сравнении данных из разных источников. Если контент поста, извлеченный из фида, не совпадает с контентом поста, извлеченным из веб-документа, система может посчитать это попыткой спама.

Обогащение индекса за счет множества источников: Ключевая идея патента — Google не индексирует блог-посты изолированно. Система активно собирает данные из RSS/Atom фидов, страниц постов, главной страницы блога и даже внешних связанных страниц (профилей авторов) для создания внутреннего представления (Hybrid Document).
Контекст влияет на ранжирование поста: Информация, расположенная за пределами основного контента поста, индексируется и ассоциируется с этим постом. Это означает, что элементы сайдбара (блогролл) или информация об авторе могут влиять на релевантность отдельного поста.
Важность информации об авторе (Прото-E-E-A-T): Патент явно указывает на извлечение профиля автора, включая его географическое положение, даже если эта информация находится на отдельной странице. Это раннее подтверждение важности авторства и контекста автора для ранжирования.
Использование фидов для верификации контента: Система использует RSS/Atom фиды не только как источник данных, но и как средство верификации. Сравнение контента в фиде и на веб-странице используется для обнаружения спама или клоакинга.
Гибридный документ как единица ранжирования: Ранжирование происходит на основе обогащенного Hybrid Document, а не просто сырого HTML страницы. Это позволяет учитывать все собранные контекстные сигналы при расчете IR Score.

Best practices (это мы делаем)

Обеспечение полных и доступных профилей авторов: Поскольку информация об авторе (включая местоположение, возраст, пол) извлекается и используется в Hybrid Document, необходимо предоставлять полные и точные данные об авторах. Убедитесь, что профили легко обнаруживаются и доступны для сканирования, даже если они находятся на отдельных страницах "Об авторе" или "Команда".
Поддержание консистентности данных (Feed vs HTML): Убедитесь, что контент и основные метаданные (заголовки, авторы) в ваших RSS/Atom фидах полностью соответствуют контенту на результирующих веб-страницах. Расхождения могут быть интерпретированы как попытка манипуляции.
Использование контекстных элементов на уровне блога: Помните, что элементы, присутствующие на уровне всего блога (например, в сайдбаре или футере), могут быть извлечены и использованы как контекст для отдельных постов.
Оптимизация под локальный поиск через профили: Если контент имеет локальную привязку, убедитесь, что географическое положение авторов или организации четко указано в профилях. Это может помочь в ранжировании по локальным запросам, даже если сам пост не оптимизирован под конкретный город.

Worst practices (это делать не надо)

Feed Spam или Cloaking: Предоставление разного контента в RSS-фиде и на веб-странице (например, включение большего количества ключевых слов в фид). Патент описывает механизм обнаружения таких расхождений.
Скрытие информации об авторе: Удаление или обфускация профилей авторов лишает поисковую систему важного контекста, который может быть использован для формирования Hybrid Document и определения релевантности (и оценки E-E-A-T).
Игнорирование технических ошибок в RSS/Atom фидах: Некорректные или устаревшие фиды могут привести к ошибкам при извлечении данных и негативно повлиять на формирование Hybrid Document.

Стратегическое значение

Этот патент демонстрирует ранние усилия Google по выходу за рамки простого анализа контента страницы и переходу к контекстному индексированию. Он подтверждает стратегическую важность сущностей (в данном случае, авторов) и их атрибутов (профили, местоположение) для понимания контента. Для SEO-стратегии это подчеркивает необходимость обеспечения чистого, консистентного и семантически богатого представления данных для поисковых систем, охватывающего как сам контент, так и его контекст.

Практические примеры

Сценарий: Улучшение локального ранжирования блога о путешествиях

Ситуация: Блогер из Сиэтла пишет пост "Лучшие кофейни для работы". Пост содержит обзоры кофеен.
Применение патента:
- Google сканирует пост (Вторая информация).
- Google сканирует главную страницу блога и находит ссылку "Обо мне".
- Google переходит по ссылке на отдельную страницу профиля автора, где указано: "Живу в Сиэтле" (Третья информация).
- Google анализирует RSS-фид (Первая информация) и проверяет соответствие контента.
Формирование Hybrid Document: Google создает Hybrid Document, который включает контент обзора кофеен И атрибут автора "Местоположение: Сиэтл".
Результат: Благодаря обогащенному Hybrid Document, пост имеет высокие шансы ранжироваться по запросу "Лучшие кофейни для работы Сиэтл", даже если слово "Сиэтл" не часто упоминается в самом посте.

Что такое "Hybrid Document" и могу ли я его увидеть?

Hybrid Document — это внутреннее представление вашего блога или поста, которое Google создает на этапе индексирования. Оно объединяет информацию из разных источников: HTML-страницы, RSS-фида, связанных страниц (например, профиля автора). Вы не можете увидеть его напрямую; это структура данных, используемая Google для более точного расчета релевантности.

Насколько важен RSS/Atom фид для SEO согласно этому патенту?

Фид играет критически важную роль в описанной системе. Он используется как источник для извлечения контента, временных меток и метаданных. Что еще более важно, он используется для верификации: система сравнивает контент в фиде с контентом на веб-странице для обнаружения спама и манипуляций.

Может ли информация на странице "Об авторе" повлиять на ранжирование отдельного поста?

Да, абсолютно. Патент описывает механизм, при котором система переходит по ссылкам на полные профили авторов, извлекает оттуда информацию (например, географическое положение) и включает ее в Hybrid Document поста. Это означает, что атрибуты автора становятся частью индексируемого представления поста и влияют на его релевантность.

Что произойдет, если мой RSS-фид отличается от контента на сайте?

Патент описывает это как потенциальный индикатор нелегитимности или спама (например, клоакинга или наполнения фида ключевыми словами). Если система обнаружит значительные расхождения, Hybrid Document может быть не создан, или посту может быть присвоен очень низкий рейтинг. Критически важно поддерживать консистентность данных.

Учитывает ли Google ссылки в сайдбаре (Blogroll) при ранжировании постов?

Согласно этому патенту, блогролл является одним из типов информации, которая извлекается со страницы блога и включается в Hybrid Document. Это означает, что он используется для формирования контекста блога. Хотя прямое влияние блогроллов на SEO сегодня минимально, патент подтверждает, что Google анализирует элементы за пределами основного контента для понимания контекста.

Применяется ли этот патент только к блогам или ко всем сайтам?

Патент специфически описывает методы для "Индексирования и извлечения блогов", используя характерные для них элементы (посты, фиды, блогроллы). Однако базовый принцип — создание обогащенного внутреннего представления путем синтеза данных из основного контента и связанного контекста — применим ко многим типам контента в современном поиске.

Как этот патент связан с E-E-A-T?

Этот патент можно рассматривать как раннюю реализацию принципов E-E-A-T, особенно в части "Авторства" (Authorship) и "Экспертизы" (Expertise). Акцент на извлечении и использовании профиля автора для обогащения индекса напрямую связан с попыткой понять, кто создал контент и каков его контекст.

Если я использую краткое описание автора на странице поста и ссылку на полный профиль, увидит ли Google полный профиль?

Да. Патент явно описывает сценарий, когда система обнаруживает краткий профиль автора и ссылку на полный профиль, переходит по этой ссылке, извлекает информацию с полной страницы профиля и использует ее для создания Hybrid Document.

Означает ли этот патент, что контент главной страницы влияет на ранжирование всех постов?

Да, в определенной степени. Claim 24 описывает парсинг главной страницы для получения контекстной информации (из источника, отличного от постов) и последующее использование этой информации при индексировании новых постов. Это подчеркивает важность контекста на уровне всего сайта (блога).

Актуален ли этот патент, учитывая, что он подан в 2005 году?

Хотя конкретные технические детали (например, парсинг блогроллов) могли устареть и быть заменены более сложными системами (NLP, Machine Learning), фундаментальные принципы остаются актуальными. Принцип обогащения индекса за счет контекста и информации об авторе является краеугольным камнем современного поиска Google.

Как Google комбинирует редакционный приоритет, популярность и хронологию при отображении контента из веб-фидов

Патент описывает метод "гибридного высокоточного упорядочивания" для агрегаторов контента (например, RSS-ридеров). Система разделяет интерфейс на две зоны: в одной документы сортируются по значимости (редакционный выбор, популярность или тренды), а в другой — строго по дате публикации. Это позволяет пользователям видеть самый важный контент, не теряя доступ к истории публикаций.

US8380710B1
2013-02-19

Свежесть контента

Как Google [Reader] рекомендовал подписку на RSS-фиды на основе истории посещенных пользователем сайтов

Патент описывает функциональность агрегатора контента (Feed Reader). Система отслеживает веб-страницы, посещаемые пользователем, определяет наличие связанных с ними контент-фидов (например, RSS/Atom) и предлагает подписаться на них через специальный интерфейс. Рекомендации подавляются, если пользователь уже подписан или ранее отклонил предложение.

US8190997B2
2012-05-29

Персонализация
Поведенческие сигналы
Ссылки

Как Google находит, фильтрует и подмешивает посты из блогов, релевантные конкретным результатам поиска

Патент описывает систему Google для дополнения стандартных результатов веб-поиска ссылками на релевантные посты в блогах. Система использует многоступенчатую фильтрацию для отсеивания низкокачественных блогов и спама (splogs). Фильтры анализируют количество исходящих ссылок (out-degree), качество входящих ссылок (Link-based score), возраст поста, его длину и расположение ссылок, чтобы гарантировать качество подмешиваемого контента.

US8117195B1
2012-02-14

EEAT и качество
Антиспам
Ссылки

Как Google использует контекст и анализ офлайн-поведения (Read Ranking) для соединения физических документов с цифровыми копиями

Система идентифицирует цифровой контент по сканированному фрагменту из физического мира, используя не только текст, но и обширный контекст (время, местоположение, историю пользователя). Патент также вводит концепцию «Read Ranking» — отслеживание популярности физических документов на основе того, что люди сканируют, как потенциальный сигнал ранжирования.

US20110295842A1
2011-12-01

Поведенческие сигналы
Персонализация
Семантика и интент

Как Google позволял сторонним провайдерам внедрять специализированные результаты в выдачу по подписке пользователя (Google Subscribed Links)

Патент описывает систему (известную как "Google Subscribed Links"), позволяющую сторонним поставщикам контента определять шаблоны запросов и предоставлять структурированные данные (DataObjects) через XML-фиды. Если запрос пользователя соответствовал шаблону и пользователь был подписан на этого провайдера, система внедряла специализированный ответ непосредственно на страницу результатов поиска.

US7593939B2
2009-09-22

SERP
Индексация
Персонализация

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта

Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.

US7962462B1
2011-06-14

Поведенческие сигналы
Ссылки
SERP

Как Google рассчитывает тематическую популярность (Topical Authority) документов на основе поведения пользователей

Google использует данные о посещаемости и навигации пользователей для расчета популярности документов. Система классифицирует документы и запросы по темам, а затем вычисляет популярность документа внутри каждой конкретной темы (Per-Topic Popularity). Эта метрика используется как сигнал ранжирования, когда тема запроса пользователя соответствует теме документа.

US8595225B1
2013-11-26

Поведенческие сигналы
Семантика и интент
SERP

Как Google подменяет ссылки в выдаче, чтобы обойти медленные редиректы на мобильные версии сайтов

Google оптимизирует скорость загрузки, определяя, когда клик по результату поиска вызовет условный редирект (например, с десктопной версии на мобильную). Система заранее подменяет исходную ссылку в выдаче на конечный URL редиректа. Это позволяет устройству пользователя сразу загружать нужную страницу, минуя промежуточный запрос и экономя время.

US9342615B2
2016-05-17

Техническое SEO
SERP
Ссылки

Как Google использует всплески поискового интереса и анализ новостей для обновления Графа Знаний в реальном времени

Google отслеживает аномальный рост запросов о сущностях (людях, компаниях) как индикатор реального события. Система анализирует свежие документы, опубликованные в этот период, извлекая факты в формате Субъект-Глагол-Объект (SVO). Эти факты используются для оперативного обновления Графа Знаний или добавления блока «Недавно» в поисковую выдачу.

US9235653B2
2016-01-12

Knowledge Graph
Свежесть контента
Семантика и интент

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google рассчитывает «VisualRank» для изображений и медиафайлов, используя виртуальные ссылки на основе схожести и поведения пользователей

Google использует алгоритм (концептуально называемый VisualRank) для ранжирования изображений и других медиафайлов путем создания «виртуальных ссылок» между ними. Эти ссылки основаны на визуальной схожести контента, данных о кликах пользователей и контексте размещения (URL analysis). Это позволяет оценить качество и авторитетность медиафайлов даже без явных гиперссылок, при этом система активно избегает показа слишком похожих (дублирующихся) результатов.

US8732187B1
2014-05-20

Ссылки
Мультимедиа
Поведенческие сигналы

Как Google использует «Локальный авторитет» для переранжирования документов на основе их взаимосвязей внутри конкретной выдачи

Google может улучшить ранжирование, анализируя структуру ссылок внутри начального набора результатов поиска. Документы, на которые часто ссылаются другие высокорелевантные документы по этому же запросу («локальные эксперты»), получают повышение. Этот процесс включает строгие фильтры для обеспечения независимости этих ссылок-голосов.

US6526440B1
2003-02-25

Ссылки
Антиспам
SERP

Как Google автоматически изучает синонимы, анализируя последовательные запросы пользователей и вариации анкорных текстов

Google использует методы для автоматического определения синонимов, акронимов и эквивалентных фраз. Система анализирует логи запросов: если пользователь быстро меняет запрос, сохраняя часть слов (например, с «отели в париже» на «гостиницы в париже»), система учится, что «отели» и «гостиницы» эквивалентны. Также анализируются вариации анкорных текстов, указывающих на одну и ту же страницу.

US6941293B1
2005-09-06

Семантика и интент
Ссылки

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO