Как Google извлекает списки сущностей из веб-страниц и использует графовый анализ для проверки их достоверности и релевантности

IDENTIFYING A GROUP OF RELATED INSTANCES (Идентификация группы связанных экземпляров)

US20110106819A1
Google LLC
2009-10-29
2011-05-05

Google использует этот механизм для ответов на запросы, требующие списка элементов (например, «города в Калифорнии»). Система извлекает потенциальные списки из неструктурированных веб-документов, анализирует их взаимосвязи и совпадения в виде графа (Vertex-Edge Graph) и использует методы консенсуса (например, поиск клик) для определения наиболее достоверных и релевантных сущностей.

Какую проблему решает

Патент решает задачу идентификации и ранжирования списка связанных сущностей (related instances) в ответ на поисковый запрос, который явно или неявно запрашивает такой список (например, «президенты США»). Основная проблема заключается в том, как надежно извлечь и верифицировать эту информацию из unstructured collection of electronic documents (Интернета), где данные не соответствуют строгой схеме, и как определить наиболее достоверные элементы для итогового набора.

Что запатентовано

Запатентована система для обработки запросов, ищущих списки сущностей. Система идентифицирует и извлекает потенциальные группы сущностей из веб-документов. Ключевым элементом изобретения является метод оценки релевантности извлеченных сущностей путем представления их характеристик и взаимосвязей в виде графа (vertex-edge graph). Анализ этого графа (например, с помощью поиска клик или машинного обучения) позволяет системе оценить достоверность каждой отдельной сущности на основе консенсуса между различными источниками.

Как это работает

Система работает в несколько этапов:

Идентификация Интента: Система определяет, что запрос ищет группу связанных сущностей.
Расширенный Поиск: Выполняется поиск релевантных документов, в том числе с использованием модифицированных запросов (Biased Queries), смещенных в сторону поиска списков, и запросов к авторитетным источникам (Source-Constrained Queries).
Извлечение и Оценка Групп: Из документов извлекаются потенциальные группы (списки, таблицы). Рассчитывается релевантность каждой группы с учетом релевантности исходного документа и качества структуры группы.
Графовое Моделирование: Совместная встречаемость сущностей представляется в виде vertex-edge graph.
Индивидуальная Оценка: Сущности оцениваются на основе анализа графа. Система ищет cliques (клики) — плотно связанные подграфы, указывающие на высокую степень подтверждения сущностей разными источниками. Также могут применяться алгоритмы машинного обучения.
Ранжирование: Сущности ранжируются индивидуально в соответствии с полученными оценками.

Актуальность для SEO

Высокая. Идентификация сущностей, понимание их взаимосвязей и заполнение Knowledge Graph являются центральными элементами современного поиска. Описанные методы извлечения информации из неструктурированных данных и использования графового анализа для валидации на основе консенсуса остаются крайне актуальными для понимания того, как Google оценивает и структурирует фактологическую информацию. Хотя конкретные методы ML могли эволюционировать, базовые принципы остаются в силе.

Важность для SEO

Патент имеет высокое значение для SEO, особенно в контексте Entity SEO и оптимизации под Featured Snippets. Он раскрывает механизмы, с помощью которых Google идентифицирует группы связанных сущностей, используя структуру контента (списки, таблицы) и консенсус между источниками. Понимание этих механизмов критично для стратегий, направленных на улучшение распознавания сущностей сайта и их атрибутов поисковой системой.

Термины и определения

Instance (Сущность/Экземпляр): Индивидуально идентифицируемая единица (entity). Например, город, человек, продукт.
Attribute (Атрибут): Свойство или характеристика сущности.
Unstructured electronic document collection (Неструктурированная коллекция электронных документов): Коллекция документов (например, Интернет), форматирование которых не обязано соответствовать заранее определенной структуре.
Extractor (Экстрактор): Программное обеспечение, предназначенное для идентификации и извлечения групп сущностей из неструктурированных документов (например, распознавание списков, таблиц или текстовых шаблонов).
Biased Query (Смещенный запрос): Модифицированный запрос, сформированный для целенаправленного поиска групп (например, добавление слов «список», «лучшие» к исходному запросу).
Source-Constrained Query (Запрос с ограничением источника): Запрос, ограниченный поиском по определенным авторитетным источникам или компендиумам (например, энциклопедиям).
Vertex-Edge Graph (Граф вершин и ребер): Структура данных для представления объектов (вершин) и связей между ними (ребер). Используется для моделирования совместной встречаемости сущностей или пересечения групп.
Clique (Клика): В графе — набор вершин, где каждая пара соединена ребром (полный подграф). Используется для идентификации плотно связанных групп сущностей, подтвержденных разными источниками (консенсус).
Predictive analytic tree-building algorithm (Алгоритм построения дерева предиктивной аналитики): Метод машинного обучения (например, CART, Random Forests), используемый для создания правил оценки или классификации сущностей на основе их характеристик.
Expectation Maximization (EM) algorithm (Алгоритм максимизации ожидания): Статистический алгоритм, используемый для оценки вероятности того, что сущность принадлежит к релевантной группе, на основе неполных данных.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной процесс идентификации и ранжирования группы сущностей из неструктурированных данных.

Получение запроса, указывающего атрибуты группы связанных сущностей.
Идентификация групп сущностей в unstructured collection of electronic documents.
Определение релевантности этих групп запросу.
Индивидуальная оценка (скоринг) сущностей в этих группах.
Ранжирование сущностей в соответствии с их оценками.

Claim 2 (Зависимый от 1): Детализирует процесс определения релевантности групп (Шаг 3).

Релевантность групп вычисляется на основе трех компонентов: (i) релевантность групп исходным документам; (ii) вероятность (likelihoods) того, что идентифицированные группы действительно являются группами; (iii) релевантность исходных документов запросу.

Claim 3 (Зависимый от 1): Детализирует процесс идентификации групп (Шаг 2).

Идентификация включает формирование biased query (для поиска групп) и constrained query (для поиска в компендиумах), а затем выполнение поиска с использованием всех трех типов запросов (исходного, смещенного, ограниченного).

Claim 5 (Зависимый от 1): Детализирует процесс индивидуальной оценки сущностей (Шаг 4).

Оценка включает представление характеристик (features) сущностей в vertex-edge graph и оценку сущностей на основе этого графа.

Claims 6 и 7 (Зависимые от 5): Описывают две альтернативные конфигурации графа.

Claim 6: Вершины представляют группы сущностей. Ребра взвешены по степени пересечения (overlap) между группами.
Claim 7: Вершины представляют отдельные сущности. Ребра представляют общие характеристики между сущностями.

Claim 11 (Зависимый от 5): Уточняет метод оценки на основе графа.

Оценка сущностей включает идентификацию cliques в графе.

Где и как применяется

Изобретение охватывает несколько этапов поиска, от понимания запроса до финального ранжирования и представления результатов.

QUNDERSTANDING – Понимание Запросов
Система определяет, что запрос направлен на поиск группы связанных сущностей. Здесь же формируются вспомогательные запросы (Biased Queries и Source-Constrained Queries).

INDEXING – Индексирование и извлечение признаков
На этом этапе Extractors могут предварительно идентифицировать группы сущностей (списки, таблицы) в документах, хотя извлечение может происходить и во время выполнения запроса.

RANKING – Ранжирование (Отбор Кандидатов)
Система использует исходный и модифицированные запросы для поиска документов-кандидатов. Рассчитывается базовая релевантность исходных документов запросу (R_DQ).

RERANKING / Specialized Ranking – Переранжирование
Основная логика патента. Система извлекает потенциальные группы из документов-кандидатов, оценивает их релевантность (S_G), строит vertex-edge graph, анализирует его (поиск cliques, применение ML/EM алгоритмов) и вычисляет финальные индивидуальные оценки для сущностей.

METASEARCH – Метапоиск и Смешивание (Представление)
Результатом является ранжированный список сущностей, который может быть представлен пользователю в структурированном виде (например, в виде таблицы, карточек или блока ответов).

Входные данные:

Поисковый запрос.
Индекс неструктурированной коллекции документов.
Набор Extractors.

Выходные данные:

Ранжированный набор идентификаторов сущностей, релевантных запросу.

На что влияет

Специфические запросы: Информационные запросы, требующие перечисления (например, «актеры фильма X», «ингредиенты рецепта Y», «виды гибридных автомобилей»).
Конкретные типы контента: Контент, содержащий списки, таблицы и другие структурированные перечисления сущностей.
Формирование Knowledge Graph и Featured Snippets: Механизм напрямую связан с извлечением фактов и валидацией данных для заполнения Knowledge Graph и формирования блоков ответов.

Когда применяется

Триггер активации: Когда система идентифицирует, что поисковый запрос явно или неявно запрашивает группу связанных сущностей (group of related instances).
Условие применения: Когда необходимо агрегировать и верифицировать информацию из множества неструктурированных источников для формирования точного ответа.

Пошаговый алгоритм

Этап 1: Обработка запроса и сбор кандидатов

Получение запроса и Идентификация Интента: Система определяет, что запрос ищет группу сущностей.
Формирование и выполнение запросов:
1. Создание Biased Query (например, + «список»).
2. Создание Source-Constrained Query (например, поиск по энциклопедиям).
3. Выполнение исходного, смещенного и ограниченного запросов.
Объединение результатов: Формирование единого набора релевантных документов.
Извлечение групп: Применение Extractors для идентификации потенциальных групп (списков, таблиц) в документах.

Этап 2: Оценка релевантности групп

Вычисление Метрик: Для каждой группы рассчитываются:

Активное извлечение структурированных данных: Google активно ищет и извлекает структурированные данные (списки, таблицы) из неструктурированных веб-страниц. Это фундаментальный механизм для Featured Snippets и Knowledge Graph.
Важность семантической структуры (L_G): Уверенность системы в том, что фрагмент является группой ( $L_{G}$ ), напрямую зависит от качества HTML-разметки. Использование корректных тегов (списки, таблицы) критически важно для успешного извлечения.
Центральность контента (R_GD): Релевантность группы теме документа ( $R_{GD}$ ) является важным фактором. Списки или таблицы, не связанные с основным содержанием страницы, будут иметь низкий вес.
Валидация через консенсус (Графовый анализ и Клики): Ключевым механизмом валидации является анализ консенсуса с помощью Vertex-Edge Graph. Сущности, которые часто встречаются вместе в разных источниках или в пересекающихся списках (формируют Cliques), считаются более достоверными и релевантными.
Агрессивная модификация запросов: Google систематически переписывает запросы (Biased Queries), добавляя термины вроде «список», и специально проверяет авторитетные источники (Compendia Sources) для эффективного поиска структурированных данных.
Комплексная оценка сущностей: Для финальной оценки используются сложные статистические и ML-методы (EM-алгоритм, деревья решений), которые анализируют множество признаков (features).

Best practices (это мы делаем)

Используйте четкую семантическую структуру для перечислений: При представлении групп связанных сущностей используйте семантически верные HTML-элементы: маркированные списки (<ul>), нумерованные списки (<ol>) и таблицы (<table>). Это повышает вероятность того, что Extractors корректно идентифицируют группу (высокий $L_{G}$ ).
Обеспечивайте релевантность списков контенту страницы: Убедитесь, что представленные списки тесно связаны с основной темой документа. Система оценивает релевантность группы документу ( $R_{GD}$ ), и нерелевантные списки будут проигнорированы.
Группируйте связанные сущности (Co-occurrence): Размещайте связанные сущности вместе в списках или таблицах. Совместное появление сущностей является сильным сигналом связи, который используется при построении Vertex-Edge Graph.
Оптимизируйте под запросы типа «список»: Создавайте контент, отвечающий на запросы, которые система может модифицировать в Biased Queries (например, «лучшие X», «список Y»). Используйте соответствующие формулировки в заголовках и тексте.
Стремитесь к консенсусу (Consensus Building): Убедитесь, что ваши списки и перечисления согласуются с информацией на других авторитетных сайтах в нише. Графовый анализ (поиск Cliques) выявляет консенсус. Создание полных и точных списков увеличивает вероятность того, что ваши данные станут частью авторитетной клики.
Использование консистентных идентификаторов сущностей: Используйте общепринятые и однозначные названия сущностей. Это упрощает процесс нормализации и увеличивает вероятность того, что система корректно определит пересечения (overlap) с другими источниками.

Worst practices (это делать не надо)

Использование несемантической верстки для списков: Использование тегов <div>, <br> или CSS для визуального оформления списков вместо семантических тегов. Это снижает $L_{G}$ и затрудняет извлечение данных.
Смешивание разных типов сущностей в одном списке: Включение в список элементов, которые не разделяют общие атрибуты группы. Это усложняет интерпретацию группы и может привести к ошибкам при графовом анализе.
Размещение списков, не связанных с темой страницы (List Spam): Вставка шаблонных или нерелевантных списков. Низкая $R_{GD}$ приведет к игнорированию группы.
Манипуляция совместным появлением (Co-occurrence Spam): Искусственное создание множества страниц с одинаковыми списками для имитации консенсуса. Сложные методы анализа графа (учитывающие источник, тип экстрактора) направлены на выявление таких манипуляций.

Стратегическое значение

Патент подтверждает стратегическую важность структурирования данных на веб-страницах для облегчения машинного понимания и извлечения сущностей (Entity-Based SEO). Он демонстрирует, что Google активно использует структуру HTML и визуальное представление данных (списки, таблицы) для сбора фактов. Стратегия SEO должна включать обеспечение того, чтобы ключевые сущности и их взаимосвязи были представлены в формате, удобном для извлечения (extraction-friendly), и подтверждались консенсусом в сети.

Практические примеры

Сценарий: Оптимизация страницы категории E-commerce

Цель: Помочь Google идентифицировать список моделей телевизоров определенного бренда как группу связанных сущностей.

Запрос пользователя: «Телевизоры Samsung QLED 2025»
Действия SEO-специалиста:
1. Структура контента: Убедиться, что список продуктов на странице категории представлен с использованием семантической верстки (например, <ul class="product-list">). Это повышает $L_{G}$ .
2. Релевантность: Заголовок страницы и вступительный текст четко определяют категорию, обеспечивая высокую $R_{GD}$ .
3. Консистентность: Убедиться, что названия моделей соответствуют официальной номенклатуре Samsung (для обеспечения консенсуса).
Как работает Google (по патенту):
1. Система может использовать Biased Query «список телевизоров Samsung QLED 2025».
2. Extractors идентифицируют список продуктов по тегам <li>.
3. Система строит Vertex-Edge Graph, сравнивая этот список с списками на других сайтах (например, Samsung.com, другие ритейлеры).
4. Модели, которые появляются в списках на многих сайтах, формируют Clique и получают высокий балл достоверности.
Результат: Google с высокой вероятностью распознает модели телевизоров как релевантные сущности для данного запроса, что может улучшить видимость в поиске по продуктам или Featured Snippets.

Что такое Vertex-Edge Graph и как он используется для оценки сущностей?

Это структура данных, где сущности или группы представлены как вершины (точки), а их взаимосвязи — как ребра (линии). Например, если две сущности часто появляются в одном списке на разных сайтах, они соединяются ребром. Анализируя этот граф, Google ищет Cliques — плотно связанные группы вершин. Наличие клики указывает на консенсус между источниками, что повышает достоверность и оценку входящих в нее сущностей.

Насколько важна HTML-структура (списки, таблицы) согласно этому патенту?

Она критически важна. Патент описывает Extractors, которые специально ищут списки, таблицы и структурированный текст для идентификации групп сущностей. Система оценивает вероятность того, что структура является группой ( $L_{G}$ ). Использование корректной семантической верстки (<li>, <table>) напрямую способствует правильному извлечению данных.

Заменяет ли этот механизм необходимость в микроразметке Schema.org?

Нет, не заменяет, но дополняет. Этот патент описывает, как Google извлекает структурированные данные из unstructured content, когда явная разметка отсутствует. Микроразметка Schema.org (например, ItemList) предоставляет данные напрямую и устраняет неоднозначность, но описанный механизм позволяет Google находить и, что более важно, проверять эти данные, используя консенсус в сети.

Что такое Biased Query и Source-Constrained Query?

Это модификации исходного запроса для улучшения поиска списков. Biased Query добавляет термины, указывающие на перечисление (например, «список президентов США»), чтобы найти страницы со списками. Source-Constrained Query ограничивает поиск авторитетными источниками (например, энциклопедиями), чтобы получить более достоверные данные.

Как Google определяет, что список на странице релевантен самой странице?

Система вычисляет метрику $R_{GD}$ (Relevance of Group to Document). Она сравнивает текст и концепции внутри группы (списка) с текстом и концепциями остальной части документа. Если связь слабая (например, список ингредиентов на странице о ремонте автомобиля), группа получит низкую оценку и, вероятно, будет проигнорирована.

Что важнее для оценки сущности: авторитетность источника или консенсус между многими источниками?

Патент предполагает, что оба фактора важны и используются совместно. Авторитетность источника влияет на начальную оценку релевантности документа ( $R_{DQ}$ ) и используется в Source-Constrained Queries. Консенсус (анализ графа и клики) используется на этапе индивидуальной оценки сущностей для валидации данных, извлеченных из всех источников.

Как этот патент связан с Knowledge Graph?

Этот патент описывает один из фундаментальных механизмов, который Google может использовать для заполнения и обновления Knowledge Graph. Он предоставляет метод для автоматического извлечения списков связанных сущностей и их атрибутов из интернета и механизм для проверки их достоверности перед добавлением в базу знаний.

Влияет ли частота упоминания сущности в интернете на ее ранжирование в списке?

Да, но обратно пропорционально. Патент описывает шаг переоценки (rescoring), на котором оценки сущностей могут быть взвешены по обратной частоте их появления в коллекции документов. Это делается для того, чтобы понизить слишком общие или часто встречающиеся термины и повысить более специфичные и релевантные сущности в финальном ранжированном списке.

Что делать, если мой сайт содержит уникальный список сущностей, которого нет больше нигде?

Поскольку система сильно полагается на консенсус (Cliques) для валидации, уникальный список может столкнуться с трудностями при получении высокой оценки достоверности, если он не подтверждается другими источниками. В этом случае критически важно максимизировать авторитетность вашего сайта (E-E-A-T), чтобы повысить базовую оценку релевантности ( $R_{DQ}$ ), и обеспечить максимально четкую структуру списка ( $L_{G}$ ).

Как система обрабатывает синонимы или разные написания одной и той же сущности?

Патент упоминает шаг переоценки (rescoring), на котором система может изменять оценки похожих или связанных идентификаторов сущностей. Это включает обработку разных вариантов написания, транслитераций, аббревиатур и сокращений (например, «Роберт Кеннеди» и «Бобби Кеннеди»). В некоторых реализациях такие идентификаторы могут быть объединены в одну сущность (нормализация).

Как Google находит ответы на фактологические вопросы, анализируя консенсус сущностей в топе поисковой выдачи

Google использует этот механизм для автоматического ответа на фактологические вопросы путем анализа неструктурированного текста топовых результатов поиска. Система определяет, какая сущность (например, человек, место) чаще всего упоминается на авторитетных страницах. Эта наиболее часто упоминаемая сущность, с учетом нормализации частоты и веса источника, выбирается в качестве ответа.

US9477759B2
2016-10-25

Семантика и интент
Индексация
Knowledge Graph

Как Google использует графы сущностей и их топологию для семантического понимания запросов и таргетинга контента

Google использует механизм выбора контента (например, рекламы), основанный на свойствах сущностей, а не только на ключевых словах. Система генерирует граф запроса, отражающий сущности и их взаимосвязи из Базы Знаний. Контент выбирается, только если его критерии точно соответствуют как содержанию, так и структуре (топологии) этого графа. Это позволяет учитывать семантический контекст, даже если он не выражен текстом запроса.

US9542450B1
2017-01-10

Семантика и интент
Knowledge Graph

Как Google автоматически определяет ключевые характеристики (атрибуты) сущностей, анализируя неструктурированный веб-контент

Google использует этот механизм для автоматического определения схемы (набора атрибутов) для любой сущности. Анализируя, как различные веб-страницы описывают набор схожих объектов (например, список фильмов), система выявляет новые релевантные характеристики (например, «Режиссер», «Время выполнения»), извлекая их из таблиц, списков или шаблонов страниц в интернете.

US8615707B2
2013-12-24

Knowledge Graph
Семантика и интент

Как Google использует Граф Знаний для выбора, группировки и ранжирования связанных сущностей в Knowledge Panel

Google использует этот механизм для определения того, какие группы связанных сущностей (например, "Фильмы", "Члены семьи", "Коллеги") показать в Панели Знаний. Система анализирует пути в Графе Знаний, группирует сущности по типу их связи (Path Type) и ранжирует эти группы по популярности и силе связи (Relationship Strength), основанной на совместном упоминании в вебе и запросах.

US9411857B1
2016-08-09

Knowledge Graph
Семантика и интент

Как Google использует графы сущностей для точного семантического сопоставления запросов и контента

Google применяет семантический подход к выбору контента, строя «граф запроса» на основе сущностей в запросе и их связей в Knowledge Graph. Этот граф затем сопоставляется с «графами критериев выбора контента». Система также может автоматически генерировать эти критерии, анализируя целевой контент и выявляя статистически значимые семантические шаблоны.

US9501530B1
2016-11-22

Семантика и интент
Knowledge Graph

Как Google снижает ценность ссылок между аффилированными сайтами для борьбы с линк-схемами

Google использует модификацию алгоритмов расчета качества (типа PageRank), которая учитывает аффилированность между ссылающимися документами. Если система определяет, что сайты связаны (например, принадлежат одному владельцу, находятся в одной сети или имеют схожие паттерны трафика), ценность ссылок между ними агрессивно снижается. Вместо суммирования веса всех ссылок система учитывает только максимальный вклад от аффилированной группы, нейтрализуя эффект линк-ферм и PBN.

US7783639B1
2010-08-24

Ссылки
Антиспам
EEAT и качество

Как Google идентифицирует, оценивает и ранжирует «Глубокие статьи» (In-Depth Articles) и «Вечнозеленый контент»

Google использует систему для идентификации и ранжирования высококачественного лонгрид-контента (In-Depth Articles). Система определяет авторитетные сайты на основе внешних наград и ссылочных паттернов. Контент оценивается по критериям «вечнозелености» (Evergreen Score), структуры (Article Score), отсутствия коммерческого интента и авторитетности автора (Author Score). Ранжирование основано на комбинации качества (IDA Score) и релевантности запросу (Topicality Score).

US9996624B2
2018-06-12

EEAT и качество
Индексация
Семантика и интент

Как Google автоматически дополняет запросы пользователя терминами из его недавней истории поиска для уточнения интента

Google использует механизм для улучшения релевантности результатов путем анализа недавней истории поиска пользователя. Если текущий запрос похож на предыдущие, система определяет ключевые контекстные термины, которые часто повторялись в истории (устойчивый интент), но отсутствуют в текущем запросе. Эти термины автоматически добавляются к запросу, чтобы предоставить более точные и персонализированные результаты.

US9449095B1
2016-09-20

Семантика и интент
Персонализация
Поведенческие сигналы

Как Google агрегирует поведенческие данные из похожих запросов для ранжирования редких и длиннохвостых запросов

Google использует механизм обобщения запросов для улучшения ранжирования, особенно когда исторических данных по исходному запросу недостаточно. Система создает варианты запроса (удаляя стоп-слова, используя синонимы, стемминг или частичное совпадение) и агрегирует данные о поведении пользователей (клики, dwell time) из этих вариантов. Это позволяет оценить качество документа для исходного запроса, используя статистику из семантически близких запросов.

US9110975B1
2015-08-18

Поведенческие сигналы
Семантика и интент
SERP

Как Google идентифицирует и верифицирует локальные бизнесы для показа карт и адресов в органической выдаче

Google использует этот механизм для улучшения органических результатов. Система определяет, связана ли веб-страница с одним конкретным бизнесом. Затем она верифицирует ее локальную значимость, проверяя, ссылаются ли на нее другие топовые результаты по тому же запросу. Если страница верифицирована, Google дополняет стандартную «синюю ссылку» интерактивными локальными данными, такими как адреса и превью карт.

US9418156B2
2016-08-16

Local SEO
SERP
Ссылки

Как Google автоматически обнаруживает и индексирует контент внутри мобильных приложений для показа в поиске (App Indexing)

Google использует систему для индексации контента нативных мобильных приложений. Для приложений, связанных с веб-сайтами, система проверяет аффилиацию и использует существующие веб-URL для доступа к контенту приложения. Для приложений с кастомными URI система эмулирует работу приложения и итеративно обнаруживает внутренние ссылки. Это позволяет контенту из приложений появляться в результатах поиска в виде глубоких ссылок.

US10073911B2
2018-09-11

Индексация
Краулинг
Ссылки

Как Google использует машинное обучение и поведенческие данные для прогнозирования полезности документов и решает, что включать в поисковый индекс

Google использует модель машинного обучения для определения, какие документы включать в поисковый индекс. Модель обучается на исторических данных о кликах и показах, чтобы предсказать будущую «оценку полезности» (Utility Score) документа. Документы ранжируются по этой оценке, а также с учетом других факторов (например, PageRank, стоимость индексации, свежесть, квоты), и лучшие из них попадают в индекс.

US8255386B1
2012-08-28

Индексация
Поведенческие сигналы

Как Google использует крупномасштабное машинное обучение и данные о поведении пользователей для предсказания кликов и ранжирования результатов

Google использует систему машинного обучения для создания модели ранжирования, которая предсказывает вероятность клика пользователя по документу. Модель обучается на огромных массивах данных о прошлых поисках (запросы, документы, клики). Система учитывает базовую вероятность клика (Prior Probability), основанную на позиции и предыдущей оценке документа, а затем корректирует её с помощью правил, выявляющих, какие признаки (Features) документа и запроса влияют на выбор пользователя.

US7231399B1
2007-06-12

Поведенческие сигналы

Как Google использует социальный граф и активность друзей для персонализации и переранжирования результатов поиска

Google использует данные из социального графа пользователя и активность его контактов (лайки, шеры, комментарии, плейлисты) для изменения ранжирования результатов поиска. Контент, одобренный социальным окружением, повышается в выдаче и сопровождается аннотациями, объясняющими причину повышения и указывающими на свежесть социального действия.

US8959083B1
2015-02-17

Персонализация
Поведенческие сигналы
SERP

Как Google определяет популярность и ранжирует физические события (концерты, выставки) в локальной выдаче

Google использует специализированную систему для ранжирования физических событий в определенном месте и времени. Система вычисляет оценку популярности события на основе множества сигналов: количества упоминаний в интернете, кликов на официальную страницу, популярности связанных сущностей (артистов, команд), значимости места проведения и присутствия в общих поисковых запросах о событиях. Затем результаты переранжируются для обеспечения разнообразия, понижая схожие события или события одной категории.

US9424360B2
2016-08-23

Local SEO
Поведенческие сигналы

Как Google извлекает списки сущностей из веб-страниц и использует графовый анализ для проверки их достоверности и релевантности

Описание