Как Google оптимизирует поиск документов в закрытых системах для юридических задач (E-Discovery)

QUERY SUGGESTION FOR EFFICIENT LEGAL E-DISCOVERY (Предложение запросов для эффективного юридического электронного обнаружения)

US8583669B2
Google LLC
2011-08-29
2013-11-12

Патент описывает систему для автоматического улучшения поисковых запросов в контексте юридического обнаружения (E-Discovery). Система использует обучающую выборку документов, размеченных юристами как релевантные/нерелевантные, для итеративного уточнения запроса (комбинации ключевых слов и булевых операторов), максимизируя количество найденных релевантных документов и минимизируя нерелевантные. Патент не относится к публичному веб-поиску.

Какую проблему решает

Патент решает проблему высокой стоимости и трудоемкости процесса юридического электронного обнаружения (E-Discovery). В ходе судебных разбирательств стороны обязаны найти и предоставить все релевантные электронные документы (например, корпоративную переписку). Ручной просмотр всех документов крайне затратен, а стандартный поиск по ключевым словам часто неточен. Изобретение направлено на автоматическую генерацию высококачественных поисковых запросов, которые эффективно отфильтровывают закрытый корпус документов, сокращая объем ручной работы.

Что запатентовано

Запатентована система и метод для автоматического предложения и оптимизации поисковых запросов в контексте E-Discovery (litigation hold). Система использует методы контролируемого машинного обучения, опираясь на обучающую выборку документов (training set), размеченных вручную (например, юристами) как релевантные или нерелевантные. На основе этого набора данных система итеративно генерирует и тестирует варианты запросов (комбинации ключевых слов и булевых операторов), чтобы найти оптимальный запрос.

Как это работает

Система работает итеративно:

Инициализация и Разметка: Начинается с базового набора ключевых слов (seed set). Результаты поиска просматриваются экспертами, которые помечают документы как релевантные или нет (relevance indicator), формируя training set.
Анализ признаков: Система анализирует обучающую выборку для выявления свойств (например, ключевых слов, их совместной встречаемости), которые отличают релевантные документы от нерелевантных. Вычисляется «дискриминационная сила» (discriminatory power) терминов.
Генерация запросов: Система создает «соседние запросы» (neighboring queries), модифицируя текущий запрос путем добавления, удаления или изменения терминов и операторов (AND, OR, NOT) — процесс «расширения» (growing) и «сужения» (shrinking).
Оценка качества: Каждый соседний запрос оценивается на обучающей выборке с использованием метрик качества (Query Quality/Goodness), таких как Precision, Recall или $F_{1}$
Итерация (Hill Climbing): Запрос с наивысшим качеством выбирается в качестве базового для следующей итерации. Процесс повторяется, пока качество не перестанет улучшаться.

Актуальность для SEO

Средняя. Описанные методы информационного поиска (IR) являются классическими и актуальными для ниши E-Discovery (например, в продуктах типа Google Vault). Однако патент не отражает архитектуру современного публичного веб-поиска Google, которая больше полагается на нейронные сети и векторные представления (embeddings), чем на генерацию явных булевых запросов, описанную здесь.

Важность для SEO

Влияние на SEO минимальное (1/10). Патент явно сфокусирован на E-Discovery и поиске в закрытом корпусе документов (например, внутренняя корпоративная почта). Он не описывает алгоритмы ранжирования публичного веб-индекса (Google.com) и не имеет прямого отношения к стратегиям SEO для веб-сайтов.

Термины и определения

Classifier (Классификатор): Модель машинного обучения (упоминается linear support vector machine (SVM)), обученная на размеченных данных для предсказания релевантности неразмеченных документов и определения весов (discriminatory power) ключевых слов.
Co-occurrence context (Контекст совместной встречаемости): Определение пространственной близости (spatial proximity) двух ключевых слов. Примеры: window context (в пределах N слов), paragraph context (в одном абзаце), document context (в одном документе).
Consistency measure (Мера консистентности): Метрика, определяющая, насколько чаще два ключевых слова встречаются вместе, чем случайно. Используется для анализа совместной встречаемости. Примеры: point-wise mutual information (PMI), Jaccard coefficient, cosine similarity.
Discriminatory Power (Дискриминационная сила): Метрика, показывающая эффективность ключевого слова в разделении релевантных и нерелевантных документов. Может вычисляться через взаимную информацию (mutual information) или веса классификатора.
E-Discovery (Электронное обнаружение): Юридический процесс получения и обмена электронными документами в ходе судебного разбирательства.
Neighboring Queries (Соседние запросы): Запросы, сгенерированные путем модификации базового запроса — «роста» (growing) или «сжатия» (shrinking) его терминов или добавления/удаления булевых операторов.
Query Quality / Goodness (Качество запроса): Количественная оценка того, насколько хорошо запрос возвращает релевантные документы и минимизирует нерелевантные. Измеряется метриками Precision (Точность), Recall (Полнота) или $F_{1}$
Relevance Indicator (Индикатор релевантности): Метка, присвоенная документу (обычно вручную экспертом), указывающая, является ли он релевантным для дела.
Training Set (Обучающий набор): Подмножество документов из корпуса, которые были размечены Relevance Indicators. Используется для обучения системы и оценки качества запросов.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на автоматизированном и итеративном процессе улучшения поисковых запросов на основе контролируемого обучения.

Claim 1, 13, 18 (Независимые пункты): Описывают основной итеративный процесс генерации оптимального запроса (алгоритм типа hill climbing).

Система получает training set документов с relevance indicators и исходный запрос (initial query).
Определяется пространственная близость (spatial proximity) между ключевыми словами исходного запроса и другими ключевыми словами в обучающем наборе.
Система генерирует набор neighboring queries на основе этой пространственной близости.
Оценивается качество (quality score) каждого соседнего запроса, и определяется запрос с наивысшим рейтингом (highest ranked neighboring query).
Процесс повторяется итеративно: запрос с наивысшим рейтингом становится новым исходным запросом.
Условие остановки: Итерации продолжаются до тех пор, пока quality score лучшего соседнего запроса не станет ниже, чем quality score текущего исходного запроса (т.е. улучшение прекратилось).
Предыдущий запрос с наивысшим рейтингом (результирующий запрос) предлагается пользователю.

Claim 9 (Зависимый): Уточняет метод генерации соседних запросов.

Генерация включает определение discriminatory power для набора ключевых слов и выбор дополнительных ключевых слов с более высокой discriminatory power для использования в соседних запросах.

Claim 14 и 19 (Зависимые): Уточняют метрики оценки качества.

Neighboring queries оцениваются на основе одной или нескольких метрик: Precision, Recall или $F_{1}$

Где и как применяется

Этот патент не описывает архитектуру публичного веб-поиска Google. Он описывает специализированный инструмент (например, Google Vault или аналогичные платформы E-Discovery), используемый в закрытой среде для анализа определенного корпуса документов (например, корпоративных данных).

INDEXING – Индексирование
Корпус документов должен быть предварительно проиндексирован, чтобы инструмент мог выполнять поиск и анализировать содержимое и признаки (ключевые слова, метаданные).

Процессы внутри инструмента (Мета-уровень)
Основное применение патента. Система не ранжирует веб-страницы для пользователей интернета. Вместо этого она выполняет мета-процесс: итеративно генерирует и тестирует различные формулировки запросов (Query Generation) на основе обучающей выборки, чтобы найти оптимальный запрос для аналитика. Это процесс оптимизации запроса, а не процесс ранжирования.

Входные данные:

Обучающая выборка документов (Training set) с ручной разметкой (Relevance indicators).
Начальный набор ключевых слов (Seed keywords) или начальный запрос (Initial query).
Общий корпус документов, подлежащих анализу.

Выходные данные:

Оптимизированный поисковый запрос (состоящий из ключевых слов и булевых операторов).
Предложенные дополнительные ключевые слова с высокой Discriminatory power.

На что влияет

Патент влияет исключительно на процесс поиска в закрытых корпусах данных в контексте E-Discovery.

Конкретные типы контента: Электронная почта, текстовые файлы, электронные таблицы и другие электронные документы внутри организации.
Специфические запросы: Запросы, используемые юридическими командами для поиска доказательств.
Конкретные ниши или тематики: Исключительно ниша юридических технологий (Legal Tech) и внутреннего корпоративного аудита. В патенте нет упоминаний о влиянии на веб-тематики (YMYL, e-commerce и т.д.).

Когда применяется

Условия применения: Применяется в системах E-Discovery во время судебного разбирательства или внутреннего расследования.
Триггеры активации: Активируется, когда юридической команде необходимо эффективно отфильтровать большой объем документов. Требует наличия начальных данных и готовности команды размечать обучающую выборку (training set).

Пошаговый алгоритм

Процесс А: Генерация ключевых слов (Keyword Generation)

Получение исходных данных: Система получает исходный набор ключевых слов (seed set) и идентифицирует соответствующие документы.
Получение меток релевантности: Документы ассоциируются с indication of relevance (вручную или предсказанные классификатором), формируя training set.
Анализ дискриминационной силы: Вычисляется discriminatory power ключевых слов (например, с помощью mutual information или SVM classifier).
Анализ отношений: Анализируются отношения между ключевыми словами (совместная встречаемость, синонимия). Может использоваться алгоритм random walk.
Генерация предложений: Генерируется и предлагается пользователю набор новых ключевых слов.

Процесс Б: Итеративная генерация запросов (Iterative Query Generation)

Инициализация: Создается исходный запрос (initial query).
Генерация соседей: Исходный запрос модифицируется (расширяется/сужается) для создания neighboring queries. Например, добавление нового слова через OR или AND, или удаление слова.
Оценка качества: Оценивается качество созданных соседних запросов на training set (например, с помощью $F_{1}$
Выбор лучшего: Лучший соседний запрос выбирается в качестве нового базового запроса (base query).
Проверка улучшения: Сравнивается качество лучшего нового соседнего запроса с качеством базового запроса.
- Если лучше: Процесс повторяется с шага 2.
- Если не лучше (Локальный оптимум достигнут): Процесс останавливается.
Вывод: Текущий базовый запрос предоставляется клиенту.

Какие данные и как использует

Данные на входе

Патент фокусируется на использовании контролируемых данных в закрытом корпусе.

Контентные факторы: Полный текст документов. Анализируется присутствие ключевых слов, фраз и их пространственная близость (spatial proximity / co-occurrence context).
Пользовательские факторы (Метки): Критически важные данные — Relevance Indicators. Это метки (релевантно/нерелевантно), предоставленные экспертами для training set.
Технические/Метаданные факторы: В описании упоминается возможность использования метаданных как критериев поиска: временные периоды и владельцы/хранители документов (custodians).

Какие метрики используются и как они считаются

Discriminatory Power (Дискриминационная сила): Вычисляется для определения важности ключевого слова. Методы расчета:
- Прямой: Взаимная информация (Mutual Information).
- Косвенный: Веса, полученные при обучении классификатора (например, SVM).
Co-occurrence Consistency (Согласованность совместной встречаемости): Метрика, показывающая, насколько чаще два ключевых слова встречаются вместе, чем случайно. Рассчитывается как частота совместной встречаемости, нормализованная с помощью техник вроде PMI, Jaccard coefficient или cosine similarity.
Quality/Goodness of a query (Качество запроса): Оценка эффективности запроса на training set. Используются стандартные метрики IR:
- Precision (Точность).
- Recall (Полнота).
- $F_{1}$

Узкая специализация на E-Discovery: Патент описывает конкретное решение для узкой задачи — оптимизации поиска внутренних документов во время юридических разбирательств. Он не описывает работу публичного веб-поиска Google.
Зависимость от контролируемого обучения (Supervised Learning): Эффективность системы полностью зависит от наличия training set — данных, вручную размеченных экспертами. Этот подход принципиально отличается от веб-поиска, который в основном использует неконтролируемые или слабо контролируемые методы и неявные сигналы.
Итеративная оптимизация булевых запросов: Ядром изобретения является автоматизированный процесс уточнения булевых запросов с использованием алгоритма типа hill climbing, где запросы модифицируются (neighboring queries) и оцениваются по метрикам качества.
Использование стандартных IR-метрик: Система использует стандартные концепции информационного поиска, такие как Discriminatory Power и Co-occurrence Consistency, для определения важности ключевых слов и их взаимосвязей.
Отсутствие связи с SEO: Патент не дает практических выводов для SEO-специалистов, работающих с веб-поиском. Он не раскрывает алгоритмы ранжирования сайтов, факторы E-E-A-T или методы обработки спама в интернете.

ВАЖНО: Этот патент описывает инфраструктуру для специализированного юридического поиска (E-Discovery) и не дает практических рекомендаций для веб-SEO.

Best practices (это мы делаем)

Патент не предоставляет применимых инсайтов или рекомендаций для оптимизации веб-сайтов под поисковую систему Google.

Worst practices (это делать не надо)

Патент не дает информации о неэффективных или опасных SEO-тактиках в контексте публичного веб-поиска.

Стратегическое значение

Стратегическое значение для веб-SEO отсутствует. Патент подтверждает, что Google применяет классические методы информационного поиска (Information Retrieval) в своих корпоративных продуктах. Он демонстрирует техническую реализацию автоматизации сложных поисковых задач в закрытых средах, но не дает понимания приоритетов Google в отношении ранжирования веб-сайтов.

Практические примеры

Практических примеров применения данного патента в SEO нет, так как он относится к другой области (юридическое электронное обнаружение). Ниже приведен пример, иллюстрирующий работу патента в его целевой области — E-Discovery.

Сценарий: Поиск документов по внутреннему расследованию

Задача: Юридический отдел ищет письма, связанные с проектом "Альфа".
Инициализация: Вводят начальный запрос (Initial Query): проект AND альфа.
Разметка (Training Set): Они просматривают первые 100 результатов. 60 писем релевантны, 40 нерелевантны (например, упоминание фильма "Альфа").
Анализ: Система анализирует разметку. Она замечает, что в релевантных письмах часто встречаются слова "бюджет" и "сроки" (высокая Discriminatory Power), а в нерелевантных — "кино".
Генерация соседних запросов (Neighboring Queries):
- Q1: (проект AND альфа) AND бюджет
- Q2: (проект AND альфа) AND (бюджет OR сроки)
- Q3: (проект AND альфа) AND NOT кино
Оценка: Система тестирует запросы на обучающей выборке. Q2 показывает лучший $F_{1}$
Итерация: Q2 становится базовым запросом, и процесс повторяется для дальнейшего уточнения.

Объясняет ли этот патент, как Google ранжирует веб-страницы на Google.com?

Нет. Этот патент не имеет отношения к алгоритмам ранжирования публичного веб-поиска. Он описывает узкоспециализированную технологию для юридического электронного обнаружения (E-Discovery), предназначенную для поиска документов в закрытых системах (например, внутри корпоративной сети или в Google Vault).

Что такое E-Discovery и чем он отличается от веб-поиска?

E-Discovery — это юридический процесс сбора электронных доказательств для судебного разбирательства. В отличие от веб-поиска, который фокусируется на ранжировании публичных страниц, E-Discovery фокусируется на максимально полном и точном извлечении всех релевантных документов из определенного закрытого корпуса данных (например, почтовых ящиков сотрудников).

Используются ли описанные техники (например, «Discriminatory power») в веб-поиске?

Хотя концепции информационного поиска, такие как Discriminatory Power (различительная способность терминов) и метрики качества ( $F_{1}$

Что такое «обучающая выборка» (Training set) в контексте этого патента?

Это набор документов, которые были вручную просмотрены юристами или экспертами и помечены как релевантные или нерелевантные для конкретного дела. Эта разметка служит эталоном (ground truth), позволяя системе машинного обучения понять, какие характеристики присущи релевантным документам.

Что означает «итеративная оптимизация запроса», описанная в FIG. 6?

Это процесс постепенного улучшения запроса (алгоритм типа Hill Climbing). Система начинает с базового запроса, создает его вариации (добавляя или удаляя слова/операторы), тестирует, какая вариация работает лучше всего на training set, и затем использует эту лучшую вариацию как основу для следующего раунда модификаций. Процесс повторяется, пока качество не перестанет расти.

Связан ли этот патент с E-E-A-T или PageRank?

Нет. Патент полностью сосредоточен на анализе текста и метаданных внутри закрытого корпуса документов для задачи E-Discovery. Факторы авторитетности сайта (E-E-A-T) или ссылочный профиль (PageRank) здесь не применяются.

Что такое «анализ совместной встречаемости» (Co-occurrence analysis), описанный в патенте?

Это анализ того, как часто определенные слова появляются вместе в заданном контексте (например, в одном предложении или документе). Если слово часто встречается рядом с уже известным релевантным ключевым словом, система может предположить, что это новое слово также является индикатором релевантности и предложить добавить его в запрос.

Что такое «соседние запросы» (Neighboring queries)?

Это запросы, которые немного отличаются от текущего запроса. Например, если базовый запрос — (A AND B), соседними могут быть (A AND B) OR C (рост/growing) или просто A (сжатие/shrinking). Система генерирует их, чтобы проверить, улучшат ли эти небольшие изменения качество поиска.

Почему влияние этого патента на SEO оценено так низко?

Оценка низкая, потому что технология предназначена для совершенно другой среды (юридический поиск в закрытых данных) и решает другие задачи (максимизация полноты извлечения с помощью булевых запросов), чем веб-поиск (ранжирование публичных веб-страниц с помощью нейронных сетей). Патент не дает никаких прикладных знаний для SEO-специалистов.

Какова основная ценность этого патента для SEO-специалиста?

Основная ценность заключается в четком понимании того, что этот патент НЕ относится к веб-поиску. Он служит примером того, как Google решает специфические задачи информационного поиска в корпоративной среде, используя методы (контролируемое обучение, булевы запросы), которые сильно отличаются от алгоритмов, используемых в Google Search.

Как Google использует многоэтапное ранжирование и автоматическое расширение запросов для повышения релевантности выдачи

Google использует многоэтапную систему ранжирования для эффективной оценки сложных сигналов, таких как близость терминов, атрибуты (заголовки, шрифты) и контекст. Система также автоматически анализирует топовые результаты, чтобы найти дополнительные термины для расширения исходного запроса (Relevance Feedback), улучшая релевантность в последующих итерациях поиска.

US8407239B2
2013-03-26

Семантика и интент

Как Google использует гибридную итеративную кластеризацию для организации документов в системах E-Discovery

Патент Google описывает метод оптимизации для анализа больших наборов документов в системах E-Discovery (юридический анализ). Документы сначала быстро кластеризуются по одному типу данных (например, метаданным), а затем итеративно уточняются с использованием других типов данных (например, основного текста). Это балансирует скорость и точность тематической группировки и не связано с веб-поиском.

US9268844B1
2016-02-23

Как Google классифицирует веб-страницы и персонализирует выдачу, используя историю запросов и поведенческие данные

Google использует итеративный метод для тематической классификации веб-страниц, не анализируя их контент напрямую. Система анализирует исторические логи запросов и данные о кликах. Классификация известных страниц переносится на запросы, в результатах которых они появляются, а затем классификация этих запросов переносится на новые страницы. Эти данные используются для построения профилей пользователей и персонализации поисковой выдачи.

US8185544B2
2012-05-22

Персонализация
Поведенческие сигналы
SERP

Как Google итеративно переписывает и повторно отправляет запросы в кастомизированных поисковых системах (CSE/PSE) для соответствия спецификациям администратора

Патент описывает механизм для кастомизированных поисковых систем (например, Google Custom/Programmable Search Engine). Система автоматически оценивает, соответствуют ли результаты поиска спецификации, заданной администратором. Если нет (например, слишком мало результатов или не те сайты), система автоматически переписывает запрос (добавляя ключевые слова или операторы site:) и повторно отправляет его, повторяя цикл до достижения нужного качества выдачи.

US8655862B1
2014-02-18

SERP

Как Google использует LLM для генерации поисковых сводок (SGE), основываясь на контенте веб-сайтов, и итеративно уточняет ответы

Google использует Большие Языковые Модели (LLM) для создания сводок (AI-ответов) в результатах поиска. Для повышения точности и актуальности система подает в LLM не только запрос, но и контент из топовых результатов поиска (SRDs). Патент описывает, как система выбирает источники, генерирует сводку, проверяет факты, добавляет ссылки на источники (linkifying) и аннотации уверенности. Кроме того, система может динамически переписывать сводку, если пользователь взаимодействует с одним из источников.

US11769017B1
2023-09-26

EEAT и качество
Ссылки
SERP

Как Google использует данные о поведении пользователей по похожим запросам для ранжирования новых или редких запросов

Google использует механизм для улучшения ранжирования запросов, по которым недостаточно данных о поведении пользователей (например, кликов). Система находит исторические запросы, семантически похожие на исходный, и «заимствует» их поведенческие данные. Степень сходства рассчитывается с учетом важности терминов, синонимов и порядка слов. Эти заимствованные данные используются для корректировки рейтинга документов по исходному запросу.

US9009146B1
2015-04-14

Поведенческие сигналы
Семантика и интент
SERP

Как Google использует социальные связи для обнаружения ссылочного спама и накрутки кликов

Google может анализировать связи между владельцами сайтов в социальных сетях, чтобы оценить независимость ссылок между их ресурсами. Если владельцы тесно связаны (например, друзья), ссылки между их сайтами могут получить меньший вес в ранжировании, а клики по рекламе могут быть классифицированы как спам (накрутка).

US8060405B1
2011-11-15

Антиспам
Ссылки
SERP

Как Google использует личные интересы пользователя для понимания неопределенных запросов и персонализации рекомендаций

Google использует механизм для интерпретации неопределенных запросов или команд (например, «Я голоден» или «Мне скучно»), когда контекст неясен. Если система не может определить конкретное намерение пользователя только из текущего контента (например, экрана приложения), она обращается к профилю интересов пользователя (User Attribute Data) и его местоположению, чтобы заполнить пробелы и предоставить персонализированные рекомендации или выполнить действие.

US10180965B2
2019-01-15

Персонализация
Семантика и интент
Local SEO

Как Google использует машинное обучение для прогнозирования желаемого типа контента (Web, Images, News) и формирования смешанной выдачи (Universal Search)

Google анализирует исторические журналы поиска (пользователь, запрос, клики), чтобы обучить модель машинного обучения. Эта модель предсказывает вероятность того, что пользователь хочет получить результаты из определенного репозитория (например, Картинки или Новости). Google использует эти прогнозы, чтобы решить, в каких индексах искать и как смешивать результаты на финальной странице выдачи (Universal Search).

US7584177B2
2009-09-01

Семантика и интент
SERP
Персонализация

Как Google объединяет разные стратегии и поведенческие данные для генерации и выбора лучших альтернативных запросов

Google использует архитектуру, которая одновременно применяет множество стратегий (расширение, уточнение, синтаксис, анализ сессий) для генерации альтернативных запросов. Система оценивает качество этих вариантов с помощью показателей уверенности, основанных на поведении пользователей (например, длительности кликов) и критериях разнообразия. Лучшие альтернативы предлагаются пользователю, часто с превью результатов, чтобы помочь уточнить поиск.

US7565345B2
2009-07-21

Поведенческие сигналы
SERP

Как Google динамически фильтрует выдачу, уточняя интент пользователя после клика по результату

Google использует механизм для обработки неоднозначных запросов. Если выдача содержит результаты, относящиеся к разным сущностям (например, «Ягуар» как животное и как автомобиль), клик пользователя по одному из результатов сигнализирует о его интересе к конкретной сущности. При возврате на страницу выдачи система модифицирует SERP, скрывая или понижая результаты, связанные с нерелевантными сущностями, и фокусируя выдачу на выбранном интенте.

US9355158B2
2016-05-31

Семантика и интент
SERP
Поведенческие сигналы

Как Google использует данные о кликах разных групп пользователей (популяций) для локализации и персонализации ранжирования

Google адаптирует результаты поиска, анализируя, как разные группы пользователей (популяции), определяемые по местоположению, языку или демографии, взаимодействуют с выдачей. Система рассчитывает «Сигнал Популяции» (Population Signal) на основе исторических кликов группы и корректирует ранжирование. Также используется механизм сглаживания для компенсации нехватки данных по конкретным группам.

US7454417B2
2008-11-18

Персонализация
Поведенческие сигналы
SERP

Как Google использует нейросетевые эмбеддинги (Two-Tower Model) для семантического поиска изображений с учетом контекста страницы

Google использует систему поиска изображений, основанную на нейронных сетях (модель "Две Башни"). Система создает векторные представления (эмбеддинги) для поисковых запросов и для пар "изображение + посадочная страница", помещая их в общее семантическое пространство. Это позволяет находить релевантные изображения не по ключевым словам, а по близости векторов, учитывая как содержание картинки, так и контекст страницы, на которой она размещена.

US11782998B2
2023-10-10

Семантика и интент
Индексация
Мультимедиа

Как Google вычисляет тематический авторитет автора (Author Rank) на основе его вклада в контент

Google патентует систему для количественной оценки экспертности авторов по конкретным темам. Система анализирует документы, определяет их тематику (Topic) и вес этой тематики (Weight), а затем учитывает долю вклада (Authorship Percentage) каждого автора в раскрытие этой темы. На основе этих данных формируется кумулятивный «Сигнал Авторитета» (Authority Signature) автора, позволяющий идентифицировать экспертов в различных областях.

US8458196B1
2013-06-04

EEAT и качество
Семантика и интент

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки