Как Google контролирует качество и объективность в кастомизированных поисковых системах (PSE), блокируя спам и предвзятость от третьих сторон

DETECTING SPAM RELATED AND BIASED CONTEXTS FOR PROGRAMMABLE SEARCH ENGINES (Обнаружение связанных со спамом и предвзятых контекстов для программируемых поисковых систем)

US7743045B2
Google LLC
2005-08-10
2010-06-22

Google использует систему контроля для Программируемых Поисковых Систем (PSE), где третьи стороны могут влиять на выдачу через "Контекстные Файлы". Патент описывает двухэтапный процесс (офлайн и во время запроса) для обнаружения и фильтрации спама или предвзятости (Bias). Система сравнивает кастомизированные результаты с результатами основного поиска, чтобы гарантировать объективность выдачи.

Какую проблему решает

Патент решает проблему контроля качества и объективности в рамках Programmable Search Engine (PSE) — системы, позволяющей внешним сторонам (Vertical Content Providers) влиять на обработку запросов и ранжирование результатов с помощью Context Files. Основная задача — предотвратить манипуляции, при которых третьи стороны могут использовать свои Context Files для внедрения спама или существенного искажения (предвзятости, Bias) поисковой выдачи, особенно когда пользователь взаимодействует с PSE напрямую.

Что запатентовано

Запатентована система и метод для обнаружения и фильтрации спама и предвзятости (Bias) в результатах, генерируемых Программируемой Поисковой Системой (PSE). Система использует офлайн-анализ Context Files для выявления ссылок на спам-ресурсы. Во время обработки запроса система применяет Spam Filter к результатам и использует Bias Filter для сравнения результатов, обработанных с учетом контекста (Context Processed Results), с результатами по исходному запросу (Native Query Results). При превышении порогов спама или предвзятости соответствующие контексты и результаты исключаются.

Как это работает

Механизм работает в два этапа:

Офлайн-обработка: Система сканирует или получает Context Files (в частности, Site/Page Annotation Files) от сторонних провайдеров. Spam Filter анализирует URL-адреса, перечисленные в этих файлах. Если значительная часть URL ведет на спам, провайдер или файл помечаются как связанные со спамом и исключаются из дальнейшего использования при прямых запросах к PSE.
Обработка во время запроса (Query Time): Когда пользователь отправляет запрос, система генерирует результаты с учетом применимых Context Files. Далее активируются два фильтра:
1. Spam Filter: Оценивает полученные результаты. Если мера спама (например, average spam score) превышает порог, спам-результаты и связанный с ними контекст (аннотации, ссылки) удаляются.
2. Bias Filter: Сравнивает результаты, обработанные контекстом, с результатами по исходному (нативному) запросу. Вычисляется мера расстояния (distance measure). Если результаты слишком сильно отличаются (превышен порог расстояния), контекст считается предвзятым, и его влияние на выдачу нейтрализуется.

Актуальность для SEO

Средняя. Концепция Программируемых Поисковых Систем (например, Google Custom Search/Programmable Search Engine) продолжает существовать. Механизмы защиты от спама и предвзятости критически важны для поддержания качества любой платформы, допускающей внешнее влияние на ранжирование. Хотя конкретные методы фильтрации могли эволюционировать, базовая необходимость в описанных механизмах контроля остается актуальной.

Важность для SEO

Влияние на SEO — умеренное (6/10). Патент напрямую не влияет на ранжирование в основном поиске Google, но критически важен для тех, кто использует или создает кастомизированные поисковые решения на базе технологий Google (PSE). Он устанавливает границы допустимого влияния на выдачу через Context Files. Попытки агрессивного продвижения коммерческих интересов (спам) или радикального искажения выдачи (предвзятость) в рамках PSE будут алгоритмически пресекаться описанными механизмами.

Термины и определения

Bias Filter (Фильтр предвзятости): Компонент системы, который во время запроса сравнивает Context Processed Results с Native Query Results. Он вычисляет distance measure между двумя наборами результатов для выявления предвзятости.
Context File (Контекстный файл): Файл, предоставляемый третьей стороной, содержащий инструкции для управления операциями поисковой системы (PSE). Включает команды для пре-процессинга, пост-процессинга и управления поиском.
Context Processor (Обработчик контекста): Компонент, который интерпретирует и выполняет инструкции в Context Files для модификации запроса и/или результатов поиска.
Context Processed Query/Results (Запрос/Результаты, обработанные контекстом): Исходный запрос, модифицированный инструкциями из Context File, и результаты, полученные по этому модифицированному запросу.
Distance Measure (Мера расстояния): Метрика, используемая Bias Filter для количественной оценки различий между Context Processed Results и Native Query Results. Например, процент совпадения результатов.
Native Query/Results (Нативный запрос/Результаты): Исходный запрос пользователя без контекстной обработки и результаты, полученные по нему стандартным поисковым движком.
Programmable Search Engine (PSE) (Программируемая поисковая система): Поисковая система, операции которой могут контролироваться внешними инструкциями, содержащимися в Context Files.
Site/Page Annotation File (Файл аннотаций сайтов/страниц): Тип Context File, который содержит список URL-адресов с метками (tags), рейтингами и комментариями, отражающими мнение Vertical Content Provider об этих ресурсах.
Spam Filter (Спам-фильтр): Компонент, используемый как офлайн (для анализа URL в Context Files), так и во время запроса (для анализа результатов поиска) для выявления спама.
Vertical Content Provider (Поставщик вертикального контента): Внешняя сторона (например, специализированный веб-сайт, эксперт), которая предоставляет Context Files для кастомизации поиска в PSE, основываясь на своей экспертизе.

Ключевые утверждения (Анализ Claims)

Патент фокусируется на трех основных методах защиты PSE от некачественных контекстов.

Claim 1 (Независимый пункт): Описывает офлайн-метод фильтрации Context Files перед их добавлением в коллекцию PSE.

Система поддерживает коллекцию Context Files от третьих сторон.
Система получает новые Context Files для добавления в коллекцию.
Для нового контекстного файла система определяет количество спам-страниц (spam web pages), перечисленных в этом файле.
Если это количество превышает пороговое значение (threshold number), файл не добавляется в коллекцию.
При получении запроса система использует одобренные файлы из коллекции для обработки.

Ядром этого утверждения является предварительная проверка качества Context Files (вероятно, Site/Page Annotation Files). Если провайдер аннотирует или включает слишком много ресурсов, которые система классифицирует как спам, его контекстный файл блокируется от использования в PSE.

Claim 9 (Независимый пункт): Описывает метод фильтрации спама во время выполнения запроса (Query Time).

Система получает запрос и идентифицирует Context File.
Генерируются Context Processed Results с использованием команд контекста.
Система определяет меру спама (spam measure) для этих результатов.
Если мера спама превышает порог (spam threshold), система исключает спам-результаты, ссылки, аннотации или другой связанный контент из финальной выдачи.

Это динамическая защита. Даже если Context File прошел офлайн-проверку, но его команды (например, переписывание запроса) привели к выдаче с высоким уровнем спама, система активирует фильтрацию в реальном времени. Spam measure может быть средним баллом спама или процентом спам-документов в топе.

Claim 12 (Независимый пункт): Описывает метод обнаружения предвзятости (Bias) во время выполнения запроса.

Система генерирует Context Processed Results и Native Processed Results (по исходному запросу).
Вычисляется мера расстояния (distance measure) между двумя наборами результатов.
Если мера расстояния превышает порог (distance threshold), система удаляет из Context Processed Results те результаты, которых нет в Native Processed Results, создавая отфильтрованные результаты.
Отфильтрованные результаты предоставляются пользователю.

Это механизм защиты от предвзятости. Он гарантирует, что кастомизация не исказит выдачу слишком радикально по сравнению с базовой выдачей поисковой системы. Если контекст уводит пользователя слишком далеко от того, что PSE считает релевантным по умолчанию, система принудительно возвращает выдачу ближе к базовой.

Где и как применяется

Изобретение применяется в рамках инфраструктуры Программируемой Поисковой Системы (PSE) и затрагивает этапы индексирования/сбора данных и переранжирования.

CRAWLING / INDEXING (Офлайн-процессы)
На этом этапе происходит сбор и анализ Context Files.

Сбор данных: Context File Crawler или Context Registration Interface получают Context Files от Vertical Content Providers.
Фильтрация: Полученные файлы анализируются офлайн с помощью Spam Filter. URL, указанные в них, проверяются на спам.
Результат: Формирование кэша проверенных контекстных файлов (Cached/Global Context Files) и исключение файлов/провайдеров, связанных со спамом.

RERANKING (Онлайн-процессы во время запроса)
Основное применение патента происходит после того, как стандартное ранжирование (RANKING) завершено (как для контекстного, так и для нативного запроса), и система выполняет контроль качества.

Spam Filtering: Spam Filter анализирует Context Processed Results в реальном времени.
Bias Filtering: Bias Filter сравнивает Context Processed Results с Native Query Results.
Финальная выдача: Формирование отфильтрованных результатов (Spam, bias filtered results).

Входные данные:

Context Files (включая Site/Page Annotation Files).
URL-адреса, перечисленные в Context Files (офлайн).
Исходный запрос пользователя (Native Query).
Результаты поиска (Context Processed Results и Native Query Results).

Выходные данные:

Идентификация спамных Context Files или провайдеров (офлайн).
Отфильтрованная поисковая выдача, очищенная от спама и предвзятости (онлайн).

На что влияет

Типы контента и Ниши: Влияет на любой контент, который продвигается или аннотируется через механизмы PSE. Наибольшее влияние оказывается в нишах, подверженных спаму или сильной коммерческой мотивации для искажения выдачи (предвзятости).
Специфические запросы: Влияет на запросы, обрабатываемые через PSE с использованием сторонних контекстных файлов.

Когда применяется

Алгоритмы применяются в двух сценариях:

Офлайн: Периодически или при регистрации/обновлении Context Files от Vertical Content Providers.
Онлайн (Query Time): Когда пользователь отправляет запрос (особенно напрямую в PSE), и система применяет сторонние Context Files для обработки этого запроса.

Триггеры активации и пороговые значения:

Офлайн (Claim 1): Активируется, если количество спам-страниц, перечисленных в Context File, превышает threshold number (например, 40%).
Онлайн Спам (Claim 9): Активируется, если spam measure (например, средний балл спама) результатов превышает spam threshold.
Онлайн Предвзятость (Claim 12): Активируется, если distance measure между контекстными и нативными результатами превышает distance threshold.

Пошаговый алгоритм

Процесс А: Офлайн-фильтрация спама в Context Files (FIG. 10)

Сбор данных: Система получает Vertical Context Files от провайдера через интерфейс регистрации или краулер.
Извлечение URL: Система идентифицирует URL-адреса, перечисленные в файлах (например, в Site/Page Annotation File).
Анализ спама: Spam Filter анализирует каждый извлеченный URL для определения, является ли он спамом.
Оценка файла/провайдера: Система подсчитывает количество или процент спамных URL в файле.
Применение порога: Если количество спамных URL превышает установленный порог (threshold number).
Блокировка: Context File не добавляется в кэш (Cached/Global Context Files) или провайдер помечается как связанный со спамом и исключается из обработки прямых запросов к PSE.
Сохранение: Если порог не превышен, файл сохраняется для использования.

Процесс Б: Фильтрация спама и предвзятости во время запроса (FIG. 11)

Получение запроса: Система получает запрос (Native Query) от клиента.
Контекстная обработка: Context Processor идентифицирует применимые Context Files и генерирует Context Processed Query.
Выполнение поиска: Search Engine выполняет поиск по обоим запросам, генерируя Context Processed Results и Native Query Results.
Анализ спама (Spam Filter):
1. Spam Filter анализирует Context Processed Results (например, топ-N результатов).
2. Вычисляется мера спама (spam measure).
3. Если мера спама превышает spam threshold, спамные результаты и связанный контекст (аннотации, ссылки от этого провайдера) помечаются для удаления.
Анализ предвзятости (Bias Filter):
1. Bias Filter сравнивает Context Processed Results и Native Query Results.
2. Вычисляется мера расстояния (distance measure) между двумя наборами.
3. Если мера расстояния превышает distance threshold (т.е. результаты слишком разные), система идентифицирует предвзятость.
4. Система фильтрует Context Processed Results, например, удаляя результаты, которых нет в Native Query Results, или удаляя контекстные элементы от предвзятого провайдера.
Формирование выдачи: Система объединяет результаты после фильтрации (Шаги 4 и 5) и предоставляет их пользователю.

Какие данные и как использует

Данные на входе

Патент фокусируется на анализе метаданных и результатов поиска, а не на традиционных факторах ранжирования.

Структурные данные (Context Files): Основные входные данные — это Context Files, полученные от третьих сторон. Они содержат инструкции по обработке и данные аннотаций (URL, метки, рейтинги в Site/Page Annotation Files).
Контентные/Технические факторы (Анализ URL): Содержимое и URL страниц, на которые ссылаются Context Files, анализируются офлайн для определения их статуса спама.
Системные данные (Результаты поиска): Context Processed Results и Native Query Results, генерируемые поисковой системой во время запроса.

Какие метрики используются и как они считаются

Spam Score (Балл спама): Метрика, присваиваемая отдельной странице Spam Filter (методы расчета балла в патенте не детализированы).
Spam Measure (Мера спама): Агрегированная метрика для набора результатов. Может быть средним баллом спама (average spam score) или процентом спамных документов в наборе.
Distance Measure (Мера расстояния): Метрика для оценки различий между двумя наборами результатов (контекстными и нативными). В патенте упоминается, что это может быть процент совпадения результатов (percentage of context processed search results that are the same as native search results). Критерии "одинаковости" могут варьироваться.

Пороговые значения:

Threshold Number (Офлайн): Пороговое количество/процент спамных URL в Context File (упоминается пример 40%).
Spam Threshold (Онлайн): Пороговое значение Spam Measure для активации фильтрации во время запроса.
Distance Threshold (Онлайн): Пороговое значение Distance Measure для активации фильтра предвзятости.

PSE как контролируемая среда: Google рассматривает Программируемые Поисковые Системы (PSE) как среду, где внешнее влияние допустимо, но строго контролируется. Патент описывает защитные механизмы, гарантирующие, что качество и объективность выдачи не будут скомпрометированы третьими сторонами.
Двухуровневая защита от спама: Система использует превентивную (офлайн) и реактивную (онлайн) защиту. Офлайн-анализ отсеивает некачественные Context Files путем анализа аннотированных ими URL. Онлайн-анализ проверяет фактические результаты, сгенерированные с учетом контекста.
Определение "Предвзятости" (Bias) через отклонение от эталона: Патент вводит метрику предвзятости, основанную на сравнении кастомизированной выдачи с базовой выдачей Google (Native Results). Базовая выдача используется как эталон объективности.
Метрика Расстояния (Distance Measure) как ограничитель: Если кастомизированная выдача слишком сильно отличается от базовой (превышен Distance Threshold), она считается предвзятой, и система принудительно приближает ее к эталону. Это ограничивает возможности радикального изменения SERP через PSE.
Качество аннотаций критично: Для создателей Context Files критически важно ссылаться на качественные ресурсы. Аннотирование спам-сайтов приведет к блокировке всего контекстного файла на этапе офлайн-проверки.

ВАЖНО: Этот патент в первую очередь применим к средам Программируемых Поисковых Систем (PSE), таким как Google Programmable Search Engine (ранее Google Custom Search Engine), а не напрямую к алгоритмам ранжирования основного органического поиска Google.

Best practices (это мы делаем)

Рекомендации применимы к специалистам, создающим кастомизированные поисковые системы на базе Google PSE.

Фокус на качестве аннотируемых ресурсов: При создании Site/Page Annotation Files для влияния на выдачу PSE необходимо тщательно отбирать авторитетные и неспамные ресурсы. Система проводит офлайн-проверку этих URL, и наличие спама может привести к блокировке всего контекстного файла.
Поддержание релевантности относительно базового поиска: При кастомизации ранжирования или переписывании запросов в PSE следите, чтобы итоговая выдача не слишком сильно отклонялась от того, что основной поиск Google считает релевантным. Радикальные изменения могут быть классифицированы как Bias и отфильтрованы.
Тестирование контекстов: Тестируйте, как Context Files влияют на выдачу по ключевым запросам. Сравнивайте результаты PSE с результатами основного поиска Google (Native Results), чтобы оценить потенциальную меру расстояния и риск активации фильтра предвзятости.

Worst practices (это делать не надо)

Использование PSE для продвижения спама: Попытки использовать Context Files для аннотирования или повышения в ранжировании низкокачественных или спамных сайтов будут обнаружены либо на этапе офлайн-проверки, либо во время запроса через Spam Filter.
Агрессивное коммерческое искажение выдачи: Создание контекстов, которые радикально меняют выдачу в пользу конкретных коммерческих партнеров в ущерб общей релевантности. Это будет классифицировано как предвзятость (Bias), если мера расстояния от нативной выдачи превысит порог.
Манипулятивное переписывание запросов: Использование команд модификации запросов для подмены интента пользователя (например, переписывание информационного запроса в коммерческий с указанием конкретного вендора) увеличивает риск активации фильтров.

Стратегическое значение

Патент подтверждает стратегический подход Google к контролю качества: основной поиск (Native Search) выступает в роли арбитра или эталона объективности. Любые попытки внешнего влияния оцениваются по степени отклонения от этого эталона. Это демонстрирует методологию Google для оценки качества и намерений внешних участников, влияющих на поиск, подчеркивая, что кастомизация не должна противоречить базовым принципам качества и релевантности.

Практические примеры

Сценарий 1: Блокировка предвзятого контекста (Bias Filtering)

Ситуация: SEO-агентство создает PSE для ниши "здоровое питание" и решает агрессивно продвигать продукцию своего клиента (Бренд А).
Действие: Агентство создает Context File, который сильно повышает в ранжировании сайт Бренда А и понижает всех конкурентов по запросу [лучшие протеиновые батончики].
Исходный запрос (Native Query): [лучшие протеиновые батончики]. Выдача Google содержит обзоры, рейтинги и различные бренды.
Контекстный запрос (Context Processed Query): Тот же запрос, но с примененными правилами из Context File. В топе выдачи PSE доминирует Бренд А.
Активация Bias Filter: Система сравнивает два набора результатов. Distance Measure очень велика, так как топ выдачи радикально отличается. Порог превышен.
Результат: Система классифицирует контекст как предвзятый и фильтрует выдачу, удаляя результаты Бренда А, которых не было в топе нативной выдачи, или полностью игнорируя правила ранжирования из этого Context File.

Сценарий 2: Офлайн-блокировка спамного контекста (Offline Spam Filtering)

Ситуация: Владелец блога о путешествиях создает кастомный поиск и добавляет аннотации к полезным ресурсам.
Действие: Он создает Site/Page Annotation File, где помимо качественных ресурсов указывает несколько сайтов по бронированию отелей, которые платят ему комиссию, но классифицируются Google как спам.
Офлайн-анализ: При загрузке файла в PSE система анализирует все URL. Spam Filter идентифицирует, что 50% указанных сайтов являются спамом.
Результат: Порог (например, 40%) превышен. Система отклоняет весь Context File, и он не используется в PSE.

Влияет ли этот патент на ранжирование в основном органическом поиске Google?

Нет, напрямую не влияет. Патент описывает механизмы контроля качества исключительно в рамках Программируемых Поисковых Систем (PSE), таких как Google Custom Search. Он регулирует, как внешние стороны могут влиять на выдачу внутри этих кастомизированных систем, но не описывает алгоритмы ранжирования основного поиска Google.

Что такое "Предвзятость" (Bias) в контексте этого патента?

Предвзятость определяется как существенное отклонение результатов, обработанных с учетом контекста (Context Processed Results), от результатов по исходному запросу (Native Results). Если кастомизированная выдача слишком сильно отличается от того, что основной поиск считает релевантным, она классифицируется как предвзятая. Базовая выдача Google используется как эталон объективности.

Как Google измеряет разницу между кастомизированной и базовой выдачей?

Система использует метрику Distance Measure (Мера расстояния). Это может быть процент совпадения результатов между двумя наборами выдачи. Если процент совпадения слишком низкий (или разница слишком велика) и превышает установленный порог (Distance Threshold), активируется фильтр предвзятости.

Что произойдет, если система посчитает мой Context File (для Google CSE) предвзятым?

Если Bias Filter активируется во время запроса, система предпримет корректирующие действия для нейтрализации предвзятости. В частности, патент (Claim 12) описывает удаление из кастомизированной выдачи тех результатов, которых не было в нативной выдаче. Это принудительно приближает вашу выдачу к стандартной выдаче Google.

Что такое офлайн-проверка Context Files?

Это превентивная мера безопасности. Перед тем как добавить Context File (например, файл с аннотациями сайтов) в систему PSE, Google анализирует все URL, перечисленные в этом файле, с помощью Spam Filter. Если слишком много из этих URL ведут на спам-ресурсы (например, более 40%), весь файл будет отклонен.

Могу ли я использовать PSE для гарантированного вывода моего сайта на первое место в кастомном поиске?

Теоретически, Context Files позволяют влиять на ранжирование в рамках вашего PSE. Однако этот патент описывает ограничения. Если такое агрессивное повышение приведет к значительному отклонению от нативной выдачи Google, механизм Bias Filter может нейтрализовать ваши правила ранжирования, посчитав их предвзятыми.

Как система определяет спам во время запроса?

Во время запроса Spam Filter анализирует фактические результаты, полученные после применения Context File. Система вычисляет Spam Measure — например, средний балл спама для топовых результатов. Если этот показатель превышает порог, спамные результаты и связанные с ними аннотации удаляются из выдачи.

Применяются ли эти фильтры, если пользователь ищет через мой сайт, на котором установлен PSE?

В патенте указано, что фильтрация особенно важна для исключения контекстных файлов от спам-провайдеров при обработке "прямых пользовательских запросов" (direct user queries) к PSE. Это подразумевает, что фильтрация особенно актуальна, когда пользователь ищет напрямую в PSE, используя контекст провайдера (например, по подписке). Однако технически механизмы доступны в любом случае использования PSE.

Какие уроки должны извлечь SEO-специалисты, работающие с кастомным поиском?

Главный урок — кастомизация не должна противоречить качеству и объективности. При создании Context Files необходимо фокусироваться на добавлении ценности через экспертное курирование качественных ресурсов. Попытки использовать PSE для спама или агрессивной манипуляции выдачей в коммерческих интересах будут алгоритмически ограничены.

Что такое Vertical Content Provider в этом патенте?

Это любая третья сторона — эксперт, владелец специализированного сайта, организация — которая создает и предоставляет Context Files для Программируемой Поисковой Системы. Они используют свою экспертизу (вертикальное знание) для кастомизации поискового опыта пользователей.

Как Google итеративно переписывает и повторно отправляет запросы в кастомизированных поисковых системах (CSE/PSE) для соответствия спецификациям администратора

Патент описывает механизм для кастомизированных поисковых систем (например, Google Custom/Programmable Search Engine). Система автоматически оценивает, соответствуют ли результаты поиска спецификации, заданной администратором. Если нет (например, слишком мало результатов или не те сайты), система автоматически переписывает запрос (добавляя ключевые слова или операторы site:) и повторно отправляет его, повторяя цикл до достижения нужного качества выдачи.

US8655862B1
2014-02-18

SERP

Как Google позволяет внешним экспертам настраивать поисковую выдачу и таргетировать рекламу с помощью контекстных файлов

Google использует систему, позволяющую владельцам тематических (вертикальных) сайтов программно управлять поведением поисковой системы с помощью «Файлов Контекста». Эти файлы содержат инструкции по модификации запроса, выбору коллекций документов для поиска, фильтрации и аннотированию результатов. Это позволяет адаптировать поиск под конкретный интент пользователя (например, покупка или техподдержка) и использовать этот же контекст для более точного таргетинга рекламы.

US20160299983A1
2016-10-13

Семантика и интент
SERP
Персонализация

Как Google агрегирует экспертные знания из разных источников для создания контекстно-зависимой поисковой выдачи

Патент Google описывает механизм агрегирования «контекстных данных» (правил, аннотаций, фильтров) из нескольких Программируемых Поисковых Систем (PSE), созданных сторонними экспертами. Если несколько PSE посвящены схожей тематике, система объединяет их знания. Это позволяет предоставить пользователю единую, обогащенную выдачу, которая учитывает коллективную экспертизу и контекст запроса (например, покупка или решение проблемы).

US7716199B2
2010-05-11

Семантика и интент
SERP
Персонализация

Как Google намеренно задерживает или искажает изменения в ранжировании для выявления SEO-манипуляций

Google использует механизм для борьбы со спамом, который вносит временные задержки и неожиданные колебания в ранжирование документа после изменения его факторов. Вместо немедленного применения нового рейтинга система использует "Функцию перехода ранга". Это делается для того, чтобы запутать спамеров и проанализировать их реакцию на неожиданные изменения (например, падение позиций вместо ожидаемого роста), выявляя таким образом манипуляции.

US8244722B1
2012-08-14

Антиспам
SERP
Техническое SEO

Как Google вычисляет «Proxy Pad Score» для обнаружения сайтов, копирующих чужой контент, и пессимизирует их при каноникализации

Google использует механизм для борьбы с сайтами, которые массово копируют контент (Proxy Pads). Система анализирует, как часто контент сайта проигрывает дубликатам с других сайтов по метрикам качества. На основе этого вычисляется «Proxy Pad Score». Если оценка плохая, сайт пессимизируется на этапе индексации при выборе канонической версии, снижая вероятность попадания скопированного контента в индекс.

US8874565B1
2014-10-28

Антиспам
Индексация
Техническое SEO

Как Google классифицирует запросы как навигационные или исследовательские, чтобы регулировать количество показываемых результатов

Google использует систему для динамического определения количества отображаемых результатов поиска. Система классифицирует запрос как навигационный (поиск конкретного места/ресурса) или исследовательский (поиск вариантов). Классификация основана на анализе компонентов оценки релевантности (совпадение по названию vs. категории) и энтропии исторических кликов. При навигационном интенте количество результатов сокращается.

US9015152B1
2015-04-21

Семантика и интент
Поведенческие сигналы
Local SEO

Как Google динамически регулирует влияние фактора близости в локальном поиске в зависимости от тематики запроса и региона

Google использует систему для определения того, насколько важна близость (расстояние) для конкретного поискового запроса и региона. Анализируя исторические данные о кликах и запросах маршрутов, система вычисляет «Фактор важности расстояния». Для запросов типа «Кофе» близость критична, и удаленные результаты пессимизируются. Для запросов типа «Аэропорт» близость менее важна, и качественные результаты могут ранжироваться высоко. Система также учитывает плотность региона (город или село), адаптируя ожидания пользователей по расстоянию.

US8463772B1
2013-06-11

Local SEO
Поведенческие сигналы

Как Google использует историю поиска и ссылки с предпочитаемых пользователем сайтов для персонализации выдачи

Google может персонализировать результаты поиска, используя историю запросов или просмотров пользователя для создания набора предпочтений (Document Bias Set). Если документы из этого набора, особенно те, которые также признаны глобально качественными, ссылаются на результаты поиска, эти результаты переранжируются (повышаются или понижаются) в соответствии с весами предпочтений пользователя.

US8538970B1
2013-09-17

Персонализация
Поведенческие сигналы
SERP

Как Google в Автоподсказках (Suggest) предлагает искать запрос в разных вертикалях поиска (Картинки, Новости, Карты)

Патент описывает механизм "разветвления" (forking) автоподсказок Google Suggest. Система анализирует введенные символы и определяет, в каких вертикалях поиска (Корпусах) — таких как Картинки, Новости или Карты — пользователи чаще всего ищут предложенный запрос. Если корреляция с конкретной вертикалью высока (на основе Corpus Score), система предлагает пользователю искать сразу в ней, наряду со стандартным универсальным поиском.

US9317605B1
2016-04-19

Семантика и интент
SERP
Поведенческие сигналы

Как Google определяет язык и языковую релевантность страницы, анализируя контекст входящих и исходящих ссылок

Google использует контекст входящих и исходящих ссылок для определения языковой релевантности ресурса. Система анализирует язык анкоров, URL, контент ссылающихся и целевых страниц, а также качество ссылок и тип страницы (например, «языковой шлюз»). Это позволяет точно идентифицировать релевантные языки, даже если на самой странице мало текста.

US9098582B1
2015-08-04

Ссылки
Мультиязычность
Семантика и интент

Как Google использует анализ параллельных анкорных текстов и кликов пользователей для перевода запросов и кросс-язычного поиска

Google использует механизм для автоматического перевода запросов с одного языка или набора символов на другой. Система создает вероятностный словарь, анализируя, как анкорные тексты на разных языках ссылаются на одни и те же страницы (параллельные анкоры). Вероятности перевода затем уточняются на основе того, на какие результаты кликают пользователи. Это позволяет осуществлять кросс-язычный поиск (CLIR).

US8706747B2
2014-04-22

Мультиязычность
Семантика и интент
Ссылки

Как Google использует цитирования на веб-страницах для ранжирования книг в основной выдаче

Google использует механизм для определения релевантных книг по общим информационным запросам, даже если пользователь не искал книгу специально. Система анализирует, какие книги цитируются на топовых веб-страницах в выдаче. Книги получают оценку, основанную на авторитетности цитирующих страниц и контексте цитирования, и затем подмешиваются в результаты поиска.

US8392429B1
2013-03-05

Ссылки
SERP
EEAT и качество

Как Google использует тематические списки предпочтительных и нежелательных сайтов (Editorial Opinion) для корректировки ранжирования

Google может заранее определять "Темы запросов" (Query Themes) и назначать для них списки "Предпочтительных" (Favored) и "Нежелательных" (Non-Favored) источников. Если запрос пользователя соответствует теме, система корректирует ранжирование: повышает предпочтительные источники и понижает нежелательные, используя "Параметр редакторского мнения" (Editorial Opinion Parameter).

US7096214B1
2006-08-22

EEAT и качество
Антиспам
SERP

Как Google переписывает неявные запросы, определяя сущность по местоположению пользователя и истории поиска

Google использует местоположение пользователя для интерпретации запросов, которые явно не упоминают конкретную сущность (например, [часы работы] или [отзывы]). Система идентифицирует ближайшие объекты, анализирует исторические паттерны запросов для этих объектов и переписывает исходный запрос, добавляя в него название наиболее вероятной сущности.

US20170277702A1
2017-09-28

Семантика и интент
Local SEO
Персонализация

Как Google использует историю поиска, поведение и многофакторные профили пользователей для персонализации поисковой выдачи

Google создает детальные профили пользователей на основе истории запросов, взаимодействия с результатами (клики, время просмотра) и анализа контента посещенных страниц. Эти профили (включающие интересы по терминам, категориям и ссылкам) используются для корректировки стандартных оценок ранжирования. Степень персонализации динамически регулируется уровнем уверенности системы в профиле (Confidence Score).

US9298777B2
2016-03-29

Персонализация
Поведенческие сигналы
SERP