SEO HARDCORE
  • Разборы патентов
    • Патенты Google
  • Скоро SEO инструменты
  • Скоро SEO аналитика
  • seohardcore
SEO HARDCORE
назад

Как Google использует "Адаптеры" для сканирования и индексирования закрытых (не-веб) источников данных

ADAPTING CONTENT REPOSITORIES FOR CRAWLING AND SERVING (Адаптация репозиториев контента для сканирования и обслуживания)
  • US8972375B2
  • Google LLC
  • 2012-12-20
  • 2015-03-03
  • Краулинг
  • Индексация
  • Описание
  • Разбор
  • Выводы
  • Практика
  • FAQ
  • Похожие

Google использует систему "Адаптеров" для доступа к закрытым источникам данных (базы данных, системы документооборота), которые недоступны стандартному веб-краулеру. Адаптер создает уникальные URL для каждого элемента данных, передает их поисковой системе, а при запросе этого URL извлекает контент из источника и возвращает его в стандартном HTTP-формате.

Описание

Какую проблему решает

Патент решает проблему доступа стандартных веб-краулеров к контенту, хранящемуся в закрытых или не-веб источниках (closed file sources), таких как внутренние базы данных, сетевые файловые системы или системы управления документами. Эти источники обычно не имеют публичных URL и недоступны через стандартный протокол HTTP. Изобретение устраняет необходимость "проталкивания" (push) контента в поисковую систему, заменяя его моделью "вытягивания" (pull/crawl), что позволяет поисковой системе самой контролировать процесс сканирования, обеспечивая актуальность данных и управляя нагрузкой на источник.

Что запатентовано

Запатентована система-посредник (Adaptor), которая выступает мостом между стандартной поисковой системой и закрытыми источниками данных. Суть изобретения заключается в механизме преобразования внутренних идентификаторов файлов (File identifiers), несовместимых с веб-стандартами, в валидные HTTP-совместимые URL и последующем обслуживании запросов на сканирование этих URL путем извлечения актуального контента из источника.

Как это работает

Система работает следующим образом:

  • Обнаружение: Адаптер получает список внутренних идентификаторов из закрытого источника (с помощью модуля Lister или через механизм Seed URL).
  • Генерация URL: Для каждого идентификатора создается уникальный URL, который указывает на сам адаптер (например, http://adaptor.myco.com/fs1/FileID).
  • Передача: Эти URL (без контента) передаются поисковой системе и добавляются в список сканирования (crawl list).
  • Сканирование (Pull): Поисковая система сканирует эти URL как обычные веб-страницы, отправляя HTTP-запрос адаптеру.
  • Извлечение и Ответ: Адаптер получает запрос, конвертирует URL обратно в идентификатор, извлекает актуальный контент из источника (с помощью модуля Retriever) и возвращает его поисковой системе в виде стандартного HTTP-ответа (например, HTML или XML).

Актуальность для SEO

Низкая для публичного SEO. Технология относится к области Enterprise Search (корпоративного поиска) и описывает архитектуру коннекторов, которая использовалась в системах типа Google Search Appliance (GSA). Хотя базовые принципы интеграции поисковых систем с корпоративными данными остаются актуальными (например, в Google Cloud Search), этот патент не влияет на алгоритмы ранжирования в публичном поиске Google.com.

Важность для SEO

Влияние на SEO: 1/10 (Минимальное/Инфраструктура). Патент имеет сугубо инфраструктурный характер и описывает технический механизм доступа к закрытым (преимущественно корпоративным) источникам данных. Он не описывает алгоритмы ранжирования, оценки качества контента или анализа ссылок, используемые в публичном поиске Google. Прямого влияния на SEO-стратегии для продвижения сайтов в интернете он не оказывает.

Детальный разбор

Термины и определения

Adaptor (Адаптер)
Программный модуль-посредник, обеспечивающий взаимодействие между поисковой системой и закрытыми источниками данных. Отвечает за генерацию URL и обслуживание запросов на сканирование.
Closed File Source / File Source (Закрытый источник файлов)
Репозиторий контента (например, база данных, система управления документами, сетевая файловая система), который недоступен для веб-краулера напрямую.
File Identifier (Идентификатор файла)
Уникальный ключ для доступа к элементу данных внутри источника. Это может быть путь к файлу (S:/MyDocuments/Doc1.txt) или первичный ключ записи в базе данных (myco.address.123456789HOM).
Lister (Листер)
Компонент адаптера, который запрашивает у источника и предоставляет адаптеру список идентификаторов файлов.
Retriever (Ретривер)
Компонент адаптера, который извлекает содержимое файла (контент) из источника по заданному идентификатору.
Seed URL (Начальный URL)
Специальный URL, предоставляемый поисковой системе. Запрос к этому URL запускает процесс обнаружения файлов. В ответ адаптер возвращает список сгенерированных URL в виде ссылок.
Security Module (Модуль безопасности)
Опциональный компонент для проверки прав доступа пользователя (авторизации) к запрашиваемому контенту перед его выдачей.

Ключевые утверждения (Анализ Claims)

Claim 1 (Независимый пункт): Описывает основной метод работы адаптера для обеспечения доступа к закрытому источнику.

  1. Система (адаптер) получает идентификаторы файлов из источника, недоступного для веб-краулера.
  2. Генерирует HTTP-совместимый URL для каждого идентификатора (преобразуя несовместимые идентификаторы в совместимые URL).
  3. Предоставляет эти URL поисковой системе без соответствующего контента.
  4. Получает запрос от поисковой системы на получение контента по конкретному URL.
  5. Конвертирует URL обратно в идентификатор файла.
  6. Получает контент из источника, используя этот идентификатор.
  7. Конвертирует контент в HTTP-ответ.
  8. Предоставляет HTTP-ответ поисковой системе.

Claim 7 (Зависимый от 1): Описывает альтернативный метод обнаружения контента через Seed URL (метод обнаружения ссылок).

  1. Адаптер предоставляет Seed URL поисковой системе.
  2. Адаптер получает запрос на контент по этому Seed URL.
  3. В ответ на этот запрос адаптер получает идентификаторы файлов (вместо того, чтобы получать их заранее).
  4. Предоставление URL поисковой системе осуществляется путем включения сгенерированных URL в виде ссылок (links) в HTTP-ответ на запрос Seed URL.

Claim 13 (Независимый пункт): Описывает систему, реализующую метод.

Система включает:

  • Модуль Lister для получения идентификаторов.
  • Модуль Retriever для получения контента.
  • Модуль Adaptor, который вызывает Lister, генерирует URL (включая доменную часть, указывающую на веб-сервер адаптера) и предоставляет эти URL поисковой системе без контента. Адаптер также обрабатывает входящие запросы, вызывает Retriever и возвращает контент в виде веб-ответа.

Где и как применяется

Патент описывает инфраструктуру, обеспечивающую работу этапа CRAWLING – Сканирование и Сбор данных.

Изобретение не является частью алгоритмов ранжирования, а представляет собой механизм, который позволяет стандартному краулеру (например, краулеру Enterprise-решения) получать доступ к контенту, который иначе был бы недоступен из-за отсутствия веб-интерфейса.

Взаимодействие компонентов:

  • Adaptor взаимодействует с Search Engine через стандартный протокол HTTP, эмулируя веб-сервер.
  • Adaptor взаимодействует с Closed File Source через специфичные для источника протоколы (например, SQL для баз данных) с помощью модулей Lister и Retriever.

Входные данные:

  • От File Source: Идентификаторы файлов (File Identifiers) и контент.
  • От Search Engine: HTTP-запросы на сканирование сгенерированных URL или Seed URL.

Выходные данные:

  • Для Search Engine: Список сгенерированных URL (переданный через фид или в виде ссылок).
  • Для Search Engine: Стандартные HTTP-ответы, содержащие контент файлов или коды ошибок (404, 401/403).

На что влияет

Патент влияет исключительно на техническую возможность индексации контента из закрытых систем:

  • Конкретные типы контента: Записи в базах данных (упоминаются как table rows), документы в системах документооборота (DMS), файлы на сетевых дисках.

Патент не влияет на ранжирование в публичном веб-поиске Google.com.

Когда применяется

Алгоритм применяется в сценариях Enterprise Search, когда организации необходимо сделать внутренние данные (не имеющие веб-интерфейса) доступными для поиска через стандартную поисковую систему.

  • Триггеры активации: Процесс активируется либо по расписанию (запуск Lister для получения новых идентификаторов), либо при сканировании поисковой системой Seed URL. Последующие запросы контента контролируются поисковой системой (Claim 2).

Пошаговый алгоритм

В патенте описано два основных варианта работы системы.

Вариант 1: Прямая передача URL (Feed-based Discovery, с использованием Lister)

  1. Получение идентификаторов: Адаптер (по расписанию) запускает модуль Lister для извлечения списка File Identifiers из закрытого источника.
  2. Генерация URL: Адаптер создает уникальный, валидный URL для каждого идентификатора (например, используя percent encoding). Доменная часть URL указывает на веб-сервер адаптера.
  3. Передача URL (Feed): Адаптер передает сгенерированные URL поисковой системе (например, через Feeder API). Контент не передается.
  4. Планирование сканирования: Поисковая система добавляет URL в свой список сканирования (Crawl List).
  5. Запрос контента (Crawl): Поисковая система (асинхронно) отправляет HTTP-запрос на сканирование конкретного URL адаптеру.
  6. Обработка запроса: Адаптер конвертирует URL обратно в исходный File Identifier.
  7. Извлечение контента: Адаптер запускает модуль Retriever для получения актуального контента по идентификатору из источника.
  8. Форматирование ответа: Адаптер преобразует полученный контент в валидный HTTP-ответ (например, создает HTML или XML документ из данных БД).
  9. Отправка ответа: Адаптер отправляет HTTP-ответ поисковой системе для индексации.

Вариант 2: Обнаружение через Seed URL (Crawl-based Discovery, без Lister)

  1. Запрос Seed URL: Поисковая система сканирует заранее предоставленный Seed URL, отправляя запрос адаптеру.
  2. Обработка запроса: Адаптер распознает Seed URL и запускает Retriever.
  3. Получение идентификаторов (Seed File): Retriever возвращает список File Identifiers (возможно, порциями).
  4. Генерация URL и Ответа: Адаптер генерирует URL для полученных идентификаторов и создает HTTP-ответ (например, HTML-страницу), содержащий эти URL в виде гиперссылок (теги <A HREF=...> или <link href=...>).
  5. Отправка ответа: Адаптер отправляет этот ответ поисковой системе.
  6. Обнаружение ссылок: Поисковая система парсит ответ, находит ссылки и добавляет их в Crawl List.
  7. Последующее сканирование: Далее процесс повторяет шаги 5-9 из Варианта 1 для каждого обнаруженного URL.

Какие данные и как использует

Данные на входе

Патент фокусируется на инфраструктуре доступа к данным, а не на их анализе для ранжирования.

  • Технические факторы:
    • URL-структура: Генерируется адаптером для маршрутизации запросов и идентификации файла.
    • Код ответа: Адаптер генерирует стандартные HTTP-коды (200 OK, 404 Not Found, 401 Unauthorized/403 Forbidden).
  • Системные данные (Внутренние):
    • File Identifiers: Ключевые данные для доступа к контенту (пути к файлам, первичные ключи баз данных).
  • Контентные факторы:
    • Содержимое файлов: Извлекается из источника модулем Retriever.
    • Метаданные: Могут извлекаться из источника и включаться в HTTP-ответ.

Какие метрики используются и как они считаются

Патент не описывает никаких метрик для ранжирования или оценки качества контента.

  • Методы трансформации:
    • URL Encoding: Используется для преобразования File Identifiers в валидные URL (упоминается percent encoding согласно RFC3986).
    • Data Transformation: Используется для преобразования извлеченного контента в стандартный веб-формат. Например, преобразование записи базы данных в XML или HTML документ.

Выводы

Патент описывает внутренние технические процессы Google (в контексте Enterprise Search) без прямых рекомендаций для SEO публичных сайтов.

  1. Инфраструктурное решение для Enterprise Search: Патент детально описывает архитектуру «Коннекторов» или «Адаптеров», которые используются для индексации корпоративных данных, недоступных через веб (базы данных, файловые системы).
  2. Имитация веб-ресурсов: Основная идея — заставить закрытый источник выглядеть как обычный веб-сайт для стандартного краулера. Это достигается путем генерации уникальных URL и предоставления контента через стандартный HTTP-протокол.
  3. Переход от "Push" к "Pull": Система позволяет заменить модель принудительной отправки контента в индекс ("Push") на модель сканирования по запросу ("Pull"/Crawl). Это дает поисковой системе контроль над нагрузкой, планированием и частотой обновления данных в индексе.
  4. Разделение обнаружения и извлечения: Система разделяет процесс получения URL (Discovery) и процесс загрузки контента (Crawling). URL могут быть переданы быстро, а контент загружается позже, по запросу.
  5. Отсутствие значимости для публичного SEO: Патент не содержит информации об алгоритмах ранжирования, факторах качества или методах оптимизации для публичного поиска Google.com. Он не имеет практической ценности для SEO-специалистов, занимающихся продвижением веб-сайтов.

Практика

ВАЖНОЕ ЗАМЕЧАНИЕ: Патент является инфраструктурным и описывает технологии Enterprise Search (корпоративного поиска). Он не дает практических выводов или рекомендаций для публичного SEO.

Best practices (это мы делаем)

Не применимо для публичного SEO.

Worst practices (это делать не надо)

Не применимо для публичного SEO.

Стратегическое значение

Стратегическое значение для публичного SEO отсутствует. Патент интересен исключительно с технической точки зрения, как пример решения Google для унификации доступа к разнородным источникам данных в корпоративной среде. Он не меняет понимание приоритетов Google в отношении ранжирования веб-сайтов.

Практические примеры

Практических примеров для публичного SEO нет. Ниже приведен пример из области Enterprise Search для иллюстрации работы механизма.

Сценарий: Индексация базы данных сотрудников

  1. Источник: Внутренняя SQL-база данных EmployeesDB с таблицей Profiles.
  2. Идентификатор: Первичный ключ EmpID (например, "E12345").
  3. Работа Адаптера:
    • Lister извлекает все EmpID.
    • Адаптер генерирует URL: http://adaptor.intranet/EmployeesDB/Profiles/E12345.
    • Адаптер отправляет этот URL в корпоративную поисковую систему.
  4. Сканирование: Поисковая система отправляет HTTP GET запрос на этот URL.
  5. Извлечение и Ответ:
    • Адаптер получает запрос, извлекает EmpID "E12345".
    • Retriever выполняет SQL-запрос к базе данных для получения записи.
    • Адаптер форматирует результат (Имя, Должность, Контакты) в HTML-страницу.
    • Адаптер возвращает HTML-страницу поисковой системе.
  6. Результат: Данные сотрудника проиндексированы и доступны для поиска во внутреннем поиске компании.

Вопросы и ответы

Влияет ли этот патент на ранжирование моего сайта в Google.com?

Нет, не влияет. Патент описывает инфраструктурное решение для Enterprise Search (корпоративного поиска), позволяющее индексировать внутренние закрытые источники данных, такие как базы данных или системы документооборота. Он не имеет отношения к алгоритмам ранжирования или методам сканирования публичных веб-сайтов в интернете.

Что такое "Адаптер" (Adaptor) в контексте этого патента?

Adaptor — это программный компонент-посредник (коннектор), который устанавливается между поисковой системой и закрытым источником данных. Его задача — преобразовывать внутренние идентификаторы данных в URL, а затем, по запросу краулера, извлекать контент из источника и отдавать его в стандартном веб-формате (HTTP-ответ).

В чем разница между моделями "Push" и "Pull", которую решает этот патент?

В модели "Push" система-источник сама активно отправляет (проталкивает) контент в поисковый индекс, что может создавать неконтролируемую нагрузку и приводить к неактуальности данных. Патент реализует модель "Pull" (Crawl): адаптер только сообщает поисковой системе URL, а поисковая система сама решает, когда запрашивать (вытягивать) контент. Это позволяет краулеру контролировать нагрузку и обеспечивает свежесть данных.

Что такое Seed URL и как он используется?

Seed URL — это начальная точка входа для сканирования источника. Вместо того чтобы заранее генерировать все URL и отправлять их фидом (как в методе с Lister), поисковая система сканирует Seed URL. В ответ адаптер возвращает HTML-страницу, содержащую ссылки на реальные документы источника. Поисковая система находит эти ссылки и добавляет их в очередь на сканирование.

Что подразумевается под «Закрытым источником файлов» (Closed File Source)?

Это любой репозиторий данных, к которому нет прямого доступа через стандартные веб-протоколы (HTTP/HTTPS) и который не имеет публичных URL. Примеры включают внутренние базы данных (SQL, Oracle), системы управления документами (DMS) и сетевые файловые хранилища (NFS, SMB).

Как Адаптер создает уникальный URL для внутреннего файла?

Он берет доменное имя самого Адаптера (например, http://adaptor.company.com) и добавляет к нему путь, который формируется из идентификатора файла. Например, для файла S:/Docs/file.txt он может создать /fs1/Docs_file.txt. При этом используются методы кодирования (например, percent encoding), чтобы гарантировать валидность URL.

Как адаптер обеспечивает безопасность данных и права доступа?

Патент упоминает опциональный Security Module. Когда пользователь (а не краулер) запрашивает контент по URL (например, кликнув на результат поиска), адаптер может проверить его права доступа к исходному файлу. Если доступ запрещен, адаптер вернет стандартный HTTP-ответ с кодом ошибки 401 (Unauthorized) или 403 (Forbidden), не выдавая контент.

Связан ли этот патент с Google Search Appliance (GSA)?

Да, с высокой вероятностью. Архитектура, описанная в патенте (Адаптеры, Коннекторы, методы Feed и Crawl для внутренних ресурсов), точно соответствует принципам работы Google Search Appliance — аппаратно-программного комплекса для корпоративного поиска, который Google предлагал ранее.

В каком формате Адаптер возвращает контент?

Он возвращает контент в виде стандартного HTTP response. Адаптер определяет тип контента и устанавливает соответствующий заголовок Content-Type. Например, данные из баз данных могут быть трансформированы в HTML или XML для удобства индексации (например, text/xml).

Какие практические действия я должен предпринять как SEO-специалист на основе этого патента?

Если вы занимаетесь продвижением публичных веб-сайтов, никаких действий предпринимать не нужно. Патент не влияет на стандартные практики SEO. Он полезен только для общего понимания инфраструктуры сканирования Google в контексте корпоративных решений.

Похожие патенты

Как Google позволяет вебмастерам обновлять структурированные данные в индексе по требованию, минуя стандартное сканирование
Google использует механизм, позволяющий авторизованным владельцам сайтов напрямую отправлять структурированные данные (например, цены, наличие товара) в поисковый индекс. Этот процесс происходит по требованию ("unscheduled update sequence"), значительно быстрее стандартного сканирования, и позволяет передавать приватные данные, недоступные публично на сайте.
  • US20150112961A1
  • 2015-04-23
  • Индексация

  • Техническое SEO

  • Краулинг

Как Google использует HTTP-заголовки для извлечения и индексации метаданных из не-HTML документов (PDF, DOC и т.д.)
Google использует механизм для индексации метаданных файлов, не являющихся HTML (например, PDF, Word, Excel). Во время сканирования метаданные (автор, тема, заголовок) могут передаваться от веб-сервера через специальный HTTP-заголовок. Поисковая система извлекает эти данные, преобразует их в виртуальные META-теги и использует для индексации, улучшая понимание этих форматов.
  • US9582588B2
  • 2017-02-28
  • Индексация

  • Краулинг

  • Техническое SEO

Как Google использует данные аналитики в реальном времени и контролируемый трафик для установления оригинального авторства контента
Google патентует метод для точной идентификации автора контента до того, как его обнаружит веб-краулер. Система использует уникальные идентификаторы (например, код веб-аналитики) и отслеживает первую активность автора с неопубликованным контентом (например, переходы по скрытым ссылкам между черновиками). Это позволяет зафиксировать временную метку в реальном времени, защищая от плагиата и обеспечивая корректную атрибуцию в поиске.
  • US9372927B1
  • 2016-06-21
  • EEAT и качество

  • Индексация

  • Краулинг

Как Google индексирует контент, который не может прочитать, получая метаданные напрямую от сторонних приложений и серверов
Google использует механизм для индексации данных, хранящихся на сторонних серверах или в проприетарных форматах, которые поисковая система не может обработать напрямую. Вместо сканирования исходных данных система получает от третьей стороны готовый для индексации текст или HTML-метаданные, представляющие этот контент. Это позволяет сделать данные доступными для поиска через систему Google, соблюдая при этом контроль доступа и ограничения на размер метаданных.
  • US9262420B1
  • 2016-02-16
  • Индексация

  • Техническое SEO

Как Google заложил основу протокола Sitemaps для автоматической генерации и уведомления о списках URL
Этот фундаментальный патент описывает механизм, позволяющий веб-серверам автоматически генерировать Sitemaps (списки URL с метаданными, такими как дата изменения, частота обновления и приоритет), используя данные из файловой системы, логов доступа или CMS. Система также автоматически уведомляет поисковые системы о наличии обновленного Sitemap, решая проблемы неполного покрытия краулинга и повышая его эффективность.
  • US7801881B1
  • 2010-09-21
  • Краулинг

  • Техническое SEO

  • Индексация

Популярные патенты

Как Google использует семантические связи внутри контента для переранжирования и повышения разнообразия выдачи
Google использует метод для переоценки и переранжирования поисковой выдачи путем анализа семантических взаимодействий между терминами внутри документов. Система строит графы локальных и глобальных связей, а затем определяет взаимосвязи между самими документами на основе их семантического вклада (даже без гиперссылок). Это позволяет повысить разнообразие выдачи, особенно по неоднозначным запросам.
  • US7996379B1
  • 2011-08-09
  • Семантика и интент

  • Ссылки

  • SERP

Как Google использует навигационные запросы, консенсус кликов и анкорных текстов для определения глобального качества сайта
Google анализирует потоки запросов, чтобы определить, когда пользователи ищут конкретный сайт (навигационный интент). Если запрос явно указывает на документ (через подавляющее большинство кликов пользователей или доминирование в анкор-текстах), этот документ получает «баллы качества». Эти баллы используются как глобальный сигнал качества, повышая ранжирование сайта по всем остальным запросам.
  • US7962462B1
  • 2011-06-14
  • Поведенческие сигналы

  • Ссылки

  • SERP

Как Google использует модель предвзятости представления (Presentation Bias), чтобы отделить клики по релевантности от кликов по позиции
Google использует механизм для интерпретации поведения пользователей (CTR), который учитывает, как именно представлены результаты поиска. Система рассчитывает ожидаемый CTR для конкретной позиции и визуального оформления (сниппет, выделение). Чтобы получить буст от поведенческих факторов, реальный CTR документа должен значительно превышать этот ожидаемый уровень. Это позволяет отфильтровать клики, обусловленные высокой позицией или привлекательным сниппетом, и выделить сигналы истинной релевантности.
  • US8938463B1
  • 2015-01-20
  • Поведенческие сигналы

  • SERP

Как Google ранжирует контент на других языках, основываясь на поведении пользователей с одинаковыми языковыми настройками
Google использует статистику кликов (CTR), сегментированную по языковым предпочтениям пользователей, для корректировки ранжирования. Если пользователи, предпочитающие язык X, часто кликают на результат на языке Y, этот результат будет повышен в выдаче для других пользователей с предпочтением языка X. Это позволяет ранжировать контент, популярный у определенной языковой группы, независимо от языка самого контента.
  • US8375025B1
  • 2013-02-12
  • Мультиязычность

  • Поведенческие сигналы

  • Персонализация

Как Google использует пользовательский контент (UGC) и историю поиска для сбора структурированных отзывов
Google анализирует пользовательский контент (фотографии, посты, метаданные) и историю поиска, чтобы определить, с какими объектами (места, продукты, услуги) взаимодействовал пользователь. Система проактивно предлагает оставить структурированный отзыв, используя шаблон, который может быть предварительно заполнен на основе тональности исходного UGC. Это направлено на увеличение объема и подлинности отзывов.
  • US20190278836A1
  • 2019-09-12
  • Семантика и интент

  • Персонализация

  • EEAT и качество

Как Google генерирует связанные запросы (Related Searches), используя сущности из топовых результатов и сохраняя структуру исходного запроса
Google использует систему для автоматической генерации уточнений запросов (например, «Связанные запросы»). Система анализирует топовые документы в выдаче и извлекает из них ключевые сущности. Затем эти сущности комбинируются с важными терминами исходного запроса, при этом строго сохраняется исходный порядок слов, чтобы создать релевантные и естественно звучащие предложения для дальнейшего поиска.
  • US8392443B1
  • 2013-03-05
  • Семантика и интент

  • Поведенческие сигналы

Как Google использует модифицированный PageRank (Personalized PageRank) для персонализации выдачи на основе истории и предпочтений пользователя
Патент Google, описывающий механизм персонализации поиска путем модификации алгоритма PageRank. Система определяет "точку зрения" пользователя (Point-of-View Data) на основе его истории посещений, закладок или указанных категорий. Затем стандартный расчет PageRank изменяется так, чтобы авторитет (Reset Probability) концентрировался только на этих персональных источниках, повышая в выдаче сайты, которые близки к интересам пользователя.
  • US7296016B1
  • 2007-11-13
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google извлекает готовые ответы из авторитетных источников для формирования Featured Snippets
Google использует систему для предоставления прямых ответов на естественном языке (в виде абзацев или списков) на запросы с четким намерением. Система заранее анализирует авторитетные источники, извлекает пары «заголовок-текст», соответствующие популярным шаблонам вопросов, и сохраняет их в специальной базе данных. При получении соответствующего запроса система извлекает готовый ответ из этой базы и отображает его в выдаче.
  • US9448992B2
  • 2016-09-20
  • Семантика и интент

  • EEAT и качество

  • Индексация

Как Google персонализирует поиск, повышая в выдаче объекты, которые пользователь ранее явно отметил как интересные
Google использует механизм персонализации поисковой выдачи. Если пользователь явно отметил определенный объект (например, место, компанию, веб-страницу) как интересующий его, этот объект получит значительное повышение в ранжировании при последующих релевантных запросах этого пользователя. Уровень повышения зависит от степени интереса, указанной пользователем.
  • US20150242512A1
  • 2015-08-27
  • Персонализация

  • Поведенческие сигналы

  • SERP

Как Google использует контекст пользователя в реальном времени и машинное обучение для переранжирования результатов поиска
Google использует систему для прогнозирования истинного намерения пользователя на основе его текущего контекста (местоположение, время, среда, недавние действия) и исторических данных о поведении других пользователей в аналогичных ситуациях. Система переранжирует стандартные результаты поиска, чтобы выделить информацию (особенно "Search Features"), которая наиболее соответствует прогнозируемому намерению.
  • US10909124B2
  • 2021-02-02
  • Семантика и интент

  • Персонализация

  • SERP

seohardcore