Анализ патента Google, описывающего методы поиска похожих файлов в облачных системах (например, Google Drive). Система записывает геолокацию устройства пользователя при редактировании файла и использует эту информацию вместе с другими атрибутами (автор, даты, контент, ссылки) для расчета оценки схожести и ранжирования результатов внутреннего поиска.
Описание
Какую задачу решает
Патент решает задачу организации и поиска информации в системах облачного хранения (Cloud Storage Systems). Поскольку пользователи редактируют файлы из различных географических точек (дом, офис, в пути), существующие системы не могли использовать этот контекст для поиска. Изобретение улучшает функциональность внутреннего поиска, позволяя находить связанные файлы на основе того, где они были созданы или изменены. Патент не устраняет SEO-манипуляции и не связан с улучшением публичного веб-поиска.
Что запатентовано
Запатентован метод для улучшения поиска связанных файлов в облачном хранилище путем интеграции геолокационных данных в метаданные файла. Суть изобретения заключается в определении географического местоположения (geolocation) клиентского устройства в момент редактирования файла и использовании этой информации как одного из атрибутов (attributes) для расчета схожести с другими файлами.
Как это работает
Система работает в несколько этапов:
- Сбор геолокации: Когда пользователь редактирует файл, система определяет геолокацию устройства (используя IP-адрес, Wi-Fi сеть или GPS).
- Хранение: Полученная геолокация сохраняется в metadata файла.
- Запрос на поиск: Пользователь инициирует поиск файлов, похожих на целевой файл (target file).
- Расчет схожести: Система сравнивает атрибуты целевого файла (геолокация, авторы, даты, контент, ссылки) с атрибутами других файлов, рассчитывая индивидуальные оценки.
- Агрегация и Ранжирование: Индивидуальные оценки нормализуются и агрегируются в общий балл (score). Система предоставляет список файлов, отсортированный по этому баллу.
Актуальность для SEO
Средняя/Высокая (для облачных сервисов). Описанные механизмы актуальны и используются в системах типа Google Drive или Google Photos для организации файлов. Однако для публичного веб-поиска (SEO) актуальность низкая, так как патент описывает функциональность закрытой экосистемы.
Важность для SEO
Влияние на SEO минимальное (1-2/10). Патент описывает внутренние процессы поиска в облачных хранилищах, а не ранжирование сайтов в публичном веб-поиске. Он не содержит прямых рекомендаций для SEO. Ценность для Senior SEO-специалистов заключается в концептуальном понимании подходов Google к Information Retrieval, в частности, как рассчитывается схожесть документов с использованием разнородных атрибутов и методов агрегации (например, Cosine similarity).
Детальный разбор
Термины и определения
- Attributes (Атрибуты)
- Характеристики файла, используемые для расчета схожести. Включают метаданные (геолокация, автор, даты) и содержимое файла (file content).
- Cloud Storage System (Система облачного хранения)
- Удаленная сетевая система (например, Google Drive), позволяющая пользователям хранить и редактировать файлы с любого устройства.
- Cosine similarity (Косинусное сходство)
- Один из упомянутых методов агрегации индивидуальных оценок схожести в итоговый балл.
- Euclidean distance (Евклидово расстояние)
- Другой упомянутый метод агрегации индивидуальных оценок схожести.
- Geolocation / Target Geolocation (Геолокация)
- Географическое местоположение клиентского устройства, на котором пользователь редактировал файл. Определяется через IP-адрес, Wi-Fi или GPS.
- Metadata (Метаданные)
- Информация о файле, не являющаяся его содержимым. Включает: Имя, Владелец, Даты, Соавторы и Геолокация.
- Similarity Score (Оценка схожести)
- Итоговый балл (score), присваиваемый файлу и отражающий степень его схожести с целевым файлом на основе агрегации оценок по всем атрибутам.
- Target File (Целевой файл)
- Файл, выбранный пользователем в качестве основы для поиска похожих документов.
Ключевые утверждения (Анализ Claims)
Патент описывает внутренние процессы Google (Cloud Storage) без прямых рекомендаций для SEO.
Claim 1 (Независимый пункт): Описывает основной метод поиска похожих файлов (Similarity Search).
- Система определяет target geolocation для target file, основываясь на местоположении клиентского устройства в момент редактирования файла.
- Эта геолокация сохраняется в metadata файла.
- Система получает запрос на поиск файлов, похожих на target file. Схожесть основывается на target geolocation и наборе других attributes.
- Каждому файлу присваивается score, основанный на схожести его геолокации и атрибутов с целевым файлом.
- Пользователю предоставляется список файлов, упорядоченный по score.
Claims 2-4 (Зависимые): Уточняют методы определения геолокации: через IP-адрес (Claim 2), через Wi-Fi сеть (Claim 3) или через GPS координаты (Claim 4).
Claim 6 (Зависимый): Детализирует расчет оценки. Score файла является агрегацией (aggregation) множества индивидуальных оценок. Одна из этих индивидуальных оценок основана на схожести геолокации.
Claim 8 (Зависимый): Указывает, что агрегация может выполняться с использованием Euclidean distance или Cosine similarity.
Claim 12 (Независимый пункт): Описывает альтернативный метод поиска — поиск по точному совпадению атрибутов (attribute-matching search).
- Определение и сохранение геолокации (аналогично Claim 1).
- Получение запроса на поиск файлов, точно соответствующих (matching) target geolocation и набору attributes целевого файла.
- Идентификация файлов, у которых геолокация и атрибуты полностью совпадают с целевыми.
- Предоставление списка найденных файлов.
Где и как применяется
Изобретение применяется исключительно во внутренних системах облачного хранения (например, Google Drive) и не относится к архитектуре публичного веб-поиска Google.
Индексирование и Извлечение признаков (Внутреннее)
Происходит сбор и обновление метаданных. Каждый раз, когда пользователь редактирует файл, система определяет текущую геолокацию клиентского устройства и обновляет metadata файла в индексе облачного хранилища.
Ранжирование (Внутреннее)
Основное применение патента. Когда пользователь инициирует поиск похожих файлов, система выполняет запрос к внутреннему индексу. Происходит отбор кандидатов и их ранжирование на основе расчета Similarity Score, который учитывает геолокацию и другие атрибуты.
Входные данные:
- Целевой файл (Target File).
- Набор атрибутов для сравнения (включая Geolocation, Owner, Dates, Collaborators, File Content).
- Данные о местоположении клиентского устройства (IP, Wi-Fi, GPS).
Выходные данные:
- Список файлов, отсортированный по Similarity Score, или список файлов, точно соответствующих заданным атрибутам.
На что влияет
- Типы контента: Влияет на любые файлы, хранящиеся в облачной системе (документы, таблицы, изображения, видео).
- Специфические запросы: Влияет на запросы типа «Найти похожие» или запросы, фильтрующие файлы по контексту создания (место, время, авторы) внутри системы хранения.
- Ниши и тематики (YMYL): Не применимо к веб-поиску.
Когда применяется
- Триггеры активации (Сбор данных): Создание или редактирование файла пользователем в облачном хранилище.
- Триггеры активации (Поиск): Явный запрос пользователя внутри интерфейса облачного хранилища — например, при выборе команды «Search for Similar» или Attribute-matching search.
Пошаговый алгоритм
Процесс А: Сбор и индексирование данных
- Событие редактирования: Пользователь редактирует файл в облачном хранилище.
- Определение геолокации: Система определяет геолокацию устройства (используя IP, Wi-Fi или GPS). Это может потребовать разрешения пользователя.
- (Опционально) Присвоение метки: Система может сопоставить геолокацию с пользовательской меткой (label), например, «Дом», «Офис».
- Сохранение метаданных: Геолокация сохраняется в metadata файла, возможно, в истории ревизий (revision history).
Процесс Б: Поиск похожих файлов (Similarity Search)
- Получение запроса: Пользователь выбирает Target File и инициирует поиск похожих файлов, определяя набор атрибутов для сравнения.
- Отбор кандидатов: Система отбирает набор файлов для анализа (файлы пользователя или общие файлы).
- Расчет индивидуальных оценок: Для каждого файла-кандидата рассчитываются индивидуальные оценки схожести по каждому атрибуту:
- Geolocation Score: Может быть обратно пропорционален географическому расстоянию.
- Date Score: Обратно пропорционален разнице во времени.
- Collaborator Score: Пропорционален количеству общих соавторов.
- Content Score: На основе анализа содержимого и ссылок.
- Нормализация: Индивидуальные оценки нормализуются (normalized) к общему стандарту (например, общему среднему и стандартному отклонению).
- Агрегация: Нормализованные оценки агрегируются в итоговый Similarity Score. Могут использоваться веса для атрибутов (Rank Attributes). Методы агрегации: Euclidean distance или Cosine similarity.
- Ранжирование и Выдача: Список файлов сортируется по итоговому Score и предоставляется пользователю.
Какие данные и как использует
Данные на входе
- Географические факторы: Ключевые данные. Geolocation клиентского устройства, полученная через IP address, Wi-Fi network MAC address или GPS coordinates.
- Пользовательские факторы: Owner (владелец файла), Collaborators (список соавторов). Также используются пользовательские метки (labels) для обозначения локаций.
- Временные факторы: Date Created (дата создания), Date Last Modified (дата последнего изменения).
- Контентные факторы: File content. Анализ содержимого для определения схожести: совпадение слов, частота и значимость (например, в заголовках) ключевых слов.
- Ссылочные факторы: Патент явно упоминает использование ссылок для определения схожести: (i) наличие гиперссылок между файлами (hyperlink в одном файле на другой), и (ii) совместное цитирование (co-citation) — если «один или более веб-сайтов имеют гиперссылки на оба файла».
Какие метрики используются и как они считаются
- Individual Similarity Scores: Оценки, рассчитываемые для каждого атрибута отдельно.
- Geolocation Score: Может быть бинарным (совпадает/не совпадает) или рассчитываться обратно пропорционально расстоянию между геолокациями.
- Date Score: Обратно пропорционален разнице во времени.
- Collaborator Score: Пропорционален количеству общих соавторов.
- Нормализация: Индивидуальные оценки нормализуются для приведения к единой шкале, что позволяет их корректно сравнивать и агрегировать.
- Методы агрегации: Агрегация нормализованных оценок в итоговый Score производится с использованием стандартных мер расстояния: Euclidean distance или Cosine similarity.
Выводы
- Контекст применения — Внутренний поиск: Патент описывает исключительно механизмы поиска и сортировки файлов внутри закрытых систем облачного хранения (Google Drive/Docs). Он не описывает алгоритмы ранжирования публичного веб-поиска Google.
- Прямых выводов для SEO нет: Геолокация создания или редактирования документа, описанная в патенте, не является фактором ранжирования в веб-поиске. Практических рекомендаций по оптимизации сайтов патент не дает.
- Использование метаданных и контекста: Патент подтверждает, что Google активно использует неконтентные атрибуты (метаданные, контекст создания, авторство) для установления связей и определения схожести между документами в своих системах.
- Методы расчета схожести (IR Insights): Патент дает представление о стандартных подходах к Information Retrieval: расчет индивидуальных оценок по разным признакам, их нормализация и последующая агрегация с использованием Cosine similarity или Euclidean distance.
- Упоминание ссылочных сигналов: В описании методов определения схожести контента явно упоминается учет гиперссылок между документами и совместное цитирование (co-citation) с веб-сайтов. Это подтверждает важность ссылочных сигналов для определения связанности документов в целом.
Практика
Патент является инфраструктурным (относится к Google Drive) и не дает прямых практических выводов для SEO продвижения публичных сайтов. Однако он подтверждает общие принципы Information Retrieval, которые актуальны и для веб-поиска.
Best practices (это мы делаем)
- Оптимизация контента и структуры (On-Page SEO): Патент упоминает, что при анализе схожести контента (file content) учитывается частота ключевых слов и их расположение в значимых местах (заголовки). Это подтверждает важность качественной проработки текста и структуры документа.
- Учет ссылочных связей (Link Building и Перелинковка): Упоминание гиперссылок между документами и совместного цитирования (co-citation) как сигналов схожести подчеркивает стратегическую важность работы над внутренней перелинковкой и получения тематических обратных ссылок для установления релевантности и связей между страницами.
Worst practices (это делать не надо)
В патенте нет информации о худших практиках или методах борьбы с манипуляциями в контексте веб-поиска.
Стратегическое значение
Стратегическое значение для SEO минимальное. Патент интересен для понимания методов Information Retrieval, применяемых Google во внутренних продуктах, но он не меняет понимание приоритетов Google в отношении ранжирования веб-сайтов.
Практические примеры
Практических примеров для SEO нет, так как патент не относится к веб-поиску. Патент описывает сценарии использования внутри Google Drive.
Пример использования в Google Drive:
- Пользователь работал над «Отчетом А» и «Презентацией Б» в офисе. Система записала геолокацию «Офис» для обоих файлов.
- Пользователь ищет похожие файлы для «Отчета А».
- Система анализирует атрибуты и видит, что «Презентация Б» имеет ту же геолокацию («Офис»), близкую дату редактирования и схожий контент.
- «Презентация Б» получает высокий Similarity Score и показывается вверху списка.
Вопросы и ответы
Использует ли Google геолокацию создания документа как фактор ранжирования в веб-поиске?
Нет. Данный патент описывает использование геолокации клиентского устройства в момент редактирования файла исключительно для внутреннего поиска в облачных хранилищах (например, Google Drive). В патенте нет указаний на то, что эта информация используется для ранжирования веб-сайтов в публичном поиске Google.
Что этот патент говорит о методах расчета схожести документов?
Он описывает стандартный для Information Retrieval подход. Сначала рассчитываются индивидуальные оценки схожести для разных атрибутов (контент, даты, геолокация и т.д.). Затем эти оценки нормализуются, чтобы привести их к единой шкале. Наконец, нормализованные оценки агрегируются в итоговый балл с использованием математических методов, таких как Cosine similarity или Euclidean distance.
Какие методы определения геолокации упоминаются в патенте?
Упоминаются три основных метода с разной степенью точности. Наименее точный — определение по IP-адресу (уровень города/района). Более точный — определение по MAC-адресу Wi-Fi сети (уровень района/здания). Наиболее точный — использование GPS координат, предоставленных устройством (точное местоположение).
Упоминаются ли в патенте ссылочные факторы?
Да, при описании методов определения схожести контента упоминаются два ссылочных сигнала. Первый — наличие гиперссылок (hyperlink) между самими файлами. Второй — совместное цитирование (co-citation), то есть ситуация, когда «один или более веб-сайтов имеют гиперссылки на оба файла». Это подтверждает важность ссылок для установления связей между документами.
Что такое «Attribute-matching search», описанный в патенте?
Это альтернативный режим поиска (описан в Claim 12). В отличие от основного режима, который ранжирует файлы по степени схожести (Similarity Score), этот режим ищет файлы, которые точно соответствуют заданному набору атрибутов целевого файла. Например, найти все файлы, созданные тем же автором и в той же геолокации.
Могут ли пользователи влиять на геолокационные данные в метаданных?
Да, патент упоминает два аспекта. Во-первых, система может запрашивать у пользователя разрешение на сбор геолокации. Во-вторых, пользователи могут создавать метки (labels) для определенных геолокаций (например, «Дом», «Офис») и использовать их для поиска и сортировки.
Какие атрибуты, кроме геолокации, используются для поиска похожих файлов?
Патент перечисляет следующие атрибуты: имя файла, владелец (Owner), дата создания (Date Created), дата последнего изменения (Date Last Modified), список соавторов (Collaborators) и содержимое файла (File Content).
Имеет ли этот патент какое-либо отношение к локальному SEO (Local SEO)?
Нет. Хотя патент посвящен использованию геолокации, он относится к местоположению пользователя в момент создания контента, а не к географической привязке бизнеса или интенту поискового запроса. Это разные концепции.
Сохраняется ли история геолокаций для файла?
Да, патент упоминает, что метаданные могут содержать историю изменений (revision history). В этой истории для каждого редактирования может быть записан пользователь, время и геолокация, где это редактирование было произведено.
Какова основная ценность этого патента для Senior SEO-специалиста?
Основная ценность — это углубление понимания принципов Information Retrieval, используемых Google. Патент демонстрирует, как система может комбинировать разнородные сигналы (контентные, метаданные, ссылочные) для решения задачи поиска похожих документов, используя стандартные математические методы агрегации. Это полезно для формирования общей эрудиции в области поисковых технологий.