Россия
Волгоград, Россия
Россия
Волгоград, Россия
В ходе проектирования программного модуля был разработан алгоритм парсинга текстов патентов и патентных заявок, алгоритм поиска патентов-аналогов на основе полнотекстового поиска с использованием технологии Amazon Twinword, алгоритм поиска патентов-аналогов на основе ключевых фраз, выявленных с использованием технологии Amazon Comprehend, кластеризации патентного массива. Было разработано программное обеспечение для кластеризации патентного массива и ускорения работы эксперта патентного ведомства за счет поиска ключевых фраз и патентов-аналогов
патент, семантический анализ USPTO, AWS, Amazon Comprehend, Twinword, DynamoDB
Введение
Одна из самых больших проблем XXI века, связанная с патентным правом, это загруженность патентного ведомства. Только UPSTO (ведомство по патентам и товарным знакам США) [1] в неделю рассматривает порядка 10 тысяч патентов. И каждому патенту нужно уделить особое внимание, понять: не затронуты ли патентные права другого патента, не является ли патент псевдонаучным, «очевидным», в конечном итоге произвести полную классификацию патента со всеми описаниями и ссылками.
Семантический анализ патентного массива позволяет решить ряд современных проблем:
1. Кластеризация патентного массива (моделирование тем) позволяет выявлять группы связанных (не на основе патентной классификации, а на базе извлеченных из текстов ключевых терминов/фраз) патентов. Данная информация может быть полезная для выявления патентных трендов, ключевых современных технологий и прогноза востребованности технологий в будущем временном периоде.
2. Автоматизация работы эксперта патентного ведомства. На основе полнотекстового запроса (текста патентной заявки) может осуществляться поиск патентов-аналогов. Кроме того, может быть автоматизирован процесс выявления ключевых фраз как в тексте патентной заявки, так и в тексте патента.
Были проведены предпроектные исследования: изучена патентная классификация, структура патента, патентные поисковые системы (Google Patents [2], USPTO [1], Espacenet [3], ФИПС Роспатента [4]).
В работе было проведено сравнение существующих патентных поисковых систем по следующим критериям: поиск по ключевым словам; поиск по метаданным; выделение ключевых слов.
Результаты проведенного сравнительного анализа представлены в табл. 1.
Таблица 1
Результаты сравнения существующих решений
Table 1
Results of comparison of existing solutions
Система |
Поиск по ключевым словам |
Поиск по метаданным (патентной классификации) |
Выделение ключевых слов |
Espacenet |
+ |
+ |
+ |
+ |
+ |
- |
|
+ |
- |
+ |
|
ФИПС |
+ |
+ |
- |
Несмотря на то, что поиск по ключевым словам присутствует в функционале всех систем, одной из насущных проблем патентного поиска является отсутствие автоматизации труда эксперта патентного ведомства в части поиска ключевых слов/фраз.
Кластеризация патентного массива и определение патентов-аналогов внутри определенного кластера также позволяют автоматизировать труд эксперта патентного ведомства (рис. 1).
а) б)
Рис. 1. Процесс работы эксперта патентного ведомства:
а – AS-IS; б – TO-BE
Fig. 1. The process of work of the patent office expert:
а – AS-IS; б – TO-BE
Была поставлена задача исследования – разработка методологии и технологии автоматизации работы эксперта патентного ведомства за счет выявления ключевых фраз в тексте патентов и поиска патентов-аналогов.
Установлены следующие требования к программному обеспечению:
– использование технологии AWS [5];
– применение технологий семантического анализа текста Amazon Comprehend [6], Twinword [7];
– исходные файлы патентов USPTO необходимо хранить в AWS S3 [8];
– извлечение элементов описания патентов должно осуществляться из патентных баз USPTO;
– для хранения элементов описания патентов необходимо использовать систему управления базами данных (СУБД) DynamoDB [9].
Парсинг патентных документов
На первом этапе происходит парсинг патента – извлечение метаданных (даты публикации, названия, классификации, имен авторов, кода и т.д.) для наполнения баз данных (БД) DynamoDB. Извлеченные поля патента (с которыми в дальнейшем и будет производиться обработка): поля рефератов, описаний и формул изобретений, помещаются в хранилище S3 для дальнейших преобразований технологиями Amazon.
Патентный архив представляет собой xml-файл, содержащий в себе патенты за определенный период времени (неделю). В процессе парсинга патентного архива извлекаются и помещаются в корневые директории патентные тексты в формате xml для дальнейшей обработки.
Патентные тексты обрабатываются по следующему алгоритму:
1. Патентный текст проверяется на валидность формата. Если патент валиден, алгоритм продолжается, иначе патент обработке не подлежит.
2. В процессе парсинга проверяется наличие патентных метаданных (даты публикации, названия, классификации, имен авторов, кода и т.д.), если хотя бы одна из метаданных отсутствует, патент признается невалидным (проверка происходит не после парсинга всех метаданных, а после проверки каждого поля), иначе алгоритм продолжается.
3. Патент, прошедший все проверки (валидный), сохраняется по следующей логике: метаданные патента – в DynamoDB, поля патента (рефераты, описания и формулы изобретений) – в корневые директории и далее в хранилище Amazon S3.
Выявление ключевых фраз
Выявление ключевых фраз в тексте патентной заявки и/или патента происходит при помощи технологии Amazon Comprehend – Detect Key Phrases (ACDKP) [10]. В выбранном патенте находятся ключевые слова с их значимостью. Уже на данном этапе это намного облегчает работу эксперта патентного ведомства, так как обычно поиск подобных ключевых фраз их использования в поисковых патентных системах (например, Google patents) экспертом производится вручную.
Кластеризация патентного массива
Кластеризация – задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.
Для кластеризации патентного массива используется технология Amazon Comprehend – Topic Modeling (ACTM) [11] (тематическое моделирование). Тематическое моделирование – способ построения модели коллекции текстовых документов, которая определяет к каким темам относится каждый из документов. Тематическая модель коллекции текстовых документов также определяет какие слова (термины) образуют каждую тему.
Переход из пространства терминов в пространство найденных тематик помогает раз-
решать синонимию и полисемию терминов, а также эффективнее решать такие задачи как: тематический поиск, классификация и т.п.
В нашем исследовании база (более чем 50 тысяч патентов) неявно кластеризуется на 10 топиков (кластеров) с помощью технологии Amazon Comprehend – Topic Modeling. Каждый патент, представленный в виде обработанного txt-файла, соотносится с выбранным в ходе моделирования тем топиком.
Поиск патентов-аналогов на основе полнотекстового поиска
Поиск патентов-аналогов на основе полнотекстового запроса осуществляется при помощи технологии Amazon Twinword TextSimilarity [7] (ATTS). Патентный массив после кластеризации обрабатывается с использованием различных подходов. Например, может быть выбрана группа патентов, принадлежащая к определенному топику, и при этом патенты должны иметь принадлежность к топику, превышающую установленное пороговое значение, например, 0,8 (не может превышать 1). Далее из этой группы выбирается один патент и сравнивается со всеми остальными для проверки «сильной» схожести текстов. Также может быть сделана обратная проверка, например, могут быть выбраны патенты, принадлежащие к различным топикам и имеющие принадлежность к этим топикам более чем 0,8 для проверки «слабой» схожести текстов.
Результаты
Для реализации разрабатываемой программы был выбран язык программирования Python версии 3.7. Для реализации парсинга патентных документов и заявок была выбрана библиотека xml.dom. Для получения доступа к технологиям AWS использовалась библиотека boto3, с помощью которой было реализовано подключение к Amazon сервисам: DynamoDB, Amazon S3, ACDKP, ACTM, ATTS.
Диаграмма вариантов использования приведена на рис. 2.
Рис. 2. Диаграмма вариантов использования программы
Fig. 2. Diagram of the use cases of the program
Архитектура программы представлена на рис. 3, где 1 – запись распарсенных патентов в директории; 2 – чтение патентных документов; 3 – запись метаданных распарсенных патентов в DynamoDB; 4 – подключения и проверки DynamoDB; 5 – заполнение хранилища Amazon S3 распарсенными патентами из корневых директорий; 6 – подключение к технологии Amazon; 7 – подключение к технологии Amazon Comprehend; 8 – подключение к технологии Amazon Twinword; 9 – кластеризация патентного массива с помощью технологии Topic Modeling; 10 – выявление ключевых фраз с помощью технологии DetectKeyPhrases; 11 – запись результата работы Topic Modeling в Amazon S3; 12 – запись результата работы DetectKeyPhrases в Amazon S3; 13 – поиск патентов-аналогов с помощью технологии Text Similarity; 14 – запись результата работы Text Similarity в корневые директории.
.
Рис. 3. Архитектура программного модуля
Fig. 3. Architecture of the software module
Для хранения основных характеристик патентов: дата публикации, название, классификация, имена авторов, код, ссылка на патент в хранилище Amazon S3, используется СУБД класса NoSQL в формате ключ-значение – DynamoDB.
На рис. 4 представлен вид таблицы patent в DynamoDB. Работа с DynamoDB осуществляется из публичного облака Amazon как часть пакета AWS.
Рис. 4. Структура БД DynamoDB
Fig. 4. DynamoDB database structure
Для хранения извлеченных полей патента (полей рефератов, описаний и формул изобретений) в txt-формате используется хранилище Amazon S3. Выбор данного хранилища в главной степени обусловлен тем, что обработка патентного массива на основе технологий AWS требует доступа к «родному» файловому хранилищу Amazon S3.
Высший слой файлового хранилища Amazon S3 представлен в виде Buckets. В свою очередь Buckets имеют внутри себя различные объекты. В данном случае реализация имеет следующий вид: каждая папка patent.storage внутри Bucket является аналогом патентного документа и включает в себя все обработанные патенты в формате txt. Хранилище обработанных патентов показано на рис. 5. Также хранилище Amazon S3 используется для хранения результатов работы ACDKP и ACTM (Buckets «key phrases» и «topic.modeling», соответственно).
Рис. 5. Хранилище обработанных патентов в Amazon S3
Fig. 5. Storage of processed patents in Amazon S3
Ключевая фраза – это строка, содержащая словосочетание, описывающее определенный объект. Обычно она состоит из существительного и модификаторов. Например, слово «day» – это существительное, а «a beautiful day» – это словосочетание, включающее артикль «а» и прилагательное «beautiful».
Каждая ключевая фраза в Amazon Comprehend имеет оценку, которая указывает на уровень уверенности в том, что данная строка является словосочетанием, содержащим существительное (рис. 6). Данную оценку можно использовать для того, чтобы определить, достаточно ли высок уровень обнаружения того или иного объекта. Операции по обнаружению ключевых фраз могут выполняться с использованием любого из языков, поддерживаемых Amazon Comprehend. При этом необходимо учитывать, что все документы должны быть на одном языке.
Рис. 6. Результаты Text Analysis (Key Phrases)
Fig. 6. The result of Text Analysis (Key Phrases)
Amazon Comprehend использует скрытую модель обучения на основе распределения Дирихле для определения тем в наборе документов. Он проверяет каждый документ, чтобы определить контекст и значение того или иного слова. Набор слов, которые часто принадлежат к одному и тому же контексту во всем наборе документов, составляет тему. Слово ассоциируется с темой в документе в зависимости от того, насколько распространена эта тема в документе и насколько близка тема к слову. Одно и то же слово может быть связано с разными темами в разных документах в зависимости от распределения тем в конкретном документе. Например, слово «глюкоза» в статье, в которой говорится преимущественно о спорте, может быть отнесено к теме «спорт», в то время как то же самое слово в статье о «медицине» будет отнесено к теме «медицина». Каждому слову, связанному с темой, присваивается вес, который указывает, насколько это слово помогает определить тему. Вес – это показатель того, сколько раз слово встречается в теме по сравнению с другими словами в теме во всем наборе документов. Результат моделирования темы Amazon Concept показан на рис. 7. По результату можно оценить сходство двух слов, предложений, абзацев или документов, а также получить оценку того, насколько похожи или отличаются два текста.
Например, Amazon говорит о реальном примере использования, данный API был применен при создании первого инструмента семантического исследования ключевых слов, который может быть отсортирован по релевантности. Исследование ключевых слов включает в себя просмотр длинных списков ключевых слов, чтобы найти наиболее релевантные из них. Результат сходства текста Amazon Twinword показан на рис. 8.
а) б)
Рис. 7. Результаты Amazon Comprehend Topic Modeling:
а – термы кластеров; б – патенты, подвергшиеся кластеризации
Fig. 7. The result of Amazon Comprehend Topic Modeling:
a – cluster terms; b – patents that have undergone clustering
Рис. 8. Результат работы Amazon Twinword Text Similarity
Fig. 8. The result of work Amazon Winword TextSimilarity
Заключение
Актуальность работы обусловлена тем, что семантический анализ патентного массива позволяет решить ряд современных проблем:
– автоматизация работы эксперта патентного ведомства. На основе полнотекстового запроса (текста патентной заявки) может осуществляться поиск патентов-аналогов. Кроме того, может быть автоматизирован процесс выявления ключевых фраз как в тексте патентной заявки, так и в тексте патента;
– кластеризация патентного массива (моделирование тем) позволяет выявлять группы связанных (не на основе патентной классификации, а на базе извлеченных из текстов ключевых терминов/фраз) патентов.
В результате данной работы был разработан программный модуль, обеспечивающий возможность проведения кластеризации патентного массива и позволяющий идентифицировать группы связанных патентов с использованием технологий ACTM. Также на основе полнотекстового запроса (текст патентной заявки) был проведен поиск патентов-аналогов с использованием технологий ATTS. Процесс определения ключевых фраз как в тексте патентной заявки, так и в тексте патента был автоматизирован с использованием технологий ACDKP.
Теоретическая значимость работы заключается в разработанных алгоритмах парсинга текстов патентов и патентных заявок USPTO; кластеризации патентного массива; извлечения ключевых фраз из патентных текстов; полнотекстового поиска патентов-аналогов.
Практическая значимость работы заключается в разработанном программном модуле семантического анализа патентного массива для задач патентного поиска и кластеризации. В данной работе использовались технологии AWS: семантический анализ текста Amazon Comprehend, Twinword, хранилище AWS S3, СУБД DynamoDB
1. Patents. USPTO. Available from: https://www.uspto.gov/patents (Accessed 07.11.2022).
2. Google Patents. Available from: https://patents. google.com/ (Accessed 07.11.2022).
3. Espacenet - patent search. Available from: https://worldwide.espacenet.com/ (Accessed 07.11.2022).
4. Федеральный институт промышленной соб-ственности [Электронный ресурс]. URL: https://www.fips. ru/ (дата обращения 07.11.2022).
5. Joe Baron, Hisham Baz, Tim Bixler, Biff Gaut, Kevin E. Kelly, Sean Senior, John Stamper. AWS Certified Solutions Architect Official Study Guide: Associate Exam. 2016. Available from: https://www.pdfdrive.com/ aws - certified - solutions -architect-official-study-guide-associate-exam-e38558089.html (Accessed 7.11.2022).
6. Возможности Amazon Comprehend [Электронный ресурс] // aws. URL: https://aws.amazon.com /ru/comprehend/features/ (дата обращения 07.11.2022).
7. Text Similarity API. aws marketplace. Available from: https://aws.amazon.com/marketplace/pp/B071G93 T67?ref_=srh_res_product_title (Accessed 07.11.2022).
8. Amazon S3 [Электронный ресурс] // aws. URL: https://aws.amazon.com/ru/s3/ (дата обращения 07.11.2022).
9. Amazon DynamoDB [Электронный ресурс] // aws. URL: https://aws.amazon.com/ru/dynamodb/ (дата обращения 07.11.2022).
10. What is Amazon Comprehend? aws. Available from: https://docs.aws.amazon.com/comprehend/latest/dg / get - started - api - key - phrases. html (Accessed 07.11.2022).
11. Topic modeling. aws. Available from: https://docs.aws.amazon.com/comprehend/latest/dg/topic-modeling.html (Accessed 07.11.2022).