автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Поддержка принятия решения при анализе уровня техники для патентных заявок

кандидата технических наук
Дыков, Михаил Александрович
город
Волгоград
год
2014
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Поддержка принятия решения при анализе уровня техники для патентных заявок»

Автореферат диссертации по теме "Поддержка принятия решения при анализе уровня техники для патентных заявок"

На правах рукописи к

Дыков Михаил Александрович

ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИЯ ПРИ АНАЛИЗЕ УРОВНЯ ТЕХНИКИ ДЛЯ ПАТЕТНЫХ ЗАЯВОК

05.13.01 - Системный анализ, управление и обработка информации (промышленности)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

АПР2014 005547613

Волгоград-2014

005547613

Работа выполнена на кафедре "Системы автоматизированного проектирования и поискового конструирования" в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Волгоградский государственный технический университета.

Научный руководитель доктор технических наук, профессор Камаев Валерий Анатольевич

Официальные оппоненты: Филатова Наталья Нпколаевпа,

доктор технических наук, профессор,

ФГБОУ ВПО Тверской государственный технический

университет»,

кафедра «Автоматизация технологических процессов», профессор;

Скоробогатченко Дмитрий Анатольевич,

доктор технических наук, доцент, ФГБОУ ВПО Волгоградский государственный архитектурно-строительный университет», кафедра ((Экономика и управление на предприятиях в дорожном хозяйстве», доцент;

Ведущая организация ФГБОУ ВПО «Южный федеральный университет»

Защита состоится «11» июня 2014 г. В 1300 часов на заседании диссертационного совета Д 212.028.04, созданного на базе Волгоградского государственного технического университета, по адресу: 400005, г. Волгоград, пр. Ленина, 28, ауд. 209.

С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета.

Автореферат разослан «А^Гл апреля 2014 г.

Ученый секретарь диссертационного совета

Водопьянов В.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время все большее количество копаний и независимых изобретателей стараются запатентовать результаты своего интеллектуального труда. По данным всемирной организации интеллектуальной собственности в настоящее время выдано более 70 миллионов патентов. При этом за последний год поток заявок на патенты возрос более чем на 9% и достиг 2,3 миллиона. В связи с возрастающим потоком заявок возрастает и время их обработки экспертами. В некоторых случаях оно достигает нескольких лет. В ходе обработки заявки эксперт занимается анализом уровня техники. Под существующим уровнем техники будем понимать все запатентованные изобретения и полезные модели, поданные заявки на изобретения и полезные модели с более ранней датой приоритета и другие открытые источники информации. Одной из основных операций анализа уровня техники для патентной заявки является поиск патентов аналогов, которые могли бы опровергнуть новизну заявки и сделать невозможной выдачу по ней патента. На проведение поиска во многих случаях эксперт тратит десятки часов и при этом просматривает тысячи существующих патентов и других документов. На протяжении всего времени патентной экспертизы заявитель не знает о том, выдадут ли ему патент или нет. При этом средний процент отказов на выдачу патентов составляет более 60%, что является проблемой в условиях многолетнего ожидания. Такое многолетнее ожидание и высокий процент отказов ведет к задержке внедрения инноваций. В последние десятилетия наблюдается быстрое изменение рынков и широкое распространение технологий. В результате жизненный цикл продукта укорачивается. В результате чего успешным компаниям просто необходимо постоянно изобретать что-то новое, чтобы выжить. В подобной быстро изменяющейся среде стратегическую необходимость приобретает мониторинг изменений технологий или анализ трендов. В данном случае патентные документы являются одним из наилучших источников технологических и коммерческих знаний для организации подобного мониторинга, так как в патентах может быть найдено более 80% всей технологической информации. Анализ патентных трендов производится в различных разрезах: классов патентов, компаний, и.т.д. Данный анализ широко применяется патентозаявителями, чтобы понять, в каком направлении развиваться, и какие появились новшества в области их интересов. В связи с данными проблемами в настоящее время активно развиваются системы поддержки принятия решений при анализе уровня техники для патентов и патентных заявок, а так же разрабатываются новые методы автоматизации классификации заявок и поиска патентов аналогов. Однако существующие на сегодняшний день методы автоматизации поиска патентов аналогов не обладают достаточной точностью для сокращения времени поиска по сравнению с ручным поиском по ключевым словам. Существующие методы выявления патентных трендов не позволяют качественно выделять тренды внутри классов, межклассовые тренды, а так же тренды в потенциально новых классах, которые еще не попали в официальную классификацию. В связи с этим имеется

потребность в разработке новых автоматизированных методов поддержки принятия решений при анализе уровня техники для патентных заявок.

Цель и задачи работы. Целью работы является уменьшение времени, затрачиваемого патентными заявителями, экспертами и патентоведами на проведение анализа уровня техники за счет автоматизации данного процесса.

Для достижения поставленной цели были выделены следующие задачи:

1) Провести анализ имеющихся инструкций по проведению анализа уровня техники для патентных заявок экспертами, существующих систем поддержки принятия решений при анализе уровня техники, а так же существующих методов автоматизированного анализа уровня техники.

2) Разработать методы автоматизированного поиска патентов аналогов.

3) Разработать метод выявления патентных трендов.

4) Реализовать разработанные методы анализа уровня техники в виде автоматизированной системы.

Объектом исследования являются процесс анализа уровня техники для патентных заявок.

Предметом исследования являются способы уменьшения времени, требуемого на проведение анализа уровня техники для патентных заявок.

Гипотеза исследования. Если в процессе анализа уровня техники основными этапами, требующими наибольшее количество времени, являются этап выделения ключевых терминов и этап поиска существующих документов в релевантных источниках, то автоматизация данных этапов позволит сократить время, требуемое на проведение анализа уровня техники для патентных заявок.

Методы исследования. Для решения поставленных задач были использованы методы обработки естественных языков, системного анализа, методы обработки больших объемов данных, методы интеллектуального анализа данных.

Научная новизна заключается в разработке новых автоматизированных методов анализа уровня техники для патентных заявок, а именно:

1) Разработан метод выделения ключевых фраз из текста заявки на патент, используемых для поиска существующих аналогов среди патентов и других документов;

2) Разработан метод определения степени релевантности существующего патента или другого документа заявки;

3) Разработан метод выделения патентных трендов.

Положения, выносимые на защиту:

1) Метод выявления патентных трендов;

2) Метод поиска аналогов заявки среди патентов;

3) Автоматизированная система поддержки принятий решений при анализе уровня техники.

Практическая ценность

1) Разработанные методы могут быть применены в существующих системах поддержки принятия решений при анализе уровня техники для патентов и заявок для ускорения процесса анализа;

2) Разработанная автоматизированная система может быть применена патентозаявителями для автоматизации процесса анализа уровня техники.

Соответствие паспорту научной специальности. Основная область исследования соответствует паспорту специальности 05.13.01 - «Системный анализ, управление и обработка информации (промышленность)», а именно пункту 4 - «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации» и пункту 5 - «Разработка специального математического и программного обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации»..

Апробация работы. Основные положения и материалы диссертационной работы докладывались на III Международной научно-практической конференции "Инновационные информационные технологии" (2014 г., Прага, Чехия), 6-й всероссийской мультиконференции по проблемам управления МКПУ-2013 (2013 г., Дивноморское, Россия), 7-й летней школе по информационному поиску (2013 г., Казань, Россия), Международном конгрессе по интеллектуальным системам и информационным технологиям IS&TF13 (2013 г:, Дивноморское, Россия), 26-й международной конференции FLAIRS (2013 г., Сейнт Пит Бич, Флорида, США), 23-й встрече компьютерных лингвистов в Нидерландах CLIN2013 (2013 г., Энсхеде, Нидерланды).

Достоверность определяется корректностью используемых методов обработки естественных языков и интеллектуального анализа данных, корреляцией полученных результатов с результатами, полученными другими авторами.

Публикации. По теме работы автором опубликованы 11 публикаций, из которых 6 статей в ведущих рецензируемых научных журналах и изданиях, входящих в перечень Высшей аттестационной комиссии, 1 статья, индексируемая в БД Scopus.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 120 страниц основного текста, 21 рисунок, 17 таблиц и список литературы из 115 наименований.

Соискатель выражает особую благодарность профессору кафедры «САПР и ПК» ВолгГТУ, д.т .н. Кравец Алле Григорьевне за оказанную помощь и консультации в ходе выполнения диссертационной работы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, дана общая характеристика работы.

В первой главе проведен анализ текущих подходов к анализу уровня техники, существующих систем поддержки принятия решений при анализе уровня техники для патентных заявок и автоматизированных методов классификации заявок, поиска патентов аналогов и выявления патентных трендов.

Процесс проведения анализа уровня техники патентной заявки с точек зрения патентозаявителя и эксперта можно представить в виде следующих упрощенных блок-схем, изображенных на Рисунке 1.

Рисунок 1. Процесс анализа уровня техники для патентной заявки патентозаявигелем и экспертом.

При анализе уровня техники для поступившей заявки эксперт выполняет последовательность шагов, после которых он принимает решение о ее патентоспособности. Анализ уровня техники является только одной из стадий проведения патентной экспертизы. При этом на данную стадию выделяется 3 месяца, а на предыдущие - 13 месяцев. Все это время заявитель, подавший заявку, пребывает в неведении о том, выдадут ли ему патент или нет. Статистика показывает, что более 60% заявок на патент отвергают. Данная статистика показывает необходимость проведения анализа уровня техники самим заявителем до подачи заявки. Исследования отчетов о поиске показали, что даже обученный эксперт тратит порой десятки часов на поиск патентов аналогов для одной заявки. При этом эксперты, как правило, пользуются мощными поисковыми системами. Патентозаявитель процесс анализа уровня техники может начать с любого шага в зависимости от того, на какой стадии находятся его исследования: подача первой заявки в определенной области, подача последующих заявок в той же области, дополнительный поиск патентов аналогов непосредственно перед подачей заявки.

Поиск патентных трендов он использует как для определения перспективных областей развития, так и для мониторинга новых патентов в его сфере интересов. При этом, как правило, полноценный поиск аналогов выполняется единожды при подаче первой заявки, а затем производится дополнительный поиск для новых заявок.

В Таблице 1 представлены существующие системы поддержки принятия решений при анализе уровня техники для патентных заявок.

Таблица 1. Характеристики аналогов

Система Поисковые возможности Другие возможности

ОгЬН Поиск по ключевым словам, по метаданным заявки, поиск на основании статистического анализа с использованием синонимов. Визуализация и анализ данных, мониторинг изменения статусов патентов, анализ трендов по метаданным

Ра18еег Поиск по ключевым словам, по метаданным заявки, поиск на основании статистического анализа. Визуализация и анализ данных, анализ трендов по метаданным

МеЛео Ра!еп1 Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным

ТогаНЧИет Поиск по ключевым словам, по метаданным заявки, поиск по запросам на естественном языке, семантический поиск (1^5А) Визуализация и анализ данных, анализ трендов по метаданным

\Visdomain Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным

PatBa.se Поиск по ключевым словам, по метаданным заявки Визуализация и анализ данных, анализ трендов по метаданным

АгсЬРа1еп1 Поиск по ключевым словам, по метаданным заявки

Ра1еп18соре Поиск по ключевым словам, по метаданным заявки

Еврасепе! Поиск по ключевым словам, по метаданным заявки

Ра(ЗеагсИ Поиск по ключевым словам, по метаданным заявки

Большинство существующих систем в основном предоставляют возможность поиска существующих патентов аналогов только по поисковым запросам, введенным пользователем. В ряде из них сделаны попытки

автоматизации процесса поиска. Однако используемые методы не позволяют достигнуть значительного уменьшения затрачиваемого времени. В некоторых системах имеется возможность анализа патентных трендов. Однако данный анализ производится только по метаданным патентов, в частности по классификации, что не позволяет выявлять тренды внутри класса, межклассовые тренды, а так же тренды в потенциально новых классах, которые еще не были включены в классификацию.

Потребность в автоматизации поиска патентов аналогов привела к тому, что решением данной проблемы занялись ряд отечественных: Леонтьева H.H., Тузов В.А., Сегалович И.В., Сокирко A.B., Е.Б. Гаврилина, Н. Васильева, Д. В. Грановский, Т. М. Ландо и зарубежных ученных: Amy J.C. Trappey, Fu-Chiang Hsu, Charles V. Trappey, Chi'a-I. Lin, Xiaobing Xue, W. Bruce Croft, Daniel Eisinger, George Tsatsaronis, Markus Bundschus, Ulrich Wieneke, Michael Schroeder, Hung-Chen Chen, Yu-Kai Lin, Chih-Ping Wei, T. Hofmann, D. Blei, Benzecri, J.-P., V. Punyakanok, R. Collobert.

В Таблице 2 приведен ряд существующих методов автоматизации процесса поиска патентов аналогов.

Таблица 2. Методы автоматизированного поиска патентов аналогов

Автор Используемый метод Используемые часта патента

Lopez Поиск по ключевым терминам + множественные регрессионные модели для ранжирования Реферат

McLean Семантический поиск с использованием LSA Формула+Описание

Lin Построение деревьев формул патентов и их сравнение Формула

Gurulingappa Поиск по именам собственным и словосочетаниям с существительными Описание+Реферат

D'hondt Поиск по синтаксическим триплетам Реферат+Формула

Verma Формирование поискового запроса на основании патентов прототипов и классов Реферат+Класса+Пате нты прототипы

Mahdabi Методы реферирования и аннотирования для формирования поискового запроса Реферат+Описание

Magdy Поиск по униграммам и биграммам РефератЧ-Формула

Graf Использование внешних баз знаний РефератЧ-Формула

Проведенный анализ показал недостатки рассмотренных методов, обусловленные тем, что в них не учитывается специфика текстов патентных документов, не позволяют значительно уменьшить затраты времени экспертом или пагентозаявителем на проведение поиска патентов аналогов по сравнению с использованием ручного поиска по ключевым словам. Следовательно,

необходима разработка метода автоматизированного поиска патентов аналогов, который бы учитывал специфику текстов патентных документов и как следствие обладал достаточной точностью, чтобы было целесообразно заменить им традиционный ручной поиск по ключевым словам.

Решением задачи выявления патентных трендов занимались следующие ученые: Changyong L., Yongtae P., Byungun Y., Endang Sri R. R., Hasibuan Z.A., Sungjoo L., Straß J.M., Segev A., Jung C., Jung S.. Часть предложенных методов опирается на различные метаданные патентов: классификация, цитирования, авторы. Однако данные методы не позволяют выявлять межклассовые патентные тренды, тренды внутри классов и тренды в потенциально новых классах, которые еще не попали в официальную классификацию. Часть подходов к выявлению трендов основаны на изменении частоты употребления отдельных слов в текстах патентов. Однако используемые традиционные методы обработки естественного языка применительно к патентным документам не позволяют достигать достаточной информативности трендов и высокой точности работы методов.

Во второй главе изложены методы автоматизации процесса анализа уровня техники для патентных заявок.

Разработанный метод поиска патентов аналогов состоит из ряда этапов: предобработка заявки и существующих корпусов патентных документов, сокращение области поиска, представление заявки и существующих документов в виде векторов фраз и выделение ключевых фраз, поиск и ранжирование существующих документов релевантных заявке.

На первом этапе производится предобработка заявки и существующих корпусов патентных документов. Патентные документы представляют собой файлы различных спецификаций. Каждый патент представлен в виде метаданных и различных текстовых полей. Была разработана универсальная спецификация:

Pat = (Nwn, Cnt, Knd, CS, Cits, PD, Ttl, Abs, Desc, Clms, Lnk) где, Nwn - номер патента, Cnt - страна патента, Knd - вид патента, CS - классы патента, Cits - цитированные патенты и другие документы, PD - дата публикации патента, Ttl - название, Abs - реферат, Desc - описание, Clms -формула, Lnk - ссылка на оригинальный документ.

К данной спецификации приводится заявка, а так же существующие базы патентных документов. В ходе предобработки, над заявкой и всеми имеющимися документами проводится морфологический анализ, в ходе которого производится определение частей речи и приведение всех слов к базовой форме, С целью исключения неинформативных слов, для дальнейшей обработки оставляются только слова, относящиеся к следующим частям речи: существительные, прилагательные, глаголы, наречия, числительные.

D = (w\,w\...,w\.„)

W,-е {существительное,прилагательное,глагол,наречие,числителъное} где, D - документ, w'f - t слово в документе в базовой форме.

На втором этапе производится сокращение области поиска патентов аналогов для заявки. Количество существующих патентов насчитывает десятки миллионов, что делает затруднительным применение сложных алгоритмов для поиска по всему объему документов. Для решения данной проблемы на

основании имеющегося корпуса патентов строится ориентированный граф цитирований:

где, V - множество вершин графа. Вершиной графа является патент. А множество дуг' графа. Наличие дуги, соединяющей вершины и К; означает

цитирование патента ] патентом / .

На основании графа цитирований выделяются связанные компоненты:

С5 = {С,,Сг...,С,„}

где, С8 - полный набор классов, к которым принадлежит определенный патент, при этом несколько патентов могут иметь одни и те же наборы классов, С,- - /' патент из набора классов, С) - класс патента, который процитирован патентом,

принадлежащим к набору классов СБ .

Для дальнейшего поиска выбираются патенты, относящиеся к классам, которые входят в один компонент СС, с набором классов С5, , к которому принадлежит заявка. Данный прием позволяет сузить область поиска на 77%.

На третьем этапе производится представление заявки и существующих документов в виде векторов фраз и выделение ключевых фраз.

Под фразой будем понимать набор слов. При этом в контексте патента фразы могу быть как неосмысленными, так и осмысленными: понятия предметной области, характеристики объектов, действия над объектами. Целью данного этапа является выделение осмысленных фраз. Разработанный метод основан на специфике текстов патентных документов.

Документ представляется в виде множества предложений.

где, О - документ, Si - / предложение, к - количество предложений.

5 = (и"', ,У2

где, м>\ - I слово, / — количество слов.

Некоторые понятия могут описываться различными словами-синонимами. Для принятия во внимание данной особенности для всех слов производятся замены:

ту', —> щ

где, и', - контекстный синоним слова

Под контекстными синонимами слова и>'( , которое употребляется в

документе класса С;. , понимается подмножество всех синонимов данного слова,

которое употребляется в документах того же класса. Таким образом, дальнейший поиск производится не зависимо от того, какие слова использовались для обозначения того или иного понятия.

Фразы ищутся среди последовательностей слов:

Р5 =

где, п - максимальная длина последовательности. При этом п<1 .

При этом на последовательность накладывается ограничение

вхождения только в одно предложение. Параметр п не может быть слишком большим, так как чем дальше отстоят друг от друга слова в предложении, тем меньше вероятность того, что они могут образовать осмысленную фразу. Так же параметр и не может быть слишком маленьким, так как некоторые осмысленные фразы могут образовываться словами, стоящими не рядом.

Из каждой последовательности производится выделение фраз:

где, Р0 - о фраза в предложении, м>и - слово из последовательности с произвольным индексом у , т - максимальная длина фразы.

При этом порядок слов во фразе не имеет значения. Всего в предложении /-л + 1 последовательностей. Каждая фраза из последовательности из множества (Р2,Р}..1>/_п+1) содержит последнее слово последовательности.

Таким образом, общее количество фраз в документе рассчитывается по следующей формуле:

^ ПЛ

1=1 j=ni-m р= 1 у=л,--и+1

где, п, - максимальная длина последовательности в I предложении, /,. -количество слов в г предложении.

Документ можно представить в виде вектора фраз:

F, = тах-

Count(P„D)

i Count (wt, Collection)

x

Y,Count{Pt,D) = Total Count (P^ D) > 2

где, F, - относительная частота i фразы, Count(PnD) - количество упоминаний

фразы Pi в документе D , Count(wJt Collection) - количество упоминаний слова

Wj во всем массиве документов Collection .

Одной из ключевых особенностей представления документа в виде вектора фраз является то, что в данный вектор входят только те фразы, которые встречаются в документе как минимум два раза. Данное ограничение введено на основании рекомендации о том, что автор заявки на патент должен подробно описать в описании основные положения, которые он излагает в формуле заявки. Так же автор сам старается продублировать основные положения еще и в

11

реферате, чтобы максимально задокументировать свои основные идеи. Такое ограничение в комбинации с использованием относительной частоты позволило придать максимальный вес ключевым фразам.

На четвертом этапе производится поиск и ранжирование существующих

документов релевантных заявке.

Итоговое множество документов, которое подается на вход метода

ранжирования, определяется по формуле:

V/ е (1,2.. Л): ({Р\ ,Р\...,Р'п} ^ ЛЛ-Яг) * 0)

где, и - количество отобранных документов, Р' - фраза в заявке.

На основании графа в , построенного на основании полной базы американских патентов за период с 1930 по 2013 годы, проводится анализ разности дат публикаций между патентами и их цитатами. Результаты анализа приведены в Таблице 3.

Максимальная разница между датами публикации патента и его цитаты (лет) Процент всех цитат, удовлетворяющих максимальной разнице между датами публикации Процен т от всех цитат при текущей разнице (Dif)

1 1 1

2 5 4

3 10 5

5 23 7

10 59 6

15 77 2.5

20 86 1.5

25 91 0.7

30 94 0.4

■ 35 96 0.3

40 97 0.2

45 ■97.5 0.13

50 98 0.09

t ЦПШН VJVij l^n* ^v........ —------ ------J

тем меньше вероятность того, что он будет релевантен текущей заявке.

Данная особенность учитывается в формуле ранжирования. Схожесть между заявкой и документом определяется по формуле:

I

Similarity (Арр, Pat) = DifiApp^at^F)

где, Р) - относительная частота ; фразы в заявке, Р) - / фраза в заявке, -/ фраза в документе.

При поиске патентов аналогов учитывается только значимость фраз в заявке. При этом не учитывается - насколько значима фраза в сравниваемом документе, так как бывают случаи, когда в целом ключевая особенность документа отлична от заявки, но некоторые его положения релевантны тематике рассматриваемой заявки.

Таким образом, для нахождения документов, релевантных рассматриваемой заявке, производится расчет схожести каждого документа с заявкой. Далее производится их ранжирование на основании рассчитанной схожести.

Для осуществления поиска патентов аналогов для заявки среди патентов и иных документов на других языках производится предварительный перевод заявки на этот язык с помощью средств машинного перевода. Применяемый метод поиска релевантных патентов на основании совпадения фраз и метод построения фраз не чувствительны к порядку слов. Следовательно, основные ошибки средств машинного перевода, которые связаны с неправильным порядком слов в переведенном тексте, не оказывают влияния на точность работы представленных методов.

Для поддержки принятия решений при определении класса заявки в ходе анализа уровня техники был разработан метод автоматизированной классификации. Суть данного метода заключается в представление классов и заявки в виде векторов ключевых слов с последующим нахождением их сходства.

ск

51тИаИ1у(Лрр, С,) =

где, К\\'к; - вес г ключевого слова в заявке, С, - / класс, Арр - заявка, Ямк^' - вес г' ключевого слова заявки в классе С, ,ск - количество ключевых слов в заявке.

Для расчета сходства между заявкой и классом необходимо: представить класс в виде вектора ключевых слов, выбрать ключевые слова из заявки, вычислить веса ключевых слов в заявке.

Были разработаны и протестированы несколько способов представления классов в виде векторов ключевых слов:

1) Брать слова из описания классов.

a. Считать вес всех слов = 1

{Иык?1 = 1:1 < / < ск, еЖс' [ Ян'к?> = 0: ик, ¡Vе1 где, мк-, - г ключевое слова в тексте заявки, IVе' — множество слов в базовой форме из текста описания класса С, .

b. Нормировать вес всех слов по частоте их употребления во всем массиве патентных документов

Rwkf< = Fwjc'CD' +1

где, Fwkf0' - частота i ключевого слова заявки в тексте описания класса С, , Fwk- частота г ключевого слова заявки в текстах всех патентов коллекции, VC - размер словаря массива патентов. 2) Брать слова из текстов существующих патентов принадлежащим классам. Нормировать вес всех слов по частоте их употребления во всем массиве патентных документов.

где, Fwkf' - частота i ключевого слова заявки в тексте патентов принадлежащих классу С, , е2 - минимальная частота употребления

ключевого слова wit,, во всех текстах патентов принадлежащих классу С' •

Ключевые слова из текста заявки было решено выбирать из ключевых фраз заявки.

{PvP2...,Pn} -> {(vv/q,Rwkt),(wk2,Rwk2)...,(.wk„,Rwkn)} где, w'j - j слово в фразе;

Предложены следующие способы выделения ключевых слов из ключевых фраз заявки:

1) Брать слова с максимальным весом для класса.

wkt =W,\ Rwkf1 = maxiRwk1}1)

2) Брать слова с максимальной частотой по всему массиву патентов.

wk, = w'j: Fwk) = rnax(Fwk'j )

3) Брать слова с минимальной частотой по всему массиву патентов.

wkj = w'j: Fwk\ = min (Fwk'j)

Предложены следующие способы вычисления весов ключевых слов заявки:

1) Считать вес ключевого слова бинарным

Rwkf'1 =1

2) Считать вес ключевого слова равным количеству употреблений данного слова в ключевых фразах заявки

py.L

Rwkf> =Y.Fi-wk>&P> ' i

где, pwc - количество ключевых фраз заявки, содержащих ключевое слово

wk,.

Таким образом, наиболее вероятный класс, к которому принадлежит заявка, определяется по формуле:

СаРР = тах(5Ш1агИу(Арр,С,))

Для поиска патентных трендов разработан метод поиска трендовых фраз. Под трендовой фразой будет понимать фразу, у которой увеличивается частота употребления в текстах патентов со временем. При этом для отсеивания случайных неинформативных фраз применяется предположение о том, что за короткий промежуток времени частота употребления фразы не может резко уменьшаться.

ДГ+| _ ТУ'

Change{Ni*\Nij} =

1 ' N) + кое]

Тгспс1(К5^1,К81)>1Ь где, - вектор фраз в текстах патентов, выданных за квартал г , Л^- —

количество раз, которое встречается фраза в текстах патентов, ТгепсЦКБ^КБ^)

- функция определяющая тенденцию в употреблении фраз между двумя соседними кварталами, кое/ - коэффициент уменьшения веса редких фраз, 1Ь

- нижняя граница максимально допустимого изменения тренда за квартал.

В третьей главе представлена автоматизированная система поддержки принятия решений при анализе уровня техники для патентных заявок, реализующая разработанные методы. Архитектура автоматизированной системы представлена на рис. 2.

Система включает в себя следующие подсистемы:

а) подсистема интерфейса пользователя, предназначена для организации взаимодействия пользователя с системой;

б) подсистема безопасности, обеспечивает аутентификацию и авторизацию пользователей в системе;

в) подсистема координирования, предназначена для координирования других подсистем;

г) подсистема массовой предобработки данных и выделения фраз, предназначена для проведения предобработки больших корпусов патентной и не патентной информации и выделения фраз из текстов документов;

д) подсистема предобработки заявки на патент и выделения ключевых фраз, предназначена для проведения предобработки заявки и выделения ключевых фраз из текстовых полей заявки;

е) подсистема поиска и ранжирования релевантных документов, предназначена для поиска и ранжирования существующих документов, релевантных заявке;

ж) подсистема сокращения множества поиска, предназначена для сокращения множества существующих документов, которые могут потенциально содержать документы релевантные заявке;

з) подсистема визуализации результатов поиска, предназначена для поиска мест пересечения по ключевым фразам текста заявки с текстами релевантных документов;

и) подсистема выявления патентных трендов, предназначена для выявления патентных трендов.

Подсистема массовой предобработки данных и выделения фраз была реализована с использованием языка программирования Java. При разработке использовалась интегрированная среда разработки Eclipse. Данная подсистема реализована внутри кластера Amazon ЕС2. Алгоритмы массовой обработки данных реализованы на основании парадигмы MapReduce с использованием фреймворка Spark. Даная реализация позволяет максимально эффективно предобработать многомиллионные корпуса патентов и непатентных документов. Остальные подсистемы реализованы с использованием языка программирования С# в среде разработки Visual Studio,

Автоматизированная система позволяет автоматизировать ряд этапов анализа уровня техники для патентных заявок: поиск патентов аналогов, классификацию заявки, поиск патентных трендов.

Подсистема предобработки заявки на патент и выделения ключеиых фраз

Подсистема массовой предобработки данных и выделения фраз

Подсистема поиска и ранжирования релевантных документов

1,5,3-данныедля визуализации

2 - учетные записи пользователей

3 - граф цитирования патентов, связанные компоненты классов

4 - связи между датами публикации патентов и их цитат

6 - связанные компоненты классов

7 - идентификаторы заявки и релевантных патентов и не патентных документов

9 - идентификаторы патентов для продолжения поиска

10 - классы заявки

11 - данные заявки

12 - путь файлам патентов или не патентных документов

13 - идентификатор заявки, идентификаторы патентов и не патентных документов среди которых производить поиск

14 - идентификаторы релевантных патентов и не патентных документов

15 - метаданные заявки, предоОраЗотанн.ые текстовые поля заявки

16 - фразы заявки 17,19,23-синонимы

18 - метаданные не патентных документов, предоЗраОотанные текстовые поля не патентных документов

20 - фразы патентных или не патентных документов

21 - метаданные патентов, предобр.аВотанныетехстоеыеполя патентов

22 - метаданные заявки

24 - тексты не патентных документов

25,27-фразы

26 - тексты патентов

23 - метаданные патентов

29.30 - данные заявки или путь файлам патентов или не патентных документов

31 - текст заявки

32 - наэваниятрвндовых патентови фраз

Рисунок 2 - Архитектура автоматизированной системы поддержки принятия решений при анализе уровня техники для патентных заявок.

В четвертой главе приведено описание экспериментов, направленных на тестирование разработанных методов анализа уровня техники, приведены результаты тестирования в сравнении с существующими методами и проведено их обсуждение.

Для тестирования разработанных методов был проведен ряд экспериментов. В одном из них в качестве экспериментального материала были взяты 200 существующих патентов класса Н01 «Основные элементы электрического оборудования» из российской базы за 2012 год, которые выступали в эксперименте в качестве тестовых заявок - для них нужно было произвести поиск патентов аналогов. Данная выборка осуществлялась случайным образом из полной выборки, состоящей из 1306 патентов класса Н01, выданных за 2012 год. У этих патентов в общей сложности насчитывается 650 цитируемых патентов прототипов, которые выданы начиная с 1994 года. Цитируемым патентом прототипом для рассматриваемого патента является патент, который был выдан раньше рассматриваемого патента, и который содержит положения релевантные положениям в рассматриваемом патенте, в том числе положения, которые опровергают часть новизны рассматриваемого патента. Поиск производился среди множества из всех патентов секции «Н» и всех патентов из тех же подгрупп, что и цитируемые патенты. В общей сложности в рамках эксперимента учитывались описания порядка 50 тысяч патентов. Так же поиск осуществлялся среди 20 тысяч американских патентов класса Н01 с датой публикации позже 2005 года.

Таким образом, подобранное множество относится к той же секции, что и тестовый набор заявок - это должно максимально затруднить поиск цитируемых патентов относящихся к другим секциям. Оценка качества разработанных методов производилась по методике, применяемой на соревнованиях в рамках CLEF-IP: в качестве показателей качества были взяты показатели полноты (recall) для выборок из топ 1000, 500, 200, 300, 100, 50 из числа наиболее релевантных найденных патентов. Показатель recall в данном случае показывает процент попадания цитируемых патентов прототипов в исходную выборку релевантных патентов. Показатель recall равный 100% обозначает полное попадание всех цитируемых патентов прототипов в список наиболее релевантных найденных патентов. Результаты сравнения показателей recall разработанного метода, базового метода, основанного на мере TF-IDF и метода основанного на LDA, приведены в таблице 4.

Recall (%) Recall50 RecalllOO Recall200 Recall300 Recal500 RecalllOOO

TF*IDF 32 44 50 53 58 66

LDA 43 53 62 66 ■ 72 83

Фразы 72 81 90 92 96 98

Фразы + синонимы 74 82 91 93 96 98

Фразы + синонимы Поиск среди иЭ патентов 59 68 80 85 88 93

Фразы синонимы + даты 84 91 95.5 97.5 98.5 99.6

В таблице 5 представлены сравнительные показатели полноты базового метода, основанного на метрике TF-IDF, в проведенных экспериментах и в экспериментах других исследователей: D'hondt, Verma, Chen.

Таблица 5. Сравнительный анализ базовых методов в исследованиях

Recall (%) RecalllOO Recall200 Recall300 Recal500 RecalllOOO

TF*IDF, российская база 44 50 53 58 66

TF*IDF, американская база 35 47 54 60 69

D'hondt 21 29 52

Verma 38 60

Chen 26 32 39 44 54

Как видно из таблицы 5, показатели полноты примененного базового метода поиска релевантных патентов на взятых корпусах коррелируют с показателями полноты базовых методов, примененных другими ученными: наблюдается схожая скорость приращения показателя полноты с увеличением размера списка релевантных патентов. Разность показателей полноты при одинаковых размерах списков релевантных патентов в различных методах объясняется применением различных методов сокращения области поиска, и как результат различными размерами множеств патентов при проведении поиска. Высокие показатели полноты для списков релевантных патентов небольших размеров для российской базы объясняются тем, что американские патенты в среднем имеют гораздо большее количество процитированных аналогов, чем российские патенты. При этом средний показатель релевантности цитированных патентов для российской базы больше.

Результаты тестирования показывают, что разработанный метод позволил значительно превзойти по показателям полноты существующие методы автоматизированного поиска патентов аналогов. Перевод текста заявки на другой язык средствами машинного перевода с последующим поиском патентов аналогов среди американских патентов показал уменьшение полноты. Однако она все еще остается на высоком уровне. Добавление в формулу ранжирования множителя, зависящего от разности дат подачи заявки и публикации патентов, позволило значительно увеличить качество метода. Достигнутые показатели позволяют экспертам с. минимальным риском уменьшить размер множества просматриваемых патентов в процессе поиска патентов аналогов до 500-1000, вместо нескольких тысяч при ручном поиске по ключевым фразам. Заявителям на

патент с приемлемыми рисками можно уменьшить этот показатель до 100-200. Полученное множество патентов, необходимое для дальнейшего анализа экспертами, значительно меньше того множества патентов, которое они анализируют в ходе ручного поиска патентов аналогом с помощью поисковых запросов. Таким образом, применение разработанного автоматизированного метода поиска патентов аналогов в комбинации с дополнительной фильтрацией по ключевым словам, введенным экспертами или патентозаявителями, позволяет сократить время, затрачиваемое на проведение поиска патентов аналогов по сравнению с традиционными способами.

На рисунке 3 приведены сравнительные показатели полноты разработанного метода (только фразы) для различных секций МПК.

Рисунок 3 - Показатели полноты разработанного метода для различных секций

МПК.

Как видно из рисунка, показатели полноты заметно уменьшаются при обработке патентов из области химии. Это объясняется большой сложностью текстов химических патентов для методов обработки естественного языка: наличие большого количества формул, специфических синонимов. Для обработки химических патентов необходимо применять дополнительно специализированные

методы распознания химических формул, а так же дополнительные базы знаний химических элементов.

На рисунке 4 приведены результаты применения метода автоматической классификации патентных заявок.

Как видно из рисунка, точность классификации составляет 57%. Однако при применении метода классификации в качестве автоматизированного метода, пользователю достаточно выбрать нужные классы в среднем из 10 классов, предложенных системой. Полная МПК классификация насчитывать 142 класса.

100 90 30 70 SO 50 40 30 20 10 о

RecaSi%

Максимально допустимая позиция верного класса

10

Рисунок 4 - Позиция верного класса заявки при автоматической классификации. На рисунке 5 приведен пример выявления трендовых фраз в области ' электричества за 2008-2012 год.

--■*•-терминал абонентский станция

_____ -»-базовый доступ станция

»шг-программировать цифровой устройство

-¡— средство обеспечение

программный -^-средство зппартэный

обеспечение -•¡»-беспроводный прием

2008 2010 2011 2012 Рисунок 5 - Пример выявление трендовых фраз

Как видно из рисунка, представление тенденции в виде трендовой фразы несет осмысленный характер с точки зрения пользователя.

В таблице 5 представлены примеры названий патентов, содержащих

трендовые фразы.

Таблица 5. Пример названий патентов, содержащих трендовые фразы

Сгруппированная трендовая фраза Пример названий патентов

Система беспроводный связь . множественный доступ Способы и устройства обеспечения разнесения передачи в системе беспроводной связи множественного доступа

Способ и устройство для управления идентификаторами соединения в ретрансляционной системе связи с беспроводным доступом с множественной перестройкой частоты

Способ и устройство для обмена таблицами кодирования в системе беспроводной связи с множественным доступом

Система мобильный связь Устройство и способ для передачи / приема пакетов в системе мобильной связи

Станцию для диспетчеризации пакетной передачи восходящей линии связи в системе мобильной связи

Устройство и способ для определения маски открытого длинного кода в системе мобильной связи

Устройство терминал доступ система Способ и устройство для управления работой терминала доступа в системе связи

Способ, устройство и система согласования сеанса между терминалом доступа и сетью доступа в системе высокоскоростной передачи пакетных данных

Способ и устройство для управления работой терминала доступа в системе связи

Разработанные методы поиска релевантных текстовых документов могут быть так же применены для решения других задач:

- поиск схожих научных статей. Тексты научных статей имеют схожую особенность с патентной документацией: основные положения в них повторяются в нескольких частях статьи: в аннотации, в основном блоке, в заключении. Таким образом, разработанные методы позволят точно выделять ключевые слова;

- аннотирование, реферирование и обобщение научных статей и патентов. Разработанные методы позволяют выделять ключевые фразы из текстов патентов и научных статей, что позволяет выделять наиболее значимые предложения.

В заключении диссертации приводятся основные научные и прикладные результаты, полученные автором в процессе выполнения работы.

Результаты диссертационного исследования использовались для выполнения работ по договорам №39/638-13 (ФИПС) и №39/637-13 (ВОИС).

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1) Проведен анализ процесса анализа уровня техники для патентных заявок, проанализированы существующие подходы к анализу уровня техники, системы патентного анализа и автоматизированные методы анализа уровня техники, выявлены их недостатки.

2) Разработаны собственные методы анализа уровня техники: поиска патентов аналогов, выявление патентных трендов и автоматической классификации заявок.

3) Предложенные методы анализа уровня техники реализованы в автоматизированной системе на языках Java и с# в средах разработки Eclipse и Visual Studio с использованием облачных технологий и парадигмы MapReduce для обработки огромных массивов данных.

4) Проведены эксперименты, которые показали преимущество разработанных методов перед существующими.

В целом разработанные методы анализа уровня техники позволяют снизить время на проведение анализа уровня техники патентозаявителями и экспертами. Так же ряд разработанных методов может быть применен в других областях обработки естественного языка.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

В изданиях, рекомендованных ВАК РФ:

1. М.А. Дыков, А.Г. Кравец, Д.М. Коробкин, С.С. Укустов, О.И. Стрелков. Представление документа в виде вектора ключевых фраз для решения задачи поиска по уровню техники в описаниях патентов. Прикаспийский журнал: управление и высокие технологии 1 : с. 148-154, 2014.

2. Дыков М.А., Кравец А.Г., Коробкин Д.М., и Укустов С.С. АВТОМАТИЗИРОВАННАЯ СИСТЕМА ПРИНЯТИЯ РЕШЕНИЙ ПРИ ПАТЕНТНОЙ ЭКСПЕРТИЗЕ. Известия ВолгГТУ: В.20, №6(133), 2014, с 35-41.

3. Mikhail A. Dykov and Pavel N. Vorobkalov. "How-to" Questions Answering Using Relations-based Summarization. World Applied Sciences Journal 24: pp. 231237, 2013

4. Дыков М.А. и Камаев В.А. Концепция автоматизации процесса бытового творчества. ОТКРЫТОЕ ОБРАЗОВАНИЕ: с. 11-15, 2012

5. Дыков М.А. и Воробкалов П.Н. Анализ семантики поискового запроса в Интернет-магазине. Известия Волгоградского государственного технического университета серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах» (выпуск 10 - плановый): с. 56-60, 2011

6. Дыков, М.А. Ранжирование результатов поисковых запросов в Интернет-магазине на исследовании предпочтений покупателей / М.А. Дыков, П.Н. Воробкалов // Изв. ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах". Вып. 11 : межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2011. - № 9. - С. 71-73

В прочих изданиях:

7. Dykov М.А., Kravets A.G., Korobkin D.M., Ukustos S.S, Strelkov O.I. COMBINING STATISTICAL AND SEMANTIC FEATURES FOR PATENTS PRIOR-ART RETRIEVAL. Materials of the international scientific practical conference "Innovative information technologies". Part 2: pp. 120-129, 2014.

8. Дыков M.A., Камаев B.A. и Воробкалов П.Н. Поиск альтернативных источников информации в социальных сетях для выявления дезинформации. Материалы 6-й всероссийской мультиконференции по проблемам управления: с. 66-74, 2013.

9. Дыков М.А., Камаев В.А. и Воробкалов П.Н. ИДЕНТИФИКАЦИЯ ОБЪЕКТОВ В ТЕКСТАХ РУКОВОДСТВ В КОНТЕКСТЕ БЫТОВЫХ ЗАДАЧ. Конгресс по интеллектуальным системам и информационным технологиям IS&IT43: с. 56-64, 2013

10.Mikhail A. Dykov and Pavel N. Vorobkalov. Twitter Trends Detection by Identifying Grammatical Relations. Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference: pp. 259-262, 2013.

11.Dykov M.A. and Vorobkalov P.N. Relations Based Summarization in "How-to" Questions Answering. BOOK OF ABSTRACTS OF THE 23RD MEETING OF COMPUTATIONAL LINGUISTICS IN THE NETHERLANDS CLIN 2013: pp. 79, 2013.

Подписано в печать 16.04.2014 г. Формат 60x84 1/16. Бумага офсетная. Печать трафаретная. Печ. л.1,0. Тираж 100 экз. Заказ № 233.

Типография ИУНЛ Волгоградского государственного технического университета. 400005, г. Волгоград, просп. им. В.И. Ленина, 28, корп. №7.

Текст работы Дыков, Михаил Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ

УНИВЕРСИТЕТ»

04201459569 На п

Дыков Михаил Александрович

ах рукописи

ПОДДЕРЖКА ПРИНЯТИЯ РЕШЕНИИ ПРИ АНАЛИЗЕ УРОВНЯ ТЕХНИКИ ДЛЯ ПАТЕНТНЫХ ЗАЯВОК

05.13.01 - «Системный анализ, управление и обработка информации

(промышленности)»

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель:

доктор технических наук, профессор

Камаев Валерий Анатольевич

Волгоград - 2014

Содержание

Введение...................................................................................................................5

ГЛАВА 1 Анализ подходов и методов поддержки принятия решений при анализе уровня техники для патентных заявок..................................................................10

1.1 Описание процесса анализа уровня техники для патентных заявок.................10

1.2 Структура патентной заявки и требования к ее оформлению...........................17

1.3 Существующие открытые базы патентов и автоматизированные системы поддержки принятия решений при анализе уровня техники для патентных заявок .....................................................................................................................................21

1.4 Автоматизированные методы анализа уровня техники для патентных заявок 25

1.4.1 Автоматизированные методы поиска патентов аналогов...............................25

1.4.2 Автоматизированные методы поиска патентных трендов..............................36

1.4.3 Другие автоматизированные методы анализа текстов патентных документов

.....................................................................................................................................40

1.7 Выводы.................................................................................................................42

ГЛАВА 2 Автоматизированные методы анализа уровня техники для патентных заявок......................................................................................................................43

2.1 Методика поддержки принятия решений при анализе уровня техники для патентных заявок.......................................................................................................43

2.2 Предобработка патентной документации...........................................................48

2.3 Выделение ключевых фраз из текста патентного документа............................52

2.4 Сокращение множества поиска...........................................................................58

2.5 Поиск патентов аналогов.....................................................................................64

2.6 Выявление патентных трендов............................................................................67

2.7 Выводы.................................................................................................................71

ГЛАВА 3 Автоматизированная система поддержки принятия решений при

анализе уровня техники для патентных заявок....................................................73

3.1 Процесс принятия решений при анализе уровня техники с использование автоматизированной системы поддержки принятия решений при анализе уровня техники.......................................................................................................................73

3.2 Архитектура автоматизированной системы поддержки принятия решений при анализе уровня техники.............................................................................................74

3.3 Функциональная структура автоматизированной системы оценки качества... 77

3.4 Подсистемы автоматизированной системы поддержки принятия решений при анализе уровня техники для патентных заявок........................................................78

3.4.1 Подсистема координирования..........................................................................78

3.4.2 Подсистема предобработки заявки на патент и выделения ключевых фраз . 78

3.4.3 Подсистема массовой предобработки данных и выделения фраз..................79

3.4.4 Подсистема поиска и ранжирования релевантных документов.....................79

3.4.5 Подсистема сокращения множества поиска....................................................79

3.4.6 Подсистема интерфейса пользователя.............................................................80

3.4.7 Подсистема безопасности.................................................................................80

3.4.8 Подсистема визуализации результатов поиска...............................................80

3.4.9 Подсистема выявления патентных трендов.....................................................81

3.5 Пример результатов работы системы.................................................................81

3.6 Выводы.................................................................................................................84

ГЛАВА 4 Тестирование методов поддержки принятия решений при анализе уровня техники для патентных заявок..................................................................86

4.1 Тестирование метода поиска патентов аналогов................................................86

4.2 Тестирование метода автоматизированной классификации заявок..................94

4.3 Тестирование метода выявления патентных трендов......................................100

4.4 Выводы...............................................................................................................104

Заключение...........................................................................................................106

Библиографический список.................................................................................109

Введение

В настоящее время все большее количество компаний и независимых изобретателей стараются запатентовать результаты своего интеллектуального труда. По данным всемирной организации интеллектуальной собственности в настоящее время выдано более 70 миллионов патентов. При этом за последний год поток заявок на патенты возрос более чем на 9% и достиг 2,3 миллионов. В связи с возрастающим потоком заявок возрастает и время их обработки экспертами. В некоторых случаях оно достигает нескольких лет [1]. В ходе обработки заявки эксперт занимается анализом уровня техники [2]. На проведение поиска во многих случаях эксперт тратит десятки часов и при этом просматривает тысячи существующих патентов и других документов. На протяжении всего времени патентной экспертизы заявитель не знает о том, выдадут ли ему патент или нет. При этом средний процент отказа на выдачу патентов составляет более 60%, что является проблемой в условиях многолетнего ожидания. В последние десятилетия наблюдается быстрое изменение рынков и широкое распространение технологий, в результате жизненный цикл продукта укорачивается [3,4]. В результате чего успешным компаниям просто необходимо постоянно изобретать что-то новое, чтобы выжить [5]. В подобной быстро изменяющейся среде стратегическую необходимость приобретает мониторинг изменений технологий или анализ трендов. В данном случае патентные документы являются одним из наилучших источников технологических и коммерческих знаний для организации подобного мониторинга, так как в патентах может быть найдено более 80% всей технологической информации [6, 7, 8]. Анализ патентных трендов производится в различных разрезах: классов патентов, компаний. Данный анализ широко применяется патентозаявителями, чтобы понять, в каком направлении развиваться, и какие появились новшества в

5

области их интересов. В связи с данными проблемами в настоящее время активно развиваются системы поддержки принятия решений при анализе уровня техники для патентных заявок, а так же разрабатываются новые методы автоматизации классификации заявок и поиска патентов аналогов.

Решением данной проблемы занялись ряд отечественных: Леонтьева H.H., Тузов В.А., Сегалович И.В. , Сокирко A.B. , Е.Б. Гаврилина , Н. Васильева , Д. В. Грановский , Т. М. Ландо и зарубежных ученных: Amy J.C. Trappey, Fu-Chiang Hsu, Charles V. Trappey, Chia-I. Lin, Xiaobing Xue, W. Bruce Croft, Daniel Eisinger, George Tsatsaronis, Markus Bundschus, Ulrich Wieneke, Michael Schroeder, Hung-Chen Chen, Yu-Kai Lin, Chih-Ping Wei, T. Hofmann, D. Blei, Benzecri, J.-P., V. Punyakanok, R. Collobert. Решением задачи выявления патентных трендов занимались следующие ученные: Changyong L., Yongtae P., Byungun Y., Endang Sri R. R., Hasibuan Z.A., Sungjoo L., Struß J.M., Segev A., Jung C., Jung S..

Однако существующие на сегодняшний день методы автоматизации поиска патентов аналогов не обладают достаточной точностью для уменьшения времени поиска. Существующие методы выявления патентных трендов не позволяют качественно выделять тренды внутри классов, межклассовые тренды, а так же тренды в потенциально новых классах, которые еще не попали в официальную классификацию. В связи с этим имеется потребность в разработке новых автоматизированных методов поддержки принятия решений при анализе уровня техники для патентных заявок.

Цель и задачи работы. Целью работы является уменьшение времени, затрачиваемого патентными заявителями, экспертами и патентоведами на проведение анализа уровня техники за счет автоматизации данного процесса.

Для достижения поставленной цели были выделены следующие задачи: 1) Провести анализ существующих инструкций по проведению анализа уровня техники для патентных заявок экспертами, существующих

систем поддержки принятия решений при анализе уровня техники, а так же существующих методов автоматизированного анализа уровня техники;

2) разработать методы автоматизированного поиска патентов аналогов;

3) разработать метод выявления патентных трендов;

4) реализовать разработанные методы анализа уровня техники в виде автоматизированной системы.

Объектом исследования являются процесс анализа уровня техники для патентных заявок.

Предметом исследования являются способы уменьшения времени, требуемого на проведение анализа уровня техники для патентных заявок.

Гипотеза исследования. Если в процессе анализа уровня техники основными этапами, требующими наибольшее количество времени, являются этап выделения ключевых терминов и этап поиска существующих документов в релевантных источниках, то автоматизация данных этапов позволит сократить время, требуемое на проведение анализа уровня техники для патентных заявок.

Методы исследования. Для решения поставленных задач были использованы методы обработки естественных языков, системного анализа, методы обработки больших объемов данных, методы интеллектуального анализа данных.

Научная новизна заключается в разработке новых автоматизированных методов анализа уровня техники для патентных заявок, а именно:

а) разработан метод выделения ключевых фраз из текста заявки на патент, используемых для поиска существующих аналогов среди патентов и других документов;

б) разработан метод определения степени релевантности существующего патента или другого документа заявки;

в) разработан метод выделения патентных трендов.

Положения, выносимые на защиту:

1) метод выявления патентных трендов;

2) метод поиска аналогов заявки среди патентов;

3) автоматизированная система поддержки принятий решений при анализе уровня техники.

Практическая ценность:

1) Разработанные методы могут быть применены в существующих системах поддержки принятия решений при анализе уровня техники для патентов и заявок для ускорения процесса анализа;

2) Разработанная автоматизированная система может быть применена патентозаявителями для автоматизации процесса анализа уровня техники

Апробация работы. Основные положения и материалы диссертационной работы докладывались на III Международной научно-практической конференции "Инновационные информационные технологии" (2014 г., Прага, Чехия), 6-й всероссийской мультиконференции по проблемам управления МКПУ-2013 (2013 г., Дивноморское, Россия), 7-й летней школе по информационному поиску (2013 г., Казань, Россия), Международном конгрессе по интеллектуальным системам и информационным технологиям IS&TF13 (2013 г., Дивноморское, Россия), 26-й международной конференции FLAIRS (2013 г., Сейнт Пит Бич, Флорида, США), 23-й встрече компьютерных лингвистов в Нидерландах CLIN2013 (2013 г., Энсхеде, Нидерланды).

Публикации. По теме работы автором опубликованы 11 публикаций, из которых 6 статей в ведущих рецензируемых научных журналах и изданиях, входящих в перечень Высшей аттестационной комиссии, 1 статья, индексируемая в БД Scopus.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 120 страниц основного текста, 20 рисунка, 16 таблиц и список литературы из 115 наименований.

Соискатель выражает особую благодарность профессору кафедры «САПР и ПК» ВолгГТУ, д.т.н. Кравец Алле Григорьевне за оказанную помощь и консультации в ходе выполнения диссертационной работы.

ГЛАВА 1 Анализ подходов и методов поддержки принятия решений при анализе уровня техники для патентных заявок 1.1 Описание процесса анализа уровня техники для патентных заявок

Анализ уровня техники проводится предприятиями и индивидуальными исследователями в процессе создания, освоения и реализации промышленной продукции. Целями проведения анализа уровня техники являются [9]:

- отбор наиболее эффективных (коммерчески значимых) научно-технических достижений в исследуемой области техники с целью их дальнейшего использования и улучшения;

- определение патентоспособности объектов промышленной собственности, создаваемых в процессе разработки новой продукции, и решение вопроса о целесообразности их патентования в одной или нескольких странах;

- экспертиза на патентную чистоту;

- выявление потенциальных конкурентов, анализ направления их деятельности с целью выбора своей ниши;

- эффективное противодействие патентному шантажу;

- отмена действия выданного патента, используемого против вас, путем обнаружения новой информации об известном уровне техники, которая не рассматривалась во время выдачи патента.

Под существующим уровнем техники понимаются все запатентованные изобретения и полезные модели, поданные заявки на изобретения и полезные модели с более ранней датой приоритета, и другие источники информации, с которым любое лицо может ознакомиться само, либо о содержании которого ему может быть законным путем сообщено [10].

При этом наиважнейшую роль играет анализ именно патентной документации, так как она обладает рядом преимуществ перед другими источниками [11]:

- наличие подробной информации, которой нет в других источниках;

- легкая доступность в глобальных, хорошо структурированных базах данных;

- систематическая классификация, обеспечивающая быстрый доступ к огромному объему информации по данной теме.

- новизна информации, объясняющаяся необходимостью подачи патентных заявок компаниями, которые хотят получить исключительные права на свое изобретение;

- наличие в патентной документации дополнительной ценной информации о том, какие компании владеют той или иной технологией, об изобретателях, о продолжительности права собственности и о свободном наличии технологии, если действие патента истекло и т.д.

Согласно госту «ГОСТ Р 15.011-96» анализ уровня техники включает следующие основные этапы [9]:

1) определение номенклатуры технико-экономических показателей, определяющих потребительские свойства продукции;

2) поиск группы аналогов и установление значений их технико-экономических показателей;

3) определение тенденций развития в интересующих областях;

4) выделение базовых образцов из группы аналогов, содержащих наилучшие технико-экономические показатели и перспективные тенденции;

5) сопоставление технико-экономических показателей объекта разработки с аналогичными показателями базовых образцов (определение технического уровня);

6) подготовка заключения о результатах анализа.

В данной работе рассматриваются этапы поиска группы аналогов и определения тенденций развития в рамках анализа уровня техники.

Патентный поиск - это процесс отбора соответствующих запросу документов или сведений по одному или нескольким признакам из массива патентных документов или данных, при этом осуществляется процесс поиска из множества документов и текстов только тех, которые соответствуют теме или предмету запроса [11].

Патентный поиск выполняется с использованием информационно-поисковых систем путем формирования поисковых запросов и анализа найденных патентов. Выделяют ряд основных целей патентного поиска:

- проверка уникальности изобретения;

- выявление других областей применения изобретения;

- выявление существующих изобретений и компаний из той же области;

- выявление существующих патентов на изобретения в смежных областях;

- определение текущего состояния исследований в интересующей области.

Патентное ведомство США предложило методику поиска патентов

аналогов для патентной заявки (см. рисунок 1.1) [12].

Рисунок 1.1- Методика поиска патентов аналогов для заявки от патентного

ведомства США

Для анализа тенденций развития в существующих областях чаще всего применяется анализ патентных ландшафтов - способ изучения и описания патентной ситуации для конкретной технологии в определенной стране, определенном регионе или на глобальном уровне [13]. Данный анализ позволяет [14]:

- анализировать состояние и направление исследовательской активности в интересующих областях;

- принимать решения о выборе/корректировке направления исследовательской деятельности.

На рисунке 1.2 приведен пример тенденций применения различных групп методов для лечения болезни Альцгеймера, полученный в результате анализа

патентных документов в базе Всемирной организации интеллектуальной собственности [15].

■Amyloid Grouping -"»—-Tau Grouping ——• Broker patents

Рисунок 1.2 - Тенденции в области исследований различных групп методов для

лечения болезни Альцгеймера Решение о выдаче патентов