автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и алгоритмы классификации состояний биоценозов на основе структурных свойств многомерных данных

кандидата технических наук
Пожидаева, Анастасия Сергеевна
город
Нижний Новгород
год
2015
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы классификации состояний биоценозов на основе структурных свойств многомерных данных»

Автореферат диссертации по теме "Модели и алгоритмы классификации состояний биоценозов на основе структурных свойств многомерных данных"

На правах рукописи

и

ПОЖИДАЕВА Анастасия Сергеевна

Модели и алгоритмы классификации состояний биоценозов на основе структурных свойств многомерных данных

Специальность 05.13.01. — «Системный анализ, управление и обработка информации (в науке и промышленности)» (технические науки)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

3 МАЙ 2015

005568628

Нижний Новгород - 2015

005568628

Работа выполнена на кафедре «Вычислительные системы и технологии» федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Нижегородский государственный технический университет им. P.E. Алексеева».

Научный руководитель: Ломакина Любовь Сергеевна

доктор технических наук, профессор, «Нижегородский государственный технический университет им. P.E. Алексеева», профессор кафедры «Вычислительные системы и технологии»

Официальные оппоненты: Янников Игорь Михайлович,

доктор технических наук, доцент, «Ижевский государственный технический университет имени М.Т. Калашникова», доцент кафедры «Техносферная безопасность».

Ефимов Антон Сергеевич,

кандидат технических наук, Филиал закрытого акционерного общества «Интел А/О» в Нижнем Новгороде, старший инженер по разработке программного обеспечения.

Ведущая организация: Федеральное государственное бюджетное

учреждение науки Институт прикладной физики Российской академии наук, г. Нижний Новгород (ИПФ РАН)

Защита диссертации состоится «18» июня 2015 года в II00 часов в ауд. 1258 на заседании диссертационного совета Д.121.165.05 при Нижегородском государственном техническом университете им. P.E. Алексеева по адресу: 603950, г. Нижний Новгород, ул. Минина, 24.

С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета им. Р. Е. Алексеева и на сайте http://www.nntu.ru/content/aspirantura-i-doktorantura/dissertacii. Автореферат разослан «ЛЗ » Cbly'iüiS 2015 года.

Ученый секретарь

диссертационного совета Суркова Анна Сергеевна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время происходит становление общей теории классификации многомерных данных. Активно разрабатывается ее методология и внедрение в практику анализа и синтеза биологических объектов. Особое внимание уделяется изучению биоценозов, которые представляют собой системно-организованную совокупность растений, животных или микроорганизмов, обитающих в определённой среде, на состояние которой можно влиять через среду, управляя ее развитием или уничтожением.

Частным случаем биоценоза является микрофлора желудочно-кишечного тракта человека (микробиота ЖКТ). Это чувствительная индикаторная система, которая своими количественными и качественными изменениями реагирует на любые нарушения состояния здоровья человека. Таким образом, правильная трактовка результатов бактериологического исследования имеет исключительное значение в решении вопроса о природе кишечного заболевания и соответствующих методах лечения. Основной задачей клинической практики является повышение точности диагноза, который сводится к классификации состояний микробиоценоза ЖКТ, каждое из которых описывается совокупностью значений соответствующих признаков.

Большой вклад в решение проблемы классификации состояний многомерных объектов, к которым относятся биоценозы, внесли как отечественные, так и зарубежные ученые: С.А. Айвазян, A.A. Большаков, Р.Н. Каримов, М. Дж. Кендалл, К. Танака, Т. Kohonen и другие. Их работы широко используются как в научных исследованиях многомерных данных, так и в задачах прикладного характера. Тем не менее, остается много нерешенных проблем, связанных с обработкой больших массивов многомерных данных и внедрением информационных технологий в практику медицинского обслуживания населения и повышения его эффективности.

В связи с этим не вызывает сомнений актуальность разработки моделей и основанных на них алгоритмов классификации состояний биоценозов и их

внедрение в практику медицинского обслуживания.

3

Цель работы.

Разработка и исследование моделей представления многомерных данных и построенных на их основе алгоритмов классификации состояний биоценозов.

Задачи.

Для достижения поставленной цели требуется решение следующих задач:

- анализ научных публикаций по теме исследования;

- разработка и исследование моделей представления многомерных данных;

- разработка алгоритмов классификации состояний биоценозов, основанных на предложенных моделях;

- программная реализация разработанных алгоритмов классификации;

- применение полученных научных результатов на практике.

Методы исследования.

Для решения поставленных задач применялись методы системного анализа, обработки многомерных данных, математической статистики и теории вероятностей.

Научная новизна работы состоит в следующем:

1. Выявлены структурные свойства многомерных данных, позволившие расширить возможности использования скрытых параметров при решении задачи классификации состояний биоценозов на основе следующих моделей:

- структурно-статистическая модель представления многомерных данных;

- нечеткая модель представления многомерных данных;

- знаковая модель представления многомерных данных.

2. Разработаны новые алгоритмы классификации состояний биоценозов, а именно:

- алгоритм классификации на основе структурно-статистической модели, отличающийся от известных возможностью выбора критерия максимального правдоподобия;

- алгоритм классификации на основе нечеткой модели, отличающийся от известных предложенным методом вычисления характеристической функции принадлежности;

- модифицированный знаковый алгоритм классификации, позволяющий сохранить эффективность и обеспечить устойчивость к изменениям статистических характеристик многомерных данных.

Обоснованность и достоверность результатов диссертационной работы обеспечены корректным использованием современного математического аппарата и подтверждены результатами экспериментальных исследований на реальном примере.

Практическая значимость и внедрение.

Практические результаты, полученные в ходе выполнения диссертационной работы, используются в лаборатории микробиома человека и средств его коррекции Федерального бюджетного учреждения науки Нижегородский научно-исследовательский институт эпидемиологии и микробиологии им. академика И.Н. Блохиной Роспотребнадзора и в учебном процессе при подготовке магистров по направлению «Информатика и вычислительная техника» по программе «Диагностические и информационно-поисковые системы» в Нижегородском государственном техническом университете им. Р.Е.Алексеева, что подтверждается актами о внедрении. Получены свидетельства о государственной регистрации программы для ЭВМ №2013612601 от 6 марта 2013 г. и №2015611346 от 28 января 2015г.

Результаты работы использованы в госбюджетной НИР (Отчет по НИР «Диагностирование биологических объектов с использованием современных информационных технологий», Интернет-номер И131208225518 от 8.12.13 -Н.Новгород: НГТУ, выполненный в рамках НИОКР «Диагностические и информационно-поисковые системы» (Номер государственной регистрации 01201252337, Интернет-номер И111112195013, руководитель работы Ломакина Л.С.).

Апробация полученных результатов.

Основные положения диссертации представлялись и докладывались на следующих научных конференциях:

- Международной молодежной конференции «Будущее технической науки» г. Н.Новгород, 2010 г., 2012 г., 2014 г.

- Международных научно-технических конференциях «Информационные системы и технологии» г.Н. Новгород, 2011 г., 2012 г., 2013 г., 2014 г.

- Нижегородской сессии молодых ученых (технические науки) г. Арзамас, 2012 г., 2013г.

- XVIII-th International Open Science Conference "Modem informatization problems in simulation and social technologies", Lorman, MS, USA, 2013y.

- VI Всероссийской научно-технической конференции «Нейроинформатика -2013», г.Москва, 2013 г.

- XVII Международной научно-практической конференции «Системный анализ в проектировании и управлении», г. Санкт-Петербург, 2013г.

- II Международной научной Интернет-конференции «Математическое и компьютерное моделирование в биологии и химии. Перспективы развития», г. Казань, 2013г.

На региональном конкурсе научных работ среди аспирантов в 2013 году автор стал лауреатом стипендии имени академика Г.А. Разуваева.

Основные положения, выносимые на защиту.

1. Модели представления многомерных данных;

2. Модифицированный знаковый алгоритм, обеспечивающий устойчивость классификации при изменении характеристик многомерных данных;

3. Алгоритмы классификации состояний биоценозов и их программная реализация;

4. Результаты экспериментальных исследований.

Публикация результатов.

По теме диссертации опубликовано 15 работ, в том числе 3 работы в рецензируемых научных изданиях, рекомендуемых ВАК, 1 учебное пособие, 2 свидетельства о государственной регистрации программы для ЭВМ.

Личный вклад автора.

Личный вклад автора заключается в следующем:

- участие в постановке целей и задач исследования;

- построение моделей представления многомерных данных;

- разработка алгоритмов решения поставленных задач;

- участие в программной реализации алгоритмов;

- участие во внедрении созданного программного обеспечения.

Структура и объем работы.

Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы из 120 наименований, а также приложений. Общий объём работы 109 страниц текста, содержащего 32 рисунка и 5 таблиц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика работы, обоснована актуальность исследования, его объект и предмет, сформулирована цель исследования и его задачи.

В первой главе (Обзор существующих методов классификации многомерных данных и постановка задачи) приведен обзор существующих методов классификации многомерных данных с указанием их достоинств и недостатков. Описаны особенности реализации методов классификации состояний биоценозов. Исследованы возможности использования статистических методов классификации, методов, основанных на использовании нейронных технологий и робастных методов, в частности обоснованы преимущества знаковых алгоритмов. Обоснована необходимость разработки моделей и алгоритмов классификации состояний биоценозов на примере микробиоценоза желудочно-кишечного тракта человека, отмечены различия качественного и

количественного состава микрофлоры ЖКТ у людей восьми возрастных групп, что затрудняет процесс диагностирования. Сформулирована постановка задачи. Отмечено, что известные алгоритмы особенно чувствительны к выбросам в экспериментальной выборке и ее неоднородности, когда многомерные данные содержат реализации, принадлежащие различным законам распределения, что приводит к снижению эффективности классификации.

В связи с этим возникает необходимость в разработке таких моделей и алгоритмов классификации, которые не зависят от законов распределения априорных данных и просты в программной реализации. Решению этой задачи посвящена настоящая диссертационная работа.

Во второй главе (Модели представления многомерных данных) приведено описание разработанных моделей представления многомерных данных, построенных на исходных данных, представляющих собой результаты бактериологических исследований состояния микробиоценоза ЖКТ отдельно для «больных» и «здоровых» людей, в виде многомерного вектора

в «-мерном пространстве, где координаты (/' = 1,и) - скалярные величины, равные количеству микроорганизмов данного вида.

Структурно-статистическая модель представления многомерных данных представляет собой и-мерное пространство признаков, которые априорно разделены на два класса, соответствующие «здоровым» и «больным» пациентам.

В общем случае количество микроорганизмов каждого вида является случайной величиной с произвольным неизвестным законом распределения, что делает невозможным непосредственное использование классических методов оптимального статистического синтеза правил принятия решений.

В работе предлагается перейти от случайной векторной величины |=(4ь ад к ее проекции х на специально выбранное направление,

определяемое единичным вектором а= (аь аг,..., а„), который параллелен прямой, проходящей через точки «-мерного пространства, изображающие математические ожидания (центроиды) многомерных случайных величин соответственно для «здоровых» и «больных» людей (рис. 2.1).

Рис.2.1 — Иллюстрация структурно-статистической модели представления многомерных данных, М\ и Mj — математические ожидания многомерных случайных величин соответственно для «здоровых» и «больных» людей

Проекция х на данное направление вычисляется как скалярное произведение векторов |=(£ь и ä=(ai, аг,..., а„):

где а], а2, ..., а„ - косинусы углов, которые вектор а образует с осями координат (при этом (аО2 + (а2)2 + ... + (а„)2 = 1),|- вектор значений наблюдаемых параметров.

Поскольку проекция х является весовой суммой случайных величин, то на основании центральной предельной теоремы теории вероятностей можно предположить, что законы распределения для «здоровых» и «больных» людей будут близки к гауссовым, и различаться только математическим ожиданием и дисперсией (рис. 2.2).

п

х=5>£/, (2.1)

i=l

Установлено, что гипотеза о гауссовом законе распределения по критерию согласия х2 не противоречит опытным данным с уровнем значимости 0,05 и поэтому ее можно считать правдоподобной.

N

И

N

а) б)

Рис. 2.2 - Гистограммы для «здоровых» а) и «больных» б) людей, х - значение проекции, М- относительная частота значения проекции х.

Нечеткая модель представления многомерных данных основана на характеристической функции принадлежности, которая отражает степень принадлежности каждого элемента множества к данному множеству.

Характеристическая функция принадлежности чаще всего подбирается экспериментально. В работе предлагается метод ее вычисления, основанный на заданных множествах «здоровых» и «больных» людей, благодаря чему характеристическая функция отражает структурные свойства множеств.

Введем следующие обозначения: Е={\\■■■\\п} ~ множество результатов бактериологических анализов, характеризующих состояния биоценозов, 1/=(фь ^п,..., \ и •••, ^й) — вектор параметров, описывающий состояние конкретного биоценоза, п - количество элементов в Е, р,у -

расстояние между векторами 4/ и 1у.Рср/ ~ среднее расстояние от вектора до всех остальных векторов множества Е (рис. 2.3), которое равно:

Рсул :

п

Еру

)=1

п-1

•р

/г=1

Характеристаческая функция принадлежности будет равна:

(1-8') =1^5/, 8<=_Рз*_

„-Г" « ' <">

1(1-5,) /=1

Ер

г=1

с/?;

где 8, - нормированное значение среднего расстояния рср,.

Рис.2.3 — Среднее расстояние от вектора до всех остальных векторов

множества 2.

Полученные значения характеристической функции используются в качестве весовых коэффициентов при вычислении среднего расстояния от вектора, характеризующего состояние диагностируемого пациента, до множества 2.

Рср = Е(Р/ 'М(^г))' (2.3) /=1

где ) - характеристическая функция принадлежности, р,-- расстояние от вектора \ц, характеризующего состояние диагностируемого пациента до вектора параметров являющегося элементом множества 2:

Принадлежность состояния биоценоза пациента одному из множеств «здоровых» или «больных» людей определяется по наименьшему расстоянию (рис. 2.4).

пациент

ъ •

Здоровые

Больные

Рис. 2.4 - Иллюстрация нечеткой модели представления многомерных данных

Знаковая модель представления многомерных данных основана на сравнении наблюдаемых признаков между собой.

любые вещественные значения. Совокупность координат образует структуру, которая определяется их взаимосвязями. Взаимосвязи не даны в непосредственном наблюдении и представляют собой скрытые свойства (параметры) данной структуры.

Тем не менее, скрытые параметры функционально выражаются через наблюдаемые признаки посредством их сравнения между собой. Поскольку кроме значений координат мы не располагаем какими-либо сведениями об их взаимосвязях, то единственным способом их сравнения является операция вычитания. В предлагаемой знаковой модели используется только значение знака разности.

Координаты вектора ¡;=(4ь 4") в общем случае могут принимать

+, если (4,- -4У )>0; г = - если = 0;

-, если (4, -4у )<0.

Если выполнить сравнение каждой координаты ^ ' = со всеми остальными ) = 1 ,п то можно получить матрицу размером (ихи), элементами которой являются только знаки разностей (рис. 2.5).

у 1 2 3 ... и

/ Ж 1 6 8 ... 2

1 7 + + - +

2 4 + - - +

3 6 + 0 - +

| :

п 1 0 - - -

Рис.2.5 - Иллюстрация знакового пространства

Полученную таким образом матрицу будем называть знаковым пространством, которое является моделью представления многомерных данных и лежит в основе построения знакового алгоритма.

В третьей главе (Разработка алгоритмов классификации состояний биоценозов) рассматриваются алгоритмы классификации состояний биоценозов, реализованные на основе рассмотренных во второй главе моделей представления многомерных данных.

Алгоритм 3.1 основан на использовании структурно-статистической модели представления многомерных данных и отличается от известных возможностью выбора критерия отношения правдоподобия Ь=п'1(х)/\гГ,(х), где и\(х) и и'й(х) плотности распределения вероятностей проекции .г соответственно для «здоровых» и «больных» людей, который обеспечивает минимум средней вероятности ошибки. Пороговое значение х0, (рис. 3.1) вычисляется при Ь= 1 и О) ^огпо формуле:

х0 =

<з\мх -а^М2± СТ]СТ2 (Л/2 - Л/, )2 + - а\ ) 1п _V_(ЗЛ>

а2-а,

При 01—02 пороговое значение вычисляется по формуле:

х0

_МХ+ М2

Критическая точка х0 делит прямую на две части, одна из которых соответствует состоянию «здоров», а другая - «болен».

Рис. 3.1- Геометрическая интерпретация алгоритма 3.1 для случая \=¡5) Решение о том «болен» пациент или «здоров» принимается в зависимости от того, какой из этих частей принадлежит проекция вектора результатов бактериологических исследований состояния биоценоза |= Ъ,,).

Если значение проекции окажется близким к значению порога х0, то целесообразно отказаться от указанных решений и отнести диагностируемого пациента к группе риска (штриховка на рис. 3.1). С этой целью вводится некоторая окрестность (ич,и'2) точки х0. Пациент относится к группе риска, если значение проекции попало в этот интервал.

Алгоритм 3.1, блок-схема которого представлена на рис. 3.2, включает в себя следующие шаги:

1. Оценка математических ожиданий и дисперсий априорно заданных множеств;

2. Переход от многомерного вектора описывающего состояние пациента, к его проекции на направление х (2.1);

3. Вычисление оптимального положения порога х0 (3.1);

4. Классификация состояния биоценоза пациента.

Рис. 3.2 — Блок-схема алгоритма 3.1

Алгоритм 3.2, основанный на нечеткой модели представления многомерных данных, использует предложенный в работе метод вычисления характеристической функции принадлежности ц(|г) и состоит из следующих шагов:

1. Вычисление расстояний р,у между всеми элементами внутри множеств «здоровых» и «больных» людей;

2. Вычисление значений характеристических функций принадлежности ц(1,-) для множеств «здоровых» и «больных» людей (2.2);

3. Вычисление значений средних расстояний от состояния диагностируемого пациента до множеств «здоровых» рф1 и «больных» рср2 людей с учетом

весовых коэффициентов, в качестве которых используются значения характеристических функций принадлежности (2.3);

4. Сравнение расстояний рср1 и рср2;

5. Принятие решения о принадлежности состояния диагностируемого пациента в пользу наименьшего среднего расстояния. Алгоритм 3.3 основан на знаковой модели представления многомерных данных и отличается от известных тем, что окончательное решение о принадлежности пациента одному из множеств принимается в пользу того множества, в пользу которого принято максимальное количество так называемых «частных» решений. Частное решение принимается в результате сравнения расстояний от у-го признака пациента до г-го признака соответственно «здоровых» и «больных» людей. Все частные решения можно записать в виде матрицы, размером (ихи), в которой у - номер признака пациента, / - номер признака людей в выбранном множестве. Значение, равное единице, в матрице означает, что пациент принадлежит данному множеству, нулю — не принадлежит (рис. 3.3).

V/ \ \ 1 2 3 ... п

1 1 0 0 1

2 1 1 1 0

3 0 1 1 ... 1

: : : :

/I 0 1 1 0

Рис. 3.3 - Матрица «частных» решений алгоритма 3.3 Поскольку количество значений ¿-го признака в множестве равно количеству людей в нем, то в качестве расстояния между /-м признаком человека и у'-м признаком пациента выбрана оценка вероятности превышения значениями /-го признака человека порога, равного значениюу'-го признака пациента. Блок-схема алгоритма 3.3 представлена на рис. 3.4.

Рис. 3.4 - Блок-схема алгоритма 3.3

При этом приняты следующие обозначения: множества «здоровых» и «больных» людей обозначены соответственно X и У; х, у - номер выбранного человека в X и У соответственно, тх, ту - количество людей во множествах X и У соответственно, /- количество признаков каждого человека из множеств X и У, J-количество признаков диагностируемого пациента, i - номер признака человека из множеств Хи У, j—номер признака диагностируемого пациента.

В четвертой главе (Практическая реализация разработанных алгоритмов классификации) проводится экспериментальное исследование алгоритмов, рассмотренных в третьей главе. В качестве экспериментальных данных были отобраны и систематизированы результаты бактериологических исследований микрофлоры по 29 видам микроорганизмов (п = 29). Тестовая выборка включает в себя анализы 250 «здоровых» и 250 «больных» человек. В качестве априорных данных использовалась выборка из 1000 «здоровых» и 1000 «больных» человек.

Экспериментальное исследование алгоритма 3.1 подтвердило его работоспособность и достоверность теоретических выводов.

Вероятность диагностирования состояния «здоровья» пациента составляет 94%, вероятность отнесения «здорового» пациента к группе «больных» - 3,76%, к группе риска - 2,24%. Вероятность диагностирования состояния «болезни» пациента составляет 96,61%, вероятность отнесения «больного» пациента к группе «здоровых» - 2,24%, к группе риска - 1,15% (рис. 4.1).

Р

Рис.4.1 - Вероятностная диаграмма, 3-здоровые, Б-больные, Р-риск

Экспериментальные исследования алгоритма 3.2 показывают, что эффективность классификации разработанного алгоритма составляет 80% (рис. 4.2,4.3).

09400^, з

3

Б

Б -

Рср2 Рср\

Нечеткий алгоритм

Классический алгоритм

12 3 15

Рис.4.2 - Результаты тестирования алгоритма на примере 16 «здоровых» человек

Рср2

2.5

I

i

1 2 3 4 5 6 7

10 11 12 13 14 15 16

I Нечеткий алгоритм

■ Классический алгоритм

Отдельные результаты

Рис.4.3 - Результаты тестирования алгоритма на примере 16 «больных» человек

Экспериментальное исследование алгоритма 3.1 проведено при:

- г=/, при сравнении г-х признаков пациента с ¿-ми признаками множеств;

- Щ, при сравнении j-x признаков пациента со всеми г-ми признаками множеств;

- г,у' = 1 ,п, при сравнении всех признаков пациента со всеми признаками множеств.

Результаты проведенных экспериментов представлены в таблице 4.1.

Алгоритм Количество правильных результатов, %

Знаковый алгоритм, 1=] 82%

Знаковый алгоритм, Щ 82%

Знаковый алгоритм, /', ] = \ ,п 84%

Оценка вычислительной сложности алгоритма 3.3 на выборке из 100 человек приведена на рис. 4.4.

К0Л-80

операций

Рис. 4.4 - Вычислительная сложность алгоритма 3.3

Выполнен сравнительный анализ разработанных алгоритмов с методом, использующим нейросетевые технологии. Были рассмотрены три архитектуры нейронных сетей: сеть Кохонена, сеть Ворда и трехслойный персептрон. Обучение сетей выполнено на выборке из 100 бактериологических исследований состояния ЖКТ. Работа обученной нейронной сети проверялась на контрольной выборке из 1000 исследований состояний биоценоза. Наилучший результат показала архитектура трехслойного персептрона и позволила классифицировать состояние биоценоза с ошибкой 18%.

Применяя нейросетевые технологии, не удалось провести классификацию состояний биоценозов для всех возрастных групп, используя одну конкретную нейронную сеть (таблица 4.2).

—возраст метод ^^^ 0-23ч 1-6суг 7-29суг 1-11мес 1 -6л 7-17л 18-59л 60л и >

Алгоритм 3.1 + + + + + + + +

Алгоритм 3.2 + + + + + + + +

Алгоритм 3.3 + + + + + + + +

Сеть Кохонена - - + + + + + +

Сеть Ворда + + + - + + + +

Трехслойный персептрон + + + - + + + +

Диагностирование с использованием архитектуры трехслойного персептрона обеспечило 82% правильных решений. Однако, ни одна из архитектур не позволила провести классификацию состояний микробиоценоза ЖКТ всех возрастных групп. Нечеткий алгоритм показал 80% правильных решений, модифицированный знаковый алгоритм - 84%, структурно-статистический алгоритм - 95,3% (рис. 4.5).

Нечеткий алгоритм О классификации

Классификация с I использованием нейронных сетей

Знаковый алгоритм I классификации

Структурно-статистнч ескнй ' алгоритм классификации

Рис. 4.5 - Сравнительная диаграмма алгоритмов классификации Следует отметить, что, хотя экспериментальные исследования структурно-статистического алгоритма показали его высокую эффективность, он не обладает устойчивостью, характерной для знакового алгоритма. Если априорные множества содержат данные, выделяющиеся из общей выборки, или нельзя пренебречь возможностью крупных событий, лежащих на «хвосте» распределения, возможность классификации с использованием структурно-статистического алгоритма снижается.

В заключении изложены основные научные и практические результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В ходе теоретических и экспериментальных исследований, выполненных в настоящей работе, были получены следующие научные и практические результаты:

1. Проведен анализ существующих методов классификации биологических объектов, выявлены их достоинства, недостатки и область применения.

2. Разработаны модели представления многомерных данных, позволившие расширить возможности использования скрытых параметров при решении задач классификации.

3. На базе разработанных моделей построены алгоритмы, которые позволили эффективно классифицировать состояния биоценозов.

4. Модифицирован знаковый алгоритм, сохраняющий эффективность и обеспечивающий устойчивость классификации состояний биоценозов при изменении статистических характеристик многомерных данных.

5. Выполнена программная реализация разработанных алгоритмов.

6. Результаты диссертационной работы внедрены в лаборатории микробиома человека и средств его коррекции Федерального бюджетного учреждения науки Нижегородский научно-исследовательский институт эпидемиологии и микробиологии им. академика И.Н. Блохиной Роспотребнадзора и учебный процесс подготовки магистров по направлению «Информатика и вычислительная техника» по программе «Диагностические и информационно-поисковые системы» в Нижегородском государственном техническом университете им. P.E. Алексеева.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в рецензируемых изданиях, рекомендованных ВАК РФ:

1. Пожидаева, A.C. Модели и алгоритмы диагностирования состояний биоценоза на основе априорных статистических данных [Текст]/ Л.С. Ломакина, И.В. Соловьева, С.А. Зеленцов, A.C. Пожидаева // Журнал «Научно-технический вестник Поволжья». -Казань -2013. - №5. - с. 251-255.

2. Пожидаева, A.C. Классификация состояний биоценоза на основе нейросетевых технологий [Текст]/ Л.С. Ломакина, A.C. Пожидаева, Я.П. Губернаторов/Журнал «Вестник Нижегородского государственного университета». - Нижний Новгород -2014.-№3(1).-с. 134-138.

3. Пожидаева, A.C. Знаковый алгоритм классификации состояний биоценоза / JI.C. Ломакина, Д.В. Ломакин, И.Д. Блажнов, A.C. Пожидаева // Журнал «Современные проблемы науки и образования». [Электронный ресурс]. - 2015. - №1. -Режим доступа: http://www.science-education.ru/121-18207 (дата обращения: 01.04.2015). Монографии, учебники и учебные пособия:

4. Пожидаева, A.C. Вероятность. Информация. Классификация[Текст]: учеб. пособие. / Ломакин Д.В., Ломакина Л.С., Пожидаева A.C. - Н.Новгород: НГТУ, 2014.-128с.

Публикации в других научных изданиях:

5. Пожидаева, A.C. Анализ и алгоритм диагностики дисбиозов с использованием нейронных сетей [Текст] / A.C. Пожидаева // Труды VI Всероссийской научно-технической конференции "Нейроинформатика-2013", 21-25 января 2013 г. - М.: НИЯУ МИФИ, 2013. - с.190-196.

6. Pozhidaeva, A.S. Diagnostics of dysbioses using modern informational technologies [Текст] / A.S. Pozhidaeva // Proceedings of the XVIII-th International Open Science Conference "Modem informatization problems in simulation and social technologies", January 2013y. - Lorman, MS, USA: Science Book Publishing House, 2013. - p. 229-231.

7. Пожидаева, A.C. Статистический метод анализа состояний биоценоза [Текст] / A.C. Пожидаева, С.А. Зеленцов // Материалы конференции «XVIII Нижегородская сессия молодых ученых. Технические науки», 19-22 марта 2013 г. - Н.Новгород: НИУ РАНХиГС, 2013.-с. 104-106.

8. Пожидаева, A.C. Классификация состояний биоценоза на основе статистических данных [Текст]/Д.В. Ломакин, С.А. Зеленцов, A.C. Пожидаева// Материалы международной научно-технической конференции «Информационные системы и технологии (ИСТ-2014)»,18 апреля 2014 г. - Н.Новгород: НГТУ, 2013 - с.335.

9. Пожидаева, A.C. Классификация состояний биоценоза на основе априорных структурных свойств [Текст] / Д.В. Ломакин, С.А. Зеленцов, A.C. Пожидаева // Труды XVII Международной научно-практической конференции «Системный анализ в проектировании и управлении», 1-3 июля 2013 г. - Санкт-Петербург: СПб. ГПУ, 2013.-с. 150-152.

10. Пожидаева, A.C. Автоматизированная система классификации состояний биоценоза для целей диагностирования / JI.C. Ломакина, И.В. Соловьева, С.А. Зеленцов, A.C. Пожидаева [Текст] // Материалы П Международной научной Интернет-конференции «Математическое и компьютерное моделирование в биологии и химии. Перспективы развития», 24 сентября 2013г. - Казань: ИП Синяев Д.Н., 2013. -с. 111-113.

11. Пожидаева, A.C. Диагностирование биологических объектов с использованием современных информационных технологий [Текст] (научный руководитель Л.С. Ломакина)/ Л.С. Ломакина, Д.В. Ломакин, С.А. Зеленцов и др. // Отчет по НИР № государственной регистрации 01201252337 от 08.12.13. - Н.Новгород: Hl 'ГУ. - 80 с.

12. Пожидаева, A.C. Диагностирование медико-биологических объектов на основе нейросетевого моделирования [Текст] / Л.С. Ломакина, A.C. Пожидаева, Я.П. Губернаторов // Материалы международной научно-технической конференции «Информационные системы и технологии (ИСТ-2014)», 17 апреля 2014 г. -Н.Новгород: НГТУ, 2014. - с. 411.

13. Пожидаева, A.C. Информационные технологии диагностирования состояний биоценоза [Текст] / С.А. Зеленцов, A.C. Пожидаева, O.K. Канев и др. // Материалы Х1П Международной научно-технической конференции «Будущее технической науки», 23 мая 2014 г. - Н.Новгород: НГТУ, 2014. - с. 50-51.

Свидетельства о государственной регистрации программы для ЭВМ и баз данных:

14. Пожидаева, A.C. Автоматизированная система классификации состояния микрофлоры желудочно-кишечного тракта / Л.С. Ломакина, Д.В. Ломакин, Соловьева И.В., Зеленцов С.А., Пожидаева A.C. // Свидетельство о государственной регистрации программы для ЭВМ № 2013612601. Зарегистрировано в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности РФ (Роспатент) от 06 марта 2013 г.

15. Пожидаева, A.C. Программа классификации состояний биоценозов с использованием знаковых алгоритмов / Л.С. Ломакина, Д.В. Ломакин, И.Д. Блажнов, A.C. Пожидаева // Свидетельство о государственной регистрации программы для ЭВМ № 2015611346. Зарегистрировано в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности РФ (Роспатент) от 28 января 2015 г.

Подписано в печать 15.04.2015. Формат 60 х 84 '/i6. Бумага офсетная. Печать офсетная. Уч.-изд. л. 1,0. Тираж 100 экз. Заказ 287.

Нижегородский государственный технический университет им. P.E. Алексеева.

Типография НГТУ. Адрес университета и полиграфического предприятия: 603950, ГСП-41, г. Нижний Новгород, ул. Минина, 24.