автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Алгоритмическое и программное обеспечение систем подготовки данных в автоматизированых системах научных исследований
Автореферат диссертации по теме "Алгоритмическое и программное обеспечение систем подготовки данных в автоматизированых системах научных исследований"
од
■ ■ МІНІСТЕРСТВО ОСВІТИ УКРАЇНИ
ХАРКІВСЬКИЙ ДЕРЖАВНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ РАДІОЕЛЕКТРОНІКИ
' на правах рукопису
СПІВАК Олександр Володимирович
АЛГОРИТМІЧНЕ ТА ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ СИСТЕМ ПІДГОТОВКИ ДАНИХ У АВТОМАТИЗОВАНИХ СИСТЕМАХ НАУКОВИХ ДОСЛІДЖЕНЬ
05.13.05 - Автоматизація наукових досліджень
АВТОРЕФЕРАТ дисертації на здобуття наукового ступеня кандидата технічних наук
Дисертація є рукопис.
Робота виконана у Харківському державному технічному університеті радіоелектроніки.
Науковий керівник: Доктор технічних наук, професор РУДЕНКО Олег Григорович.
Науковий консультант: Доктор медичних наук, професор СОЛОШЕНКО Ельвіра Миколаївна
Офіційні опоненти:
1. Доктор фізико-математичних наук, професор ЯКОВЛЕВ Сергій Всеволодович.
2. Доктор технічних наук, професор ШАБАНОВ-КУШНАРЕНКО Юрій Петрович.
Провідна організація:
Харківське конструкторське бюро з машинобудування ім.О.О.Морогова, м. Харків.
Захист дисертації відбудеться “ 2/ * 1996 р. о /3 на
засіданні спеціалізованої вченої ради К 02.25.06 у Харківському державному технічному університеті радіоелектроніки за адресою: 310726, м.Харків, пр.Леніна, 14, Рах:(0572) 40-91-13.
З дисертацією можна ознайомитися у бібліотеці університету.
Автореферат розіслано "2У_
Вчений секретар спеціалізованої вченої ради
з
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність і ступінь дослідженості дисертації.
Під науковою проблемою розуміють сукупність складних задач, у яких зформульовані основні теоретичні або практичні питання, що вимагають вивчення, дослідження та розв’язання. Тому проблема вимагає відповідних теоретичних та практичних дій, відмінних від простого інформаційного пошуку.
Вимоги до якості інформаційного обслуговування включають у себе: час реакції системи; оперативність; надійність системи; можливість віддаленого доступу; психологічні та зргономічні вимоги. Критерієм вибору того або іншого способу подання даних у пам'яті є ефективність доступу до даного. Доступи до даного, що зберігається у внутрішній пам'яті ЕОМ, та до даного, що зберігається у її зовнішній пам'яті, істотно відрізняються. Обсяг внутрішньої пам'яті у зв'язку з технічним прогресом швидко збільшується, з тієї ж причині ще швидше росте обсяг зовнішньої пам'яті та зменшується її вартість. Розширюється застосування віртуальної пам'яті, яка дозволяє користувачам не вникати у розбіжності між внутрішньою та зовнішньою пам'ятю. З зростанням обсягів даних, що обробляються, використання зовнішньої пам'яті стає необхідним. Це в свою чергу вимагає оптимального використання зовнішньої пам'яті та знання сучасного рівня її розвитку, що визначає необхідність створення алгоритмічного та програмного забезпечення систем підготовки даних у системах наукових досліджень для надання досліднику можливості одержувати інформацію про предметну область, не звертаючись безпосередньо до самої цієї області, а користуючись її спеціально створеною інформаційною моделлю.
Мета роботи і основні задачі наукового дослідження.
Дисертаційна робота присвячена розробці та використанню нестандартних методів збору та зберігання семантичної медичної інформації, а також дослідженню нових методів та апаратно-програмних засобів побудови інтерфейса у автоматизованих системах наукових досліджень.
Основні задачі наукового дослідження:
розробка моделі подання медичних даних у світлі загальної теорії баз даних;
формалізація подання семантичної медичної інформації з метою її подальшої автоматизованої обробки та видачі медичної статистичної звітності;
розробка методів пошуку даних, розміщених за алфавітно - гніздовим способом та введення семантичної медичної інформації у базу даних;
дослідження методів застосування технології зв'язування та встроювання об'єктів при побудові інтерфейсу в системах наукових досліджень.
Теоретична і практична цінність дослідження і його наукова новизна. Дослідження, що були здійснені в дисертаційній роботі, дозволили; здійснювати формалізоване подання семантичної медичної інформації; надавати можливість уникнути необхідність кодування семантичних даних у системах наукових досліджень;
здійснювати пошук семантичної медичної інформації за запитом; автоматизовано обробляти семантичну медичну інформацію та видавати медичну статистичну звітність;
ефективно зберігати та здійснювати пошук даних, розміщених за алфавітно - гніздовим способом;
одержувати практичні результати із застосуванням розроблени» алгоритмів і програмного забезпечення;
надавати користувачеві інтуїтивно зрозумілий інтерфейс, робота з яки»/ не вимагає поглибленої підготовки у галузі програмування;
Практична цінність роботи укладається у програмній реалізаці запропонованих методів та алгоритмів у автоматизованих системах наукови) досліджень.
Рівень реалізації і впровадження наукових розробок.
Дисертаційна робота виконана в віповідності з тематикою науково дослідницьких робіт; "Розробка комплексу заходів з автоматизованон системою управління по ранній діагностиці, лікуванню і профілактиці хворих нг
алєргодерматози серед робітників з шкідливими умовами праці (хімічно-фармацевтична і хімічна промисловості)", шифр теми 505, N ДР 01.9.10 050715.; "Вивчення умов праці і стану здоров’я робітників хімічно-
фармацевтичних підприємств і аптек з ціллю розробки засобів профілактики і
діагностики професійних захворювань з використанням автоматизованих інформаційних систем для диференційного підходу до реабілітації і медичного страхування", N ДР ОК. 92.18. 302.
Результати виконаних досліджень використані при розробці,
проектуванні і реалізовані при створенні автоматизованої інформаційної системи "АРМ лікаря-дослідника дерматовенеролога" в УНДІДВ м.Харків; автоматизованої інформаційної системи з діагностики професійно
обумовлених алергодерматозів на стадії предхвороби та їх профилактиці на Харківській фармацевтичній фірмі “Здоров’я”.
Апробація роботи. Основні положення та результати дисертаційної роботи доповідались та обговорювались: на Шостому з'їзді
дерматовенерологів України (Харків, 1992); на Українській науково-практичній конференції "Метагігієна - 93", "Метагігієна - 94” (Київ, 1993, 1994); на Міжнародній науково-технічній конференції "Комп'ютер: наука, техніка, технологія, освіта, здоров'я" (Харків, 1993- 1996).
Публикації. По темі дисертаційної роботи надруковано 8 робіт.
Структура та обсяг дисертаційної роботи. Дисертація складаєтся з вступу, чотирьох розділів, висновку, містить 15 малюнків, 6 таблиць, список зносок із 60 найменувань і 3 додатків. Загальний обсяг дисертації становить 115 сторінок.
Особистий внесок у наукові результати, що виносятся на захист:
розробка моделі подання медичних даних у світлі загальної теорії баз даних;
формалізація подання семантичної медичної інформації з метою її подальшої автоматизованої обробки;
розробка методів пошуку та введення семантичної медичної інформації у
базу даних;
дослідження нових методів та програмних засобів побудови інтерфейсу з застосуванням технології зв'язування та встроювання об'єктів у автоматизованих системах наукових досліджень;
розробка алгоритмічного і програмного забезпечення на основі запропонованих засобів обробки інформації.
Методологія і метод дослідження предмета. В основу теоретичних досліджень покладено: теорію баз даних, реляційну алгебру та реляційне числення, загальну теорію предикатів, алгебру логіки, об'єктно-орієнтоване програмування.
ЗМІСТ РОБОТИ
У вступі відзначається актуальність роботи, формулюється її мета, показується наукова новизна та практична цінність, приводяться основні положення, що виносятся на захист, зроблена коротка характеристика змісту розділів роботи.
У першому розділі проведено аналіз існуючих засобів подання інформації. Розглянуті основні моделі баз даних: ієрархічна, реляційна та мережова, їх переваги та недоліки. Описана інформаційна модель "сутність -зв'язок" ER Чена, як узагальнення та розвиток ієрархічних та мережових моделей баз даних, її використання для відображення реально існуючої системи на Систему управління реляційною базою даних (RDBMS).
Приводиться оглядовий аналіз концептуальної (предметної області), логічної та фізичної (внутрішня модель) моделей даних. Розглядається метод розробки концептуальної моделі предметної області шляхом введення з реляційної моделі даних поняття нормализації відношень, його переваги.
Розглянуто особливості структури внутрішньої та зовнішньої пам'яті. Ефективність обчислень є функцією часу обчислення та пам'яті, ще використовується. Часто ці параметри взаємопов'язані, так що зменшення одного з них приводить до збільшення іншого. Для кожного з них задамо наступні критерії:
H_M EMORY - об'єм пам'яті, що займається на жорсткому диску;
TIME_SQL - швидкості виборки даних за запитом SQL.
Розглянуто створення інформаційної моделі предметної області на прикладі систематизації та формалізації медичних знань. При роботі над науковими медичними задачами ключову роль відіграє правильна організація інформаційної бази про пацієнтів. Виділені особливості медичної інформації: чисельність інформації, у тому числі тієї, що не має істотного значення для даної проблеми; відсутність чіткої структури, пов'язаної з задачами, які розглядаються, що може привести до втрат інформації; слаба формалізованість даних, неоднозначність їх тлумачення.
Сформульовані вимоги до інформаційної моделі медичних даних, що повинна містити всю доступну інформацію, необхідну для рішення поставлених задач; інформація повинна бути однозначною, мати правильну організацію: структура моделі, її обсяг, форма питань та відповідей на них повинні бути адекватні поставленим задачам; інформація повинна бути формалізована та редукована. Кожний діагностичний запис повинен бути як можна більш інформативним та містити максимум інформації відносно локалізації, форми, етіології та ін.
Для класифікації захворювань у медичній практиці використовується "Керівництво з міжнародної статистичної класифікації захворювань, травм та причин смерті" (МКЗ-9), видане Всесвітньою Організацією охорони здоров'я, що складається з двох томів: перший том містить Повний перелік (ПП), а другий том - Алфавітний покажчик (АП) рубрик захворювань. Структура МКЗ виконана у вигляді одновісної системи та складається з трьохзначних рубрик назв захворювань та чотирьохзначних рубрик, що містять зтіологію, місцеве проявлення або ускладнення захворювання. Захворювання сгруповані згідно з їх найбільш важливими проявленнями. Кожному захворюванню або терміну присвоєн унікальний код, що дає можливість здійснювати пошук та одержання даних про специфічні стани та об’єднувати їх у додаткові альтернативні класифікації залежно від необхідності.
Терміни у АП розташовані за алфавітно-гніздовим способом, при якому складові (уточнюючі) терміни (УТ) розташовуються у гніздо провідного терміну (ПТ). Недоліками такої системи є порушення принципу максимальної простоти побудови словника, а отже, знайдення слова; значна частина термінів при цьому виявляється розташованою у гнізді, та словник, таким чином, розпадається на велику кількість окремих словників складної побудови; при перенесенні словника на ЕОМ неможливе застосування стандартних методів пошуку та індексації даних. ПТ є назвою захворювання або патологічного стану, у той час як терміни, які стоять за ним, відносяться або до варіантів цього стану та анатомічних локалізацій поразок при цьому стані, або до обставин, що впливають на його кодування. При пошуку у АП користувач спочатку знаходить хворобливий стан, фігуруючий у якості ПТ, за яким у алфавітному порядку йде перерахування варіантів, анатомічних локалізацій і т.ін.
Розглянуто основні медичні документи державної статистичної звітності, методику збору даних з клінічної інформації, що міститься у медичних документах. Цей процес значно полегшується, якщо інформація у медичних документах висловлюється систематизовано та застосовуються стандартні методи запису.
Зформульовані мета і задачі дисертаційної роботи, в основу яких покладена розробка та використання нестандартних методів збору та зберігання інформації, а також дослідження нових методів та апаратно-програмних засобів побудови інтерфейса у автоматизованих системах наукових досліджень.
У другому розділі розглядаються питання проектування бази даних предметної області.
За сформульованими у першому розділі вимогами до інформаційної моделі медичних даних (ІММД) створена структура бази даних предметної області.
Для представлення ІММД обрано реляційну модель бази даних, що
містить таблиці, пов'язані між собою реляційними відношеннями. Розглянуто узагальнену структуру статичної та динамічної груп даних, що містяться у медичній карті пацієнта та торкаються постановки діагнозу.
Позначимо через SS множину статичних даних пацієнта та віднесемо до нього прізвище, ім'я, по-батькові, стать, групу крові, дату народження та т.ин. Позначимо через DD множину всіх можливих діагнозів та розділим його на чотири групи: підмножину анамнестичних діагнозів (D1), підмножину основних діагнозів (D2), підмножину супутних діагнозів (D3) та підмножину діагнозів з листів по тимчасовій непрацездатності (D4). По характеру течії захворювання діляться на хронічні та гострі. При цьому:
DD = D1 uD2 uD3uD4 та D1 n D2 n D3 n D4 * 0.
Друге з цих двох умов виходить з того, що серед обраних діагнозів можуть бути відповідні хронічному характеру течії захворювання, тобто ці діагнози можуть належати всім чотирьом підмножинам. Анамнестичні дані окрім динамічної частини (D1) (давність захворювання, частота рецидивів, перенесені захворювання) містять ще й статичну частину (S1) (сімейна спадковість, травми, операції та ін.). Через KLD позначено множину клініко -лабораторних даних. Розроблену схему ІММД показано на мал.1.
Для аналізу, поновлення та обробки реляційних баз даних використано мову Structured Query Language (SQL) - ANSI SQL-92, що відноситься до класу мов програмування, заснованих на концепції операції відображення. З його допомогою описується відображення відомого атрибуту або множини атрибутів у пошуковий атрибут або множину атрибутів деякого відношення. Виділені переваги використання SQL по відношенню до інших мов програмування.
У табличній моделі даних таблиці представляють або відношення, або типи записів. Розглянуто спеціфікаційні операції стосовно до теорії відношень. До відношень, як до множин, так і до таблиць, за допомогою яких представлені ці відношення, застосовуются, з деякими обмеженнями, операції над множинами за типом даних, що містяться у них.
Малюнок 1 - Інформаційна модель медичних даних.
Визначено основні операції над таблицями: об'єднання, відміна, декартів добуток двох таблиць. З реляційної алгебри та реляційного числення взято операції проекції, селекції, селекції за зв'язаністю даних, що здійснюєтся шляхом операції з'єднання. Додатково визначено операції об'єднання над таблицями: внутрішнього, симетричного, рекурсивного та зовнішнього.
У загальному випадку для чотирьох груп діагнозів необхідно створити чотири таблиці. Проте з часом стан обстежуваного міняється, та відповідно міняється набір діагнозів у кожній з підмножин. Розглянуто варіанти переходу з одного стану у інший. Згідно з вищевикладеним існує імовірність накопичення у чотирьох таблицях дубльованих даних. Для запобігання дублювання інформації створено спільну таблицю діагнозів з аналогічною структурою та введено чотири поля для кодування приладдя до підмножин. Введено ключовий об'єкт діагнозу - назва захворювання, ідентифікована за кодом. У результаті перетворення схема бази виглядає таким чином (див.мал.2).
Розулянуто створення бази даних класифікації діагнозів (БДКД), у яку
внесені адаптовані варіанти ПП та АП МКЗ-9. Необхідність використання обох варіантів МКЗ зумовлена тим, що у АП нозологічні одиниці представлені ширше, ніж у ПП, де вони приховані за більш загальними назвами або формулюваннями "інші” - підрубрика "8" та "неуточнені" - підрубрика "9”.
Малюнок 2 - Схема бази даних предметної області.
Виділені особливості змісту інформаційної одиниці "код": наявність трьохзначних рубрик, що містять 3 термінальних символа та чьотирьохзначних підрубрик, що містять 5 термінальних символа (3 символа рубрики та четвертий символ локалізації, відділений крапкою); нумерація чьотирьохзначних підрубрик починається з нуля (".0“). Наявність вищевикладених особливостей вимагає представлення кодів рубрик тільки у символьній формі.
У ПП захворювання розбиті на класи, в свою чергу поділені на підкласи. Коди мають наскрізну нумерацію по всьому переліку. Введемо позначення: КІ,
- назва класу захворювання, де ¡=1,...,пі; PKZ, - назва підкласу захворювання, де j = 1,...,п2і; RZ3k - назва трьохзначної рубрики захворювання, де к=1 .....Пзц;
RZ4l - назва чьотирьохзначної рубрики захворювання, де L=1.........П4бк; KRZ3k -
код трьохзначної рубрики захворювання; KRZ4l - код четирьохзначної рубрики захворювання; NZqi - назва захворювання у ПП, де q1= 1 ,...,3120. Зроблені підрахунки кількості елементів для кожного класу та многозначних рубрик захворювань. Назва захворювання у ПП NZqi містить у собі або назву трьохзначної рубрики захворювання RZ3k, або назву чьотирьохзначної рубрики захворювання RZ4L:
NZ* = RZ3* (1)
або
NZqi = RZ4l (2)
На випадок, якщо номер чьотирьохзначної рубрики дорівнює" 8" або" 9" назва захворювання виглядає таким чином:
NZqi = RZ3k + “ ” + RZ4u (3)
Введемо позначення для АП: KLTn-назва ПТ, де n=1,...,1152; UTTm -назва УТ, де m = 0,...,2937; KSTq - код відповідності терміну, де q=1 ,...,4089 ; NZq2 - назва захворювання, де q2 = 1 ,...,4089. Назва захворювання для АП NZq2 є конкатенація назв ПТ та УТ:
NZq2 = KLTn + “ ” + UTTm (4)
Провідні терміни починаються з великої літери російського алфавіту, 182 з них не містять код захворювання та, отже, не можуть використовуватись як самостійні інформаційні одиниці. Уточнюючі терміни починаються з маленької літери російського алфавіту та завжди містять код.
У третьому розділі розглядаються питання проектування баз даних МКЗ-9. По побудуваній у другому розділі інформаційній моделі МКБ-9 та обраній у другому розділі реляційній схемі БД створена БДКД (див.малюнок 3). Зформульовано задачі пошуку інформації по назві та коду, серед яких:
1. Відома назва захворювання, необхідно знайти у ПП або АП відповідну їй рубрику (підрубрику) та код МКЗ.
БАЗА ДАНИХ КЛАСИФІКАЦІЇ ДІАГНОЗІВ
Повний перелік P..PER
Класи захворювань KLASS
Номер класу захворювання Назва класу захворювання Діапазон значень підкласів захворювань (значенняі AND значення2) |
N_KLASS NAZV_KL DIAPAZON \
Підкласи захворювань PODKLASS
Номер підкласу захворювання Назва підкласу захворювання Діапазон значень кодів захворювань (значенняі AND значення2)
N_PODKL NAZV_PODKL DIAPAZON
Алфавітний покажчик ALFUK
Адреса
терміну
ADR
Код терміну
KOD OSN
Назва
терміну
NAZVANIE
Код прояви захворювання
KOD PR
Код відповідності терміну
KLT
Малюнок 3 - Схема бази даних класифікації діагнозів.
2. Відомий код захворювання, необхідно знайти у ПП або АП відповідь йому рубрики (підрубрики).
3. Відома назва захворювання, необхідно знайти у ПП клас, що містит його та підклас.
4. Відомий клас (підклас) захворювання - необхідно знайти у ПП в< включені у нього рубрики (підрубрики).
Розроблено алгоритми пошуку класу та підкласу. Задані дві таблиц KLASS/що містить список назв класів захворювань та PODKLASS, що містит список назв підкласів захворювань В загальному випадку для пошуку клас; або підкласу захворювання по відомому коду рубрики захворювання необхідн задати діапазон значень кодів, що містяться у кожному класі або підклас тобто створити два службових поля, що містять початок та кінець діапазон; Оскільки система пошуку орієнтована на мову SQL застосуємо такий підхід: таблицях класів та підкласів захворювань ПП введемо службове полі DIAPAZON символьного типу, що містить рядок запиту на виборку значень з допомогою оператора SQL Between ... And, що визначає приладдя значенн вказаному діапазону значень.
Для знаходження назви класу захворювання задавався запит:
SELECT ‘ FROM TERM WHERE KOD_OSN Between KLASS.DIAPAZON
Була проведена оптимізація моделі бази даних класифікац захворювань. При різних задачах пошуку необхідно мати АП, терміни у яком упорядковані або по алфавіту, або по кодах МКЗ, що вимагає створенн індексованої таблиці. Проте у зв'язку з тим, що терміни у АП розташовані г алфавитно-гніздовому способу, та по алфавіту упорядковані тільки провід* терміни, при індексуванні по кодах МКЗ структура АП буде порушена.
Розглянуто впорядкування файлів баз даних, що використовують ядр Microsoft Jet, стосовно до використаної системи програмування. Об'єкт Inde описує відношення впорядкування та однозначності значень, за допомого* яких забезпечується ефективний доступ до даних у записах таблиць.
Для цього він використовує для індексів В* - дерева, збалансовані з
еквівалентністю часу доступу до всіх рядків. Розглянута структура та переваги В* - дерев, та індексів, створених за їхньою допомогою.
Відомо, що при перегляді більш ніж 25 % записів таблиці використання індексів збільшує накладні витрати на читання у доповнення до таблиці ще й індексу. Між тим SQL - оператори, що запитують менше 10-15% рядків таблиці виконуються швидкіше з використанням індексу. Якщо запит не використовує індексу при його виконанні здійснюється повне сканування таблиці. Описаний механізм повного сканування таблиць. Механізм індексування ПГТ МКЗ-9 не відрізняється складністю, і тому його здійснено стандартними методами.
Проведений порівняльний аналіз різних схем розміщення даних АП по критеріях H_MEMORY та TIME_SQL, введених у першому розділі. Для цього були створені таблиці ALFUK, структура якої повторює оригінальну структуру АП, та ALFUKJ, у якій структура дозволяє провести індексування по полю назви захворювання NAZVANIE, тобто назви захворювань були внесені у поле згідно з (4).
Для вимірювання часу виконання запитів при різних обсягах виборки у індексованій та неіндексованій таблицях задавались три варіанта SQL -запиту:
1. SELECT * FROM Таблиця WHERE NAZVANIE LIKE *;
2. SELECT * FROM Таблиця WHERE NAZVANIE LIKE *a*;
3. SELECT * FROM Таблиця WHERE NAZVANIE LIKE *ав*;
де Таблиця - назва таблиці ALFUK або ALFUKJ.
Проводилось 3 серії по 25 експериментів у таблицях ALFUK та ALFUKJ. Три варіанта запитів введені з метою одержання 100%, більше 50% та меньше 25 % записів від загального обсягу виборки. Розмір бази даних, що містить таблицю ALFUK при цьому склав H_MEMORY1=262144 байт, ALFUKJ -H_MEMORY2=458752 байт, тобто неіндексована таблиця займає на диску у 1.75 разів менше місця, ніж індексована. Середня різниця швидкостей виборки даних за запитом становила: TIME_SQLPi=0.12 сек., TIME_SQLP2=0.3 сек., TIME_SQLP3=0.1 сек. Ставилась задача порівняння швидкостей виконання
запитів у кожній з трьох серій згідно методиці перевірки статистичних гіпотез. Отримані результати обчислень показали, що швидкість виконання запитів у індексованій таблиці у середньому значимо більше швидкості виконання запитів у неіндексованій таблиці. За основний критерій ефективності розробки информаційної бази було вибрано об'єм пам'яті, що займається на жорсткому диску.
Розроблено алгоритми пошуку даних у базі даних класифікації діагнозів. Особливістю даного класу задач є необхідність глобального сканування всієї інформації предметної області, що міститься у БД.
Задамо кодове поле KLT логічного типу (True/False), що визначає, чи є даний термін провідним або уточнюючим. Поставимо у відповідність ПТ значення True, а УТ - False. Задамо поле адреси термінів ADR як поле типу "Лічильник” що містить послідовні унікальні номери, маючі значення "Довге ціле" починаючи з 1. Якщо адреса ПТ KLTn дорівнює ADR(n), то адреса наступного ПТ KLTn*i визначається по формулі:
ADR (п+1+jn), де jn - кількість УТ UTTm для ПТ KLTn, а адреса попереднього провідного терміну KLTn-i визначається по формулі:
ADR(n-1-jn.i), де jn-i - кількість УТ UTTm для ПТ KLTn.i.
Розглянуто задачі знаходження назви захворювання NZq2 та його коду у АП при наступних умовах:
1. Введений термін - провідний та містить код захворювання.
2. Введений термін - провідний та не містить код захворювання.
3. Введений термін - уточнюючий.
Коректно сформулювати назву захворювання у відповідності з МКБ складно навіть досвідченому лікарю. Тому розширимо область пошукові значень по фонетичній близькості. Це досягається за рахунок того, що на вихі/ будуть подаватись всі терміни, у пошукових образах яких є дане словс (словосполучення) або група символів.
Рішення першої задачі можна розглядати, як окремий випадок загально задачі знаходження назви захворювання. У цьому випадку формула (4) маг
зигляд:
NZq2 = KLT„ (5)
Для рішення другої задачі необхідно знайти всі УТ, що відносяться до зведеного провідного, по слідуючому алгоритму:
Крок 1. Ввести ПТ KLTn.
Крок 2. Визначити відповідну йому адресу ADR(n).
Крок 3. Перейти на наступний запис KLTn+i.
Крок 4. Перевірити поле коду відповідності KSTqn. Якщо KSTqn дорівнює True, то перейти до Кроку 5. Інакше повторити Крок 3.
Крок 5. Визначити адресу знайденого ПТ ADR (n+1+jn).
Крок 6. Вивести всі jn УТ UTTmn, адреси яких знаходяться у діапазоні від значення, отриманого у Кроці 2, до значення, отриманого у Кроці 5.
Крок 7. Вибрати з списку УТ необхідний.
Крок 8. Визначити його код KRZ4Ln.
Крок 9. Провести конкатенацію ПТ та УТ по формулі (4).
Крок 10. Вивести назву захворювання.
Для рішення третьої задачі запропонований слідуючий алгоритм:
КрОК 1. ВвеСТИ УТ UTTmn.
Крок 2. Визначити відповідний йому код KRZ4u.
КрокЗ. Перейти на попередній запис KLTn.i.
Крок 4. Перевірити поле коду відповідності KSTqjn и- Якщо воно містить значення True, то перейти до Кроку 5. Інакше повторити Крок 3.
Крок 5. Визначити адресу ADR(n-1-jn-i) знайденого ПТ KLTn-i-Крок 6. Провести конкатенацію ПТ та УТ по формулі (4).
Крок 7. Вивести назву захворювання.
Якщо номер чьотирьохзначної підрубрики дорівнює ”8" або "9" пропонується слідуючий алгоритм:
КрОК 1. ВвеСТИ УТ UTTrm.
Крок 2. Визначити відповідний йому код KRZ4Ln
Крок 3. Якщо код містить 5 термінальних символів, то перейти до Кроку
4, інакше перейти до Кроку 9.
Крок 4. Визначити значення останнього символу коду KRZ4i.n.
Крок 5. Якщо останній символ коду чьотирьохзначної рубрики має значення" 8" або" 9" то перейти до Кроку 6, інакше перейти до Кроку 9.
Крок 6. Перейти до попереднього запису.
Крок 7. Якщо код попереднього запису не містить 3 термінальних символа, то перейти до Кроку 6, інакше перейти до Кроку 8.
Крок 8. Провести конкатенацію назви трехзначної та чьотирьохзначної рубрик по формулі (3).
Крок 9. Вивести назву захворювання.
Запропоновано також алгоритми для визначення діапазону уточнюючих термінів по відомому провідному та для пошуку множини кодів по введеному.
У четвертому розділі викладені основні принципи об'єктно-орієнтованого підходу до розробки систем наукових досліджень. Приводиться опис структури доступу до даних систем Microsoft Access 2.0 та Visual Basic 4.0 Professional Edition: динамічний набір, статичний набір з послідовним доступом, Recordset.
Показані етапи проектування систем, виникаючі проблеми і способи їх вирішення. Приведено опис функціональних елементів інтерфейсу, об’єднаних кпасом-контейнером Form. Наприклад, інтерфейс підсистеми запитів дозволяє у інтерактивному режимі створювати запити на вибірку даних з таблиць шляхом надання користувачеві вікна запиту по зразку (QBE).
Розглянуто застосування технології' зв'язування та встроювання об’єктів при побудові інтерфейсу в системах наукових досліджень. Кожна підсистема може виступати як клієнт, або як сервер OLE 2.0, що дозволило створити гнучкий комунікаційний транспортний механізм для спільного використання даних декількома користувачами.
Основна структура інтерфейсу системи збору медичних даних для наукових досліджень приведена на малюнку 4.
Підсистема
запитів
Підсистема соціально -демографічних даних
Підсистема щ анамнестичних Щ даних рі Підсистема діагностичних даних Підсистема т клініко - І лабораторних || даних
\
Класифікатор діагнозів
Підсистема даних по тимчасовій непрацездатності
Підсистема обліку та контролю тимчасової непрацездатності
ШШ1Ш
Малюнок 4 - Структура інтерфейси системи збору медичних даних.
ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ
1. Проведено аналіз моделі подання медичних даних у світі загальної теорії баз даних.
2. Запропоновано методику та алгорітми формалізованого подання семантичної медичної інформації.
3. Розроблено алгорітми зберігання та пошуку даних, розміщених за алфавітно - гніздовим способом.
4. Розроблено алгорітми пошуку та введення у базу даних семантичної медичної інформації.
5. Запропоновано спосіб автоматизованої обробки семантичної медичної інформації та видачі медичної статистичної звітності;
6. Запропоновано застосування технології зв'язування та встроювання об’єктів при побудові інтерфейсу в системах наукових досліджень.
7. На основі результатів дисертаційної роботи розроблені і впроваджені
такі програмні системи: автоматизована інформаційна система "АРМ лікаря-дослідника дерматовенеролога", автоматизована інформаційна система з діагностики професійно обумовлених алергодерматозів на стадії предхвороби та їх профілактиці. '
Основний зміст дисертації опубліковано у таких роботах:
1. Солошенко Е.М., Чікіна H.A., Доільніціна Л.П., Співак О.В Автоматизовані системи контролю захворювання аллергодерматозарлуї у робітників хіміко - фармацевтичного виробництва. // Шостий згіз/ дерматовенерологіє України. Тез. доп. - Харків, 1992. - С.20.
2. Солошенко Э.Н., Чикина Н.А., Мануйлова A.M., Доильницина Л.П. Спивак A.B. Использование автоматизированной информационной системь управления лечебным процессом больных аллергодерматозами. II Тез докл. Укр. НПК "Метагигиена - 93”. - Киев, 1993. - С.15.
3. Солошенко Э.Н., Чикина H.A., Спивак А.В. Автоматизированные информационные системы для диагностики профессиональнс обусловленных аллергодерматозов на стадии предболезни. II Тез. докп Международ. НТК "MicroCAD-SYSTEM'93”. - Харьков, 1993. - С.243.
4. Кутько И.И., Мануйлова А.М., Чикина НА, Спивак А.В Автоматизированная диагностическая система по распознаваник депрессивных состояний. II Тез. докл. Международ. НТК "MicroCAD'94". Харьков, 1994. - С.147.
5. Чикина H.A., Спивак A.B. Автоматизированная информационна;
система для проведения профосмотров "ПРОФ-О". II Тез.докл. Международ. НТК “MicroCAD’94”.- Харьков, 1994. -С.158.
6. Спивак A.B. Применение адаптивной информационно-поисковой
системы при медицинском мониторинге лиц с повышенным риском развития аллергических заболеваний II Тез. докл. Укр.НПК "Метагигиена - 94".- Киев, 1994. - С.91. .
7. Спивак A.B., Руденко О.Г. Адаптивная информационно-поисковая система для проведения мониторинга лиц с повышенным риском развития аллергических заболеваний // Тез. докл. Международ. НТК “MicroCAD'95". - Харьков, 1995. - С. 147.
8. Спивак A.B. Адаптивная информационно-поисковая система для проведения медицинского мониторинга II Тез. докл. Международ. НТК "MicroCAD’96”. - Харьков, 1996. - С. 150.
АНОТАЦИЯ
Спивак A.B. Алгоритмическое и программное обеспечение систем подготовки данных в автоматизированых системах научных исследований. Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 - Автоматизация научных исследований, Харьковский государственный технический университет радиоэлектроники, Харьков, 1996.
Диссертационная работа посвящена разработке и использованию нестандартных методов сбора и хранения семантической медицинской информации, а также исследованию новых методов и аппаратнопрограммных средств построения интерфейса в автоматизированных системах научных исследований. Осуществлено внедрение предложенных методов и алгоритмов при разработке и программной реализации различных программных систем.
ANNOTATION
Spivak A.V. Algorithmic and software of systems of preparation given in
automatized systems of scientific researches. The dissertation to receive of scientific degree of the candidate of technical sciences on a speciality 05.13.06 Automation of scientific researches, Kharkov state technical university < radioelectronics, Харьков, 1996.
The dissertation is devoted to development and use of non-standard methoc of the tax and storage of the semantic medical information, and also research c new methods and hardware-software means of construction of the interface і automated systems of scientific researches. Introduction of offered methods an algorithms is carried out at development and programm realization of variou programm systems.
Ключові слова: бази даних, реляційна модель, алфавітно-гніздови спосіб, об’єктно-орієнтоване програмування, мова структурованих запитів SQI технологія зв'язування та встроювання об'єктів (OLE).
-
Похожие работы
- Моделирование сложных систем на основе распределенных алгоритмических сетей
- Автоматизированный синтез алгоритмических структур систем управления
- Автоматизация разработки алгоритмических моделей на основе алгоритмических сетей
- Алгоритмические и программные средства оценки состояний и параметров в системах управления технологическими процессами прокатки
- Исследование инклинометрических преобразователей с трехкомпонентными магнитометрами в программно управляемых магнитных полях
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность