автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах
Автореферат диссертации по теме "Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах"
На правах рукописи
Волокитина Евгения Сергеевна
МЕТОД И АЛГОРИТМЫ ГАРАНТИРОВАННОГО ОБЕЗЛИЧИВАНИЯ И РЕНДЕНТИФИКАЦНИ СУБЪЕКТА ПЕРСОНАЛЬНЫХ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Специальность: 05.13.19 - Методы и системы защиты информации, информационная безопасность
Автореферат диссертации на соискание учёной степени кандидата технических наук
18 АПР ¿и13
Санкт-Петербург 2013
005057612
Работа выполнена на кафедре «Комплексная защита информационных систем» ФГБОУ ВПО «Юго-Западный государственный университет».
Научный руководитель: академик МАН ВШ, доктор физико-математических наук, профессор Добрицп Вячеслав Порфнрьевич
Официальные оппоненты: Суханов Андрей Вячеславович доктор технических паук, доцент. Закрытое акционерное общество «ЭВРИКА», заместитель директора по научной работе.
Лукьянов Сергей Геннадьевич
кандидат технических наук, доцент, ООО «Научный центр прикладной электродинамики», координатор по организации научно-производственного процесса.
Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Брянский государственный технический университет».
Защита диссертации состоится «10» апреля 2013 г. в 15-50 часов на заседании диссертационного совета Д 212.227.05 при ФГБОУ ВПО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» по адресу: 97101, Санкт-Петербург, Кронверкский пр., д. 49.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». Автореферат разослан «05» марта 2013 г.
Ученый секретарь
диссертационного совета Д 212.227.05 кандидат технических наук, доцент
Поляков В.И.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования
В настоящее время технические средства позволяют производить сбор хранение, обработку, передачу и распространение, а также обеспечение информационно» безопасности больших объемов социально значимых сведений, необходимых для эффективного функционирования государственных механизмов, протекания общественных процессов, а также реализации прав человека. Постоянно ускоряющаяся информатизация общества и активное развитие открытых информационных систем значительно упрощают утечку и иные формы незаконного доступа к персональным данным субъектов, что делает задачу обеспечения оезопасности информации от внешних и внутренних угроз хищения, разрушения и/или модификации особо актуальной.
Одним из способов защиты, с точки зрения законодательства, является обезличивание, так как оно позволяет устранить объект атаки.
Применение метода обезличивания персональных данных (ПДн), то есть действий, в результате которых у оператора становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных позволяет снизить требования к информационным системам персональных данных (ИСПДн), что ведет к снижению затрат и, с другой стороны обеспечивает безопасность персональных данных н" согласуется требованиями Федерального закона от 27 июля 2006 года ЛЧ52-ФЗ «О персональных данных».
Согласно требованиям законодательства Российской Федерации по обезличенным данным должна отсутствовать возможность восстановить принадлежность персональных данных субъекту персональных данных без использования дополнительной информации, к которому они относились до обезличивания. Практика показывает, что удаление части персональных данных недостаточно для того, чтобы было невозможно идентифицировать личность человека. Иногда по оставшимся данным, используемым в совокупности, можно повторно определить человека, т.е. при обезличивании данных существует риск повторной идентификации (pende нтификации).
Поэтому разработка практического метода и алгоритмов гарантированного обезличивания персональных данных, повышение их надежности и эффективности составляют актуальную проблему, имеющую большое научное и практическое значение.
Па современном этапе развития автоматизированной обработки баз, содержащих персональные данные, существует объективное противоречие между необходимостью использования обезличивания персональных данных с целью снижения затрат на построение и защиту систем, содержащих персональные данные и возможностью реидентификации субъекта персональных данных по обезличенным данным.
Данное противоречие обуславливает актуальность темы диссертационного исследования и свидетельствует о- необходимости комплексного и системного изучения норм права и современных технических возможностей, средств и систем обработки данных, касающихся института персональных данных, с целью разработки метода и алгоритмов обезличивания и повторной идентификации субъекта ПДи, позволяющих снизить требования по обеспечению безопасности персональных данных в соответствии с законодательством, а также выработки механизмов снижения затрат малого бизнеса и бюджета страны.
В связи с вышеизложенным, научно-техническая задача гарантированного обезличивания персональных данных и реиндентификации субъекта персональных данных в автоматизированных информационных системах.
Объектом исследования являются информационные системы обработки персональных данных и технологические процессы обработки персональных данных в них.
Предметом исследования являются метод и алгоритмы обезличивания персональных данных в автоматизированных информационных системах и реидеитификации субъекта персональных данных после применения методов обезличивания.
Целью раооты является разработка метода и алгоритма гарантированного обезличивания персональных данных и реидентификации субъекта персональных данных по обезличенным данным, позволяющего снизить финансовые затраты при обеспечении безопасности ПДн, обрабатываемых в информационных системах,..на-.основе -комплексного анализа существующих методов обезличивания персональных данных и проверка возможности реидентификации субъекта после их применения.
Поставленная научная задача предполагает решение следующих частных задач:
1. анализ действующего законодательства для изучения .состояния вопроса обезличивания персональных данных и установки границ требований к разрабатываемому методу и алгоритму обезличивания и реидентификации персональных данных, анализ научных предпосылок решения задачи гарантированного обезличивания персональных данных, путем разработки формальной постановки задачи обезличивания и последующей реидентификации субъекта персональных данных;
2. разработка математической модели обезличивания персональных данных
3. разработка модели процесса оценки невозможности повторной идентификации субъекта по обезличенным данным или реидентификации с целью оценить риски и достаточность набора идентификаторов и способов обезличивания;
4. разработка способа идентификации субъекта персональных данных по обезличенным данным;
5. разработка алгоритмов гарантированного обезличивания персональных данных и реидентификации субъекта персональных данных;
6. разработка метода гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах
7. экспериментальная проверка разработанного метода и алгоритмов обезличивания персональных данных;
Методы и средства исследования
Основой для создания и исследования разработанных алгоритмов является использование общенаучных методов: анализа и синтеза, методов математической логики и теории алгоритмов, теории вероятностей и математической статистики, математического моделирования.
Обоснованность и достоверность научных положений, основанных на выводах и результатах диссертации, обеспечивается тщательными исследованиями в данной области и подтверждаются согласованностью результатов, полученных при компьютерной реализации разработанного метода и алгоритмов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, а также государственной регистрацией патента на полезную модель и государственной регистрацией программы для ЭВМ.
Научная новизна результатов работы и положения, выносимые на защиту:
1. Математическая модель обезличивания персональных данных, обладающая свойством универсальности, поскольку может быть использована для обезличивания разных наборов данных, и являющаяся расширяемой за счёт возможности добавления новых параметров в модель обезличивания и отличающаяся от существующих моделей обезличивания персональных данных в информационных системах многофакторностью, что позволяет учитывать три основных параметра обезличивания -идентификаторы персональных данных в ИСПДн, метод обезличивания и его возможные результаты обезличивания. Разработанная модель позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, на основе ранее определённого перечня обрабатываемых идентификаторов (п. 13 паспорта 05.13.19).
2. Модель процесса оценки возможности повторной идентификации субъекта по обезличенным данным или реидентификации позволяет оцепить риски и достаточность набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных на основе ранее определённого набора данных, участвующих в обезличивании и способов деперсонализации (п. 10 паспорта 05.13.19).
3. Способ идентификации субъекта персональных данных по обезличенным данным позволяет снизить вероятность использования чужого внешнего идентификатора, за счёт ввода в систему устройства санкционирования
доступа. В случае идентификации субъекта, для проверки принадлежности внешнего носителя физическому лицу, отправляется код подтверждения на устройство санкционирования доступа. Физическое лицо вводит код подтверждения после этого система идентифицирует субъекта персональных данных. Применение устройства санкционирования доступа в системе позволяет достичь более высокого уровня надежности идентификации физического лица и понизить вероятность использования внешнего носителя несанкционированным пользователем системы (п.15 паспорта 05.13.19).
4. Алгоритм обезличивания персональных данных с применением хеширования данных и алгоритм реидентификашш субъекта персональных данных, что позволяет эффективно проверить соответствие набора обезличенных данных и данных внешнего носителя, высчитав снова значение хеш-функции для данных, расположенных на внешнем носителе и в записи БД (п. 13 паспорта 05.13.19).
5. Метод гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах по обезличенным данным, благодаря чему достигается соблюдение требований к обеспечению уровня защищенности информационной системы, в которой находятся персональные данные и оптимизация затрат на построение системы защиты ИСГТДи (п.13 паспорта 05.13.19).
Практическая значимость
Построение формальной модели обезличивания и реидентификации субъекта по обезличенным персональным данным в автоматизированных информационных системах на основании предлагаемых метода и алгоритмов, позволяющих увеличить надежность процесса обезличивания персональных данных, в формировании практических выводов и рекомендаций по повышению безопасности обрабатываемых данных.
Разработанные в диссертации метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах реализованы в виде программного обеспечения. Их программная реализация может быть использована при применении процедуры обезличивания различных загружаемых баз данных, содержащих персональные данные, как в государственных организациях, так и в коммерческих предприятиях и реидентификации субъекта персональных данных по обезличенным данным.
Реализация и внедрение.
Результаты диссертационного исследования внедрены в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Юго-Западный государственный университет», ООО «ТЕХНО-ЩИТ» и ОБУ Информационно-аналитический центр Курской области с целью выполнения требований Федерального закона №152-ФЗ «О персональных данных» и обеспечения
конфиденциальности обрабатываем ых персональных данных в автоматизированных системах персональных данных.
Соответствие паспорту специальности.
Содержание диссертации соответствует п. 10 «Модели и методы оценки эффективности систем (комплексов) обеспечения информационной безопасности объектов защиты», п. 13 «Принципы и решения (технические, математические, организационные и др.) по созданию новых и совершенствованию существующих средств защиты информации и обеспечения информационной безопасности», п. 15 «Модели и методы управления информационной безопасностью» паспорта специальности 05.13.19 - Методы и системы защиты информации, информационная безопасность.
Апробация работы.
Основные положения диссертационной работы докладывались и получили положительную оценку на следующих конференциях: Всероссийская научно-техническая конференция студентов, аспирантов и молодых ученых (Томск, 2009), Инновации, качество и сервис в технике и технологиях (Курск, 2009), Информационно-измерительные, диагностические и управляющие системы (Курск, 2009), П Региональная научно - практическая конференция (Брянск, 2010), VI Международная научно-практическая конференция (Томск, 2010), 16-ая Международная научно-техническая конференция «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций. 4-6 октября 2010 г.» (Рязань, 2010), Всероссийская научно-техническая конференция студентов, аспирантов и молодых ученых «Инновации и актуальные проблемы техники и технологий» (Саратов, 2010), II Международная Научно-техническая конференция «Днагностика-2011» (Курск, 2011), III Региональная научно-практическая конференция (Брянск, 2011), IV Региональная научно-практическая конференция (Брянск, 2012), а также на научных семинарах кафедры «Комплексная защита информационных систем» ЮЗГУ с 2008 по 2012 гг.
Публикации. По результатам диссертационной работы опубликовано 14 печатных работ, из них 3 - в рецензируемых научных журналах и изданиях, которые входят в утвержденный ВАК Минобрнауки РФ
«Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные- научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук», 1 - в сборнике коллективных монографий, 10 - материалы докладов на международных и всероссийских научных научно-технических и научно-практических конференций. 1 патент на полезную модель и ФГУ ФИПС-РОС ПАТЕНТ, 1 свидетельство о регистрации программы для ЭВМ в ФГУ ФИПС-РОСПАТЕНТ. Список основных публикаций приведен в конце автореферата.
Личный вклад автора.
Все выносимые на защиту результаты получены автором лично. В монографии «Наука и техника» [4] - автором разработана модель обезличивания и проверки невозможности реидентификации субъекта по обезличенным персональным данным.
Оформлен патент на полезную модель № 121618 Система идентификации субъекта персональных данных по обезличенным данным (Заявка: 2011139879/08, от 30.09.2011 г.) и свидетельство о государственной регистрации программы для ЭВМ №2012618282 КЕТОЕКТ. Программа для обезличивания персональных данных (Заявка .N22012615890 от 12.07.2012 г.). Зарегистрировано в Реестре программ для ЭВМ 12 сентября 2012 г.
Объем и структура диссертации.
Диссертация содержит введение, пять глав, заключение, список литературы, приложения. Работа изложена на 123 страницах машинописного текста и включает 35 рисунков, 5 таблиц, список литературы из 96 наименований и 3 приложения.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована актуальность выбранной темы диссертационной работы, сформулированы цели и задачи исследования, научная новизна и практическая ценность полученных результатов, представлена структура диссертации и основные положения, выносимые на защиту.
В первой главе проведен анализ информационных систем персональных данных и систематизированы основные методы обезличивания персональных данных. Также представлен анализ объекта исследования и постановка задачи на разработку метода и алгоритмов обезличивания персональных данных. В настоящее время вопрос минимизации затрат по обеспечению безопасности персональных данных является актуальной задачей операторов персональных данных. Обезличивание персональных данных является одним из подходов к оптимизации перечня мер, применяемых для защиты ПДн, не требующих внедрения дополнительных сертифицированных технических пли программных средств.
Обезличивание персональных данных - действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных.
Таким образом, для обезличивания данных необходимо определить совокупность каких данных из существующего набора позволяет однозначно определить субъект персональных данных.
Во второй главе разработана модель обезличивания и проверки невозможности реидентификации субъекта по обезличенным персональным данным
Разработанная математическая модель обезличивания персональных данных обладает свойством универсальности, поскольку может быть
использована для обезличивания разных наборов данных, и является расширяемой за счёт возможности добавления новых параметров в модель обезличивания. Модель предусматривает возможность как текстового, так и графического изображения. Модель может быть представлена в формализованном виде при помощи математического аппарата теории графов.
В отличие от существующих моделей обезличивания персональных данных в информационных системах она характеризуется многофакторностью, что позволяет учитывать три основных параметра обезличивания - идентификаторы персональных данных в ИСПДн, метод обезличивания и его возможные последствия.
Математическая модель обезличивания персональных данных базируется на следующих трёх основных множествах: V - множество идентификаторов персональных данных в ИСПДн (набор персональных данных), А -множество методов обезличивания и С - множество обезличенных данных.
Для описания взаимосвязи между элементами множеств А , V и С определено тернарное отношение XV:
— АХУ ХС (1)
Принадлежность элемента (а,У,с) отношению XV , где а е К,се С, интерпретируется следующим образом: «Обезличивание, реализуемое оператором методом а путем выбора идентификатора V , и приводящее к обезличенному набору данных с».
Созданная математическая модель обезличивания ПДн представлена в виде графа
С=(Ь,Е) (2)
где I - множество вершин графа, а Е - множество дуг графа. Для графа О определено отношение:
ГсЕх!Г (3)
Которое каждой дуге из множества Е ставит в соответствие один или более элементов отношения Использование отношения Т позволяет интерпретировать каждую дугу графа О как один из этапов моделируемого обезличивания. При этом в отношении Т одной дуге ее £ может соответствовать одновременно несколько элементов множества только при условии, что эти элементы обозначают обезличивание, приводящие к одним и тем же последствиям. В каждую вершину графа в может входить одновременно несколько дуг только при условии, что в отношении Т каждой такой дуге соответствуют элементы множества V/ , описывающие действия обезличивания, которые приводят к одинаковым последствиям. Таким образом, вершины графа в могут объединять различные этапы обезличивания персональных данных, приводящие к идентичным последствиям.
На рис. 1 показан пример графа в , описывающего произвольное обезличивание, а также отношение Т , которое определяет этапы обезличивания, моделируемые при помощи дуг графа О .
(Ыс^с!)), с,)),
(е5,(сг^с^),
(
Рис. ] - Пример взвешенного графа С , описывающего процесс обезличивания над произвольным набором идентификаторов
Граф б , изображённый на рис. 1, представляет собой модель обезличивания персональных данных, успешная реализация которой приводит к последствию се С.
Структура графа й позволяет определить все возможные сценарии действий оператора в моделируемом процессе обезличивания. Формально сценарии проведения обезличивания представлены множеством возможных путей в графе С - Ср., где каждый путь >;/, € С,р представляет собой последовательность дуг (ери ер1, ..., е„„) вида ^ =(/„//),/,.,/. 6 ¿при этом конечная вершина дуги ерк одновременно является начальной вершиной дуги ерМ. В качестве начальной вершины пути могут выступать такие вершины / 6 графа О , полустепень захода которых равна 0. Конечной же вершиной пути может являться только такая вершина / , полустепень исхода которой равна 0.
Наличие всех свойств представленной выше модели позволяет сделать вывод о том, что использование разработанных моделей позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, опт(шизируя перечень обрабатываемых идентификаторов.
Процесс оценки невозможности реидентификации субъекта по обезличенным данным делится на следующие основные этапы, представленные на рис. 2.
1. Выделение всех идентификаторов, находящихся в
информационной системе персональных данных ---
2. Определение идентификаторов, необходимых для
обработав ИСПДн_
3. Определение набора идентификаторов, участвующих в
процессе обезличивания данных --
4. Определение способов обезличивания - ^ _
5. Оценка возможности реидентификации субъекта после _процесса обезличивания __
[.............бГОцеика вероятности реидентификации суОъекта по •
1_ обезличенным данным___
7. Расчет достаточности набора идентификаторов и способов _ обезличивания __
Рис. 2 - Этапы оценки невозможности реидентификации субъекта по обезличенным данным
Все этапы процесса оценки невозможности реидентификации субъекта по обезличенным данным могут выполняться как самостоятельно оператором, гак и при участии специалистов в области информационной безопасности.
В третьей главе разработан метод и алгоритмы обезличивания и последующей реидентификации персональных данных.
Для этого была разработана модель гарантированного обезличивания и оценки невозможности последующей реидентификации персональных данных.
Её особенностями являются:
- применение системы гарантированного обезличивания персональных данных до установки системы;
- в качестве объекта обезличивания рассматривается не изолированная ИСПДн, а ЛС плюс метод обезличивания данных АС (МОД АС), плюс сама ИСПДн
Гарантированное обезличивание встраивается в начальный этап создания ИСПДн и системы, поэтому такая модель названа проектной моделью гарантированного обезличивания персональных данных (ПМГОД).
Можно выделить четыре группы функций АС + МОД АС в аспекте обезличивания ПДн в ИСПДн.
Первая группа (группа проектирования) содержит функции проектирования и организации системы персональных данных. Вторая группа функций (нормального функционирования) обеспечивает надежность функционирования, третья (отражения угроз) выполнение обнаружения и минимизации угроз реидентификации субъекта ПДн. Четвертая группа
функций (ликвидации вероятности деструктивных воздействий) обеспечивает минимизацию вероятности повторной идентификации физического лица.
В совокупности все эти функции обеспечивают гарантированное обезличивание ПДн на всех стадиях жизненного цикла ИСПДн. Вектор угроз (VT) воздействует на структурную матрицу системы (CMC) и приводит к деструктивным воздействиям (DR).
VT х CMC = DR (4)
Необходимо минимизировать DR. Это возможно если усилить все компоненты структуры, которые включают АС + МОД АС + ИСПДн. Это определяет необходимость усиления этого комплекса на этапе проектирования. Отсюда следует, что ПМГОД является наиболее стойкой к внешним угрозам реидентификации физического лица. Построение ПМГОД включают следующие этапы:
1. Процедура обезличивания персональных данных 1.1 .аудит персональных данных;
1.2.расчет необходимого объема данных для обезличивания;
1.3.выбор метода (способа) обезличивания;
1.4.расчет затрат на обезличивание.
2. Процедура реидентификации субъекта персональных данных
2.1.расчет возможности восстановления;
2.2.выбор способа реидентификации;
2.3.расчет затрат на процедуру реидентификации.
Для обеспечения реализации способа обезличивания персональных данных требуется выполнение следующих действий:
1. Введение дополнительного поля, содержащего уникальный идентификационный ключ. Данный уникальный идентификационный ключ, присутствующий в обеих БД, должен быть записан на внешний носитель, который будет находиться у физического лица. Данная ОБД ИСПДн! должна быть расположена на ПЭВМ сети организации.
2. Создание из исходной базы данных обезличенную базу данных (ОБД) путём удаления всех однозначно идентифицирующих данных.
3. Дополнение полем индивидуального номера телефона устройства санкционирования доступа на базе устройства с SIM-картой физического лица.
Графическое представление способа идентификации субъекта персональных данных по обезличенным данным представлено на Рис. 3. В способе описываются следующие блоки:
1. Блок ввода
2. Блок регистрации, содержащий устройство считывания уникального персонального обезличенного идентификатора физического лица с внешнего носителя,
3. Блок обработки ИСПДн I, обеспечивающий идентификацию субъекта персональных данных в обезличенной базе данных с использованием
уникального персонального обезличенного идентификатора физического лица
4. Внешний носитель с уникальным идентифицирующим номером
5. Устройство санкционирования доступа на основе устройства с 81М-картой
6. Блок обработки ИСПДн2.
Рис.3 - Система идентификации субъекта персональных данных по обезличенным данным
При обращении физического лица с целью получения услуг, он предъявляет на блок регистрации 2 информационной системы персональных данных ИСПДн1 внешний носитель 4. Система, получив уникальный идентификационный номер, сопоставляет его с записью в обезличенной базе данных. Из данной записи система извлекает номер телефона устройства санкционирования доступа 5, соответствующий найденной записи и отправляет код подтверждения доступа на данный номер. Физическое лицо, получив код доступа, вводит полученный код в поле блока ввода 1. При совпадении сгенерированного кода системой, отправленного физическому лицу и кода введенного для подтверждения идентификации, субъект идентифицируется системой и ему оказывается услуга.
При необходимости определить ФИО физического лица происходит обращение к ИСПДн2 по уникальному идентификационному номеру. Организации-оператору необходимо произвести соответствие данных пользователя с оказанными услугами, используется блок обработки 6 ИСПДн2. Так как подсистемы физически не связаны, то для сопоставления необходимо на накопителе перенести ОБД ИСПДн! на блок обработки 6.
Соответствие осуществляется на основе уникального идентификационного номера физического лица, который присутствует в обоих базах данных.
Предлагаемый способ идентификации субъекта персональных данных по обезличенным данным позволяет снизить вероятность использования чужого внешнего идентификатора, за счёт ввода в систему устройства санкционирования доступа. В случае идентификации субъекта, для проверки принадлежности внешнего носителя физическому лицу, отсылается код подтверждения на устройство санкционирования доступа. Физическое лицо вводит код подтверждения и только тогда система идентифицирует субъекта персональных данных. Применение устройства санкционирования доступа в системе позволяет достичь более высокого уровня надежности идентификации физического лица и понизить вероятность использования внешнего носителя несанкционированным пользователем системы.
При применении данного способа идентификации субъекта персональных данных по обезличенным данным, появляется возможность оказывать услуги населению без опасности кражи базы данных злоумышленником, а также позволяет организации, как оператору персональных данных, выполнять требования Федерального закона от 27 июля 2006 года Лл>152-Ф3 «О персональных данных» и снизить затраты организации при обработке персональных данных физических лиц за счет использования системы, обеспечивающей идентификацию субъекта персональных данных по обезличенным данным, включающую уникальный идентификационный ключ, содержащий встроенную микросхему с индивидуальным кодом, и устройство санкционирования доступа на базе устройства с 81М-картой и индивидуальным номером.
Для реализации метода обезличивания персональных данных необходимо разработать алгоритм обезличивания базы данных с ПДн.
Существует база данных - образец, которой соответствует некоторый набор полей данной БД, необходимо провести обезличивание по однозначно идентифицирующим данным.
В общем случае представленные действия можно выразить алгоритмом, представленным на рис 4.
I
V
A
Pnc.4 - Алгоритм создания обезличенной БД из БД, содержащей персональные данные
Рассмотрим более подробно действие номер 3 - «Обезличивание базы данных». Для его выполнения необходимо определить однозначно идентифицирующие субъекта ПДн персональные данные. Далее необходимо принять решение выбора способа обезличивания:
• Замена части сведений идентификатором;
• Понижение точности некоторых сведений;
• Маскирование ПДн;
• Хеширование;
• и другие.
1. Алгоритм с применением хеширования данных
Рассмотрим более подробно алгоритм обезличивания с применением хеширования данных.
В работе использовался алгоритм хеширования SHA-2 (англ. Secure Hash Algorithm Version 2) для обезличивания базы данных, содержащей идентифицирующую субъекта ПДн информацию.
Исходное сообщение после дополнения разбивается на блоки, каждый блок — на 8 слов. Алгоритм пропускает каждый блок сообщения через цикл с 64-мя или 80-ю итерациями (раундами). На каждой итерации 2 слова из восьми преобразуются, функцию преобразования задают остальные слова. Результаты обработки каждого блока складываются, сумма является значением хеш-функции.
Использование SHA-2 подразумевает, что все переменные беззнаковые, имеют размер 32 бита и при вычислениях суммируются по модулю 232.
э-
(Ч',©Л>)
Рис.5 - Схема одной итерации алгоритмов 8НА-2
Рис.б - 8НА-2 последовательность шагов обработки сообщения
8НЛ-256 использует шесть логических функций, при этом каждая из них выполняется с 32-битными словами, обозначенными как а, Ь, с, е, Г, и g. А х - блок данных. При этом © - определяет операцию логического сложения по модулю 23\ Результатом каждой функции тоже является 32-битное слово.
(5)
(6) (7)
СЬ (е, £ £) = (е л 0 ® (.—>е л g) Ма] (а, Ь, с) = (а л Ь) © (а л с) Ф (Ь л с) £ о {256} = !ЮТР.2 (а) © КОТЯ13 (а) © 1ЮТК22 (а)
X1 {256} = ИОТЯб (е) Ф КОТК11 (е) Ф ЯОТЯ25 (е)
о0{256} (х) = ЯОТЯ7 (х) © КОТЯ18 (х) Ф вНЯЗ (х)
а1 {256} (х)= ЯОТЯ17 (х) Ф ГШТЯ19 (х) Ф БИЯН) (х)
(Я)
(9) (Ю)
В этом случае инициализируются восемь 32-битных переменных, которые послужат промежуточным значением хэш-кода: а, Ь, с, <3, е, £ g, Ь. Основой алгоритма является модуль, состоящий из 64 циклических обработок каждого блока МП):
Т1=Ь + £1 {256} + СЬ(е, £ §) + Ю{256} + (11)
Т2= {256} + Ма] (а, Ь, с)
(12)
где K¡{256} - шестьдесят четыре 32-битных константы, каждая из которых является первыми 32-мя битами дробной части кубических корней первых 64 простых чисел.
Wt вычисляются из очередного блока сообщения по следующим правилам:
Wt = Mt(i) 0 < t < 15 (13)
Wt = al{256} (Wt-2) + Wt-7 + ст0{256} (Wt-15) + Wt-16
(14)
16<t<63
i-oe промежуточное значение хэш-кода H(t) вычисляется следующим образом:
H0(i) =a + H0(i-l) (15)
IIl(i) =b + Hl(¡-l) (16)
H2(i) = с + H2(i-1) (17)
H3(i) =d + H3(i-l) (18)
H4(i) = e + H4(i-1) (19)
H5(i) =f+H5(i-l) (20)
H6(¡) =g + H6(i-l) (21)
H7(i) =h + H7(i-l) (22)
Применение хеширования для проведения процедуры обезличивания БД, содержащей персональные данные, заключается в следующем: в существующей базе данных определяется, какие идентификаторы позволяют однозначно определить субъекта персональных данных. Далее осуществляется работа с полями, содержащими такие идентификаторы. Работа выполняется циклически для каждой записи БД. Начинается работа с первой строкой (записью). Создается текстовая переменная, которая будет включать в фиксированной последовательности значения однозначных идентификаторов, а затем значения и всех остальных идентификаторов данной записи.
Высчитываем хеш-значение данной переменной. Далее происходит создание отдельного файла, куда последовательно переносим все однозначные идентификаторы, при этом каждую ячейку, данные из которой будут перенесены, или обнуляется или по требованию пользователя -накладываем маску на значение. Повторяем данные действия для всех строк (записей) базы данных.
На рнс.7 графически представлен алгоритм обезличивания с применением вычисления хеш-функции.
Содержанке поля Содержание поля ' 2. 4''. 3 Содержание поля •:
N
1
Дм» с.фднюимир оврмждиимяимн идентификаторами Вес остальные поля с нл*нтцФ|»о>тор»ми
Ж -й- л л л ж
2. Генерация
ьп'лшйщвлшаз
щ щ
1 ...... 1г ч» Записей 1
■ - 4 1 СгЯ ерЖшне.'. * Содержанке поля • . Содержание ноля N , ; Случайнее -П!сл6
1 ; 4 -
твани"
П
>г
О. Хеширование оссП аяинсн
Содержание поля
■•'. 1 'У-' N Функции
Повторение для в
^алисейБД
Рис. 7- Алгоритм обезличивания с применением вычисления хеш-
функции
Применение данного алгоритма эффективно, так как для последующей работы с БД можно будет проверить соответствие набора обезличенных данных и данных внешнего носителя, просчитав снова хеш-функцию для данных, расположенных на внешнем носителе.
2. Алгоритм реидентификации субъекта персональных данных
В случае проведения реидентификации субъекта персональных данных работа осуществляется с уже обезличенной базой данных. Субъект предоставляет внешний носитель с файлом, содержащим однозначные идентификаторы и хеш-значение. Алгоритм заключается в создании текстовой переменной, которая будет включать в фиксированной последовательности значения однозначных идентификаторов (с внешнего носителя субъекта персональных данных), а затем и добавления к ним последовательно всех остальных значений идентификаторов первой записи БД, включая случайное число. Высчитывается хеш полученной переменной. Далее сравнивается полученное хеш-значение и хеш-функция, записанная на носитель пользователя. Если значения хеш-функций совпадут - данная запись является искомой. При модификации какого-либо поля значение хеш-функции пересчитывается и перезаписывается на внешний носитель субъекта ПДн.
На рис.8 графически представлен алгоритм реидентификации с применением вычисления хеш-функции.
Внешни и носитель субъекта ПДн
л
Значение хеш- Содержание поля Содержание ноля
функции ,1 ^ N
Л с
Запись БД А
Содержание ноля ■ : ' 1 Содержание поля N Свучайк<>? «укяо
спответсттл'ет
cv6i.ci.tv [гдн
Повторение для ШеЛутощей эапнсп
Рис. 8-Алгоритм реидеитификации субъекта персональных данных
Применение данного алгоритма эффективно, так как позволяет найти соответствие хранимых в базе данных обезличенных данных и сопоставить субъекту персональных данных, предъявившему внешний носитель.
Без предъявления субъектом ПДн внешнего носителя только по обезличенным данным, содержащимся в БД невозможно реидентифицировать субъекта ПДн.
Программное обеспечение ЛЕГОЕМТ, описанию которого посвящена четвертая глава, разработано под руководством автора. ПО представляет собой программную среду, предназначенную для реализации алгоритмов обезличивания базы данных, содержащей персональные данные.
Программное обеспечение {1ЕГОЕ1МТ реализует наиболее трудоемкую часть задачи обеспечения безопасности персональных данных -обезличивание базы с персональными данными. Программа также обеспечивает ввод исходных данных через графический интерфейс либо загрузки из файла и вывод результатов через графический интерфейс либо сохранение в файлы в определенной директории.
Ядром программы является процедура обезличивания набора данных, содержащего персональную информацию и процедура математической обработки, основным назначением которых является обработка входных данных и непосредственное решение задачи.
Таким образом, математическая обработка в разработанной программе заключается в применении процедуры хеширования и наложении маски или обнулении заданных позиций содержимого ячеек.
Программа ЮЗГОЕЫТ, реализующая разработанный алгоритм обезличивания персональных данных, может применяться любыми организациями-операторами, обрабатывающими персональные данные.
Алгоритм работы программы представлен на рис. 9.
Входные данные: множество идентификаторов ПДн, содержащихся в БД Г={П, ¡2, .... ¡>1}, где N - мощность множества всех идентификаторов ПДн, включающего подмножество идентификаторов, позволяющих однозначно идентифицировать субъекта ПДн Г={П, ¡'2, ..., ¡'М}. при этом М<Ы, где М -мощность подмножества идентификаторов, позволяющих однозначно идентифицировать субъекта ПДн и Г—{¡"1, ¡"2, ..., ¡"К}, при этом К=М-М. где К - мощность подмножества остальных идентификаторов. Множество Я={г1, г2, ..., гЬ}, где Ь - количество всех записи в БД.
При этом используются следующие обозначения: \ - идентификатор, принадлежащий множеству I.
а)
с
J
Определение I
Генерация случайного значения г;
Щ
: Конкатенация значений множеств Г, I" и
I Хеширование строки значений
Перенос значений множества Г и хеш-значения на внешний носитель
б)
Значения множеств Г, Г 1
Конкатенация значений множеств Г, I" и
Хеширование строки значений
-"Сравнение полученного хеша" С--- -„ хешем с внешнего носителя^..--""""
Идентификация выполнена
-. . * . . *—
__
Рис. 9 - Алгоритм работы программы ЯЕШЕОТ (а -обезличивания, б - реидентификации)
Достоинствами программы являются:
подтверждается
1. Уникальность разработанной программы свидетельством на программу.
2. Программное обеспечение ЯЕГОЕМТ реализует предложенный автором алгоритм обезличивания - алгоритм обезличивания с применением хеширования данных и алгоритм повторной идентификации субъекта по предъявленному им файлу, расположенному на внешнем носителе.
3. Разработанное программное обеспечение ЯЕГОЕНТ позволяет оператору персональных данных проводить обезличивание
персональных данных, что позволяет организациям снизить затраты на обеспечение безопасности информационных систем
4. Разработанное программное обеспечение 11ЕЮЕГ\ГГ позволяет оператору персональных данных проводить обезличивание персональных данных, в результате чего обеспечивается выполнение требований Федерального закона РФ от 27 июля 2006 года №152-ФЗ «О персональных данных».
В гааве 5 проводится экспериментальная проверка эффективности 'применения программного обеспечения, реализующего разработанный метод и алгоритм с соблюдением требования действующего законодательства. Проведенные исследования показали, что применение разработанного метода и алгоритмов обезличивания персональных данных в автоматизированных системах персональных данных организаций различных форм собственности позволяет снизить стоимость средств защиты и работ по обеспечению безопасности на 80 %. Это достигается за счет того, что пропадает необходимость использования шифровальных криптографических средств, а также их годового технического обслуживания, смены ключей шифрования и выполнения требований к помещениям при использовании криптографических средств.
В заключении сформулированы основные выводы и результаты работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ:
Итогом диссертационной работы являются следующие научные и практические результаты:
!. Автором изучена проблема гарантированного обезличивания персональных данных в соответствии с Федеральным законом РФ от 27 июля 2006 года №152-ФЗ «О персональных данных» в автоматизированных информационных системах и последующего восстановления субъекта по обезличенным данным или реидентификации.
2. Разработана математическая модель обезличивания персональных данных. Она может быть использована для обезличивания разных наборов данных, и является расширяемой за счёт возможности добавления новых параметров в модель обезличивания. Разработанная модель позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, работая с заданным набором обрабатываемых идентификаторов.
3. Создана модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным или реидентификации позволяет оценить риски и достаточность набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных на основе ранее определённого набора данных, участвующих в обезличивании и способов деперсонализации.
4. Представлен способ идентификации субъекта персональных данных по обезличенным данным позволяет снизить вероятность использования чужого внешнего идентификатора, за счёт ввода в систему устройства санкционирования доступа. В случае идентификации субъекта, для проверки принадлежности внешнего носителя физическому лицу, отправляется код подтверждения на устройство санкционирования доступа. Физическое лицо вводит код подтверждения, после чего система идентифицирует субъекта персональных данных. Применение устройства санкционирования доступа в системе позволяет достичь более высокого уровня надежности идентификации физического лица и понизить вероятность использования внешнего носителя несанкционированным пользователем системы.
5. Разработан алгоритм обезличивания персональных данных с применением хеширования данных и алгоритм реидентификации субъекта персональных данных, что позволяет эффективно найти соответствие набора обезличенных данных и данных внешнего носителя, высчитав значение хеш-функции для данных, расположенных на внешнем носителе и в записи БД.
6. Метод гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах, благодаря чему достигается снижение сложности по обеспечению уровня защищенности информационной системы, в которой находятся персональные данные и оптимизация затрат на построение системы защиты информационной системы персональных данных.
7. Разработанно программное обеспечение ЯЕГОЕМТ, реализующее метод обезличивания с использованием алгоритма обезличивания с применением хеширования данных и алгоритм реидентификации субъекта по обезличенным данным.
Результаты внедрения программного обеспечения кЕГОЕЫТ, реализующего метод обезличивания с использованием алгоритма обезличивания с применением хеширования данных и алгоритм реидентификации субъекта по обезличенным данным, были охарактеризованы значительным сокращением материальных и временных ресурсов на приведение ИСПДн удовлетворяющих требованиям российского законодательства в области обеспечения безопасности персональных данных и защиты информации в целом, а также исключением ежегодных затрат по техническому обслуживанию.
Основные публикации по теме диссертации
Статьи в рецензируемых журналах, рекомендованных ВАК РФ:
I. Волокитина Е.С. Способ идентификации субъекта персональных данных по обезличенным данным // «Вопросы современной науки и практики. Университет им. В. И. Вернадского». Тамбов: Ассоциация «Объединенный университет им. В.И. Вернадского», 2012. -352 е., С.61-65
2. Волокитима Е.С. Проектная модель обезличивания и проверки невозможности последующей реидентификацпи персональных данных // В МИРЕ НАУЧНЫХ ОТКРЫТИЙ. Красноярск: Научно-инновационный центр, 2011 №12 (Математика. Механика. Информатика) . - 260 е., С.222-228
3. Волокитина Е.С. Алгоритмы анонимизации базы данных, содержащей персональные данные И В МИРЕ НАУЧНЫХ ОТКРЫТИЙ. Красноярск: Научно-инновационный центр, 2012. № 8(32) (Математика. Механика. Информатика) . - 244 е., С. 22-38.
Монографии:
4. Волокитина Е.С. Модель обезличивания и проверки невозможности реидентификации субъекта по обезличенным персональным данным // Наука и техника: монография. / отв. Ред. Я.А. Максимов. — Красноярск: Научно-инновационный центр, 2011 - 182 е., С. 28-42 (УДК 001.2)
Патенты:
5. Система идентификации субъекта персональных данных по обезличенным данным. Патент на полезную модель № 121618 // Волокитина Е.С. - зарег. в реестре заявок на выдачу патента Российской Федерации на полезную модель Федеральной службы по интеллектуальной собственности, патентам, товарным знакам (РОСПАТЕНТ) от 30.09.2011,Заявка: 2011139879/08.
Зарегистрированные программы:
6. RE1DENT. Программа для обезличивания персональных данных. Свидетельство о государственной регистрации программы для ЭВМ №2012618282 // Волокитина Е.С. - зарег. в реестре программ ЭВМ Федеральной службы по интеллектуальной собственности, патентам, товарным знакам (РОСПАТЕНТ) от 12.09.2012.
Публикации в других изданиях, включая труды международных научно-технических конференций, основные из которых следующие:
7. Волокитина Е.С. Модель угроз информационной безопасности персональных данных // Научная сессия ТУСУР-2009. Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых 12-15 мая 2009 г. В 54: Ч.З Тематический выпуск: «Системная интеграция и безопасность», 2009. - 392 е., С. 249-251.
8. Волокитина Е.С. Методология и технические средства защиты персональных данных // Инновации, качество и сервис в технике и технологиях. 4.1. Курск, 2009 . 224 е., С.54-57.
9. Волокитина Е.С. Методы реализации угроз информационной безопасности персональных данных // Информационно-измерительные, диагностические и управляющие системы. 4,1. Курск, 2009. -219 е.. С.40-43.
10. Волокитина Е.С. Некоторые проблемы реализации Федерального закона от 27.07.2006 №152-ФЗ «О персональных данных» // Региональные проблемы защиты персональных данных. Материалы II Региональной научно - практической конференции. Брянск, 2010. — 58 е., С. 11.
11. Волокитима Е.С. Реидеитификация персональных данных и методы предотвращения раскрытия информации // Материалы докладов VI Международной научно-практической конференции 13-16 октября 2010 г. В 24: 4.2 «Электронные средства и системы управления», Томск, 2011. — 178 е., С, 52-54.
12. Волокитима Е.С. Метод маскирования информации для обеспечения безопасности персональных данных // Материалы 16-ой Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций. 4-6 октября 2010 г.». Рязань, 2010.-220 е., С.45-46.
13. Волокитииа Е.С. Методы обезличивания персональных данных и риски их применения // Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Инновации и актуальные проблемы техники и технологий», Том 1, Саратов, 2010.-352 е., С. 260,261.
14. Волокитииа Е.С. Применение хэш-функции и псевдо-шифрации для обезличивания хранимых персональных данных // Материалы II Международной Научно-технической конференции «Диагностика-2011». Курск', 2011.-348 е., С. 125-128.
15. Волокитииа Е.С. Особенности общедоступности персональных данных // Региональные проблемы исполнения ФЗ №152 «О персональных данных»: материалы III Региональной научно-практической конференции/ под ред. В.И. Аверченкова. -Брянск: БГТУ, 2011. - 43с., С. 11-13.
16. Волокитииа Е.С. Алгоритм анонимизации базы данных с персональными данными // Сборник материалов IV Региональной научно-практической конференции/ под ред. В.И. Аверченкова. - Брянск: БГТУ, 2012.-67 е., С. 13-15.
Подписано в печать 01.03.2013 г. Формат 60x84 1/16. Печ. л. 1.25. Тираж 100 экз. Заказ Юго-западный государственный университет.
Издательско-полиграфический центр Юго-западный государственный университет 305040, г. Курск, ул. 50 лет Октября, 94
Текст работы Волокитина, Евгения Сергеевна, диссертация по теме Методы и системы защиты информации, информационная безопасность
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Юго-Западный государственный
университет»
МЕТОД И АЛГОРИТМЫ ГАРАНТИРОВАННОГО ОБЕЗЛИЧИВАНИЯ И РЕИДЕНТИФИКАЦИИ СУБЪЕКТА ПЕРСОНАЛЬНЫХ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ
Специальность:
05.13.19 — Методы и системы защиты информации, информационная
безопасность
На правах рукописи
04201355772
Волокитина Евгения Сергеевна
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: академик МАН ВШ, доктор физико-математических наук, профессор Добрица Вячеслав Порфирьевич
Курск-2013
Содержание
ВВЕДЕНИЕ..............................................................................................................6
1. АКТУАЛЬНОСТЬ РЕШЕНИЯ ЗАДАЧИ ОБЕЗЛИЧИВАНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ.............................................................................13
1.1. Анализ объекта исследования и постановка задачи на разработку метода и алгоритмов обезличивания персональных данных...........................13
1.2. Состояние вопроса обезличивания персональных данных....................18
1.3. Анализ существующих методов обезличивания персональных данных....................................................................................................................20
1.4. Задачи исследования...................................................................................28
1.5. Выводы по первой главе.............................................................................29
2. ПОСТРОЕНИЕ МОДЕЛИ ПРОЦЕССА ОБЕЗЛИЧИВАНИЯ И ПРОВЕРКИ НЕВОЗМОЖНОСТИ РЕИДЕНТИФИКАЦИИ СУБЪЕКТА ПО ОБЕЗЛИЧЕННЫМ ПЕРСОНАЛЬНЫМ ДАННЫМ.........................................30
2.1. Анализ существующих методов реидентификации по обезличенным персональным данным..........................................................................................30
2.2. Анализ существующих моделей информационной безопасности........33
2.3. Цели создания модели обезличивания персональных данных..............34
2.4. Принципы построения модели обезличивания персональных данных....................................................................................................................34
2.5. Основные компоненты математической модели обезличивания персональных данных...........................................................................................37
2.6. Модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным....................................................................41
2.7. Классификация объектов и субъектов модели гарантированного обезличивания персональных данных................................................................43
2.7.1. Описание объектов модели гарантированного обезличивания ПДн ..............................................................................................................43
2.7.2. Описание субъектов модели гарантированного обезличивания
ПДн ..............................................................................................................44
2
2.8. Выводы по второй главе.............................................................................44
3. РАЗРАБОТКА МЕТОДА И АЛГОРИТМОВ ОБЕЗЛИЧИВАНИЯ И ПОСЛЕДУЮЩЕЙ РЕИДЕНТИФИКАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ. 46
3.1. Математическая постановка задачи реидентификации субъекта по обезличенным персональным данным................................................................46
3.2. Способ идентификации субъекта персональных данных по обезличенным данным..........................................................................................49
3.3. Обезличивание как метод защиты персональных данных.....................56
3.4. Разработка алгоритмов анонимизации базы данных с ПДн и реидентификации субъекта ПДн.........................................................................58
3.4.1. Алгоритм с применением хеширования данных.....................................61
3.4.2. Алгоритм реидентификации субъекта персональных данных...............68
4.1. Выводы по третьей главе...........................................................................69
4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДА И АЛГОРИТМОВ ГАРАНТИРОВАННОГО ОБЕЗЛИЧИВАНИЯ И РЕИДЕНТИФИКАЦИИ СУБЪЕКТА ПЕРСОНАЛЬНЫХ ДАННЫХ.......................................................71
4.1. Требования к программной реализации...................................................71
4.2. Описание разработанного программного обеспечения..........................73
4.2.1. Графический интерфейс программы.........................................................74
4.2.2. Логика работы программы.........................................................................76
4.2.3. Процедура математической обработки.....................................................76
4.2.4. Описание работы программы....................................................................77
4.2. Выводы по четвертой главе.......................................................................87
5. ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА РАЗРАБОТАННОГО
МЕТОДА И АЛГОРИТМОВ ОБЕЗЛИЧИВАНИЯ ПЕРСОНАЛЬНЫХ
ДАННЫХ. ПРАКТИЧЕСКИЕ ПРЕДЛОЖЕНИЯ ПО ИСПОЛЬЗОВАНИЮ
МЕТОДА В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ
СИСТЕМАХ ПЕРСОНАЛЬНЫХ ДАННЫХ.....................................................88
5.1. Методика разработки метода оценки эффективности применения
алгоритмов обезличивания данных.....................................................................88
3
5.1.1. Цели и основные принципы метода оценки эффективности применения
алгоритмов обезличивания данных.....................................................................88
5.1.2. Задача многомерной группировки для оценки эффективности.............91
5.1.3. Метод подавления ячеек для оценки эффективности.............................98
5.2. Экспериментальная проверка эффективности разработанных алгоритмов.............................................................................................................99
5.2.1. Описание спектральной модели SLM.......................................................99
5.2.2. Метод накопленных частот......................................................................101
5.3. Практическое использование результатов работы................................103
5.3.1. Стоимость защиты информационной системы персональных данных ............................................................................................................106
5.3.2. Стоимость защиты информационной системы персональных данных при применении обезличивания........................................................................110
5.4. Выводы по пятой главе.............................................................................111
ВЫВОДЫ.............................................................................................................113
t
ЗАКЛЮЧЕНИЕ...................................................................................................115
СПИСОК ЛИТЕРАТУРЫ...................................................................................117
ПРИЛОЖЕНИЯ...................................................................................................124
Приложение 1. Руководство пользователя к программе REIDENT..............124
Приложение 2. Тексты исходного кода программы REIDENT......................139
Приложение 3. Акты о внедрении.....................................................................181
Список условных сокращений
АС - автоматизированная система; БД - база данных; БИ - безопасность информации; ЗИ - защита информации;
ИСПДн - информационная система персональных данных; ИТ - информационные технологии; МУ - модель угроз;
ОПДн - обезличенные персональные данные; ПДн - персональные данные; ПО - программное обеспечение; СЗИ - средства защиты информации; ТС - технические средства.
ВВЕДЕНИЕ
С распространением информационных технологий организации становятся все более зависимыми от информационных систем и услуг, а, следовательно, все более уязвимыми по отношению к угрозам безопасности [1]. В особенности это стало чувствительным для информационных систем, обрабатывающих персональные данные. В настоящее время технические средства позволяют производить сбор и обработку больших объемов социально значимых сведений, необходимых для эффективного функционирования государственных механизмов, протекания общественных процессов, а также реализации прав человека. Стремительное развитие информационных технологий дает возможность получать доступ и использовать различные банки данных. Постоянно ускоряющаяся информатизация общества и активное развитие открытых информационных систем значительно упрощают утечку [2, 3] и иные формы незаконного доступа к персональным данным субъектов, что делает задачу обеспечения ее защиты особо актуальной и значимой как для российского, так и зарубежного законодательства и правовой доктрины.
Актуальность темы
Применение метода обезличивания персональных данных, то есть действий, в результате которых невозможно определить принадлежность персональных данных конкретному субъекту персональных данных позволяет снизить требования к информационным системам персональных данных, что ведет к снижению затрат и, с другой стороны, обеспечивает безопасность персональных данных и согласуется требованиями Федерального закона №152-ФЗ «О персональных данных».
Согласно требованиям законодательства Российской Федерации по
обезличенным данным должно быть невозможно восстановить
принадлежность персональных данных субъекту персональных данных без
использования дополнительной информации, к которому они относились до
обезличивания. Практика показывает, что удаление части персональных
6
данных недостаточно для того, чтобы было невозможно идентифицировать личность человека. Иногда по оставшимся данным, используемым в совокупности иногда можно повторно определить человека, т.е. при обезличивании данных существует риск повторной идентификации или реидентификации.
Поэтому разработка практических метода и алгоритмов гарантированного обезличивания персональных данных, повышение их надежности и эффективности составляют актуальную проблему, имеющую большое научное и практическое значение.
Вышеизложенное обуславливает актуальность темы диссертационного исследования и свидетельствует о необходимости комплексного и системного изучения норм права, касающихся института персональных данных, с целью восполнения пробелов действующего, в том числе информационного, законодательства.
Состояние научной разработки темы
Изучение степени проработанности темы показало, что в сфере
персональных данных в автоматизированных системах методологическая и
теоретическая база в настоящее время только формируется усилиями таких
ученых как Д.П. Зегждой, C.B. Черняевым, Е.Ф. Алёшкиным, A.A. Чеминым,
А.И. Костогрызовым, А.Ю. Щербаковым, В.В. Домаревым и другими.
Анализ существующих работ показал, что подавляющее большинство работ
посвящено исследованию обработки персональных данных, мерам защиты в
информационных системах персональных данных и их эффективности и,
следовательно, тематики обезличивания персональных данных касаются
лишь опосредованно. С другой стороны, имеющиеся в настоящий момент
научные проработки и способы обезличивания персональных данных не
лишены ряда недостатков, среди которых необходимо выделить: не
адекватное и не полное описание информационных процессов; слабую
формализацию методов, на основе которых создаются алгоритмы
обезличивания персональных данных, что ведет к их ненадежности и утечке
7
персональных данных; отсутствие алгоритмов. Все это приводит к отсутствию единых и достаточно универсальных подходов к решению задачи по обезличиванию персональных данных и последующей реидентификации субъекта персональных данных по обезличенным данным, согласно требованиям законодательства.
В этой связи на современном этапе развития автоматизированной обработки баз, содержащих персональные данные существует объективное противоречие между необходимостью использования обезличивания персональных данных с целью снижения затрат на построение и защиту систем, содержащих персональные данные и возможностью реидентификации субъекта персональных данных по обезличенным данным.
Данное противоречие предопределяет актуальную научную задачу -разработка метода и алгоритмов гарантированного обезличивания и реидентификации субъекта персональных данных.
Диссертационная работа на тему «Метод и алгоритмы гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах» призвана решить указанную выше научную задачу.
Объект исследования
Информационные системы обработки персональных данных и технологические процессы обработки персональных данных в них.
Предмет исследования
Метод и алгоритмы обезличивания персональных данных в автоматизированных информационных системах и реидентификации субъекта персональных данных после применения методов обезличивания.
Целью исследования является разработка метода и алгоритма
гарантированного обезличивания персональных данных и реидентификации
субъекта персональных данных по обезличенным данным, позволяющего
снизить финансовые затраты при обеспечении безопасности ПДн,
обрабатываемых в информационных системах, на основе комплексного
8
анализа существующих методов обезличивания персональных данных и проверка возможности реидентификации субъекта после их применения.
Поставленная научная задача предполагает решение следующих частных задач:
- анализ действующего законодательства для изучения состояния вопроса обезличивания персональных данных и установки границ требований к разрабатываемому методу и алгоритму обезличивания и реидентификации персональных данных, анализ научных предпосылок решения задачи гарантированного обезличивания персональных данных, путем разработки формальной постановки задачи обезличивания и последующей реидентификации субъекта персональных данных;
- разработка математической модели обезличивания персональных данных
- разработка модели процесса оценки невозможности повторной идентификации субъекта по обезличенным данным или реидентификации с целью оценить риски и достаточность набора идентификаторов и способов обезличивания;
- разработка способа идентификации субъекта персональных данных по обезличенным данным;
- разработка алгоритмов гарантированного обезличивания персональных данных и реидентификации субъекта персональных данных;
- разработка метода гарантированного обезличивания и реиндентификации субъекта персональных данных в автоматизированных информационных системах
- экспериментальная проверка разработанного метода и алгоритмов обезличивания персональных данных.
Исходными пунктами анализа являются:
- предположения о существовании информационных систем, использующих обезличенные персональные данные;
- предположения о потенциальной возможности определения субъекта персональных данных при частичном удалении персональных данных, что существенно снижает степень безопасности персональных данных.
Методологические подходы проведения исследования основаны на использовании общенаучных методов: анализа и синтеза, методов математической логики и теории алгоритмов, теории вероятностей и математической статистики, математического моделирования.
Границы исследования: информационные системы, содержащие персональные данные.
Научная новизна диссертационной работы определяется:
- исследована научная проблема обезличивания персональных данных, а также предложено ее решение;
- разработана математическая модель обезличивания персональных данных;
- построена модель процесса оценки невозможности повторной идентификации субъекта по обезличенным данным или реидентификации;
- разработаны алгоритмы: алгоритм анонимизации базы данных с ПДн с применением хеширования данных и алгоритм реидентификации субъекта по обезличенным данным;
- создан не существовавший ранее метод гарантированного обезличивания и реидентификации субъекта персональных данных в автоматизированных информационных системах.
Положения, выносимые на защиту: - Математическая модель обезличивания персональных данных, обладающая свойством универсальности, поскольку может быть использована для обезличивания разных наборов данных, и являющаяся расширяемой за счёт возможности добавления новых параметров в модель обезличивания и отличающаяся от существующих моделей обезличивания
персональных данных в информационных системах многофакторностью, что позволяет учитывать три основных параметра обезличивания идентификаторы персональных данных в ИСПДн, метод обезличивания и его возможные результаты обезличивания. Разработанная модель позволяет более продуктивно исследовать особенности моделируемого процесса обезличивания, следовательно, более эффективно строить информационные системы, на основе ранее определённого перечня обрабатываемых идентификаторов (п. 13 паспорта 05.13.19).
- Модель процесса оценки возможности повторной идентификации субъекта по обезличенным данным или реидентификации позволяет оценить риски и достаточность набора идентификаторов и способов обезличивания для получения гарантированно обезличенных данных на основе ранее определённого набора данных, участвующих в обезличивании и способов деперсонализации (п. 10 паспорта 05.13.19).
- Способ идентификации субъекта персональных данных по обезличенным данным позволяет снизить вероятность использования чужого внешнего идентификатора, за счёт ввода в систему устройства санкционирования доступа. В случае идентификации субъекта, для проверки принадлежности внешнего носителя физическому лицу, отправляется код подтверждения на устройство санкционирования доступа. Физическое лицо вводит код подтверждения после этого система идентифицирует субъекта персональных данных. Применение устройства санкционирования доступа в системе п�
-
Похожие работы
- Защита персональных данных в информационных системах методом обезличивания
- Обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей
- Методы и алгоритмы построения информационных систем персональных данных в защищенном исполнении
- Модели и алгоритмы управления процессом обработки персональных данных в вузе
- Методы и модели проектирования средств обеспечения безопасности в распределенных компьютерных системах на основе создания изолированной программной среды
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность