автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Модели управления процессом продаж на рынке недвижимости с помощью нечетких запросов к массивам текстовой информации
Автореферат диссертации по теме "Модели управления процессом продаж на рынке недвижимости с помощью нечетких запросов к массивам текстовой информации"
Селезнёв Константин Егорович
МОДЕЛИ УПРАВЛЕНИЯ ПРОЦЕССОМ ПРОДАЖ НА РЫНКЕ НЕДВИЖИМОСТИ С ПОМОЩЬЮ НЕЧЁТКИХ ЗАПРОСОВ К МАССИВАМ ТЕКСТОВОЙ ИНФОРМАЦИИ
Специальность 05.13.10 - управление в социальных и экономических
системах
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Воронеж - 2004
Работа выполнена в Воронежском государственном университете
Научный руководитель - доктор физико-математических наук,
профессор Артёмов Михаил Анатольевич
Научный консультант - кандидат технических наук, доцент
Воронина Ирина Евгеньевна
Официальные оппоненты: доктор технических наук, профессор
Цыганов Владимир Викторович,
кандидат технических наук, доцент Белецкая Светлана Юрьевна
Ведущая организация - Воронежская государственная
технологическая академия
Защита диссертации состоится « 15 » декабря 2004 г. в 1400 часов на заседании диссертационного совета К 212.033.01 при Воронежском государственном архитектурно-строительном университете по адресу:
394006, г. Воронеж, ул. 20-летия Октября, 84, ауд. 20, корп. 3.
С диссертацией можно ознакомиться в библиотеке Воронежского государственного архитектурно-строительного университета.
Автореферат разослан «14 » ноября 2004 г.
Ученый секретарь диссертационного сове га
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Бурное развитие рынка недвижимости повлекло за собой резкое увеличение количества компаний, предоставляющих риэлторские услуги, что привело к обострению конкурентной борьбы и повышению требований по уровню, скорости, удобству и качеству обслуживания клиентов. Взаимодействие с каждым клиентом включает в себя, во-первых, поиск, рассмотрение и обсуждение актуального предложения рынка недвижимости, во-вторых, оформление всех юридических документов в случае осуществления сделки. Успешность работы всего предприятия зависит от качества выполнения первого этапа, эффективное проведение которого требует многократной обработки всего массива актуальных предложений рынка, а при оценивании объектов недвижимости — ещё и анализа текущего состояния рынка, сложившейся сегментированности рынка и установившихся цен в каждом сегменте.
Существенное увеличение скорости и качества выполнения всех перечисленных действий требует разработки и внедрения системы поддержки принятия решений (СППР), предоставляющей возможности анализа информации о текущем состоянии рынка недвижимости. Важным требованием к СППР является необходимость анализа данных, представленных в виде неформализованных текстов, источником которых служат различные специализированные средства массовой информации.
Таким образом, актуальность диссертационной работы определяется необходимостью разработки математических и алгоритмических моделей функционирования СППР риэлторского предприятия, а также разработку программной архитектуры, пригодной для практической реализации системы.
Цели и задачи исследования. Целью диссертационной работы является разработка обобщённых математических моделей и принципов функционирования СППР риэлторского предприятия, которая существенно позволяет повысить эффективность обслуживания клиентов фирмы.
Для достижения указанной цели в работе решались следующие основные задачи:
- анализ методов обработки неформализованных текстов, оценивания объектов недвижимости и сегментирования рынка недвижимости;
- разработка модели автоматизированного извлечения структурированной информации об актуальных предложениях рынка недвижимости из неформализованных текстовых документов;
- разработка модели поиска предложений на рынке недвижимости, удовлетворяющих заданным нечётким условиям;
- разработка математической модели оценивания объектов недвижимости на основе метода продаж и содержимого базы данных СППР;
- разработка математической модели задания и автоматизированного сегментирования рынка недвижимости.
Методы исследования. Выполненные исследования базируются на использовании методов математического моделирования, теории принятия решений, теории графов, методов оптимизации, вычислительной лингвистики, теории синтаксического анализа, нечеткой логики, теории реляционных баз данных, численных методов и программирования. Общей методологической основой является системный подход.
Научная новизна заключается в следующих результатах:
- разработана модель автоматизированного анализа текстовых документов, позволяющая извлекать структурированную информацию об актуальных предложениях рынка недвижимости из неформализованных тестов, применимая в других предметных областях;
- разработана модель задания и выполнения запросов, позволяющих указывать нечёткие условия поиска информации;
- задача поиска предложений рынка недвижимости сформулирована как задача оптимизации;
- разработана модель оценивания объектов недвижимости на основе метода сравнения продаж и содержимого базы данных СППР, позволяющая учитывать сегментацию рынка;
- разработана математическая модель задания и автоматизированной сегментации рынка недвижимости, основанная на кластеризации журнала запросов и позволяющая формулировать описания сегментов в общеупотребительных терминах.
Достоверность научных результатов. Научные положения, теоретические выводы и практические рекомендации обоснованы корректным использованием математического аппарата, подтверждены вычислительными экспериментами на ЭВМ и оценкой работы созданного экспериментального программного обеспечения.
Практическая ценность работы непосредственно следует из поставленных задач исследования и заключается в следующих результатах:
- разработано экспериментальное программное обеспечения анализа текстовых документов и автоматизированного извлечения структурированной информации об актуальных предложениях на рынке недвижимости;
- предложен способ реализации модуля выполнения запросов, содержащих нечёткие условия, к реляционной базе данных;
- разработана программная архитектура и основные принципы построения СППР риэлторского предприятия.
Реализация результатов работы. Предложенная программная архитектура средств извлечения данных из неформализованных текстовых русскоязычных документов принята за основу при разработке средств наполнения информационного хранилища информационно-аналитической системы (ИАС) НЕВОД® 4.0, разрабатываемой ЗАО НПП "РЕЛЭКС". Произведено наполне-
ние экспериментальной базы данных, позволяющей провести оценку полученных математических моделей.
Созданное экспериментальное программное обеспечение апробировано в ООО "ЮПИКС. Недвижимость", и в данный момент ведётся обсуждение дополнительных требований (стоимость разработки системы, дизайн, пользовательский интерфейс и т.п.) к СППР риэлторского предприятия.
Полученные результаты диссертации используются в учебном процессе факультета прикладной математики, информатики и механики Воронежского госуниверситета при чтении следующих курсов: "Управление рисками", "Принятие решений" и "Методы представления знаний".
На защиту выносятся:
- модель автоматизированного извлечения структурированной информации об актуальных предложениях рынка недвижимости из неформализованных тестовых документов, применимая в других предметных областях;
- модель задания и выполнения запросов с нечёткими условиями;
- формализация задачи поиска наиболее интересных для клиента предложений рынка недвижимости;
- модель оценивания объектов недвижимости на основе метода сравнения продаж и содержимого базы данных СППР;
- модель задания и автоматизированной сегментации рынка недвижимости, основанная на кластеризации журнала запросов.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и совещаниях:
1. "Проблемы компьютерной лингвистики", г.Воронеж, май 17-18,2002
2. 10-ая Международная конференция "Математика. Компьютер. Образование", г. Пущино, январь 2003
3. 3-я региональная конференция "Информатика: проблемы, методологии, технологии ", г. Воронеж, февраль 12-13,2003
4. 4-я региональная конференция "Информатика: проблемы, методологии, технологии ", г. Воронеж, февраль 3-4,2004
5. Международная конференция "Образование, наука, производство и управление в XXI веке", г. Оскол, октябрь 20-22,2004
Публикации. Основные результаты диссертации опубликованы в 13 печатных работах, из них 10 работ выполнено самостоятельно. Личный вклад автора работах, опубликованных в соавторстве, состоит в следующем: в [2] автором предложен подход к визуализации семантических сетей данных; в [12] автором разработана программная архитектура комплекса, а также подсистемы анализа текстов и подсистемы выполнения запросов; в [13] автор обосновал возможность использования технологий автоматизированного анализа текстов для обработки резюме сотрудников.
Структура и объем работы. Материал диссертации изложен на 170 страницах машинописного текста. Диссертация состоит из введения, четырех глав,
выводов, списка литературы и приложений, содержит 21 рисунок, и 13 таблиц. Библиография включает 87 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы, формулируются цели и задачи исследования, научная новизна и практическая значимость работы.
В первой главе содержится анализ текущего состояния развития рынка недвижимости и роли риэлторских предприятий, осуществляющих взаимодействие с субъектами рынка, анализ актуального состояния рынка, поиск предложений, способных заинтересовать клиента, а если необходимо, то оценивание указанного объекта недвижимости и оформление всех необходимых документов при осуществлении сделки.
Повышение эффективности обслуживания клиентов требует автоматизации процесса анализа информации о текущем состоянии рынка недвижимости путём построения системы поддержки принятия решений (СППР). Выработка решений должна осуществляться на основе информации о текущем состоянии рынка, ранее проданных, продаваемых в данный момент объектах недвижимости, а также полного и максимально детализированного описания каждого объекта или предложения. Наиболее важным и регулярно обновляемым источником данных являются публикации текстовых объявлений в специализированных средствах массовой информации (СМИ).
Пользователями СППР являются, во-первых, сотрудники предприятия, осуществляющие взаимодействие с клиентами, во-вторых, обслуживающий персонал, отвечающий за настройку системы и загрузку актуальных данных.
В пункте 1.2 содержится анализ свойств и характеристик рынка недвижимости. Сложность и разветвлённостъ строения информации о предложении рынка, включающем сведения об одном или нескольких объектах, приводит к необходимости представлять содержимое базы данных СППР в виде семантической сети.
В тексте диссертационной работы отмечаются две особенности рынка недвижимости:
1. Любой операции предшествует долгое и тщательное планирование, а также анализ всех возможных последствий.
2. Каждая сделка имеет детальное и объективное обоснование, как со стороны продавца, так и со стороны покупателя, при этом, для описания свойств объектов все субъекты рынка оперируют одними и теми же общеупотребительными категориями.
Благодаря перечисленным особенностям рынка недвижимости выполняются два важных свойства рынка, определяющие маркетинговые технологии рынка, положенные в основу функционирования СППР:
1. Выделение сегментов основывается на указании объективных значений отдельных параметров предложений рынка, а описание каждого
сегмента является условием, состоящим из логических операций и ограничений на значения параметров объектов недвижимости.
2. Объекты с примерно одинаковой и достаточно высокой степенью соответствия характеристикам сегмента стоят примерно одинаковую цену.
В тексте диссертации проведён анализ основных методов оценивания объектов недвижимости, дана характеристика каждого метода и показано, что функционирование СППР может быть построено на основе метода сравнения продаж.
В пункте 1.3 показано, что СППР сотрудника риэлторского предприятия является системой "раскопки" текста (Text mining), и включает в себя модуль автоматизированного извлечения структурированной информации из неформализованных текстовых документов, базу данных и средства анализа содержимого базы данных, наиболее важными из которых являются:
1. Выполнение запросов к содержимому базы данных. Важным требованием к модулю выполнения запросов является необходимость задания нечетких условий на значения параметров объектов недвижимости.
2. Оценивание объектов недвижимости.
3. Автоматизированное сегментирование рынка.
В пункте 1.4 рассмотрена обобщённая схема обработки неформализованных текстов, включающая этап выделение слов и предложений, анализ отдельных слов, синтаксический анализ предложений и, в заключении, извлечение формализованной информации из текстовых документов.
В заключении главы сформулированы цели и задачи исследования.
Во второй главе рассмотрены математические модели функционирования СППР риэлторского предприятия, включая извлечение информации из текстовых документов, выполнение запросов, оценку объектов недвижимости и автоматизированное сегментирование.
Каждый неделимый элемент (лексема) исходного неформализованного текста представим в виде кортежа:
Элемент t определяет тип лексемы (слово или знак препинания), содержит символьное представление лексемы, наконец, D содержит дополнительную информацию о слове (принадлежность каким-либо словарям, морфологические характеристики и т.д.). Результат разбиения текста на отдельные неделимые элементы представляется в виде лексического графа, узлами которого являются кортежи вида (1), а направленные дуги показывают следование элементов в исходном тексте. Пример лексического графа приведён на рис. 1.
Определение слов - сокращений происходит на основе специального словаря сокращений, содержащего полные и сокращённые варианты написания слов. Для каждого найденного слова - сокращения происходит построение дополнительных узлов и дуг графа лексем. Отдельными предложениями исходного текста являются пути на графе лексем, начинающиеся сразу после предыдущего предложения и заканчивающиеся точкой, вопросительным или восклицательным знаком.
Кортежи вида (1) могут использоваться для представления условий, налагаемых на элементы исходного текста, при этом, может осуществляется проверка не только типа элемента текста, но и всех его параметров (морфологические характеристики слова, принадлежность различным словарям и т.д.). Формально, проверку условия можно представить как вычисление значения функции:
В формуле (2) аргументы функции являются кортежами вида (1), при этом Т содержит информацию о проверяемой лексеме, а С - о проверяемом условии. Текст диссертации содержит формальное задание функции (2).
В пункте 2.2 показано, что схема извлечения данных из неформализованных текстов должна включать в себя модель представления синтаксической структуры текста. Это свойство необходимо для последующего развития СППР и обработки произвольных неформализованных текстов.
В диссертации указан способ представления информации о синтаксической структуре предложений неформализованного текста в виде графа синтаксических связей:
SynKiSiJ.iL,)})
(3)
В формуле (3):
{Б,} - множество узлов графа, каждый из которых представим в виде (1);
{Ц} - множество дуг графа, каждая из которых представима в виде кортежа ЬЧ=(Р,,,<3Ч), где Рч и <3Ч — множества вопросов от одного слова к другому.
Если текст использует только специфические синтаксические конструкции (как это происходит в текстовых объявлениях из СМИ), то синтаксический граф предложений исходного текста получается в результате соединения стоящих рядом лексем. В противном случае, необходимо использование модуля синтаксического анализа отдельных предложений русского языка.
Что?
ЕН
Куда?
| Сущ, Ми ч
/ \
>| дому ► проведены газ | - ►] и | вода
Рис. 2. Пример графа синтаксических связей.
В диссертационной работе рассмотрены формальные условия, налагаемые на синтаксическую структуру. По аналогии с кортежами вида (1) синтаксические структуры предложения, заданные в виде (2), могут использоваться для представления информации об условии, налагаемом на синтаксическую структуру предложения. Задачу проверки, удовлетворяет ли синтаксическая структура предложения заданному условию, можно представить более формально в виде вычисления значения функции
Г 0, если Б удовлетворяет условию С
1 >0, если в не удовлетворят условию С
В диссертации рассматривается формальное задание функции №$(8,С) и функции №50(8,С), которая помимо выполнения условия С требует фиксированного порядка слов в S. В целом, с помощью (3) можно задавать практически любые условия на фрагменты исходного текста (указывая синтаксическое строение фрагмента, свойства отдельных элементов текста, вопросы от одного слова к другому и т.д.).
В пункте 2.3 содержится математическая формализация способа представления информации о предложения на рынке недвижимости в виде кортежа:
к=(1, и С„ Ть Мь Мь Мш.) (5)
9
В формуле (5):
I - множество узлов семантической сети;
L - множество дуг семантической сети;
F(I,L) - функция инцендегности узлов и дуг семантической сети;
С](1) - функция, возвращающая информационное наполнение узлов семантической сети;
Т,(1) - функция, возвращающая тип узлов семантической сети;
Tl(L) - функция, возвращающая тип (окраску) дуг семантической сети;
Mi - множество возможных типов узлов семантической сети;
Мс - множество возможных типов (окрасок) дуг семантической сети;
Мщ. - множество троек вида (I,J,L), где 1бТь JeTi, LeTL). Если (I,J,L)eMnL, то это значит, что узлы с типами I и J могут быть связаны ориентированной связью типа L.
Компоненты I, L, F(I,L), Q(I), Ti(I) и Tl(L) содержат информационное наполнение семантической сети, которое при фиксированных I, L, F(I,L), Tj(I) и Tl(L) представимо в виде вектора конечной длины. Множества Mi, ML и Мщ. содержат описание предметной области данных и задаются на этапе первоначальной настройки СППР. Пример семантической сета показан на рис. 3.
В тексте диссертации приведены формализации некоторых вспомогательных моделей работы с семантической сетью:
1. Проверка, имеют ли две семантические сети К и К. аналогичную структуру.
2. Задание ограничений на информационное наполнение семантической сети путём указания допустимого нечёткого значения информационного наполнения отдельных частей сети.
Альтернативный способ представления информационного наполнения семантической сети заключается в формировании кортежа:
Sem=(Nodes, Links) (6)
В формуле (6):
Nodes - множество, каждый элемент которого задаёт узел семантической сети и является кортежем вида Node^TbCj), где элемент TjsMi показывает тип узла семантической сета, a Q содержит сопоставленные с узлом данные.
Links - множество, каждый элемент которого задаёт связь между узлами семантической сети и является кортежем вида Lr=(Ii,Ji,TLn), где lie Nodes и ^е Nodes, а ТЪуеМщ,-
В формуле (7):
Буп^ - условие применения правила, заданное в виде синтаксического графа вида (3);
Бетл - структура формируемого фрагмента семантической сети, заданная в виде (6);
Меашя - функция информационного наполнения узлов семантической сети, которая в качестве аргументов принимает фрагмент синтаксической структуры исходного текста и узел из 8еша.
Со1огец - функция определения семантических окрасок слов исходного текста, которая в качестве аргумента принимает узел из SyntR.
На нижеследующем рисунке показан пример правила формализации.
11
Рис. 4. Пример правила формализации
Синтез фрагментов семантической сети на основе отдельно взятых правила формализации R (см. формулу(7)) и результата синтаксического анализа предложения Synt* (см. формулу(2)) происходит следующим образом:
1. Осуществляется поиск фрагментов SynteSynt*, которые удовлетворяют условию применения правила, т.е выполняется Fs(Synt, SyntR)=0 (см. формулу (3)).
2. Происходит синтез фрагмента семантической сети данных Sem, имеющего структуру, эквивалентную SemR.
3. Для каждого узла S,=(Ti,Ci)e Sem происходит определение информационного наполнения Q =MeansR(S,R,Synt), где S^S.ReSem
4. Для каждого SjeSynt происходит определение семантической окраски с помощью функции Colorsg,
В тексте диссертации рассмотрены формальные условия, при выполнении которых фрагмент семантической сети данных и установившиеся семантические окраски слов исходного текста являются результатом применения правила. Между синтезированными фрагментами семантической сети могут устанавливаться отношения порядка, пересечения, конфликта и вложенности. Общая семантическая сеть данных получается путём объединения неконфликтующих фрагментов. В тексте диссертации приведено определение каждого типа отношения между двумя фрагментами и дана формальная постановка задачи объединения двух фрагментов семантической сети данных в один.
Таким образом, на основе предложенных в пунктах 2.1-2.5 математических моделей происходит многоэтапная обработка текста, в результате которой полученная семантическая сеть помещается в базу данных СППР.
В пункте 2.6 рассматривается задание и выполнение запросов к базе данных СППР, каждый из которых представим в виде кортежа:
«НК^о) (8)
В формуле (8) элемент К<} задаёт структуру искомых фрагментов семантической сети данных и является кортежем вида (6) (при этом, его информационное наполнение никак не учитывается). Элемент №<} задаёт условие на информационное наполнение искомых фрагментов семантической сети и представим в виде дерева. Каждый узел Ре1Р<} может быть либо логической операцией над дочерними узлами, либо операцией проверки информационного содержимого. Во втором случае, узел Р не имеет дочерних узлов, но, содержит дополнительные параметры:
Кр - кортеж вида (6), задающий строение проверяемых частей искомых фрагментов семантической сети;
Эр - нечёткое значение, с которым сравнивается информационное наполнение частей фрагментов семантической сети. Е)р задано на множестве векторов конечной длины;
ОКр - отображение, ставящее каждому узлу из Кр в соответствие некоторый узел из
Соотношение между элементами запроса и искомыми данными показано на рис. 5.
С математической точки зрения, выполнение запроса заключается в построении нечёткого множества (с характеристической функцией ц(?(К)), которое в качестве универсума использует множество {К|} всех фрагментов семантической сети, имеющих указанную в запросе структуру Кд. Каждому узлу РеП^ может быть поставлено в соответствие нечёткое множество с характеристической функцией цР(К) и тем же самым универсумом {К|}. Вычисление характеристических функций цР(К) для каждого типа узла осуществляется следующим образом:
1. Если узел Р осуществляет проверку информационного наполнения фрагмента семантической сети, то цР(К) вычисляется следующим образом. На основе К, Кф КР и СКР происходит формирование проверяемого информационного наполнения, представимого в виде вектора конечной длины, который подаётся на вход характеристической функции нечёткого множества Ор. Полученное значение характеристической функции используется как результат вычисления цР(К).
2. Если узел Р является операцией "И", и имеет дочерние узлы Р1,...,Р„, то соответствующее ему нечёткое множество является пересечением нечётким множеств, соответствующих Р1,...,Р„, и цР(К)=тт(цР,(К),..., цР„(К)).
3. Если узел является операцией "ИЛИ", и имеет дочерние узлы Р;,.. .,Рц, то соответствующее ему нечёткое множество является объ-
13
единением нечётким множеств, соответствующих Р[,...,РП, и цР(К)=тах(цР,(К),..., цР„(К)).
4. Если узел Р является операцией отрицания, то он содержит только один дочерний элемент Р* и соответствующее ему нечёткое множество является отрицанием нечёткого множества дочернего узла, и цР(К)=1-цР*(К).
Характеристические функции отдельных узлов №<) могут видоизменяться (путём возведения в положительную степень) для указания более и менее важных условий запроса.
Семантическая сеть данных К
Фрагмент сети К* Фрагмент Кк
Поиск фрагментов семантической сети данных, имеющих указанное в запросе строение
Проверяются отдельные части найденных фрагментов семантической сети данных
Семантическая сеть К<з
вКг:
Проверяемые ты являются искомых фрагментов
частями 1
Проверяется информационное наполнение отдельных частей фрагментов семантической сети данных
Узел Р дерева условия
Семантическая сеть Кр
Нечёткое множество Г»?
Запрос <3
Рис. 5. Выполнение запроса к базе данных СППР
Пример задания запроса "ДВУХКОМНАТНАЯ КВАРТИРА ИЛИ ТРЁХКОМНАТНАЯ КВАРТИРА НА ВЕРХНЕМ ЭТАЖЕ" с нечётким ограничением "НА ВЕРХНЕМ ЭТАЖЕ" показан на рис. 6. Элементы Кк изображены в виде стрелок, направленных из правой части рисунке в левую.
Характеристическая функция множества-результата выполнения запроса равна характеристической функцией корневого элемента дерева условия. Полученная выборка данных содержит информацию о найденных предложениях
рынка (включая их цену р) и значения характеристической функции ц. Поиск наиболее интересного для клиента предложения рынка может быть сформулирован как задача оптимизации на полученном множестве пар (р,ц), при этом максимизируемая целевая функция линейно зависит от параметров и р.
Если предложения, полученные в результате выполнения запроса, не устраивают клиента, то может быть выполнен повторный запрос с другими условиями или другой функцией.
В пункте 2.7 рассматривается модель оценивания объектов недвижимости с учётом сегментации рынка. Каждый сегмент может быть описан в общеупот-ребимых понятиях рынка недвижимости, а следовательно формально представлен в виде запроса Q (см. формулу 8 ). Сегментирование рынка заключается в формировании конечного множества запросов, что может быть осуществлено экспертом и частично автоматизировано на основе анализа постоянно накапливаемого журнала выполнения запросов к базе данных СППР.
Семантическая беть Ко / 1 1 1 Дерево
комнатО 1 \ ! 1 !
\ X \ КВАРТИРА ( / V] \ 1 ) { 1 ч. 1 1 Лили РАВНО 3
1 / \ Д ЭТАЖ 1 Г-1 1 1 --1_____ 1 ХХи^
\ 1 3 ВЕРХНИЙ
Рис. б. Пример задания запроса
Сравнение двух запросов X и У из журнала заключается в вычислении метрики р(Х,У), значение которой показывает степень похожести X и У. Результат выполнения каждого запроса к базе данных СППР является нечётким множеством, заданным на множестве всех фрагментов семантической сети данных, которое, в свою очередь является подмножеством множества и*, состоящего из всех возможных комбинаций значений параметров предложений рынка. Метрика сравнения запросов задаётся следующим образом:
р(Х,У)=ри*(ЯХД¥) (9)
В формуле (9):
Х,У - сравниваемые запросы;
ЮСДУ - нечёткие множества, являющиеся результатом выполнения
запросов X и У к и*; ри' - множества сравнения нечётких множеств, заданных на и*.
С помощью построенной метрики может быть осуществлена кластеризация содержимого журнала и выявлены наиболее характерные запросы, которые берутся за основу при задании сегментации рынка.
В тексте работы показаны три модели определения цены объекта в заданном сегменте (}:
1. Точное определение: объект недвижимости X оценивается на основе множества {У} объектов из сегмента <3:
Р(Х)=ру, где р(Х,У)->тт (10) где У=(Му,Ру).
В формуле (10) р(Х,У) - метрика сравнения объектов недвижимости, которая вычисляется на основе значений Ц<3(Х), ц<3(У), а также отдельных характеристик объектов X и У. Наконец, ру — цена объекта У.
2. Средневзвешенная цена объекта недвижимости определяется по формуле:
Р(Х)=»Сру*Ч1Гу У£*у (11)
В формуле (11):
X - оцениваемый объект недвижимости; {У} - непустое множество объектов недвижимости, на основе которых происходит оценивание. Множество {У} может быть задано следующим образом:
р(Х,У)<р0
Значение константы р0 задаётся пользователем-экспертом на этапе настройки модуля оценивания квартир.
\уу - вес объекта У; У\уу>0 и может быть задано так: Л¥у=1-р(Х,У)/р0.
3. Неточное определение цены заключается в формировании нечёткого множества с характеристической функцией Цр(р), заданной на неот-
В пункте 2.8 рассмотрены основные вывода второй главы.
В третьей главе рассмотрены алгоритмы, лежащие в основе функционирования СППР риэлторского предприятия, и работающие на основе математических моделей, изложенных во второй главе.
В пункте 3.1 рассмотрены алгоритмы извлечения информации из неформализованных текстов, которые полностью повторяют общепринятую схему многоэтапной обработки текстов:
1. Алгоритм построения лексического графа работает на основе очереди, содержащей узлы графа, для каждого из которых указано положение в исходном тексте соответствующей ему лексемы. На каждой итерации
происходит анализ очередного узла, поиск последующей за ним лексемы (или нескольких лексем) и построение новых узлов и дуг графа. Определение последующей лексемы происходит с помощью недетерминированного конечного автомата.
2. Алгоритм поиска отдельных предложений исходного текста действует на основе алгоритма, производящего поиск путей от узла-начала предложения до узла-окончания предложения, который в последствии будет использован при поиске последующих предложений исходного текста.
3. Алгоритм извлечения информации из отдельного предложения осуществляет перебор всех правил извлечения информации, а также всех возможных вариантов применения каждого правила (т.е. фрагментов синтаксической структуры предложения, соответствующих условиям правила). Для каждого найденного варианта происходит синтез и информационное наполнение фрагмента семантической сети данных. В заключении работы алгоритма происходит определение отношений между всеми построенными фрагментами семантической сети.
4. Алгоритм анализа построенного множества фрагментов семантической сети и взаимодействия с пользователем, в результате чего происходит корректировка, подтверждение или отклонение части фрагментов семантической сети, а также построение единой семантической сети извлечённой информации.
В пункте 3.2 рассматриваются алгоритмы анализа информации, основой которых является выполнение запросов с нечёткими условиями. Показано, что может быть построен простейший алгоритм на основе поиска подграфов в графе, производящий рассчёт значений характеристической и целевой функции для каждого найденного фрагмента семантической сети. Низкая скорость работы, невозможность получения части выборки и сложность реализации делают построение СППР на основе простейшего алгоритма бессмысленной.
В тексте работы предложен алгоритм выполнения запросов к семантической сети, хранимой в реляционной базе данных, состоящий из трёх этапов:
1. На основе поданного запроса к семантической сети происходит формирование реляционного запроса, который учитывает структуру базы данных, строение искомых фрагментов семантической сети, и, наконец, нечеткие условия на информационное наполнение узлов семантической сети. Реляционный запрос осуществляет поиск фрагментов семантической сети данных, для которых значение характеристической функции (или целевой функции задачи поиска оптимального предложения рынка) лежит в указанном диапазоне.
2. Выполнение реляционного запроса средствами СУБД.
3. Для каждого найденного фрагмента семантической сети данных осуществляется вычисление точного значения характеристической функции.
4. Сортировка результата выполнения запроса.
В заключении пункта 3.2 показано, что вычисление метрики сравнения двух запросов сводится к численному интегрированию по непрерывным параметрам и суммированию до дискретным параметрам ограниченной функции нескольких переменных, равной модулю разности характеристических функций сравниваемых запросов. Вычисление значений метрики является основой любого алгоритма кластеризации, а следовательно, и алгоритма сегментирования рынка.
В пункте 3.3 содержатся основные вывода третьей главы.
В четвёртой главе рассматриваются вопросы практической реализации СППР, проиллюстрирована работа предложенных в диссертации математических моделей и приведены варианты дальнейших исследований.
В пункте 4.1 рассмотрена программная архитектура СППР риэлторского предприятия, полностью повторяющая внутреннее устройство систем раскопки текста. Приведена функциональность каждого модуля системы, и, в заключении, указаны сценарии работы различных пользователей СППР.
В пункте 4.2 проиллюстрирована работа предложенных во второй главе математических моделей:
1. Описание предметной области рынка недвижимости в терминах семантической сети данных
2. Пример содержимого базы данных.
3. Примеры задания словарей нечётких значений.
4. Пример выполнения запроса с нечёткими ограничениями.
5. Пример оценивания объекта недвижимости на основе имеющейся базы данных продаж.
6. Автоматизированное сегментирование рынка на основе примера журнала, состоящего из трёх запросов.
В пункте 4.3 указан экономический эффект внедрения СППР и возможные пути дальнейших исследований. Среди основных преимуществ использования СППР отмечены:
1. Сохранение затрат на персонал при увеличении объемов информации о предложения рынка недвижимости.
2. Эффективная выработка управленческих решений.
3. Существенное повышение скорости выработки решений.
4. Возможность быстрой и точной оценки объектов недвижимости.
Наиболее интересными вариантами продолжения исследований являются:
1. Использование предложенных моделей и алгоритмов извлечения информации в других предметных областях.
2. Разработка и встраивание модулей синтаксического анализа в предложенную схему извлечения данных.
3. Построение полноценной системы извлечения данных, реализованной в виде готового к применению программного продукта.
4. Использование предложенных моделей поиска оценивания в других предметных областях.
5. Разработка моделей прогнозирования цены.
В пункте 4.4 представлены основные выводы главы.
В заключении рассмотрены основные результаты работы:
1. Разработаны математическая и алгоритмическая модели автоматизированного анализа текста, позволяющие извлекать структурированные данные из тестовых документов. Результаты извлечения данных представляются в виде фрагментов семантической сети.
2. Разработано экспериментальное программное обеспечения анализа текстовых документов и автоматизированного извлечения структурированной информации об актуальных предложениях на рынке недвижимости.
3. Разработаны модели задания и выполнения структурированных запросов, позволяющих указывать нечёткие условия на значения отдельных параметров.
4. Разработана алгоритмическая модель выполнения запросов с нечёткими условиями, позволяющая использовать реляционные СУБД для хранения содержимого базы данных СППР риэлторского предприятия.
5. Разработана математическая модель оценивания объектов недвижимости, действующая на основе метода сравнения продаж. Отличительной чертой модели является возможность учёта заданной сегментации рынка.
6. Разработана математическая модель для представления сегментации рынка и проведения автоматизированной сегментации на основе журнала выполненных запросов к базе данных СППР. Отличительно чертой модели является описание каждого сегмента рынка в общеупотребительных терминах.
7. Разработана программная архитектура СППР риэлторского предприятия.
В приложениях рассмотрены модели синтаксического анализа, пригодные для развития функциональности СППР, и модели прогнозирования цены объектов недвижимости.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ
1. Селезнёв К.Е. Программные средства визуализации графов // Труды молодых учёных Воронежского государственного университета. Выпуск 2: Сб. науч. тр . / Воронеж, гос. ун-т.- Воронеж, 2000 .-С. 75-76.
2. Селезнёв К.Е., Борисов В.Л. Визуализация семантической сети // Открытые системы .- 2001 .- № 11 .-С. 55-58. (лично автором выполнено 2 с).
3. Селезнёв К.Е. Сравнение сложных объектов // Сборник трудов молодых учёных ВГУ: Сб. науч. тр . / Воронеж, гос. ун-т.- Воронеж, 2002.-С. 24-28.
4. Селезнёв К.Е. Разрешение конфликтов при работе самообучающихся систем // Теория конфликтов и её применения: Сб. науч. тр . / Воронеж гос. технол. акад.-Воронеж, 2002 .-С. 133-136.
5. Селезнёв К.Е. Построение моделей механических конструкций на основе анализа их текстового описания // Сборник трудов молодых учёных ВГУ: Сб. науч. тр. / Воронеж, гос. ун-т.- Воронеж, 2002 .-С. 138-146.
6. Селезнёв К.Е. Построение моделей механических конструкций на основе анализа их текстового описания // Проблемы компьютерной лингвистики :, Тез. докл науч.-практ. конф, Воронеж, 17-18 мая 2002 г.:-Воронеж, 2002.-С. 111-114.
7. Селезнёв К.Е. Синтаксический анализ предложений русского языка // Человек. Компьютер. Образование : Тез. докл науч.-практ. конф, Пущино, январь 2003 г.-Пущино, 2003.-С. 396-396.
8. Селезнёв К.Е. Синтез семантических сетей на основе анализа текстовой информации // Информационные технологии в науке и образовании : Тез. докл науч.-практ. конф, Воронеж, 12-13 февраля 2003 г.-Воронеж, 2003.-С. 145-147.
9. Селезнёв К.Е. Обработка текстов на естественном языке // Открытые системы.- 2003.- № 12.-С. 48-53.
10. Селезнёв К.Е. Извлечение информации из частично формализованных текстов // Информационные технологии в науке и образовании : Тез. докл на-уч.-практ. конф, Воронеж, 3-4 февраля 2004 г.-Воронеж, 2004.-С. 243-244.
11. Селезнёв К.Е. Системы извлечения данных из неформализованных текстовых документов // НТИ. Сер. 1. -2004. -№ 8. -С. 35-37.
12. Селезнев К.Е., Богданов Д.А. Архитектура и механизмы единого программного комплекса "Продажи недвижимости" // Образование, наука, производство и управление в XXI веке : Сб. науч. тр. / Старооскольск. фил-л Моск. гос. ин-та стали и сплавов.-Старый Оскол, 2004.-8 С. (лично автором выполнено 4с).
13. Богданов ДА, Селезнёв К.Е. Технология динамических назначений сотрудников на задания с учётом их актуальных личных характеристик // Образование, наука, производство и управление в XXI веке : Сб. науч. тр . / Старооскольск. фил-л Моск. гос. ин-та стали и сплавов.-Старый Оскол, 2004.4 С. (лично автором выполнено 2 с).
Подписано в печать 11.11.2004. Формат 60x84 1/16 Уч. - изд. л. 1,0 Усл.-печ. 1,1 л. Бумага писчая. Тираж 100 экз. Заказ №553
Отпечатано в отделе оперативной полиграфии Воронежского государственного архитектурно-строительного университета 394006, Воронеж, ул. 20-летия Октября, 84.
«23983
Оглавление автор диссертации — кандидата технических наук Селезнев, Константин Егорович
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ ОСНОВНЫХ ЗАДАЧ И ПРИНЦИПОВ РАБОТЫ СППР РИЭЛТОРСКОГО ПРЕДПРИЯТИЯ.
1.1 Предпосылки возникновения и актуальность задачи автоматизации риэлторской деятельности.
1.2 Анализ потребностей в автоматизированной обработке информации для риэлторской фирмы.
1.2.1 Основные понятия и свойства рынка объектов недвижимости.
1.2.2 Методы оценивания объектов недвижимости.
1.3 Обзор информационных систем предприятий.
1.3.1 Основные типы систем.
1.3.2 Основные принципы работы СППР риэлторского предприятия.
1.4 Методы анализа текстовой информации.
1.4.1 Обработка русскоязычных неформализованных текстов.
1.4.2 Выделение слов и предложений.
1.4.3 Анализ отдельных слов русского языка.
1.4.4 Синтаксический анализ.
1.4.5 Практические задачи обработки текстов.
1.5 Цели и задачи исследования.
ГЛАВА 2. РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ФУНКЦИОНИРОВАНИЯ СППР РИЭЛТОРСКОГО ПРЕДПРИЯТИЯ.
2.1 Модель представления результатов анализа отдельных элементов текста
2.2 Математическая модель синтаксической структуры предложения.
2.3 Представления данных в виде семантической сети.
2.4 Синтез фрагментов семантической сети.
2.5 Математическая модель извлечения данных.
2.6 Математическая модель запросов с нечёткими условиями.
2.7 Оценивание объектов недвижимости на основе метода сравнения продаж
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Селезнев, Константин Егорович
Актуальность темы. Бурное развитие рынка недвижимости повлекло за собой резкое увеличение количества компаний, предоставляющих риэлторские услуги, что привело к обострению конкурентной борьбы и повышению требований по уровню, скорости, удобству и качеству обслуживания клиентов. Взаимодействие с каждым конкретным клиентом состоит из двух этапов: во-первых, поиск актуального предложения рынка недвижимости, его рассмотрение и совместное обсуждение, и, во-вторых, оформление всех юридических документов в случае осуществления сделки. Эффективность работы всего предприятия зависит от качества выполнения первого этапа, успешное проведение которого требует многократной обработки всего массива актуальных предложений рынка, а при оценивании объектов недвижимости - ещё и анализа текущего состояния рынка, сложившейся сегментированности рынка и установившихся цен в каждом сегменте.
Существенное увеличение скорости и качества выполнения всех перечисленных действий требует разработки и внедрения системы поддержки принятия решений (СППР), предоставляющей возможности анализа информации о текущем состоянии рынка недвижимости. Важным ^ требованием к СППР является необходимость анализировать данные, представленные в виде неформализованных текстов, поступающих из различных специализированных средств массовой информации.
Таким образом, актуальность диссертационной работы определяется необходимостью разработки математических и алгоритмических моделей функционирования СППР риэлторского предприятия, а также разработку программной архитектуры, пригодной для практической реализации системы.
Цель и задачи исследования. Целью диссертационной работы является разработка обобщённых математических моделей и принципов функционирования СППР сотрудников риэлторского предприятия, являющейся одним из звеньев в процессе принятия маркетинговых решений фирмы.
Для достижения указанной цели в работе решались следующие основные задачи:
- анализ методов обработки неформализованных текстов, оценивания объектов недвижимости и сегментирования рынка недвижимости;
- разработка модели автоматизированного извлечения структурированной информации об актуальных предложениях рынка недвижимости из неформализованных текстовых документов;
- разработка модели поиска предложений на рынке недвижимости, удовлетворяющих заданным нечётким условиям;
- разработка математической модели оценивания . объектов недвижимости на основе метода продаж и содержимого базы данных СППР;
- разработка математической модели задания и автоматизированного сегментирования рынка недвижимости.
Методы исследования. Выполненные исследования базируются на использовании методов математического моделирования, теории принятия решений, теории графов, методов оптимизации, вычислительной лингвистики, теории синтаксического анализа, нечёткой логики, теории реляционных баз данных, численных методов и программирования. Общей методологической основой является системный подход.
Научная новизна заключается в следующих результатах:
- разработана модель автоматизированного анализа текстовых документов, позволяющая извлекать структурированную информацию об актуальных предложениях рынка недвижимости из неформализованных текстов, применимая в других предметных областях;
- разработана модель задания и выполнения запросов, позволяющих указывать нечёткие условия поиска информации;
- задача поиска предложений рынка недвижимости сформулирована как задача оптимизации;
- разработана модель оценивания объектов недвижимости на основе метода сравнения продаж и содержимого базы данных СППР, позволяющая учитывать сегментацию рынка;
- разработана математическая модель задания и автоматизированной сегментации рынка недвижимости, основанная на кластеризации журнала запросов и позволяющая формулировать описания сегментов в общеупотребительных терминах.
Достоверность научных результатов. Научные положения, теоретические выводы и практические рекомендации обоснованы корректным использованием математического аппарата, подтверждены вычислительными экспериментами на ЭВМ и оценкой работы созданного экспериментального программного обеспечения.
Практическая ценность. Практическая ценность работы непосредственно следует из поставленных задач исследования работы и заключается в следующих результатах:
- разработано экспериментальное программное обеспечения анализа текстовых документов и автоматизированного извлечения структурированной информации об актуальных предложениях на рынке недвижимости;
- предложен способ реализации модуля выполнения запросов, содержащих нечёткие условия, к реляционной базе данных;
- разработана программная архитектура и основные принципы построения СППР риэлторского предприятия.
Реализация результатов работы. Предложенная программная ' архитектура средств извлечения данных из неформализованных текстовых русскоязычных документов принята за основу при разработке средств 6 наполнения информационного хранилища информационно-аналитической системы (ИАС) НЕВОД® 4.0, разрабатываемой ЗАО НЛП "РЕЛЭКС". Произведено наполнение экспериментальной базы данных, позволяющей провести оценку полученных математических моделей.
Созданное экспериментальное программное обеспечение апробировано в ООО "ЮПИКС. Недвижимость", и в данный момент ведётся обсуждение дополнительных требований (стоимость разработки системы, дизайн, пользовательский интерфейс и т.п.) к СППР риэлторского предприятия.
Полученные результаты диссертации используются в учебном процессе факультета прикладной математики, информатики и механики Воронежского госуниверситета при чтении следующих курсов: "Управление рисками", "Принятие решений" и "Методы представления знаний".
На защиту выносятся:
- модель автоматизированного извлечения структурированной информации об актуальных предложениях рынка недвижимости из неформализованных тестовых документов, применимая в других предметных областях;
- модель задания и выполнения запросов с нечёткими условиями;
- формализация задачи поиска наиболее интересных для клиента предложений рынка недвижимости;
- модель оценивания объектов недвижимости на основе метода сравнения продаж и содержимого базы данных СППР;
- модель задания и автоматизированной сегментации рынка недвижимости, основанная на кластеризации журнала запросов.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и совещаниях:
1. "Проблемы компьютерной лингвистики", г.Воронеж, май 1718,2002
2. 10-ая Международная конференция "Математика. Компьютер. Образование", г. Пущино, январь 2003
3. 3-я региональная конференция "Информатика: проблемы, методологии, технологии г. Воронеж, февраль 12-13,2003
4. 4-я региональная конференция "Информатика: проблемы, методологии, технологии г. Воронеж, февраль 3-4, 2004
5. Международная конференция "Образование, наука, производство и управление в XXI веке", г. Старый Оскол, октябрь 20-22, 2004
Публикации. Основные результаты диссертации опубликованы в 13 печатных работах, из них 10 работ выполнено самостоятельно. Личный вклад автора в работах, опубликованных в соавторстве, состоит в следующем: в [36] автором предложен подход к визуализации семантических сетей данных; в [46] автором разработана программная архитектура комплекса, а также подсистемы анализа текстов и подсистемы выполнения запросов; в [4] автор обосновал возможность использования технологий автоматизированного анализа текстов для обработки резюме сотрудников.
Структура и объём работы. Материал диссертации изложен на 170 страницах машинописного текста. Диссертация состоит из введения, четырех глав, выводов, списка литературы и приложений, содержит 21 рисунок, и 13 таблиц. Библиография включает 87 наименований.
Заключение диссертация на тему "Модели управления процессом продаж на рынке недвижимости с помощью нечетких запросов к массивам текстовой информации"
Основные выводы и результаты работы
В соответствии с поставленной целью основные результаты диссертационной работы заключаются в следующем:
1. Разработаны математическая и алгоритмическая модели автоматизированного анализа текста, позволяющие извлекать структурированные данные из тестовых документов. Результаты извлечения данных представляются в виде фрагментов семантической сети.
2. Разработано экспериментальное программное обеспечения анализа текстовых документов и автоматизированного извлечения структурированной информации об актуальных предложениях на рынке недвижимости.
3. Разработаны модели задания и выполнения структурированных запросов, позволяющих указывать нечёткие условия на значения отдельных параметров.
4. Разработана алгоритмическая модель выполнения запросов с нечёткими условиями, позволяющая использовать реляционные СУБД для хранения содержимого базы данных СППР риэлторского предприятия.
5. Разработана математическая модель оценивания объектов недвижимости, действующая на основе метода сравнения продаж. Отличительной чертой модели является возможность учёта заданной сегментации рынка.
6. Разработана математическая модель для представления сегментации рынка и проведения автоматизированной сегментации на основе журнала выполненных запросов к базе данных СППР. Отличительно чертой модели является описание каждого сегмента рынка в общеупотребительных терминах.
7. Разработана программная архитектура СППР риэлторского предприятия.
Библиография Селезнев, Константин Егорович, диссертация по теме Управление в социальных и экономических системах
1. Асаул А.Н. Экономика недвижимости / А.Н.Асаул, В.Н. Старинский, Е.И. Рыбнов, А.Ф. Клюев. М.-СПБ.: СПБГАСУ, 2000. - 184 с.
2. Ахо А. Компиляторы. Принципы, технологии, инструменты / А.Ахо, Р.Сети, Д. Ульман .- Вильяме, 2003 .- 768 с.
3. Бахвалов Н.С. Численные методы / Н.С. Бахвалов, Н.П. Жидков, Г.М. Кобельков.- М.:Наука, 1978
4. Бирюков А. Системы принятия решений и Хранилища Данных /Бирюков А. // Системы управления базами данных .- 1997.-№04
5. Волоченков Н.Г. Справочник по недвижимости / Н.Г.Волоченков .- М.: ИНФРА-М, 1996.-423 с.
6. Гасфилд Д. Строки, деревья и последовательности в алгоритмах. Информатика и вычислительная биология / Д. Гасфилд .- СПБ.: Невский диалект, БХВ-Петербург, 2003 .- 656 с.
7. Грибовский C.B. Оценка доходной недвижимости / C.B. Грибовский .СПБ.: ПИТЕР, 2001. 334 с.
8. Горемыкин В.А. Экономика недвижимости / В.А. Горемыкин М.: ИКЦ "Маркетинг", 2002.- 804 с.
9. Ю.Грязнухина Т.А. Синтаксический анализ научного текста на ЭВМ / Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица и др. Киев: Научная мысль, 1999
10. Грязнухина Т.А. Использование ЭВМ в лингвистических исследованиях / Грязнухина Т.А., Дарчук Н.П., Критская В.И., Маловица Н.П. и др. Киев: Научная мысль, 1990
11. Дейт К. Введение в системы баз данных / К. Дж. Дейт Вильяме, 2001 1072 с.
12. Дубова Н. Устройство и назначение хранилищ данных /Дубова Н. // Открытые системы 1998 .- № 04
13. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры /А.Е. Ермаков //Информационные технологии. 2000. -N11.
14. Ермаков А.Е. Синтаксический разбор в системах статистического анализа текста/ А.Е. Ермаков, В.В. Плешко // Информационные технологии.- 20027.
15. Зализняк A.A. Грамматический словарь русского языка. Словоизменение /A.A. Зализняк.- 3-е изд.- М., 1987.
16. Игумнов Е. Основные концепции и подходы при создании контекстночпоисковых систем на основе реляционных баз данных (http://www.citforum.ru/database/articles/search sys.shtml).
17. Искусственный интеллект: В 3-х кн. Кн. 2.Модели и методы: Справочник / Под ред. В.Н. Захарова, В.Ф. Хорошевского. М.: Радио и связь, 1990. -368с.
18. Кириллов П. Загрузка и согласование данных при построении хранилищ данных/П.Кириллов, И.Шабаев //Открытые системы.-2000.- №11.
19. Котлер Ф. Основы маркетинга / Ф.Котлер, Г. Армстронг, Дж. Сондерс. -М.: Вильяме, 1999.- 1151 с.
20. Кузнецова Л. И. Словарь морфем русского языка /Л.И. Кузнецова, Т.Ф. Ефремова. М.: Русский язык, 1986. - 1136 с.
21. Ламбен. Ж.Ж. Менеджмент, ориентированный на рынок / Ж.Ж. Ламбен. -СПБ.: ПИТЕР, 2004. 794 с.
22. Лахути Д.Г. Автоматический анализ естественноязыковых текстов / Д.Г. Лахути // НТИ. Серия 2.- 2003 .- №11, с. 18-25
23. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных / В.Львов // Системы управления базами данных .- 1997 .- №03.
24. Малхотра. Н.К. Маркетинговые исследования (практическое руководство) / Н.К. Малхорта. М.: Вильяме, 2003. - 957 с.
25. Михайлян А. Некоторые методы автоматического анализа естественного языка, используемые в промышленных продуктах (http://www.olap.ru/basic/some methods.asp).
26. Новиков Ф.А. Дискретная математика для программистов /Ф.А. Новиков .- СПб: Питер,2000.29.0бработка знаний: технологии анализа и поиска текстовой информации.-(http://www.olap.ru/basic/knoweledge.ru).
27. Перегудов Ф.И. Введение в системный анализ /Ф.И.Перегудов, Ф.П. Тарасенко .- М.: Высшая школа, 1989. 367 с.
28. Питер Д. Введение в экспертные системы /Д. Питер .- Addison-Wessly, 2002.
29. Пиотровский Р.Г. Инженерная лингвистика и теория языка/ Р.Г.Пиотровский .- Л.: Наука, 1979.- 112 с.
30. Пиотровский Р.Г. Математическая лингвистика /Р.Г. Пиотровский .- М.: Высшая школа, 1977. 383 с.
31. Сегалович И.В. Как работают поисковые системы.-( http://www.dialog-21.ru/direction fulltext.asp?dir id=15539).
32. Селезнёв К.Е. Программные средства визуализации графов /К.Е. Селезнёв // Труды молодых учёных ВГУ: Сб. науч.тр Воронеж, 2000 .- С. 75-76.
33. Селезнёв К.Е. Визуализация семантической сети /К.Е.Селезнёв, В.Л. Борисов // Открытые системы .- 2001 .-№11 .- С. 55-58.
34. Селезнёв К.Е. Сравнение сложных объектов / К.Е.Селезнёв // Сборник трудов молодых учёных ВГУ: Сб. науч.тр. Воронеж, 2002 .- С. 24-28.
35. Селезнёв К.Е. Разрешение конфликтов при работе самообучающихся систем /К.Е. Селезнёв // Теория конфликтов и её применения: Сб. науч. тр
36. ВГТА .- Воронеж, 2002 .- С. 133-136.
37. Селезнёв К.Е. Построение моделей механических конструкций на основе анализа их текстового описания /К.Е. Селезнёв //Сборник трудов: Сб. нач. тр.- ВГУ .- Воронеж, 2002 .- С. 138-146.
38. Селезнёв К.Е. Построение моделей механических конструкций на основе анализа их текстового описания. / К.Е.Селезнёв // Проблемы компьютерной лингвистики, Воронеж, 17-18 мая 2002 г.: Тез. Докл .-Воронеж,2002 .- С.111-114.
39. Селезнёв К.Е. Синтаксический анализ предложений русского языка /К.Е.Селезнёв //Человек. Компьютер. Образование, Пущино, январь 2003 г.: Тез. Докл. Пущино,2003 С.396-396.
40. Селезнёв К.Е. Синтез семантических сетей на основе анализа текстовойинформации /К.Е.Селезнёв //Информационные технологии в науке ивобразовании-2003, Воронеж,12-13 февраля 2003 г.: Тез. Докл. -Воронеж,2003 .- С. 145-147.
41. Селезнёв К.Е. Обработка текстов на естественном языке /К.Е.Селезнёв // Открытые системы.- 2003 №12 .- С. 48-53.
42. Селезнёв К.Е. Извлечение информации из частично формализованных текстов /К.Е.Селезнёв //Информационные технологии в науке и образовании-2004, Воронеж,3-4 февраля 2004 г.: Тез. Докл. -Воронеж,2004 .- С. 243-244.
43. Селезнёв К.Е. Системы извлечения данных из неформализованных текстовых документов/ К.Е.Селезнёв // НТИ. Серия 1.- 2004 .- №8 .- С. 3537.
44. Селезнев К.Е. Архитектура и механизмы единого программного комплекса "Продажи недвижимости" / К.Е. Селезнёв, Д.А. Богданов // Образование, наука, производство и управление в XXI веке: сб науч. тр СТИМИСиС .- Старый Оскол, 2004 .- 8 С.
45. Сивкова Л.Л. Недвижимость: маркетинг, оценка / Л.А.Сивкова М.: ЮБП, 1996-176 с.
46. Сигел Э.Ф. Практическая бизнес-статистика / Э.Ф.Сигел М.: Вильяме, 2002.-1051 с.
47. Скорико А.В. Морфологические модули на сайте www.aot.ru. .-(http://www.aot.ru/docs/SOKIRKO/Dialog2004.htm).
48. Хан У. Системы автоматического реферирования / У. Хан, И. Мани //Открытые системы .- 2000 .- №12.
49. Хант Э. Искусственный Интеллект/ Э.Хант .- М.:Мир,1978.
50. Шабалин В.Г. Сделки с недвижимостью / В.Г. Шабалин .- М.: ФИЛИНЪ, 1997.-376 с.
51. Шемакин Ю.И. Начала компьютерной лингвистики /Ю.И. Шемакин .- М.: Изд-во МГОУ, А/О "Росвузнаука", 1992 114 с.
52. Шенк Р. Обработка концептуальной информации /Р. Шенк .- М., 1980.
53. Щербакова Н.А. Экономика недвижимости / Н.А. Щербакова .- Ростов-на-дону "Феникс", 2002. 317 с.
54. Яблонский С.В. Введение в дискретную математику /С.В. Яблонский— М.: Наука, 1986.
55. Aha D. W. Instance-based learning algorithms / D. W. Aha, D.F. Kibler,, M.K. Albert,// Machine Learning, 6 (1), c. 37-66.
56. Ballard B.,Jones M. Computational Linguistics Encyclopedia of Artificial Intelligence/ B. Ballard В., M. Jones .- Vol.1. Ed. Shapiro Stuart .- C. New York e.a.: John Willey and Sons .- c. 133-151.
57. Banzhaf W. GENETIC PROGRAMMING. An Introduction / W. Banzhaf, P. Nordin, R.E. Keller, F.D. Francone F.D.- San Francisco: Morgan Kaufmann Publishers, Inc., 1998.
58. Burstein J. Towards Using Text Summarization for Essay-Based Feedback / J. Burstein, D. Marcu // Le 7e Conference Annuelle sur Le Traitement Automatique des Langues Naturelles TALN'2000 .- Lausanne, Switzerland, October 2000
59. Califf M.E. Relational Learning of pattern-match rules for information extraction /M.E.Califf, R.J.Mooney //Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), Orlando, FL .- 1999 pp. 328-334.
60. Chelba C. A structured language model /C. Chelba //Appared In euroSpeech 2001, Vol.1 ,.- 2001 .- pp. 717-720.
61. Covington M. A. A Dependency parser for variable-word-order languages /M.A. Covington, H.U. Brown (ed.) // Computer Assisted Analysis and Modelling on the IBM 3090 .- Cambridge, MA: MIT Press.
62. Debusmann R. An introduction to dependency grammar /R.Debusmann .Hausarbeit, 2000.
63. Jurafsky D. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition /D. Jurafsky, J.H. Martin Prentice-Hall, ISBN: 0-13-095069-6, 2000.
64. Henderson J. Estimating a Probabilistic Grammar Using a Neural Network /J. Henderson // Proceedings of the 1st workshop on Robust Methods in Analysis of Natural Language Data (ROMAND 2000), Lausanne, Switzerland, 2000.
65. Holland J. Adaptation in natural and artificial systems/ J.Holland .- Cambridge: MIT Press, MA, 1992.
66. Keller B. Learning stochastic context-free grammars from corpora using a genetic algorithm/B. Keller, R.Lutz // Proceedings of ICANNGA97, 1997.
67. Kuznetsov I.P., Matskevich A.P., System for extracting semantic information from natural language text.-(http://www.dialog-21.ru/archive article.asp?param=7616&v=2002&vol=6078).
68. Lafferty J. Grammatical trigrams: a probabilistic model for link grammar /J. Lafferty, D.Sleator, D.Temperly // Proceedings of the AAAI Fall Symposium on Probabilistic Approaches to Natural Language. Cambridge, MA, 1992.
69. Lane P. Incremental syntactic parsing of natural language corpora with simple synchrony networks /P. Lane, J.Henerson // IEEE Transactions on Knowledge and Data Engineering, 13(2), 2001.
70. Linguistic Theory and Computer Applications. /Edited by P.Whitelock, M.M.Wood, H.L.Somers, RJohnson, P.Bennett.- Manchester: Academic Press, 1987. 329 p.
71. Marcu D. To build text summaries of high quality, nuclearity is not sufficient /D.Marcu // The Working Notes of the the AAAI-98 Spring Symposium on Intelligent Text Summarization, pages 1-8, Stanford, CA, March 1998.
72. Magerman D. Statistical Decision-Tree models for Parsing / D.Magerman // Proceedings, ACL Conference, 1995.
73. Magerman D. Parsing as statistical pattern recognition / D.Magerman // IBM Technical Report No 19443, 1995.
74. Magerman D. Natural language parsing as statistical pattern recognition: doctoral dissertation/ D. Magerman .- 1994.
75. Manning C. Foundations of Statistical Language processing / C. Manning, H. Schutze .- The MIT Press, Cambridge, MA: 1999.
76. Mooney R. Machine Learning / R. Mooney //To appear in Oxford Handbook of computational linguistics .- Oxford University Press.
77. Nahm U. Mining soft-matching rules from textual data/U.Nahm, R. Mooney // Proceedings of 17th International Joint Conference on Artificial Intelligence, Seattle,WA,2001 .- pp. 979-984.
78. Nahm U. A mutually beneficial integration of data mining and information extraction /U. Nahm, R.Mooney //Proceedings of 17th National Conference on Artificial Intelligence, Austin, TX, 2001 pp. 627-632.
79. Nahm U. Mining soft-matching rules from textual data /U.Nahm, R.Mooney // Proceedings of 17th Joint Conference on artificial Intelligence, Seattle, WA, 2001.- pp. 979-984.
80. Nahm U. Text mining with information extraction: mining prediction rules from unstructured text /U.Nahm, R.Mooney // Proceedings of the AAAI 2002 Spring Symposium on Mining Answers from Texts and Knowledge Bases, Stanford, CA, 2002 .- pp. 60-67.
81. Thompson C.A. Active learning for natural language parsing and information extraction /C.A. Thompson, M.E. Califf, R.J. Mooney// Proceedings of the Sixteenth International Machine Learning Conference (ICML-99), Bled, Slovenia, 1999 pp. 406-414.
-
Похожие работы
- Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям
- Рациональное районирование лесных участков на сезонные зоны лесопромышленного производства с применением методов теории нечетких множеств и ГИС технологий
- Исследование и разработка математического и алгоритмического обеспечения систем управления энергетическими комплексами с нетрадиционными возобновляемыми источниками энергии на базе нечеткой логики
- Математические модели и метод обработки информации для эффективного управления недвижимостью мегаполиса
- Гибридные алгоритмы анализа и обработки данных в задачах поддержки принятия решений
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность