автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Построение пространств свойств на основе вероятностных моделей для задач предсказания структур

кандидата физико-математических наук
Титов, Иван Андреевич
город
Санкт-Петербург
год
2006
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Построение пространств свойств на основе вероятностных моделей для задач предсказания структур»

Оглавление автор диссертации — кандидата физико-математических наук Титов, Иван Андреевич

Введение.

Глава 1. Задачи предсказания структур: проблемы и подходы к их решению.

Глава 2. Методы построения отображений на основе вероятностных моделей.

2.1. Постановка задачи.

2.2. Ядро Фишера для предсказания структур. 2.3. Ядро ТОР для перестановки гипотез.

2.4. Применение отображений.

I 2.5. Эксперименты.

2.5.1. Вероятностная модель.

2.5.2. Построение отображения.

2.5.3. Обучающий алгоритм.

2.5.4. Методы оценки точности в синтаксическом анализе. 2.5.5. Постановка эксперимента и экспериментальные результаты.

2.6. Выводы.

Глава 3. Использование вероятностных моделей для оптимизации ожидаемой ошибки с произвольными функциями потерь.

3.1. Постановка задачи.

3.2. Аппроксимация ожидаемой потери с помощью вероятностной модели.

3.3. Аппроксимация ожидаемой потери с помощью дискриминативных моделей.

3.3.1. Аппроксимация с ядром Фишера для предсказания структур.

9 3.3.2. Аппроксимация с ядром ТШС.

3.3.3. Аппроксимация на основе произвольной дискриминативной модели.

3.4. Использование отображений, нацеленных на минимизацию ожидаемой ошибки. 3.4.1 Ядро потерь.

3.4.2 Ядро логит потерь. 3.5. Эксперименты.

3.5.1. Вероятностная модель и построение отображения.

3.5.2. Эксперименты с использованием БУМ.

3.5.2. Эксперименты с перцептроном с голосованием и отображением 3.5.3. Эксперименты с перцептроном с голосованием и ядром свертки для деревьев.

3.6. Выводы.

Глава 4. Адаптация статистических методов с использованием отображений, основанных на вероятностных моделях.

4.1. Постановка задачи и обзор предлагаемых методов.

4.2. Возможности по репараметризации отображений.

4.3. Перемещение в новую область.

4.4. Фокусировка на области.

4.5. Эксперименты. 4.5.1. Используемые наборы данных и методы.

4.5.2. Эксперименты для подхода «перемещение».

4.5.3. Эксперименты для подхода «фокусировка».

4.5.4. Эксперименты: распределение слов против распределения структур. 4.5.5. Обсуждение результатов.

4.6. Предшествующие исследования в области адаптации. 4.7. Выводы.

Глава 5. Методы объединения вероятностных моделей с линейными моделями, использующими произвольные пространства свойств.

6.1. Постановка задачи. р 6.2. Построение отображения.

6.3. Оценка обобщающей способности.

6.4. Выводы.

Глава 6. Решение проблем с большим, но ограниченным числом выходных категорий. 6.1. Постановка задачи.

6.2. Критерий оптимизации.

6.3. Оценка обобщающей способности.

6.4. Эксперименты.

6.5. Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Титов, Иван Андреевич

Актуальность темы

Большинство вопросов, возникающих в практической деятельности, требуют большего, чем ответ да-нет или выбора решения из нескольких фиксированных альтернативных вариантов. Задачи со сложными ответами (задачи предсказания структур) встают, например, в таких областях, как биология, химия, фармакология, диалоговые системы, вычислительная лингвистика, компьютерное зрение и т. д. Построение эффективных статистических моделей, позволяющих автоматически получать ответы на вопросы, является областью исследования дисциплины машинное обучение, но исследования в области машинного обучения, в первую очередь, были сконцентрированы лишь на задачах с фиксированным и малым числом ответов, стандартных задачах классификации.

Классическим подходом к предсказанию структур, доминировавшим в 90-х годах прошлого века и остающимся актуальным до сих пор, является построение генеративных вероятностных моделей в форме, задаваемой специалистами прикладной области и с параметрами, оцениваемыми на основе составленных вручную обучающих наборов. Построены многие десятки таких моделей для различных прикладных областей. В то же время последние результаты исследований в области машинного обучения продемонстрировали, что точность предсказания с использованием генеративных вероятностных моделей, в общем случае, уступает результатам новых статистических дискриминативных методов, разработанных в последнее десятилетие, например, методов, максимизирующих зазор [1].

Большинство из построенных за последнее время методов машинного обучения не могут быть непосредственно применены к задачам предсказания структур. Существует ряд факторов, ограничивающих их применение. И, в первую очередь, это неограниченность числа возможных структур, необходимость введения функций потерь, сложность моделирования распределения структур и значительная разреженность обучающих наборов. Решение всех этих, а также других проблем, связанных с предсказанием структур, имеет огромную практическую ценность и определяет развитие соответствующих проблемных областей.

Одной из важных и сложных проблем, которые необходимо решать для применения таких статистических методов является необходимость задания адекватного пространства свойств, в котором будет возможно применять статистический дискриминативный метод. Учитывая, что за последние полтора десятка лет предложено большое число вероятностных моделей для различных прикладных областей, привлекательным подходом кажется разработка методики автоматического построения пространств свойств на основе произвольной, но фиксированной вероятностной модели. Этому не изученному в контексте предсказания структур подходу, в первую очередь, и посвящена диссертация. Результирующий метод, состоящий из вероятностной модели и метода, максимизирующего зазор, работающего в сконструированном пространстве свойств, должен позволить улучшить результаты произвольных вероятностных моделей для произвольных прикладных областей.

Для большинства приложений не только полностью правильная, но даже частично правильная структура представляет значительную ценность. Из этого следует необходимость построения моделей, нацеленных на минимизацию не функций потерь точного совпадения (дельта-функций), а более сложных функций потерь, определяемых прикладной областью.

Объединение вероятностных моделей и статистических методов, максимизирующих зазор, может лечь в основу построения новых подходов к решению этой проблемы.

Существует и другая актуальная проблема методов предсказания структур. Это необходимость применения статистических моделей к данным с распределением, отличным от распределения данных в исходном наборе. Совместное использование вероятностных моделей и статистических методов, максимизирующих зазор, позволяет предложить новое решения и для этой проблемы.

Цель работы

Цель работы состояла в разработке нового подхода к решению задач предсказания структур, который позволил бы применять современные методы машинного обучения к произвольньш задачам предсказания структур. Для достижения этой цели необходимо решить следующие задачи:

1. Разработать методы построения отображений на основе вероятностных моделей для задачи предсказания структур.

2. Разработать новые методики учета функции потерь для статистических моделей предсказания структур, направленные на улучшения точности модели.

3. Создать методики адаптации статистических моделей предсказания к изменению распределения входных и выходных данных.

4. Предложить новые способы объединения вероятностных моделей и методов, использующих заданные в явном виде пространства свойств.

5. Провести теоретический анализ предложенных методов и методик и исследовать их свойства на практике. Продемонстрировать на практике преимущества предлагаемых подходов перед альтернативными методами.

Научная новизна

На основе проведенного системного анализа современных методов машинного обучения предложено новое направление решения задач предсказания структур. Разработаны новые методы построения отображений

• в пространства свойств на основе вероятностных моделей для задач предсказания структур, проведен аналитический и эмпирический анализ методов. Исследованы методики эффективного вычисления таких отображений для моделей на основе многоуровневого перцептрона.

Предложены новые методики учета функции потерь в статистических моделях предсказания структур, позволяющие значительно улучшить ® результаты для широкого класса моделей.

Предложены новые методики к адаптации статистических моделей предсказания структур при изменении распределения входных и выходных данных, обеспечивающие значительное повышение точности предсказания.

Построен новый способ объединения вероятностных моделей и методов, использующих произвольные пространства свойств.

Получен новый критерий обучения стандартного метода БУМ (машины поддерживающих векторов) для случая несимметричной задачи классификации, проведена теоретическая оценка обобщающей способности методов, использующих такой критерий, и проведен экспериментальный анализ.

Практическая значимость работы

Разработанные методы могут применяться для улучшения результатов широкого спектра методов предсказания структур, как при использовании т функции потерь точного совпадения, так и в случае более сложных, но более мотивированных функций потерь. Вычисления отображений на базе ^ вероятностных моделей, как правило, не приводят к существенному увеличению вычислительной сложности и не требуют привлечения эксперта прикладной области, но позволяют надеяться на значительное повышение точности классификации по сравнения с точностью, обеспечиваемой используемой вероятностной моделью. Предлагаемая методика адаптации

• позволяет производить адаптацию обученной модели не только к областям, отличающимся вероятностным распределением структур (например, синтаксический анализатор обучается на корпусе финансовых новостей WSJ, а затем применяется к корпусу биологических статей), но и к областям с отличающимися схемами аннотации.

Программная реализация описанных в диссертации методов для задачи Ф синтаксического анализа доступна для любых исследований в области обработки естественного языка.

Защищаемые положения

1. Разработанные методы построения пространств свойств на основе вероятностных моделей для задачи предсказания структур позволяют добиться повышения точности предсказания по сравнению с использованием исходной вероятностной модели.

2. Предложенные новые методики аппроксимации ожидаемой ошибки на основе вероятностных моделей обеспечивают значительное улучшение результатов по сравнению с исходной вероятностной моделью.

3. Построенные функции отображения могут использоваться для адаптации моделей к распределению данных, отличных от исходного распределения в обучающем наборе.

4. Разработанная методика построения отображений на основе т вероятностных моделей позволяет предложить новый способ объединения вероятностных моделей для предсказания структур и линейных методов, ® использующих произвольные пространства свойств.

5. Предложенная новая модификация критерия оптимизации стандартного метода Машины Поддерживающих Векторов позволяет добиться повышения точности классификации для случая несбалансированных наборов данных.

Публикации и апробация работы

Содержание диссертации раскрыто в следующих 4 работах, опубликованных по теме диссертации в трудах ведущих российских и международных конференций:

1. Титов И., Хендерсон Дж. Метод синтаксического ' анализа с использованием определяемых обучающим набором ядер, построенных на основе вероятностных моделей.//Международная конференция Компьютерная лингвистика и интеллектуальные технологии (Диалог-2005). Москва, 2005.-С.131-135.

2. Titov I., Henderson J. Deriving Kernels from MLP Probability Estimators for Large Categorization Problems. // In Proc. International Joint Conference on Neural Networks (IJCNN-05). Montreal, Canada, 2005.-p.937-942.

3. Henderson J., Titov I. Data-Defined Kernels for Parse Reranking Derived from Probabilistic Models. // In Proc. 43rd Meeting of Association for Computational Linguistics (ACL-05). Ann Arbor, USA, 2005.-p.l81-188.

4. Kosinov S., Titov I., Marchand-Maillet S. Large Margin Multiple Hyperplane Classification for Content-Based Multimedia Retrieval. // In Proc. International Conference on Machine Learning (ICML-2005), Workshop on Machine Learning Techniques for Processing Multimedia Content. Bonn, Germany, 2005.-p.60-63.

По результатам проведенных исследований были сделаны доклады на следующих конференциях: Международная конференция «Вычислительная лингвистика и интеллектуальные технологии» (Москва, Россия, 2005 г.); 43rd Annual Meeting of Association for Computation Linguistics, (Анн Арбор, США,

2005 г.); International Joint Conference on Neural Networks (Монреаль, Канада, 2005 г.); International Conference on Machine Learning, Workshop on Machine Learning in Multimedia (Берлин, Германия, 2005).

Личный вклад автора

Основные результаты работы получены автором лично. Научные положения, теоретические выводы, расчёты и эксперименты разработаны и проведены автором самостоятельно. Разработка моделей, методик и способов осуществлялась при участии научного руководителя и соавторов.

Структура и объем диссертации.

Диссертация состоит из введения, 6 глав, заключения и списка литературы. Диссертация содержит 126 страниц, в том числе 9 рисунков. Список литературы включает 90 наименований.

Заключение диссертация на тему "Построение пространств свойств на основе вероятностных моделей для задач предсказания структур"

6.4. Выводы

В настоящей главе рассматривался случай классификации с большим числом классов. Одной из основных проблем данной постановки задачи является то, что при ее декомпозиции получаются задачи бинарной классификации с несимметричным распределением классов. Нами предложена новая модификация метода 8УМ, МН-8УМ, направленная на решения данной проблемы. Проведена теоретическая оценка обобщающей способности метода МН-БУМ. Экспериментальные результаты для задачи классификации изображений продемонстрировали, что задача МН-БУМ обеспечивает повышение точности по сравнению с использованием стандартного критерия 8УМ.

ЗАКЛЮЧЕНИЕ

В работе получены следующие основные результаты:

1. Разработаны новые методы построения отображений в пространство свойств на базе вероятностных моделей для задачи предсказания структур. Проведен теоретический и экспериментальный анализ построений. Продемонстрировано, что использование таких отображений позволяет добиться повышения точности по сравнению с использованием исходной вероятностной моделью.

2. Построены новые отображения в пространства свойств, предназначенные для предсказания структур при использовании функций потерь, отличных от функций потери точного совпадения (дельта-функции). Предложены новые методики аппроксимации ожидаемой ошибки для задачи предсказания структур с произвольной функцией потерь. Возможность I аппроксимации ожидаемой ошибки позволяет определить новые критерии выбора структуры. Результаты разработок при применении к задаче синтаксического анализа английского языка и вероятностной модели на базе нейронной сети позволяют добиться значительного улучшения результатов по сравнению с предсказаниями самой вероятностной модели и абсолютных результатов на уровне лучших синтаксических анализаторов естественного языка.

3. Разработаны новые методики адаптации статистических моделей предсказания структур к изменению распределения данных. Проведен экспериментальный анализ методик, подтверждающий их практическую значимость.

4. Предложены новые способы объединения вероятностных моделей и линейных методов, использующих произвольные пространства свойств.

5. Построена новая модификация стандартного критерия обучения 8УМ для задачи классификации с неравномерным разбиением элементов на классы, ситуации, возникающей при разбиении задачи классификации с большим числом категории на элементарные подзадачи. Проведен теоретический анализ критерия и продемонстрировано улучшение результатов по сравнению с БУМ для задачи классификации изображений.

Автор выражает искреннюю благодарность своему научному руководителю Н. Н. Васильеву и заведующему кафедрой «Прикладная математика» В. Е. Клавдиеву. Он также признателен за плодотворные дискуссии соавторам публикаций и, прежде всего, Дж. Хендерсону.

Библиография Титов, Иван Андреевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Collins M. Head-Driven Statistical Models for Natural Language Parsing. // PhD thesis. University of Pennsylvania. Philadelphia, PA, U.S.A., 1999.

2. Duda R. O., Hart P. E., Stork D. G. Pattern Classification. New York: John Wiley and Sons, 2001.

3. Bishop C. M. Neural Networks for Pattern Recognition. Oxford, UK: Oxford University Press, 1995.- P. 482.

4. Ripley B. D. Pattern Recognition and Neural Networks. Cambridge, UK: Cambridge University Press, 1996.a

5. Schapire R. E. The strength of weak learnability. // Machine Learning, 1990. Vol. 5, N2. - p. 197-227.

6. Vapnik, V. Statistical Learning Theory. New York: Wiley-Interscience, 1998.

7. Freund Y., Schapire R. Large Margin Classsification Using the Perceptron Algorithm. // Machine Learning, 1999. Vol. 37, N3. - p. 277-296.

8. Gentile C. A new approximate maximal margin classication algorithm. // Journal of Machine Learning Research, 2001. Vol. 2. - p. 213-242.

9. Kowalczyk, A. Maximal margin perceptron. // Advances in Large Margin Classifiers, Cambridge, USA: MIT Press, 2000. p. 75-115.

10. Cristianini, N., Shawe-Taylor, J. An Introduction to Support Vector Machines. Cambridge, UK: Cambridge University Press, 2000. P. 189.

11. Williams C.K.I, Barber D. Bayesian Classification With Gaussian Processes // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998. Vol. 20, N12.- p. 1342-1351.

12. Li Y. and Long P. M. The relaxed online maximum margin algorithm. //Machine Learning, 2002. Vol. 46, N1-3. - p. 361-387.

13. Shawe-Taylor J., Cristianini N. Kernel Methods for Pattern Analysis. Cambridge, UK: Cambridge University Press, 2004. P. 461.

14. Jaakkola T. S. and Haussler D. Exploiting generative models in discriminative classifiers. // Advances in Neural Information Processing 11,1998.

15. Amari S.-I. Differential Geometrical Models in Statistics. New York: Springer, 1985.

16. Tsuda K., Kawanabe M, Ratsch G., Sonnenburg S., Muller K. A new discriminative kernel from probabilistic models // Neural Computation, 2002. -Vol. 14, N10-p. 2397-2414.

17. Taskar B., Klein D., Collins M., Koller D., Manning C. Max-margin parsing. // In Proc. Conf. on Empirical Methods for Natural Language Processing. Barcelona, Spain, 2004.

18. Tsochantaridis I., Hofmann T., Joachims T., Altun Y. Support vector machine learning for independent and structured output Spaces // In proc. 21st International Conference on Machine Learning. Banff, Canada. 823-830,2004.

19. Vorhees E., Harman D. Overview of the eighth text retrieval Conference // 8th Text Retrieval Conference (TREC). Gaithersburg, USA, 1999. p. 1-24.

20. Haussler D. Convolution kernels on discrete structures. // Technical report, Univertsity of Santa Cruz. Santa Cruz, USA, 1999.

21. Collins M., Duffy N. New reranking algorithms for parsing and tagging: kernels over discrete structures and the voted perceptring. // 40th Meeting of Association for Computational Linguistics. Philadelphia, USA, 2002. — p. 263-270.

22. Leslie C., Eskin E., Cohen A., Weston J., Noble W.S. Mismatch string kernels for discriminative protein classification // Bioinformatics, 2004. Vol 20, N4. p.467-476.

23. Henderson J., Titov I. Data-defined kernels for parse reranking derived from probabilistic models // 43rd Meeting Meeting of Association for Computational Linguistics. Ann Arbor, USA, 2005. -p. 181-188.

24. David McAllester. Relating Training Algorithms to Generalization Bounds in Structured Classification //Advances in Neural Information Processing, Workshop on Structured Processing, 2004.

25. Markus M.P., Santorini B. And Marcinkiewicz M.A. Building a large annotated corpus of English: The Penn Treebank. // Computational Linguistics, 1993. Vol.19, N2. - p.313-330.

26. Koo T., Collins M. Hidden variable models for discriminative reranking. // Conference on Empirical Methods in Natural Language Processing. Vancouver, Canada, 2005.

27. Bartlett P. For valid generalization, the size of the weights is more important than the size of the network. // Advances in Neural Information Processing 9,1997.-p.134-140.

28. Bartlett P., Shawe-Taylor J. Generalization performance bound for support vector machines and other pattern classifiers. // Advances in Kernel Methods -Support Vector Learning. Cambridge, US: MIT Press, 1999. p. 43-54.

29. Cheng J., Baldi P. Three-Stage Prediction of Protein Beta-Sheets by Neural Networks, Alignments, and Graph Algorithms. // Proceedings of the 2005 Conference on Intelligent Systems for Molecular Biology. Michigan, MI, U.S.A., 2005.

30. Henderson J. Inducing history representations for broad coverage parsing. // Proc. of joint meeting of North American Chapter of the Association for Computational Linguistics. Edmonton, Canada, 2003. -p.103-110.

31. Charniak E. A maximum entropy inspired parser. // Proc. of joint meeting of North American Chapter of Association for Computational Linguistics. Seattle, USA, 2000.-p. 132-139.

32. Rosenkranz D.J., Lewis P.M. Deterministic Left Corner Parsing // Proc. 11th Symposium on Switching and Automata Theory. Santa Monica, USA, 1970.

33. Manning C. D., Schutze H. Foundations of statistical natural language processing. New York: MIT Press, 2002. P. 680.

34. Neal, R. M. Connectionist learning of belief networks // Artificial Intelligence, 1992. Vol. 56, p. 71-113.

35. Saul L.K., Jaakkola T., Jordan M.I. Mean field theory for sigmoid belief networks. // Journal of Artificial Intelligence Research, 1996.- Vol 4.

36. L. K. Saul and M. I. Jordan. A mean field learning algorithm for unsupervised neural networks. // Learning in Graphical Models. Cambridge, USA: MIT Press, 1999 p. 541-554.

37. Jaakkola, T. Variational Methods for Inference and Estimation in Graphical Models. PhD thesis, Massachusetts Institute of Technology. Cambridge, USA, 1999.

38. Barber D., Wiegerinck W. Tractable variational structure for approximation graphical models. // Advances in Neural Information Processing Systems 11. Cambridge, USA: MIT Press, 1999.

39. Jaakkola, T. and Jordan, M. Improving the mean field approximation via the use of mixture distributions. // Learning in Graphical Models, NATO ASI, Behavioural and Social Sciences,. Boston/Dordrecht/London: Kluwer, 1998. -p. 163-174.

40. Rosenblatt F. The perceptron : a probabilistic model for information storage and organization in brain. // Psychological review, 1959. vol. 63. - p. 386-408.

41. Collins M. Discriminative reranking for natural language parsing. // 17th International Conference on Machine Learning. Stanford, USA, 2000. p. 175182.

42. Ratnaparkhi A. A maximum entropy model for part-of-speech tagging. // Empirical Methods in Natural Language Processing. Philadelphia, USA, 1996. -133-142.

43. Yeh. A. More accurate test for the statistical significance of the result differences. // International Conference on Computational Linguistics. Saarbrucken, Germany, 2000.-p. 947-953.

44. Collins M., Roark B. Incremental parsing with the perception algorithm. //Proc. 42nd Meeting of Association for Computational Linguistics. Barcelona, Spain, 2004.

45. Shen L., Sarkar A., Joshi A. K. Using LTAG based features in parse reranking. // Proc. Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan, 2003.

46. Henderson J. Discriminative training of a neural network statistical parser. //Proc 42nd Meeting of Association for Computational Linguistics. Barcelona, Spain, 2004.

47. Bod R. An efficient implementation of a new DOP mode. // Proc 10th Conf. of European Chapter of the Association for Computational Linguistics. Budapest, Hungary, 2003.

48. Charniak E., Johnson M. Coarse-to-fine n-best parsing and MaxEnt discriminative reranking. //43rd Meeting Meeting of the Association for Computational Linguistics. Ann Arbor, USA, 2005. -p. 181-188.

49. Goodman J. Parsing algorithms and methods. // In Proc. 34th Meeting of the Association for Computational Linguistics. Santa-Cruz, USA, 1996. -p.177-183.

50. Och F. J. Minimum error rate training in statistical machine translation. //Proc. 41st Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003-p. 160-167.

51. Paciorek C., Rosenfeld R. Minimum classification error training in exponential language models. // NIST/DARPA Speech Transcription Workshop. University of Maryland, College Park, USA, 2000.

52. Juang B. H., Chou W. and Lee C. H. Statistical and discriminative methods for speech recognition. // Speech Recognition and Coding New Advances and Trends. Berlin, Germany : Springer-Verlag, 1995.

53. Schlüter R., Herman N. Model-based MCE bound to the true Bayes'error. // IEEE Signal Processing Letters.-Vol.8, N5.-p 131-133.

54. Collins M., Koo T. Discriminative reranking for natural language processing. // Computational Linguitics. Vol.31, N1. - p. 25-69.

55. Shen L., Joshi A.K. An SVM based voting algorithm with application to parse reranking. // Proc of the 7th Conference on Computational Natural Language Learning. Edmonton, Canada, 2003. -p.9-16.

56. Platt J.C. Probabilistic outputs for support vector machines and comparision to regularized likelihood methods.//Advances in Large Margin Classifiers. Cambridge, USA: MIT Press, 1999.-p. 61-74.

57. Joachims. T. Making large-Scale SVM Learning Practical. // Technical report of Universität Dortmund, LS VIÜ-24,1998. Dortmund, Germany.

58. Ng A., Jordan M. I. On Discriminative vs. Generative Classifiers: A comparision of logistic regression and naïve Bayes. // Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2002.

59. Rubenstein Y.D., Hastie T. Discriminative vs. informative learning. // Proc. 3rd International Conference on Knowledge Discovery and Data Mining. New Port Beach, USA, 1997. p.49-53.

60. Generative vs. Discriminative Approaches to Entity Recognition from Label-Deficient Data. Goutte C., Gaussier E., Cancedda C. and Dejean H. // 7es Jouraees internationales d'Analyse statistique des Donnees Textuelles. Besancon, France, 2004.

61. Bouchard G., Triggs B. The trade-off betwen generative and discriminative classifiers. // Iternational Conference on Computational Statistics. Prague, Czech Republic, 2004.

62. Moschitti A. A study on convolutional kernels for shallow semantic parsing.//In Proc. 42nd Meeting of Association for Computational Linguistic. Barcelona, Spain, 2004.

63. Roark B. and Bacchiani M. Supervised and unsupervised PCFG adaptation to novel domains. // In Proc. of Meeting of the Association for Computational Linguistics. Edmonton, Canada, 2003.

64. Gildea D. Corpus variation and parser performance. // Proc. Conference on Empirical Methods in Natural Language Processing. Pittsburg, USA, 2001.

65. Ratnaparkhi A. Learning to parse natural language with maximum entropy models. // Machine learning, 1999.- Vol.34- pl51-175.

66. Francis W. N., Kucera H. A standard corpus of present day edited American English. Brown University, 1979.

67. Henderson J. A neural network parser that handles sparse data // New developments in parsing technology. BostonrKluwer, 2004.

68. Sekine S. The domain dependency of parsing. // Proc. of the 5th Conference on Applied Natural Language Processing. Washington, USA, 1997. p.96-102.

69. Slocum J. How one might automatically identify and adapt to a sublanguage: an initial exploration. // Analyzing language in restricted domains, 1986. p. 195210.

70. Black E. A procedure for quantatively comparing the syntactic coverage of English grammars.//Proc. of 4th DARPA Speech and Natural Language Workshop, 1991.

71. Kittredge R., Hirschman L. Sublanguage: studies of language in restricted semantic domains. // Series of Foundations of Communications. Germany, Berlin, 1983.

72. Grishman R., Kittridge R. Analyzing language in restricted domains: Sublanguage description and processing. Hillsdale, N.J.: Erlbaum, 1986.

73. Biber D. Using register-diversified corpora for general language studies. // Journal of Computer Linguistics, 1993. Vol. 19,N2. - p. 219-241.

74. Karlgren J., Cutting D. Recognizing text genres with simple metrics using discriminant analysis. // The 15th Conference on Computational Linguistics, 1994. -p.1071-1075.

75. Booth T.L, Thompson R.A. Applying probability measures to abstract languages. // IEEE Transactions on Computers. Vol.22. - p.442-450.

76. Charniak E. Statistical Language Learning. Cambridge, MA:MIT Press, 1993

77. Jelinek F., Lafferty J.D., Mercer R. L. Basic methods of probabilistic context free grammars. Technical report 72684. IBM TJ Watson Research Center, 1990.

78. Jelinek F., Lafferty J.D., Mercer R. L. Basic methods of probabilistic context free grammars. // Speech Recognition and Understanding: Recent Advances, Trends and Applications, 1992. Vol. 75F.

79. Kupiec J. An algorithm for estimating the parameters of unrestricted hidden stochastic context-free grammars. // Proc of Conference on Computational Linguistics. Nantes, France, 1992. -p.387-393.

80. K. Fukunaga and T.E. Flick, Classification error for a very large number of classes. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984 -Vol. 6, N6.-p. 779-788.

81. Even-Zahar Y., Roth D. A. Sequential Model for Multi-Class Classification. // Conference on Empirical Methods on Natural Language Processing. Ithaca, USA, 2001.

82. Foresti G.L. Outdoor scene classification by a neural tree-based approach.//Pattern Analysis and Applications, 1999- Vol.2.- p. 129-142.

83. Crammer К., Singer Y. A New Family of Online Algorithms for Category Ranking. //Proceedings of the 25rd Conference on Research and Development in Information Retrieval. Tampere, Finland, 2002.

84. Aiolli F., Sperduti A. Multiclass Classification with Multi-Prototype Support Vector Machines. // Journal of Machine Learning Research, 2005. Vol.6. -p.817-850.

85. Hsu C.-W., Lin C.-J. A Comparison of Methods for Multi-class Support Vector Machines. // IEEE Transactions on Neural Networks Journal, 2002.-p.415-425.

86. Scholkopf В., Burges C., Vapnik V. Extracting support data for a given task. // First International Conference on Knowledge Discovery and Data Mining. Menlo, USA, 1995.

87. Вапник В. H. Воостановление зависимостей по эмпирическим данным. М.: "Наука", 1979.-449с.

88. Scholkopf, S., Burges, С. J. С., Smola, A. J. Advances in Kernel Methods: Support Vector Learning. Cambridge, USA: MIT Press, 1999.

89. Leibe В., Schiele B. Analyzing appearance and contour based methods for object categorization. // In International Conference on Computer Vision and Patter Recognition. Madison, USA, 2003. p.409-415.

90. Squire D.M., Muller W., Muller H., Pun T. Content-Based quiery of image databases: inspiration from text retrieval. //Pattern Recognition Letters 21, 1999. -Vol. 13-14.-p.l 193-1198.