Информационные системы для извлечения данных из неструктурированного текста с использованием онтологий

Лавлинский Валерий Викторович; Зольникова Юлия Олеговна

doi:doi:10.12737/article_5c4f196e58e605.96494978

Информационные системы для извлечения данных из неструктурированного текста с использованием онтологий

Отправить рукопись

Цитировать

Цитирований:

ИНФОРМАЦИОННЫЕ СИСТЕМЫ ДЛЯ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ НЕСТРУКТУРИРОВАННОГО ТЕКСТА С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЙ

Журнал: МОДЕЛИРОВАНИЕ СИСТЕМ И ПРОЦЕССОВ Том 11 № 3 , 2019

Рубрики: ТЕХНИЧЕСКИЕ НАУКИ

УДК 60 Прикладные науки. Общие вопросы

Лавлинский Валерий Викторович ¹

Зольникова Юлия Олеговна ²

Информация об авторах и публикации

Авторы:

1. Воронежский государственный лесотехнический университет имени Г.Ф. Морозова

Россия

2. Воронежский государственный лесотехнический университет имени Г.Ф. Морозова

Воронежская область, Россия

Тип:

Статья

DOI:

https://doi.org/10.12737/article_5c4f196e58e605.96494978

Страницы:

с 30 по 34

Статус:

Опубликован

Получено:

28.01.2019

Одобрено:

28.01.2019

Опубликовано:

28.01.2019

Классификаторы:

УДК 60 Прикладные науки. Общие вопросы

Язык материала:

русский

Ключевые слова:

Грамматический разбор, извлечение смысловой информации, онтологии, неструктурированный текст, граф зависимостей.

Аннотация и ключевые слова

Аннотация:
Основной задачей при извлечении информации из текста является промежуточное представление данных. Для этой цели используется грамматический разбор и осуществляется синтаксический анализ текста, чтоб определить соответствие грамматической структуры правилам формальной грамматики для данного языка. Процесс грамматического разбора приводит к генерации дерева грамматического разбора, а также графов зависимостей. Графы зависимостей представляют собой структуры данных, которые являются производными от обрабатываемого текста и определяют неявную структуру реализации в заданном тексте.

Ключевые слова:
Грамматический разбор, извлечение смысловой информации, онтологии, неструктурированный текст, граф зависимостей.

Текст

Дерево грамматического разбора

Дерево грамматического разбора является упорядоченным деревом с корнем, который отображает синтактическую структуру предложения. В этом разделе описывается метод Обозначения Пенна корпусов с синтаксической разметкой (Penn Treebank Notation), который используется многими приложениями грамматического разбора, для тегирования (разметки) предложения до того, как будет сгенерировано дерево грамматического разбора. Эти теги в основном используются в системах извлечения смысловой информации, для формулирования правил, согласно которым должно производится извлечение.

Ниже приведена упрощенная форма определений из Обозначений Пенна Корпусов с Синтаксической Разметкой (для полного списка обозначений см. [1]):

S: Простые декларативные предложения (Simple declarative clause)
NP: Именная группа (Noun Phrase). Категория фраз, которая включает в себе все составляющие, зависящие от главного существительного.
VP: Глагольная группа (Verb Phrase). Категория выражений, возглавляемая глаголом.

Список литературы

1. Software - The Stanford Natural Language Processing Group. -Режим доступа: http://nlp.stanford.edu/software/. - Загл. с экрана.

2. Ciravegna, F. (LP), an adaptive algorithm for information extraction from Web-related texts. In Proceedings of the IJCAI-2001 Workshop on Adaptive Text Extraction and Mining held in conjunction with 17th International Joint Conference on Artificial Intelligence (IJCAI)/, F. Ciravegna, J. Tang, J. Li, H. Lu, B. Liang, X. Huang, K. Wang.- Seattle, USA. - 2001.

3. iASA: Learning to Annotate the Semantic Web. JOURNAL ON DATA SEMANTICS IV Lecture // Notes in Computer Science. - 2005. - Volume 3730/2005. - P. 110-145

4. Soderland, S., Learning information extraction rules for semi-structured and free text / S. Soderland // Machine Learning. -1999. - №34. - P. 233-272/

5. Califf, M. E. Bottom-up relational learning of pattern matching rules for information extraction / M. E. Califf, , R. J. Mooney // Journal of Machine Learning Research. -2003. - Vol. 4. - Pp.177-210.

6. Соколов, Е. Г. Применение LSA/LSI методов для извлечения данных из неструктурированного текста / Е. Г. Соколов, М. М. Шарнин // Труды Международной научной конференции по физико-технической информатике CPT2018. - Царьград, 2018. - С. 59-63.

7. Методы автоматической классификации текстов по функциональным стилям / Л.М. Ермакова, М.А. Абашев, Р.В. Никитин, Р.И. Ушаков // Вестник Пермского университета. Серия: Математика. Механика. Информатика. - 2014. - № 4 (27). - С. 78-83.

8. Богатырев, М. Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей / М.Ю. Богатырев // Известия Тульского государственного университета. Технические науки. - 2016. - № 7-1. - С. 198-208.

9. Stulov, N. Patent landscapes & new technology trends in iot: extracting and visualizing data patterns / N. Stulov // Открытые семантические технологии проектирования интеллектуальных систем. - 2018. - Т. 2, № 8. - С. 293-297.

10. Метод автоматизированного извлечения адресов из неструктурированных текстов / А. В. Комарова, А. А. Менщиков, А. В. Полев, Ю. А. Гатчин // International Journal of Open Information Technologies. - 2017. - Т. 5, № 11. - С. 21-27.

Отправить рукопись JATS XML

Цитировать

Цитирований:

Дерево грамматического разбора

Подтверждение

Регистрация