INFORMATION SYSTEMS FOR EXTRACTING DATA FROM UNSTRUCTURED TEXT USING ONTOLOGIES

V. Lavlinskiy; Yuliya O. Zol&#039;nikova

doi:doi:10.12737/article_5c4f196e58e605.96494978

INFORMATION SYSTEMS FOR EXTRACTING DATA FROM UNSTRUCTURED TEXT USING ONTOLOGIES

Submit manuscript

To cite

Citations:

INFORMATION SYSTEMS FOR EXTRACTING DATA FROM UNSTRUCTURED TEXT USING ONTOLOGIES

Journal: MODELING OF SYSTEMS AND PROCESSES Volume 11 № 3 , 2019

Rubrics: TEHNICHESKIE NAUKI

UDC 60

V. Lavlinskiy ¹

Yuliya O. Zol'nikova ²

Author and publication information

Authors:

1. Voronezh State University of Forestry and Technologies named after G.F. Morozov

Russian Federation

2. FSBE Institution of Higher Education Voronezh State University of Forestry and Technologies named after G.F. Morozov

Voronezh, Russian Federation

Type:

Article

DOI:

https://doi.org/10.12737/article_5c4f196e58e605.96494978

Pages:

from 30 to 34

Status:

Published

Received:

28.01.2019

Accepted:

28.01.2019

Published:

28.01.2019

Subject area:

UDC 60

Language:

Russian

Keywords:

Grammaticheskiy razbor, izvlechenie smyslovoy informacii, ontologii, nestrukturirovannyy tekst, graf zavisimostey.

Abstract and keywords

Abstract:
Osnovnoy zadachey pri izvlechenii informacii iz teksta yavlyaetsya promezhutochnoe predstavlenie dannyh. Dlya etoy celi ispol'zuetsya grammaticheskiy razbor i osuschestvlyaetsya sintaksicheskiy analiz teksta, chtob opredelit' sootvetstvie grammaticheskoy struktury pravilam formal'noy grammatiki dlya dannogo yazyka. Process grammaticheskogo razbora privodit k generacii dereva grammaticheskogo razbora, a takzhe grafov zavisimostey. Grafy zavisimostey predstavlyayut soboy struktury dannyh, kotorye yavlyayutsya proizvodnymi ot obrabatyvaemogo teksta i opredelyayut neyavnuyu strukturu realizacii v zadannom tekste.

Keywords:
Grammaticheskiy razbor, izvlechenie smyslovoy informacii, ontologii, nestrukturirovannyy tekst, graf zavisimostey.

Text

Дерево грамматического разбора

Дерево грамматического разбора является упорядоченным деревом с корнем, который отображает синтактическую структуру предложения. В этом разделе описывается метод Обозначения Пенна корпусов с синтаксической разметкой (Penn Treebank Notation), который используется многими приложениями грамматического разбора, для тегирования (разметки) предложения до того, как будет сгенерировано дерево грамматического разбора. Эти теги в основном используются в системах извлечения смысловой информации, для формулирования правил, согласно которым должно производится извлечение.

Ниже приведена упрощенная форма определений из Обозначений Пенна Корпусов с Синтаксической Разметкой (для полного списка обозначений см. [1]):

S: Простые декларативные предложения (Simple declarative clause)
NP: Именная группа (Noun Phrase). Категория фраз, которая включает в себе все составляющие, зависящие от главного существительного.
VP: Глагольная группа (Verb Phrase). Категория выражений, возглавляемая глаголом.

References

1. Software - The Stanford Natural Language Processing Group. -Rezhim dostupa: http://nlp.stanford.edu/software/. - Zagl. s ekrana.

2. Ciravegna, F. (LP), an adaptive algorithm for information extraction from Web-related texts. In Proceedings of the IJCAI-2001 Workshop on Adaptive Text Extraction and Mining held in conjunction with 17th International Joint Conference on Artificial Intelligence (IJCAI)/, F. Ciravegna, J. Tang, J. Li, H. Lu, B. Liang, X. Huang, K. Wang.- Seattle, USA. - 2001.

3. iASA: Learning to Annotate the Semantic Web. JOURNAL ON DATA SEMANTICS IV Lecture // Notes in Computer Science. - 2005. - Volume 3730/2005. - P. 110-145

4. Soderland, S., Learning information extraction rules for semi-structured and free text / S. Soderland // Machine Learning. -1999. - №34. - P. 233-272/

5. Califf, M. E. Bottom-up relational learning of pattern matching rules for information extraction / M. E. Califf, , R. J. Mooney // Journal of Machine Learning Research. -2003. - Vol. 4. - Pp.177-210.

6. Sokolov, E. G. Primenenie LSA/LSI metodov dlya izvlecheniya dannyh iz nestrukturirovannogo teksta / E. G. Sokolov, M. M. Sharnin // Trudy Mezhdunarodnoy nauchnoy konferencii po fiziko-tehnicheskoy informatike CPT2018. - Car'grad, 2018. - S. 59-63.

7. Metody avtomaticheskoy klassifikacii tekstov po funkcional'nym stilyam / L.M. Ermakova, M.A. Abashev, R.V. Nikitin, R.I. Ushakov // Vestnik Permskogo universiteta. Seriya: Matematika. Mehanika. Informatika. - 2014. - № 4 (27). - S. 78-83.

8. Bogatyrev, M. Yu. Izvlechenie faktov iz tekstov estestvennogo yazyka s primeneniem konceptual'nyh grafovyh modeley / M.Yu. Bogatyrev // Izvestiya Tul'skogo gosudarstvennogo universiteta. Tehnicheskie nauki. - 2016. - № 7-1. - S. 198-208.

9. Stulov, N. Patent landscapes & new technology trends in iot: extracting and visualizing data patterns / N. Stulov // Otkrytye semanticheskie tehnologii proektirovaniya intellektual'nyh sistem. - 2018. - T. 2, № 8. - S. 293-297.

10. Metod avtomatizirovannogo izvlecheniya adresov iz nestrukturirovannyh tekstov / A. V. Komarova, A. A. Menschikov, A. V. Polev, Yu. A. Gatchin // International Journal of Open Information Technologies. - 2017. - T. 5, № 11. - S. 21-27.

Submit manuscript JATS XML

To cite

Citations:

Дерево грамматического разбора

Confirmation

Регистрация