Russian Federation
Voronezh, Russian Federation
Osnovnoy zadachey pri izvlechenii informacii iz teksta yavlyaetsya promezhutochnoe predstavlenie dannyh. Dlya etoy celi ispol'zuetsya grammaticheskiy razbor i osuschestvlyaetsya sintaksicheskiy analiz teksta, chtob opredelit' sootvetstvie grammaticheskoy struktury pravilam formal'noy grammatiki dlya dannogo yazyka. Process grammaticheskogo razbora privodit k generacii dereva grammaticheskogo razbora, a takzhe grafov zavisimostey. Grafy zavisimostey predstavlyayut soboy struktury dannyh, kotorye yavlyayutsya proizvodnymi ot obrabatyvaemogo teksta i opredelyayut neyavnuyu strukturu realizacii v zadannom tekste.
Grammaticheskiy razbor, izvlechenie smyslovoy informacii, ontologii, nestrukturirovannyy tekst, graf zavisimostey.
Дерево грамматического разбора
Дерево грамматического разбора является упорядоченным деревом с корнем, который отображает синтактическую структуру предложения. В этом разделе описывается метод Обозначения Пенна корпусов с синтаксической разметкой (Penn Treebank Notation), который используется многими приложениями грамматического разбора, для тегирования (разметки) предложения до того, как будет сгенерировано дерево грамматического разбора. Эти теги в основном используются в системах извлечения смысловой информации, для формулирования правил, согласно которым должно производится извлечение.
Ниже приведена упрощенная форма определений из Обозначений Пенна Корпусов с Синтаксической Разметкой (для полного списка обозначений см. [1]):
- S: Простые декларативные предложения (Simple declarative clause)
- NP: Именная группа (Noun Phrase). Категория фраз, которая включает в себе все составляющие, зависящие от главного существительного.
- VP: Глагольная группа (Verb Phrase). Категория выражений, возглавляемая глаголом.
1. Software - The Stanford Natural Language Processing Group. -Rezhim dostupa: http://nlp.stanford.edu/software/. - Zagl. s ekrana.
2. Ciravegna, F. (LP), an adaptive algorithm for information extraction from Web-related texts. In Proceedings of the IJCAI-2001 Workshop on Adaptive Text Extraction and Mining held in conjunction with 17th International Joint Conference on Artificial Intelligence (IJCAI)/, F. Ciravegna, J. Tang, J. Li, H. Lu, B. Liang, X. Huang, K. Wang.- Seattle, USA. - 2001.
3. iASA: Learning to Annotate the Semantic Web. JOURNAL ON DATA SEMANTICS IV Lecture // Notes in Computer Science. - 2005. - Volume 3730/2005. - P. 110-145
4. Soderland, S., Learning information extraction rules for semi-structured and free text / S. Soderland // Machine Learning. -1999. - №34. - P. 233-272/
5. Califf, M. E. Bottom-up relational learning of pattern matching rules for information extraction / M. E. Califf, , R. J. Mooney // Journal of Machine Learning Research. -2003. - Vol. 4. - Pp.177-210.
6. Sokolov, E. G. Primenenie LSA/LSI metodov dlya izvlecheniya dannyh iz nestrukturirovannogo teksta / E. G. Sokolov, M. M. Sharnin // Trudy Mezhdunarodnoy nauchnoy konferencii po fiziko-tehnicheskoy informatike CPT2018. - Car'grad, 2018. - S. 59-63.
7. Metody avtomaticheskoy klassifikacii tekstov po funkcional'nym stilyam / L.M. Ermakova, M.A. Abashev, R.V. Nikitin, R.I. Ushakov // Vestnik Permskogo universiteta. Seriya: Matematika. Mehanika. Informatika. - 2014. - № 4 (27). - S. 78-83.
8. Bogatyrev, M. Yu. Izvlechenie faktov iz tekstov estestvennogo yazyka s primeneniem konceptual'nyh grafovyh modeley / M.Yu. Bogatyrev // Izvestiya Tul'skogo gosudarstvennogo universiteta. Tehnicheskie nauki. - 2016. - № 7-1. - S. 198-208.
9. Stulov, N. Patent landscapes & new technology trends in iot: extracting and visualizing data patterns / N. Stulov // Otkrytye semanticheskie tehnologii proektirovaniya intellektual'nyh sistem. - 2018. - T. 2, № 8. - S. 293-297.
10. Metod avtomatizirovannogo izvlecheniya adresov iz nestrukturirovannyh tekstov / A. V. Komarova, A. A. Menschikov, A. V. Polev, Yu. A. Gatchin // International Journal of Open Information Technologies. - 2017. - T. 5, № 11. - S. 21-27.