В учебном пособии рассматриваются базовые вопросы компьютерной линг- вистики: от теории лингвистического и математического моделирования



Download 2,74 Mb.
Pdf ko'rish
bet8/14
Sana23.02.2022
Hajmi2,74 Mb.
#162917
TuriРеферат
1   ...   4   5   6   7   8   9   10   11   ...   14
Bog'liq
NLP and DA


часть-целое (автомобиль — двигатель);

причина-следствие (кипение жидкости — испарение жидкости) и т. д.
Выявление связей терминов опирается на распознавание в тексте ти-
пичных языковых конструкций [29]: учитывается, что каждый вид связи
употребляется в рамках своих типичных конструкций. Синонимы нередко
вводятся в конструкциях определения термина, например, фраза
Такие операции будем называть понятийными операциями (поня-
тийными функциями)
вводит новый термин понятийная операция и его синоним понятийная
функция. Конструкция вида
such T1 as T2 ,
где T1 и T2, — термины, позволяет выявить из фразы


3.9. ЗАКЛЮЧЕНИЕ 121
such crimes as money laundering (такие преступления, как отмыва-
ние денег)
термины crimes и money laundering и связать их отношением род-вид.
Отметим, что методы, разработанные в рамках других задач извлече-
ния информации нередко успешно применяются и для извлечения терми-
нологической информации, например, частичное обучение с учителем [9].
3.9 Заключение
Извлечение информации из текстов — достаточно развитое направле-
ние компьютерной лингвистики и автоматической обработки текстов, пред-
лагающее широкий спектр методов и соответствующих инструментальных
средств для построения различных прикладных систем, а также демон-
стрирующее достаточно эффективное решение задач извлечения разнотип-
ной информации.
Актуальность задач направления сохраняется: ясно, что построение
эффективной IE-системы может значительно облегчить последующую об-
работку извлечённых структурированных данных, что является ключевым
моментом в жизненном цикле накопления и использований новых знаний
(Knowledge Discovery) [5].
Современными тенденциями развития данного направления являются:

расширение использования разных факторов и ресурсов, в частности,
больших внешних ресурсов знаний (Википедия, DBPedia, WordNet,
графы знаний и др.);

учёт при извлечении нелокальных зависимостей текстовых единиц;

проведение более глубокого синтаксического анализа и использование
синтаксических признаков при машинном обучении;

сдвиг фокуса от структуризации извлечённой информации к ее визуа-
лизации, удобной для человека-аналитика, с предоставлением ему ин-
струментов для просмотра и редактирования данных.


122 Автоматическая обработка текстов и анализ данных
3.10 Список литературы
[1] Большакова Е.И., Носков А.А. Программные средства анализа текста на основе
лексико-синтаксических шаблонов языка LSPL // Программные системы и ин-
струменты: Тематический сборник, № 11 / Под ред. Королева Л.Н. — М.: МАКС
Пресс, 2010, с. 61-73.
[2] Лукашевич Н. В. Тезаурусы в задачах информационного поиска. — М.: МГУ, 2011.
[3] Сокирко А.В. Морфологические модули на сайте www.aot.ru // Компьютерная
лингвистика и интеллектуальные технологии: Труды международной конферен-
ции Диалог’2004 / Под ред. И.М.Кобозевой, А.С. Нариьяни, В.П. Селегея. М.:
Наука, 2004. с. 559-564.
[4] Томита-парсер. Руководство разработчика. URL: https://tech.yandex.ru/
tomita/doc/dg/concept/about-docpage/.
[5] Хорошевский В.Ф., OntosMiner: Семейство систем извлечения информации из
мультиязычных коллекций документов // Девятая Национальная конференция по
искусственному интеллекту с международным участием КИИ-2004: Труды конфе-
ренции. В 3-х т. — М.: Физматлит, 2004, т. 2, с. 573-581.
[6] Agichtein E., Gravano L. Snowball: extracting relations from large plain-text collections.
In: Proceedings of the Fifth ACM Int. Conference on Digital Libraries, New York, 2000,
pp. 85-94.
[7] Angeli G. et al. Manning. Leveraging Linguistic Structure For Open Domain
Information Extraction. In Proceedings of the Association of Computational Linguistics
(ACL), 2015.
[8] Bontcheva K., Maynard D., Tablan V., and Cunningham H. GATE: A Unicode-
based infrastructure supporting multilingual information extraction. In: Proceedings
of Workshop on Information Extraction for Slavonic and Other Central and Eastern
European Languages (IESL’03), Borovets, 2003.
[9] Bosma W., Vossen P. Bootstrapping Language Neutral Term Extraction. In:
Proceedings of the 7th Language Resources and Evaluation Conference, LREC, Valetta,
2010, pp. 2277-2282.
[10] Brin, S. Extracting patterns and relations from the World-Wide Web. In: Proceedings
of International Workshop on the World Wide Web and Databases (WebDB’98), LNCS
N 1590, Springer, 1998, pp. 172–183.


СПИСОК ЛИТЕРАТУРЫ 123
[11] Bunescu R., Mooney R. Learning to extract relations from the web using
minimal supervision. In: Proceedings of the Annual Meeting of the Association for
Computational Linguistics (ACL), Prague, 2007, pp. 576–583.
[12] Chiu, Jason P. C. and Eric Nichols. Named Entity Recognition with Bidirectional
LSTM-CNNs. TACL 4 (2016): 357-370.
[13] Chinchor N. MUC-5 Evaluation Metrics. In: Fifth Messages Understanding Conference
(MUC-5), Morgan Kaufman, 1993.
[14] Collobert R. et al. Natural language processing (almost) from scratch. The Journal of
Machine Learning Research, 2011, 12:2493– 2537.
[15] Doddington G. R. et al. The Automatic Content Extraction (ACE) Program-Tasks,
Data, and Evaluation. In: Proceedings of the 7th Language Resources and Evaluation
Conference, LREC, 2004.
[16] Feldman R., Sanger J. (ed.). The text mining handbook: advanced approaches in
analyzing unstructured data. — Cambridge University Press, 2007.
[17] Frantzi K., Ananiadou S., Mima H. Automatic Recognition of Multi-Word Terms: The
Cvalue/NC-value method // C. Nikolau et al. (eds.): International Journal on Digital
Libraries. — 2000. — Vol. 3(2). — P. 115-130.
[18] Gareev R., Tkachenko M., Solovyev V., Simanovsky A., Ivanov V. Introducing baselines
for Russian named entity recognition, Proceedings of the International Conference on
Intelligent Text Processing and Computational Linguistics, 2013, pp. 329–342.
[19] Grishman R. Information Extraction. In: The Handbook of Computational Linguistics
and Natural Language Processing. A. Clark, C. Fox, and S. Lappin (Eds), Wiley-
Blackwell, 2010, pp. 515-530.
[20] Grishman R., Sundheim B. Message Understanding Conference — 6: A Brief History.
In: Proceedings of COLING-1996, NY, 1996, pp. 466-471.
[21] Jacquemin C., Tsoukermann E. NLP for term variant extraction: synergy between
morphology, lexicon, and syntax // Strzalkowski T. (ed.): Natural Language
Information Retrieval. — Dordrecht: Kluwer Academic Publishers, 1999. — P. 25-74.
[22] Justeson J., Katz S. Technical terminology: some linguistic properties and an algorithm
for identification in text // Natural Language Engineering. — 1995. — Vol. 1(1). — P.
9-27.
[23] Korkontzelos I., Ananiadou S. Term Extraction. In: Oxford Handbook of Computational
Linguistics (2nd Ed.). Oxford University Press, Oxford, 2014.


124 Автоматическая обработка текстов и анализ данных
[24] Marsh E., Perzanowski D. MUC-7 evaluation of IE technology: Overview of results. In
MUC-7, volume 20, 1998.
[25] Maybury M. Multimedia Information Extraction: Advances in Video, Audio, and
Imagery Analysis for Search, Data Mining, Surveillance and Authoring. Wiley-IEEE
Computer Society Press. 496 pp.
[26] Mintz M., Bills S., Snow R., Jurafsky D. Distant supervision for relation extraction
without labeled data. In: Proceedings of the 47th Annual Meeting of the Association
for Computational Linguistics and the 4th Int. Joint Conf. on Natural Language
Processing, 2009, pp. 1003–1011.
[27] Nokel M.A., Bolshakova E.I., Loukachevich N.V. Combining Multiple Features
for Single-Word Term Extraction. In: Computational Linguistics and Intellectual
Technologies: Papers from the Annual International Conference “Dialogue” (2012). Issue
11. Vol. 1 of 2. Main conference program. Moscow, RGGU, p.490-501.
[28] OpenNLP. URL: http://opennlp.apache.org.
[29] Paice C., Jones P. The Identification of Important Concepts in Highly Structured
Technical Papers // Proceeding of 16th Annual International Conference on Research
and Development in Information Retrieval. — 1993. — P. 69-78.
[30] Pasca M., Lin D., Bigham J., Lifchits A., Jain A. Names and Similarities On The Web:
Fact Extraction In The Fast Lane. In: Proceedings of the 21st International Conference
on Computational Linguistics and the 44th Annual Meeting of the Association for
Computational Linguistics (ACL), 2006, p. 809–816.
[31] Pazienza, M. T., Pennacchiotti, M. and Zanzotto, F. M. Terminology extraction: An
analysis of linguistic and statistical approaches. In S. Sirmakessis (eds.), Knowledge
mining: Proceedings of the NEMIS 2004 final conference, p. 255–279, 2005, Berlin
Heidelberg. Springer.
[32] Ratinov L., Roth D. Design Challenges and Misconceptions in Named Entity
Recognition, Proceedings of the Thirteenth Conference on Computational Natural
Language Learning, Boulder, 2009, pp. 147–155.
[33] Riloff E.: Automatically constructing a dictionary for information extraction tasks.
In: Proceedings of Eleventh National Conference on Artificial Intelligence (AAAI-93),
Washington, DC, 1993, pp. 811–816.
[34] Riloff E., Jones R. Learning dictionaries for information extraction by multi-level
bootstrapping. In: Proceedings of the Sixteenth National Conference on Artificial
Intelligence, 1999.


СПИСОК ЛИТЕРАТУРЫ 125
[35] Sekine’s Extended Named Entity Hierarchy. URL: http://nlp.cs.nyu.edu/ene/.
[36] Sparck Jones K. A Statistical Interpretation of Term Specificity and its application in
retrieval // Journal of Documentation. — 1972. — № 28. — P. 11-21.
[37] Stanford CoreNLP. URL: https://stanfordnlp.github.io/CoreNLP/.
[38] TimeML. URL: http://www.timeml.org.
[39] Trampus M., Mladenic D. Learning Event Patterns from Text. Informatica, Vol. 35,
2011.
[40] Wiil U. Counterterrorism and Open Source Intelligence. Lecture Notes in Social
Networks. Springer, 2011.


126 Автоматическая обработка текстов и анализ данных


Download 2,74 Mb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   ...   14




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish