ИНТЕЛЛЕКТУАЛЬНЫЙ ПОИСК И АНАЛИЗ ИНФОРМАЦИИ.
1Группы задач ИАТ
2Применение
2.1В безопасности
2.2В программном обеспечении
3Примечания
4Литература
Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.
Группы задач ИАТ
Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.
Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом классификацией документов, система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.
Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соответствующая задача называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура выбора признаков).
Применение
В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.
В безопасности
Многие пакеты анализа текста, такие как Aerotext и Attensity, нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.
В программном обеспечении
Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.
Интеллектуальный анализ данных — это направление информационных технологий, охватывающее всю область проблем, связанных с извлечением знаний из массивов данных.
Часто интеллектуальный анализ данных рассматривают как трансформацию термина Data Mining (раскопка, разработка данных) и считают два этих понятия синонимами. В широком смысле это вполне допустимо. Однако считать их абсолютно идентичными было бы неверно, поскольку методы Data Mining сосредотачиваются главным образом на процессах анализа данных и интеллектуальном моделировании. В то же время считается, что интеллектуальный анализ данных рассматривает весь спектр проблем, связанных с процессом извлечения знаний из баз данных.
В основе интеллектуального анализа данных, как и в Data Mining, лежит идея активного применения математических методов, таких как оптимизация, генетические алгоритмы, распознавание образов, статистика, Data Mining и т.д., а также использующих визуальное представление информации.
Однако интеллектуальный анализ данных также включает вопросы извлечения данных из различных источников, их консолидацию, профайлинг, трансформацию, предобработку, очистку и обогащение.
Модели интеллектуального анализа данных могут применяться в конкретных бизнес-сценариях, а именно:
Прогнозирование: оценка продаж, прогнозирование нагрузки сервера или времени простоя сервера;
Риск и вероятность: выбор наиболее подходящих заказчиков для целевой рассылки, определение точки равновесия для рискованных сценариев, назначение вероятностей диагнозам или другим результатам;
Рекомендации: определение продуктов, которые с высокой долей вероятности могут быть проданы вместе, создание кросс-пакетов;
Поиск последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование следующего возможного события;
Группировка: разделение заказчиков или событий на кластеры связанных элементов, анализ и прогнозирование общих черт.
Do'stlaringiz bilan baham: |