Рис 4.4 . Сезонные колебания объема продаж.
4Thought позволяет не только строить количественную модель зависимости объема продаж от каждого из факторов, но и прогнозировать ожидаемый спрос. Располагая таким прогнозом, оптовая фирма может точно спланировать необходимый объем товаров на складе, а следовательно, минимизировать вовлеченный капитал. Ниже на рис.4.5. приведен прогноз, полученный с помощью 4Thought. По горизонтальной оси отложено время, а по горизонтальной - ожидаемый объем продаж:
Рис 4.5. Прогноз объема продаж.
Хотя прогноз и выглядел малоутешительным для фирмы, он, тем не менее, позволил ей повысить эффективность управления в наиболее тяжелый период за счет усовершенствования управления запасами, транспортом и человеческими ресурсами.
4.6. Области применения и пути развития технологии интеллектуального анализа и обработки данных
Технологии интеллектуального анализа и обработки данных становятся все более распространенными и находят применение в самых разнообразных сферах человеческой деятельности - науке, инженерном деле и производстве, банковском и страховом бизнесе, маркетинговых исследованиях, торговле и др.
Исследования в области естественных и гуманитарных наук - наиболее распространенное применение методов извлечения знаний. С их помощью в медицине выявляются взаимосвязи между симптомами и болезнями, а пациенты классифицируются по группам риска; в геологии устанавливаются связи между характеристиками почвы и фактами залегания полезных ископаемых; в социальной сфере обрабатываются результаты проведенных опросов общественного мнения и голосования, изучается поведение различных социальных групп и тенденции в общественной жизни. Системы извлечения знаний помогают предсказывать погоду и открывать новые космические объекты.
Инженеры активно применяют технологию извлечения знаний при проектировании микросхем, распознавании речи и образов. В производстве эти системы позволяют оптимизировать технологические процессы, тестировать готовые изделия и прогнозировать качество конечной продукции.
Первый положительный опыт использования технологии извлечения знаний на практике был накоплен в финансовой сфере - при решении задач оптимального управления портфелями ценных бумаг. Сегодня методы обнаружения знаний применяются для определения страховых и кредитных рисков, прогнозирования состояния финансовых рынков (изменение индексов деловой активности, курсов валют и ценных бумаг и пр.), выявления злоупотреблений с кредитными карточками, оценки объектов недвижимости, классификации (сегментации) клиентов.
Компании тратят гигантские средства на маркетинговые исследования, пытаясь сохранить старых и привлечь новых клиентов. Технологии извлечения знаний помогут торговой фирме резко сократить список рассылки приглашений на презентации и рекламных буклетов (с нескольких сотен до десятка тысяч адресатов), которые будут доставляться не всем подряд, а только наиболее вероятным покупателям. С помощью методов обнаружения знаний можно прогнозировать спрос и в соответствии с ним регулировать выпуск продукции, а также выяснить, покупка каких товаров влечет за собой приобретение других.
Для иллюстрации возможностей современных ИС в области интеллектуального анализа и обработки данных ниже приведены примеры некоторых приложений в военном деле, в области финансов, страхового дела, рекламного дела, маркетинга и здравоохранения.
Фирма AAFES (The Army and Air Force Exchange Service) является основным поставщиком военной продукции США. Она контролирует почти 17000 фирм (торговых предприятий) и имеет 2-3 миллиона клиентов. Ее аналитики используют систему IDIS для извлечения знаний с целью определения шаблонов продаж, основанных на демографических данных ее клиентов. Путем определения ежегодных расходов клиентов по различным статьям, аналитики могут помочь AAFES направить свою рекламу и продажи в нужное русло. До покупки IDIS, AAFES, согласно отчетам, платила одному работнику 30,000 долларов, чтобы сделать демографический анализ вручную, используя обычные статистические методы. Как правило, это занимало 2-3 недели. С помощью системы IDIS, тот же самый анализ проводится за несколько дней.
Система Accounts Receivable Classifier обеспечивает классификацию чеков, допустимых к приему. Выделяет чеки с высокой вероятностью оплаты. Использует архивные БД о тысячах оплаченных и неоплаченных налоговых квитанциях для выделения моделей неплательщиков. Поддерживает такие методы выделения признаков, как описательная статистика, алгоритмы кластеризациии, полиномиальные сети. Целью является улучшение распределения ресурсов сбора налогов.
Система Data Cleaning обеспечивает чистку базы данных архивной финансовой информации, используемой аналитиками для построения и прогона финансовых моделей для принятия решений об инвестировании, для прогнозирования и т.д. Средства визуализации данных, дедуктивная база данных и методы индукции были использованы для чистки БД, содержащей информацию о 2200 связях мексиканского и британского правительств.
Система Data Verification for Foreign Prices предназначена для верификации данных по зарубежным ценам. Система обнаруживает ошибки в поступающих в реальном времени данных о курсах обмена иностранных валют. Использует технику нейронных сетей и индукции. Модели осуществляют грубое прогнозирование цен на основе данных об их последних изменениях. Если поступающие данные сильно отклоняются от предсказанного значения, они помечаются как подозрительные. Обнаружение ошибок осуществляется на основе знаний, автоматически выведенных из легкодоступных данных, а не полученных от экспертов; система может адаптироваться к изменяющейся обстановке через обучение на новых данных.
Система Forecasting Arrears Problems предназначена для прогнозирования неплатежей. Предсказывает задолженности с помощью анализа данных методами индукции среди 500000 закладных чеков.
Система Mining for Underwriting Rules использует методы извлечения в страховании. В частности, она использует средства визуализации и методы индукции для профилирования информации о потенциальных клиентах.
Компания Reuters занимается, в частности, распространением информации о котировках финансовых инструментов в реальном времени. Некоторые данные могут содержать ошибки, за выявление которых ответственно специальное подразделение компании - Reuters International Data Quality Group. Для поиска ошибок в сведениях о валютных котировках применяются методы обнаружения знаний, реализованные в продукте Clementine производства Integral Solutions.
Крупнейший канадский банк (CIBC) для идентификации злоумышленников и управления рисками установил программу Knowledge Seeker фирмы Angoss. Имея в своем распоряжении обширную базу данных клиентов, специалисты банка решили выяснить, кто из них в будущем вероятнее всего будет задерживать выплаты по закладным. Предполагалось, что в числе таких клиентов в первую очередь окажутся те, кто в прошлом задерживал выплаты на два-три дня. Однако исследования с помощью Knowledge Seeker показали, что больше других на эту роль подходят клиенты, которые на фоне регулярных выплат иногда "забывали" заплатить. Как выяснилось, подобная "забывчивость" была связана с серьезными финансовыми затруднениями.
Для изучения привычек своих клиентов и планирования кампаний по продвижению услуг American Express использует программу Spotlight фирмы A.C. Nielsen.
U.S. Internal Revenue Service внедрила информационную систему для выявления злоупотреблений с кредитными карточками и улучшения сбора налогов. В проекте использованы сразу три пакета – Knowledge Seeker (Angoss), ModelWare (TeraNet) и AIM (AbTech).
Специалисты Университета шт. Висконсин (г. Милуоки) с помощью системы IDIS от Information Discovery изучали случаи вынесения судом присяжных смертных приговоров и мнение судьи Байрона Уайта (Byron White) по этим делам. Выяснилось, что точка зрения судьи отражает его принадлежность к консервативному блоку, а результаты голосования присяжных имеют явную корреляцию с расой обвиняемых.
Исследовательская лаборатория NASA-Jet разработала программный комплекс для автоматической обработки и анализа космических снимков (SKY Image Cataloging and Analysis Tool, SKICAT). С помощью новой системы (ОС Unix плюс собственные алгоритмы поиска, запрограммированные с применением языка C и СУБД Sybase) астрономы смогут обработать "сырые" данные объемом 3 Тбайт. Предполагается, что в результате будет каталогизировано более 50 млн галактик, около 2 млрд звезд и почти 100 тыс. квазаров. Кстати, вскоре после установки системы удалось обнаружить девять новых квазаров. Если бы ученые пользовались старыми инструментами, для открытия этих космических объектов потребовалось бы три года.
Инвестиционная компания LBS Capital Management полностью полагается на компьютерные методы поддержки принятия решений. Для предсказаний поведения финансовых рынков она использует "нейронный" пакет BrainMaker компании California Scientific Software. Специально обученная нейронная сеть предсказывала поведение индекса S&P 500 со средней точностью 95%. Обучение проводилось на ретроспективных данных за пять лет, а наилучшая точность была достигнута для пятидневного прогноза.
Фирма IBM разработала три настраиваемых межотраслевых приложения на базе ИС Intelligent Miner /11/. Эти приложения разработаны в виде оболочек и могут быть масштабированы и модифицированы корпоративными разработчиками или менеджерами программного обеспечения третьих фирм. Это обеспечивает интеграцию ИС Intelligent Miner со своими собственными информационными системами или другими программными продуктами анализа данных. Эти приложения включают сегментацию клиентов, анализ набора сущностей и обнаружение подделок.
Первые два приложения разработаны для задач маркетинга. Первое приложение, основываясь на информации из базы данных маркетинга, разделяет на сегменты и размечает данные о клиенте, тем самым, помогая понять поведение клиента. Результаты используются для целевого маркетинга, перепродажи, в компаниях по удержанию клиента, для созданий мотиваций к покупке и для проектов по анализу уязвимости клиента.
Второе приложение по анализу набора сущностей поддерживает технику, часто называемую как техника «анализа корзины продаж». Она полезна для понимания поведения клиента при покупках и для прогнозирования будущего поведения путем идентификации сходств среди выбранных им продуктов и услуг.
Третье приложение по выявлению подделок определяет отклонения от установленных норм для уменьшения подозрительных транзакций, которые могут быть обусловлены мошеннической деятельностью.
Фирма IBM использует свою технологию извлечения знаний внутри своих структур для помощи различным подразделениям IBM при анализе сбыта и для усовершенствования производственных проектов. Другие компании используют разработанные IBM средства извлечения знаний в различных областях хозяйства, включая розничную торговлю, банковские и финансовые службы, здравоохранение, путешествия, телекоммуникации и страхование.
Примером применения технологии извлечения знаний в области здравоохранении является система FAMS фирмы IBM для определения подделок и злоупотреблений в медицине /14/. Количество данных и переменных, связанных с обработкой претензий в области здравоохранения, весьма велико. Соответственно, попытки обнаружить махинации в области здравоохранения очень сложны, т.к. исследователи оказываются просто “завалены” информацией, когда используют традиционную технологию обработки запросов и составления отчетов, не ориентированную на сверх большие базы данных. Существует значительное количество данных, доказывающих необходимость внедрения новых средств обработки данных для снижения расходов. Например, аналитики оценивают затраты на здравоохранение в США в сумму, превышающую 1 триллион долларов в год. Махинации и злоупотребления в здравоохранении оцениваются более чем в 100 биллионов долларов в год. Система FAMS призвана помогать в борьбе с проблемой мошенничества.
FAMS объединяет технику нечеткого моделирования и поддержки принятия решения для четырех направлений борьбы с махинациями в здравоохранении: обнаружение, исследование, урегулирование и предупреждение (предотвращение). На этапе обнаружения используется техника нечеткого моделирования и статистические методы обработки, чтобы описать поведение однородной группы; далее генерируется иерархия меток каждого члена группы, которая отражает отклонение от нормального поведения. Средства исследования поддерживают анализ обработанных по шаблону меток и детализируют данные претензий.
На этапе урегулирования формируются аналитические отчеты и графики, детализирующие поведение однородной группы и активность исков. Отчеты используются для поддержки переговоров, решений и выдвижения криминальных обвинений. На этапе предотвращения поддерживается непрерывный мониторинг служб здравоохранения и предлагается новые средства для их оценки и обучения. Видоизменяя поведение служб здравоохранения, у служб может пропасть охота делать злоупотребления, тем самым сокращаются убытки.
В целом, FAMS поддерживает работу аналитиков и исследователей махинаций, предоставляя им доступ к данным и аналитические возможности, которые они могут использовать для повышения продуктивности и эффективности своих исследований. Он использует “ретроспективный анализ” данных претензий (исков) для анализа медицинской практики работников здравоохранения и объединяет работников в однородную группу, выделяя тех, чья практика отклоняется от нормы. Целью является отбор наиболее подозрительные личности для дальнейшего исследования.
Однородные группы обычно определяются медицинской специализацией, географическим регионом или другими признаками деления. Например, можно сфокусировать свое внимание на психиатрах Лос-Анджелеса, дерматологах Нью-Йорка Хартфорда, санитарных службах главных линий метрополитена или на клиниках с оплатой визитов выше данного уровня.
При выполнении операции пользователь FAMS сначала определяет однородную группу и затем создает модель выбранных шаблонов поведения для использования при анализе. Данные претензий по всем работникам однородной группы анализируются системой. И для каждого работника генерируется иерархия меток, определенных моделью (шаблоны индивидуального поведения, группа поведения и составные метки).
Ключевые функциональные возможности FAMS поддерживаются системой нечеткого моделирования, которая метит работников, отклоняющихся от нормального поведения своей однородной группы. Система содержит более 650 стандартных шаблонов индивидуального поведения. Например, среднее число процедур за визит, процентное содержание диагнозов, выходящих за рамки специализации врача и т.д. Чтобы создать модель анализа, пользователь выбирает из библиотеки функциональных объектов и линкует шаблоны поведения, соответствующие данной однородной группе, которую он хочет исследовать. Обычно модель состоит из 25-30 шаблонов поведения.
FAMS работает, анализируя данные претензий для вычисления значений для каждого работника в модели. Каждому значению приписывается метка от 0 до 1,000, основанная на степени отклонения от норм однородной группы. Чем больше отклонение, тем выше метка. FAMS использует нечеткие функции членства (принадлежности) для оценки поведения каждого работника. Вычисляются значения для каждого шаблона поведения для всех работников в однородной группе, и дистрибутивное отклонение этого значения анализируется системой. Метятся только те работники, чьи значения выше среднего значения данной однородной группы - чем больше отклонение от среднего значения, тем выше метка.
Работники с самыми высокими метками помещаются в вершину списка приоритетов для дальнейшего исследования. Результатом является целевой список управляемого размера. Как только подозреваемый работник идентифицирован, можно использовать другие средства анализа FAMS для помощи в определении того, действительно ли вы имеете дело с мошенничеством, или отклонение оправдано. Например, вы можете пройти в обратном порядке банк данных и провести тщательный анализ тех данных претензий, которые послужили основанием для подозрительно большого счета. Вы также можете использовать средства составления отчетов FAMS для создания “карты отчета”, которая определенным образом документирует, где работник отклонился от норм однородной группы в некоторых аспектах поведения.
По словам сотрудников IBM, страховые агенты регулярно получают сведения о возможных махинациях. Некоторые из них являются хорошими примерами, другие - нет. Но если вы получаете сведения и хотите немедленно проверить данные, и если обнаруживаете, что некоторый работник назначал за визит на 40% процедур больше нормы для данной однородной группы и устанавливал цену на 55% больше нормы на пациента, и назначал на воскресенье чрезмерное количество “критических” пациентов, у вас есть веские причины для скорейшего исследования претензий к этому работнику.
В настоящее время система FAMS используется ведущими медицинскими центрами здравоохранения США, такими как CIGNA Health Care, Aetna Health Plans и Prudential.
В заключении, перечислим основные области возможного применения технологии обнаружения знаний в России.
Банковское дело, страхование и бизнес: оценка кредитных рисков в банковской сфере и бизнесе; оценка страховых рисков; прогноз тенденций на финансовых рынках; выявление махинаций с кредитными карточками; построение профилей клиентов для новых видов услуг; оптимальное управление портфелями ценных бумаг; оценка объектов недвижимости.
Торговля и маркетинг: построение профилей потенциальных покупателей заданного товара; анализ продуктовой корзины - комплексный подход, позволяющий оптимизировать работу производителей товаров, транспортных компаний, дистрибуторов товаров и торговых организаций.
Производство: оптимизация технологических процессов; мониторинг технологических процессов.
Медицина: поиск зависимостей между симптомами и заболеваниями; выявление групп риска; диагностика заболеваний; классификация пациентов.
Геология: зависимость между характеристиками почвы и наличием полезных ископаемых.
Наука: выявление трендов в социологии и физике; классификация космических объектов; предсказание вспышек на солнце; обработка результатов научных экспериментов; проектирование и исследование микросхем; предсказание погоды; спектроскопия.
Информатика: построение профилей потенциальных пользователей Web-серверов; распознавание образов и речи.
Социальная сфера: обработка результатов голосования и опросов общественного мнения.
При использовании технологии обнаружения знаний следует всегда учитывать, что процесс извлечения знаний является сложным и не может быть полностью автоматизирован. Аналитик может быть вооружен десятком мощных инструментальных систем, но окончательное решение всегда принимает человек. Только он в состоянии определить, представляют ли найденная модель, функция или правило практический интерес для его организации.
Do'stlaringiz bilan baham: |