Основные этапы анализа исходных данных, интеграции и изменения данных



Download 35,75 Kb.
bet6/6
Sana06.03.2023
Hajmi35,75 Kb.
#916900
TuriЗакон
1   2   3   4   5   6
Bog'liq
4 лекОсновные этапы анализа исходных данных

ID

ID предка

Объект

1




Хлебобулочные изделия

2

1

Хлеб

3

1

Булки

4

2

Батон "Рязанский"

5

2

Хлеб "Бородинский"

6




Молочные продукты

7

6

Молоко

8

6

Йогурты

9

8

Йогурт Чудо 0,4

10

8

"Растишка персиковый 0,25"

ID – уникальный номер объекта. ID предка – номер родительского объекта. Если объект корневой, то это поле должно быть пустым. В поле "Объекты" находятся как группы, так и товар.
Таблица с иерархией объектов соответствует следующей диаграмме.

Анализ транзакций целесообразно производить на большом объеме данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы информации, т.к. основное достоинство алгоритмов поиска ассоциативных правил заключается именно в масштабируемости, т.е. способности обрабатывать большие объемы данных.
Примерное соотношение между количеством объектов и объемом данных:

  • 300-500 объектов – более 10 тыс. транзакций;

  • 500-1000 объектов – более 300 тысяч транзакций;

При недостаточном количестве транзакций целесообразно уменьшить количество анализируемых объектов, например, сгруппировать их.
Построение моделей – анализ
существует большое количество механизмов построения моделей, и их описание выходит за рамки данной статьи. Но каждый из них имеет свои ограничения и решает определенный класс задач, поэтому на практике, чаще всего добиться успеха можно, комбинируя методы анализа. При этом, чем раньше будет предпринята попытка испытать полученную модель на практике, тем лучше, т.к. других способов реально оценить ее качество не существует.
В целом, можно дать следующие рекомендации, не зависящие от конкретного алгоритма обработки:

  • Уделить большое внимание очистке данных. Собрав данные в нужном объеме, нельзя быть уверенным, что они будут хорошего качества. Чаще всего, качество данных оставляет желать лучшего, поэтому необходимо их предобработать. Для этого есть множество методов: удаление шумов, сглаживание, редактирование аномалий и прочее. Дополнительно см. Предобработка и очистка данных;

  • Комбинировать методики анализа. Это позволяет шире смотреть на проблему. Более того, использование различных методов для решения одной и той же задачи может навести на ценные идеи;

  • Не гнаться за абсолютной точностью и начать использование при получении первых приемлемых результатов. Все равно идеальный результат получить невозможно. Если мы получили результат, пусть не идеальный, но лучше, чем был ранее, то есть резон начать его использование. Во-первых, это позволяет быстрее получить практическую отдачу. Во-вторых, только на практике можно действительно оценить полученный результат. В-третьих, можно и нужно параллельно работать над совершенствованием модели с учетом полученных на практике результатов;

  • При невозможности получения приемлемых результатов следует вернуться на предыдущие шаги схемы. К сожалению, ошибки могут быть допущены на любом шаге: может быть некорректно сформулирована первоначальная гипотеза, могут возникнуть проблемы со сбором необходимых данных и прочее. К этому нужно быть готовым. При возникновении такого рода проблем возвращатйтесь на предыдущие пункты и рассматривайте альтернативные варианты решения;

Для оценки адекватности полученных результатов необходимо привлекать экспертов в предметной области. Интерпретация модели, так же как и выдвижение гипотез, может и должно делаться экспертом, т.к. для этого нужно более глубокое понимание процесса, выходящее за пределы анализируемых данных. Кроме того, нужно воспользоваться и формальными способами оценки качества модели: тестировать построенные модели на различных выборках для оценки их обобщающих способностей, т.е. способности давать приемлемые результаты на данных, которые не предоставлялись системе при построении модели. Некоторые механизмы анализа могут "запоминать" предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению и на тестовых (из неизвестных системе ранее) данных выдавать очень плохие результаты. При формальной оценке можно отталкиваться от идеи, что если на тестовых данных модель дает приемлемые результаты значит она имеет право на жизнь.
Заключение
При получении приемлемых результатов нужно начать использование полученных моделей. Начало применения не является завершением Data Mining проекта. Работать над совершенствованием моделей нужно всегда, т.к. по прошествии времени обязательно наступит момент, когда опять придется проходить описанный цикл. К тому же, после получения первых удовлетворительных результатов, обычно встает вопрос о повышении точности.
Почивать на лаврах нельзя, необходимо периодически оценивать адекватность модели текущей ситуации, потому что даже самая удачная модель со временем перестает соответствовать действительности.
Download 35,75 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish