14 savol:
9-маъруза. Қарорлар дарахти
Қарорлар дарахти (шунингдек, синфлаш дарахти ёки регрессия дарахти деб ҳам аталади) – машинали ўрганишда, берилганлар таҳлилида ва статистикада қўлланиладиган қарорларни қабул қилишнинг қўллаб-қувватлаш воситасидир.
Дарахт тузилиши "тугунлар" ва "япроқлар" дан иборат. Қарор дарахтининг қирраларида ("тугунларида") мақсад функция боғлиқ бўлган атрибутлар, "япроқларда" мақсад функциянинг қийматлари, бошқа тугунларда турли ҳолатларни ажратадиган атрибутлар ёзилган. Янги бир ҳолатни синфлаш учун дарахтнинг япроғигача тушиб келиб, мос қийматни (натижаларни) бериш керак.
БИТда қарорлар дарахтлари икки асосий турга бўлинади:
Синфлаш дарахти, башорат қилинган натижа - бу берилганлар тегишли бўлган синф;
Регрессия дарахти, башорат қилинган натижани ҳақиқий сон сифатида ҳисоблаш мумкин (масалан, уйнинг нархи ёки беморнинг касалхонада бўлиш муддати).
Умуман олганда қарорлар дарахти – тугунлар ва япроқлар деб номланувчи икки турдаги элементлардан ташкил топган иерархик тузилмали хулоса қоидаларининг тақдим этиш усулидир.
Қарорлар дарахтини қуриш
Қарорлар дарахтини қуришда қайси аломатни биринчи бўлиб танлаш керак? Ушбу саволга жавоб бериш учун аломатлари бинар бўлган соддароқ мисолни кўрамиз.
Энтропия.
Мумкин бўлган ҳолатлари N бўлган тизим учун Шеннон энтропияси қуйидагича ҳисобланади:
бу ерда – тизимнинг i-ҳолатда бўлишининг эҳтимоллиги. Ушбу тушунча физикада, ахборот назарияси ва бошқа соҳаларда кенг қўлланиладиган муҳим тушунчалардан ҳисобланади. Энтропия тизимдаги хаос даражасини кўрсатади. Энтропия қанчалик юқори бўлса, тизим шунчалик кам тартибланган бўлади ва аксинча. Ушбу мезон “танланмани самарали ажратиш” ни шакллантиришга ёрдам беради.
13-savol
Sodda Bayes algoritmi
Sodda Bayes algoritmi (SBA) - bu Bayes teoremasiga asoslangan klassikatsiylash algoritmi bo'lib u alomatlar o’zaro bog’liqmasligi faraziga asoslanadi. Boshqacha qilib aytganda, SBA sinfdagi biron bir alomatning mavjudligi boshqa biron bir alomatning mavjudligi bilan bog'liq emas deb hisoblaydi. Misol uchun, meva qizil, yumaloq va diametri taxminan 8 santimetr bo'lsa, olma hisoblanishi mumkin. Bu xususiyatlar bir-biriga yoki boshqa xususiyatlarga bog'liq bo'lsa ham, har qanday holatda ular bu mevaning olma bo'lish ehtimoliga mustaqil ravishda hissa qo'shadilar. Ushbu taxmin bilan bog'liq holda, algoritm "sodda" deb ataladi.
SBA ga asoslangan modellar juda oddiy va juda katta berilganlar to'plamlari bilan ishlashda juda foydali. O'zining soddaligi bilan SBA hatto ba'zi murakkab klassifikatsiyalash algoritmlarini ham ortda qoldirishga qodir.
Bayes teoremasi P(c|x) aposterior ehtimalligini P(c), P(x) va P(x|c) ehtimolliklar asosida hisoblash imkonini beradi.
Bayes klassifikatori asosida maksimal ehtimollik yotadi, ya’ni d obyekt sinfga tegishli hisoblanadi, agar maksimal aposterior ehtimollikka erishilsa: . Bayes formulasi bo’yicha
,
bu yerda - obyektning sinf obyektlari orasida uchrashi ehtimolligi; va - sinfi va obyektning aprior ehtimolligi (oxirgisi, sinfning tanlanishi bilan bog’liq emas va tushirib qoldirish
Afzalliklari:
Klassikatsiya, jumladan ko’p sinflilik oson va tez bajariladi.
Bog’liqmaslik farazi bajarilganda SBA mantiqiy regressiya kabi algoritmlardan ustun va nisbatan kichik hajmdagi o’rgatuvchi tanlanmani talab qiladi.
Kamchiliklari:
Agar nazorat to’plamida kategorial alomatning ayrim qiymatlari o’rgatuvchi tanlanmada uchramasa, model bu qiymatga nol ehtimollikni beradi va prognoz qilish imkoniyati bo’lmaydi. Bu holat “nol chastota” bilan nomlanadi. Bu muammoni silliqlashtirish (masalan, Laplas bo’yicha silliqlash) yordamida yechiladi.
12 -savol
Tanlanma qoplamasini qurish
Obrazlarni anglashning standart masalasi qaraladi. Obyektlar to’plami berilgan bo’ilb, uning obyektlarin o’zaro kesishmaydigan sinflarga bo’lingan. Obyektlar n ta turli toifadagi alomatlar bilan tavsiflangan, ularning tasi interval shkalalrida o’lchanadi, - nominalda.
Masalaning qo’yilishi. O’rgatuvchi E0 tanlanmani obyekt-etalonlardan tashkil topgan minimal qoplamasinini qurish kerakki uning yordamida tanlanma obyektlarini korrekt anglab oluvchi algoritmlar qurish mumkin bo’lsin.
Tanlanma obyektlari tavsifidagi miqdoriy va nominal alomatlar nomerlari to’plamlarini mos ravishda I, J orqali belgilab olaylik va Sj E0 (Sj=(xj1,...,xjn)) obyekt tanlanma etaloni bo’lsin. Unda etalonning vaznlari quyidagicha hisoblab olaylik
t I, wjt = xjt и wj0 =- .
Nominal alomat vaznlarini hisoblashda obyektlar farqlanishidagi maksimal farqlanish nominal alomatlar bo’yicha maksimal farqlanishga mos keladi degan farazga asoslanadi.
Quyidagi
wmax= (-2wj0/r),
max = |Kt |(|Kt| - 1),
max = |Kt| (m - |Kt|),
yordamida har bir nominal c J alomat vazni
wjc = wmax,
ko’rinishida aniqlanadi.
Do'stlaringiz bilan baham: |