10-savol Miqdoriy alomat vaznlari
Aytaylik,
(3)
tartiblangan ketma-ketlik va - butun sonlar majmuasi bo‘lib, undagi – (3) formuladagi tartib nomeri dan oralig‘ida bo‘lgan obyektlarining tavsifidagi q-alomatning qiymatlari soni.
Ma’lumki, nominal shkalaga o‘tilganda sinflarning eng yaxshi ajralishi har bir sinf ichida nominal alomat qiymati bir xil va boshqa sinflardagi qiymatlar bilan mos tushmaydi, alomatning gradatsiyalari soni sinflar soniga teng bo‘lganda ro‘y beradi.
Miqdoriy alomatning (3) bo‘yicha tartib nomerlari va oralig‘idagi bo‘lgan obyektlar tavsifidagi barcha qiymatlari
(4)
kriteriyasi bo‘yicha o‘lchov shkalasining nominal shkalasida ekvivalent hisoblanadi. Kriteriyaning maksimum qiymatini miqdoriy alomatning [0,1] oralig‘ida mumkin bo‘lgan qiymatlar to‘plamiga ega bo‘lgan vazni deb qarash mumkin.
Yuqorida keltirilgan (4) kriteriya yordamida intuitiv qaror qabul qilish jarayonini modellashtirish uchun latent (oshkor ravishda o‘lchash mumkin bo‘lmagan) alomatlarni tanlashni amalga oshirish mumkin. Amalda bu maqsadda alomatlarning va ko‘rinishdagi juftlik kombinatsiyalari nisbatan ko‘p ishlatiladi.
11 savol Alomatlar vaznlarini hisoblash
O’rgatuvchi tanlanma berilganlarini o’zaro kesishmaydigan intervallarga bo'lish mezonini optimallashtirish usuli taklif etiladi. Sinflarga ajratilgan obyektlari kompaktlik gipotezasi asosida intervallarga bo’linadi: “Shunday ajratish mavjudki, unda har bir interval faqat bitta sinfning obyektlari alomatining barcha qiymatlarini o’z ichiga oladi”.
Nominal alomatlar vaznlari
Tanlanma sinflarga bo‘linmagan bo‘lsa, nominal alomatlar tahlili odatda alohida gradatsiyalarning chastotalari hamda alomatlar juftliklari bo‘yicha ularning birgalikda uchrash chastotalari bilan cheklanadi.
Berilgan tanlanmaning alomatlar fazosida o‘zaro kesishmaydigan sinflarga bo‘lingan holatlarida c – nominal alomatning vazni sinf ichidagi o‘xshashlik
va sinflar o‘rtasidagi farqlanish
orqali
, (1)
ko‘rinishida hisoblanadi. Bu yerda , .
Berilganlarga dastlabki ishlov berishdan foydalangan holda (1) bo‘yicha λc va βc qiymatlarini hisoblash murakkabligini sezilarli darajada soddalashtirish mumkin. Aytaylik, p – gradatsiyalar soni, – Kt sinf obyektlarini tavsifidagi c-alomatning t-gradatsiyalari soni (1 t p). U holda
(2)
bu yerda sinf to‘ldiruvchisi sinfdagi c-alomatning t-gradatsiyasi soni.
9-savol Кластерлаш объектлар тўпламини бир жинсли гуруҳларга (кластерлар ёки синфларга) бўлиш учун мўлжалланган. Aгар танланма объектлари аломатлар фазосидаги нуқталар деб фараз қилинса, кластерлаш масаласи "нуқталар жамлануви" таърифига келтириш мумкин.
V bosaga usuli
Кластер ўлчами - бўсағани берилишини талаб қилувчи содда алгоритмлардан бири қуйидаги қадамлардан иборат бўлади:
1. Ўргатувчи танланманинг биринчи образидан битта кластер шакллантирилсин ва ҳисоблансин.
2. Навбатдаги, қаралмаган вектор танлансин ва . Агар ушбу масофа бўсағадан кичик бўлса ( ), образ мос синфга тегишли деб ҳисоблансин, акс ҳолда синфлар сони биттага оширилади ва маркази бўлган янги синф шакллантирилади.
Танланманинг барча объектлари учун 2–қадам такрорлансин.
ISODATA algoritmi
k ўртача алгоритмига асосланади, бироқ амалиётда фойдалагини кўрсатган эвристика ва уларни созлаш параметрларини ўз ичига олади. Априор сифатида бериладиган параметрлардан бири – бу кластерлар сони K. Бу сон тавсия сифатида ишлатилади: алгоритм ишлаш жараёнидан ундан кам сондаги ёки катта сондаги кластерлар қурилиши мумкин, лекин улар K сонидан кескин фарқ қилмайди.
7-savol
Яқин қўшни усули
k-яқин қўшни усули (k-nearest neighbors algorithm, k-NN) —автоматик равишда объектларни синфлаш ёки регрессия усулидир.
Синфлаш масаласида объект атрофида энг кўп вакиллар бўлган синфга тегишли ҳисобланади.
Регрессия масалаларида объектга унга яқин объектларнинг ўртача қиймати берилади.
Алгоритм катта миқдордаги атрибутларга эга танланмаларга қўлланиши мумкин. Усулни қўллашдан олдин яқинлик функциясини аниқлаштириш зарур бўлади. Одатда (кўп ҳолларда) эвклид фазосидаги масофа олинади.
Қуйида метрикаларннг намуналари келтирилган:
Эвклид: ;
Чебишев: ;
Хемминг: .
Нормаллаш
Аксарият ҳолларда танланмадаги объектлар тавсифидаги атрибутлар турли хил диапазондаги қийматлар билан тақдим этилади (масалан, А атрибути 0.1 дан 0.5 қийматларида, Б атрибути эса 1000 дан 5000 диапазонида берилиши мумкин). Бу ҳолда масофа қиймати катта қийматли атрибутига кучли боғланиб қолади. Шу сабабли, берилганларни нормаллаш керак бўлади. Нормаллашнинг бир қанча усуллари мавжуд:
Мини-макс нормаллаш.
{\displaystyle x'=(x-MIN[X])/(MAX[X]-MIN[X])}
Бу ҳолда барча миқдорий қийматлар 0 ва 1 оралиғида бўлади. Дискрет бинар қийматлар 0 ва 1 кўринишида бўлади.
Z-нормаллаш.
{\displaystyle x'=(x-M[X])/\sigma [X]}
Бу ерда — ўрта квадрат чекиниш. Бу ҳолда аксарият қийматлар диапазонига тушади.
6-savol Классификацияланувчи танлов объектларининг чизиқли қобиқлари. Ўзаро кесишмайдиган синфлардан ташкил топган ўргатувчи E0 танлов қаралади. E0 танловда минимум масофа бўйича англаш учун эталон сифатида фойдаланиш мумкин бўлган та объектлар бўлсин. E0 ўргатувчи объектлар тўпламини хатосиз (коррект) синфларга ажратиш учун керак бўладиган минимал сонли эталонларни топиш талаб қилинади.
Rn да рухсат этилган объектлар тўплами учун метрикани киритамиз. Қулайлик учун бундан кейин бу метрикани Евклид метрикаси деб ҳисоблаймиз. Ҳар бир , объект учун метрика ёрдамида ўсиш тартибда тартибланган кетма-кетлик қурамиз, бу ерда - Kj синфга кирмайдиган объектга энг яқин объект бўлсин. , учун барча объектларни ичига олувчи, маркази ва радиуси бўлган атрофни O(Si) орқали белгилаймиз.
O(Si) дан шундай объектни топамизки, бунда:
(2.1)
(2.1) бўйича аниқланадиган объектлар тўпламини E0 объектлар тўпламининг чизиқли қобиғи деб атаймиз. Қулайлик учун чизиқли қобиққа кирувчи L(E0)={ объектлар индексларини юқорида кўрсатамиз.
Минимум масофа бўйича классификация учун L(E0) чизиқли қобиқ объектларини эталонлар сифатида қабул қиламиз. Кесик-чизиқли классификатор учун евклид метрикаси G1,..., гипертекисликлар қуриш шаклида ифодаланади, бу ерда Gi - эталондан олинадиган гипертекислик.