Nazorat ostidagi o'quv usullari
23
Machine Translated by Google
o'rganish usullari biomarkerlarni ochish, tasniflash va bashorat qilishda keng qo'llaniladi
kovariatsiyalar deb ataladi) va aniq bashorat qilish. Bu nazorat ostida o'rganish deb ataladi
javob o'zgaruvchilari mavjud. Bu o'zgaruvchilar diskret yoki doimiy bo'lishi mumkin. Qachon
kuch. Ushbu bosqichlarda biz quyidagi muammolarga duch kelishimiz mumkin: Qanday qilib ajratib olish yoki yaxshiroq tanlash
o'quv ma'lumotlar to'plami modelga mos keladi, so'ngra prognozni baholash uchun test ma'lumotlar to'plamidan foydalaniladi
tahlilning turli maqsadlariga erishish. Nazorat ostidagi ta'lim muammolar yoki ma'lumotlar to'plami bilan shug'ullanadi
va o'rnatilgan (Guyon, Elisseeff 2003). Wrapper usuli o'zgaruvchilarning kichik to'plamlarini bo'yicha baholaydi
eng yaxshi ishlash. Filtr usuli o'zgaruvchilarning kichik to'plamlarini hisoblash oson bo'lgan ballar bilan baholaydi
modellarni o'rgatishdan oldin chora-tadbirlar. O'rnatilgan usul, xuddi uning nomi nazarda tutganidek, yakunlanadi
tanlash uchun usullar va algoritmlar?
tasniflash muammolari. O'zgaruvchilar doimiy bo'lganda, masalan, metabolit konsentratsiyasi yoki
o'zgaruvchilar diskretdir, masalan, nazorat guruhi va kasallik guruhi, muammolar deyiladi
bashorat qiluvchilar? Modelning yaroqliligi va bashoratli kuchini qanday baholash mumkin? Va qanday o'rganish
yoki o'zgaruvchan tanlov. Xususiyatlarni tanlash usullarining uchta asosiy turi mavjud: o'rash, filtr
Nazorat ostidagi ta’limning maqsadi nazoratsiz ta’limdan farq qiladi. Nazorat qilingan
o'rganish javob o'zgaruvchisi va bashorat qiluvchilar o'rtasidagi bog'lanishni aniqlashdir (ko'pincha
genlarni ifodalash darajasi, muammolar regressiya muammolari deb ataladi. Nazorat qilish maqsadi
Birinchi muammo uchun tegishli bashorat qiluvchilarni tanlash jarayoni xususiyat tanlash deb ataladi
nazorat qilinadigan usullar nazoratsiz usullardan ustun ekanligini bildiradi; aksincha, har biri ishlab chiqilgan
trening bosqichi ham, sinov bosqichi ham kiritilgan. Nazorat ostidagi o'rganish algoritmlari qo'llaniladi
chunki bir yoki bir nechta javob o'zgaruvchilari modellarni o'qitishga rahbarlik qilish uchun ishlatiladi. Odatda
nazoratsiz ta'lim usullari bu vazifalarni bajara olmaydi. Biroq, bu farqlar yo'q
test ma'lumotlar to'plamida har bir o'qitilgan modelni ishga tushirish va modelni tanlash (o'zgaruvchilar kichik to'plami).
24
Machine Translated by Google
modelning mosligini va bashorat qilish kuchini o'lchash uchun moslik statistikasi. Ko'p ishlatiladigan statistik ma'lumotlar
moslashtirish masalalari. Ideal holda, modelni tekshirish mustaqil test ma'lumotlar to'plamidan foydalangan holda amalga oshirilishi kerak;
Validatsiya nazoratidagi o'rganish modellarida ko'proq foydalaniladi (Hastie, Tibshirani, Fridman, Hastie,
modelning yaroqliligi va bashorat qilish kuchi. Misol uchun, k RMSEs o'rtacha bo'lsa, qaysi mumkin
muvofiqlik statistikasi. Ularni o'rtacha hisoblab, biz bitta statistik ma'lumotni olishimiz mumkin
tasnifi. Bundan tashqari, bashorat qilish kuchini baholash va undan qochish uchun bizga test ma'lumotlar to'plami kerak
1. Qisman eng kichik kvadratlar (PLS)
javob o'zgaruvchisi qayerda, u vektor (bitta o'zgaruvchi) yoki matritsa bo'lishi mumkin
= +
modellar bo'lsa, A modeli RMSE mezonlari bo'yicha yaxshiroq degan xulosaga kelishimiz mumkin. Uchinchisi uchun
omillar. Shuning uchun ma'lumotlarni qayta ishlatish uchun ko'pincha turli xil qayta namuna olish usullari qo'llaniladi
,
ammo, ob'ektiv ma'lumotlarni yig'ish cheklangan resurslar va boshqa pragmatik tufayli qimmat bo'lishi mumkin
A modelining k-katta tekshiruvi natijasi bo'lib, boshqa modellarning o'rtacha RMSE ko'rsatkichlaridan past
metabolomikada eng ko'p qo'llaniladigan ikkita usulni kiriting.
xususiyatni tanlash va bir vaqtning o'zida modelni qurish. Ikkinchi muammo uchun biz birinchi navbatda kerak
javob o'zgaruvchilari va boshqalar. Ularning barchasi orasida yuklash va o'zaro tekshirish mavjud
samarali. Bu usullar o'zaro tekshirish, yuklash, jaknifing, tasodifiylikni o'z ichiga oladi
muammo, tanlash uchun juda ko'p turli nazorat o'rganish usullari mavjud. Mana biz qisqacha
va tasodifiy kichik tanlamalarni tekshirish. Qayta namuna olish usullari bilan birgalikda biz bir qatorni olishimiz mumkin
o'ziga xoslik va ikkilik uchun qabul qiluvchi-ishlash xarakteristikasi (ROC) egri chizig'i ostidagi maydon
Fridman, Tibshirani 2009). Ko'p ishlatiladigan o'zaro tekshirish usullari k-katta tekshirishni o'z ichiga oladi
quyidagilarni o'z ichiga oladi, lekin ular bilan cheklanmaydi: regressiya uchun o'rtacha kvadrat xato (RMSE); sezgirlik,
PLS (Wold 1966) chiziqli modellarni yechish usuli hisoblanadi. Umumiy chiziqli model shaklga ega
25
Machine Translated by Google
(matritsa) (Martens 1992). Odatda biz ning oddiy eng kichik kvadrat yechimidan foydalanamiz
o'zgaruvchilar, masalan, metabolitlar, tepalik joylari va spektral qutilar, lekin nisbatan kichik miqdordagi
tuzilmalar, bu usul qanday ishlashini nazarda tutadi. PLS usulining asosiy modeli mavjud
{ =
+
o'zgaruvchilar. Omil sifatida ko'rib chiqilishi mumkin bo'lgan yashirin o'zgaruvchilar chiziqli birikmasidir
vazn vektorlari deyiladi. Ushbu yashirin o'zgaruvchilar kimyoviy yoki biologik ma'noga ega bo'lishi mumkin. The
chiziqli regressiya modelida hal qilish uchun an'anaviy eng kichik kvadratlar usulini qo'llash, chunki
qaysi
biz har bir yashirin o'zgaruvchini topishimiz kerak t va u, shundayki, ba'zi ortogonal sharoitlarda ularning
singular matritsani invertatsiya qilish mumkin emas
=
,
= va =; va
bu (
kuzatishlar; parametr koeffitsientlarining vektori (matritsasi) va tasodifiy xato vektoridir
Ushbu muammoni hal qilish uchun (PCR) joriy etildi. Barcha original o'zgaruvchilardan foydalanish o'rniga, PCR foydalanadi
)
javob o'zgaruvchilari bilan yuqori korrelyatsiyaga ega yoki yo'q. Shuning uchun, PLS hal qilish uchun joriy etildi
o'zgaruvchilar; va yuklamalar deyiladi, ularni og'irlik matritsalari deb hisoblash mumkin;
original va o'zgaruvchilar, ya'ni, har bir yashirin o'zgaruvchi uchun va
. Biroq, metabolomik tahlillarda biz doimo ko'p songa egamiz
bu muammo (Wold, Ruhe, Wold, Dunn 1984). PLS latentga proyeksiyani ham anglatishi mumkin
kuzatishlar. Bundan tashqari, bu o'zgaruvchilar chiziqli bog'liq bo'lishi mumkin va shuning uchun bu mumkin emas
shakl (Wold, Sjöström, Eriksson 2001):
+
PCA ga o'xshash va latent tomonidan yaratilgan matritsalar bo'lgan ballar deb ataladi
(bir nechta o'zgaruvchilar); ustunlari o'zgaruvchilarni va satrlarni ifodalovchi dizayn matritsasidir
Dastlab, asosiy komponent regressiyasi
PLS usuli ko'pgina o'zgarishlarni tushuntira oladigan eng yaxshi o'zgaruvchilar to'plamini topadi. Ya'ni,
,
va latent bilan izohlab bo'lmaydigan qolgan miqdorlar bo'lgan qoldiqlardir
Chiziqli regressiya modeliga mos keladigan PCA-dan dastlabki bir nechta shaxsiy kompyuterlar. Ammo bu shaxsiy kompyuterlar yoki yo'qligi aniq emas
.
ÿ1
'
'
26
Machine Translated by Google
mos keladigan algoritmlar, ular turli ortogonal shartlarga ega va har xil bo'lishi mumkin
ballar uchastkasi yoki R-kvadrat uchastkasi. Yana bir yondashuv a bilan birgalikda namuna olish usullaridan foydalanishdir
yashirin o'zgaruvchan regressiya. Shunday qilib, PCA faqat PLS modelida dispersiyani tushuntiradi
talqin, mustahkamlik va aniqlikni yaxshilash, shuningdek, ba'zi xususiyatlarni tanlash usullari mavjud
kamaytirish usulining o'zi, xususiyat tanlash PLS da zarur qadam emas. Biroq, qilish uchun
nazorat ostida o'qitish usullari. Ikkinchidan, PCR PCA dagi dastlabki bir nechta shaxsiy kompyuterlarni mos kelishi uchun bashorat qiluvchi sifatida ishlatadi
Yashirin tuzilmalarga ortogonal proyeksiyalar (OPLS) (Trygg, Wold 2002) sifatida kiritilishi mumkin.
shuningdek, PLS talqinini kuchaytirish.
shunday
PLSni ishga tushirishdan oldin o'zgaruvchilar. O'rnatilgan usul bo'lgan Sparse PLS (SPLS) yuklaydi
kosmosdagi yo'nalish. Shuning uchun PLS usuli ko'pincha PCRga qaraganda yaxshiroq ishlashi mumkin.
,
maksimal dispersiyani tushuntiruvchi fazoda ko'p o'lchovli yo'nalishni topishga harakat qiladi
bu PLS bilan ishlatilishi mumkin. Masalan, tanlash uchun ikkita namunali t-test, filtrlash usulidan foydalanishimiz mumkin
bir vaqtning o'zida yaxshi prognoz ko'rsatkichi (Chun, Keleÿ 2010). Boshqa usul deb ataladi
kovariatsiya maksimal qiymatga etadi (Abdi 2010). PLS ning ko'plab variantlari mavjud va
ikkita yondashuvdir. Birinchidan, biz qismlarni tanlashda yordam berish uchun uchastkalardan foydalanishimiz mumkin, masalan, va
PLSda ko'rsatishimiz kerak bo'lgan yagona parametr - bu saqlanadigan komponentlar soni. U yerda
yo'nalish vektorlarini qurishda siyraklik, shu bilan izohlashni yaxshilaydi va erishadi
PCA va PCR dan. Birinchidan, PCR va PLS bo'lsa, PCA nazoratsiz o'rganish usuli hisoblanadi
va ularning mosligini yoki bashorat qilish kuchini tekshiring. PLS usuli o'lchov bo'lgani uchun
moslik yoki bashorat qilish kuchining yaxshilik o'lchovi. Biz har xil miqdordagi komponentlarni tanlashimiz mumkin
ballarni baholash usullari va matritsalarni yuklash. Shuni ta'kidlash kerakki, PLS boshqacha
Ortogonal bo'lgan tizimli o'zgarishlarni olib tashlash uchun PLS modellashtirishning birlashtirilgan qismi
27
Machine Translated by Google
tasniflash muammolari. Mashhur usullardan biri PLS-diskriminant tahlili (DA) deb ataladi.
keng tarqalgan diagnostika usullariga qo'shimcha sifatida foydalanish mumkin
modelning o'quv ma'lumotlari to'plamiga mosligi o'lchovidir
diagnostik statistika sifatida. PLS-DA, SPLS kabi boshqa PLS variantlari kabi o'xshash algoritmlardan foydalanish
Westerhuis 2012) noto'g'ri tasniflar soni va ROC egri chizig'i ostidagi maydon bilan birga
Kvadratchalar (PRESS),
Park, Shin, Li, Oh, Ryu do, Xvang va boshqalar. 2011) ( 2-rasm). Mualliflar tasniflash uchun OPLS-DA dan foydalanganlar
sub'ektlarning o'xshash va o'xshash emasligini ko'rsatadigan komponentlar. Bu fitnada biz qila olamiz
kasal va nazorat guruhlari OPLS-DA modeli bilan aniq ajratilishi mumkinligini ko'ring. Anjir.
SPLS-DA (Chung, Keles 2010) va OPLS-DA (Bylesjö, Rantalainen, Cloarec, Nikolson,
2b - mos keladigan yuklanish grafigi. PCA yuklash sxemasidan farqli o'laroq, metabolitlar
nazorat guruhida metabolitlar ko'paygan, pastki qismida esa metabolitlar ko'rsatilgan
va yuqorida aytib o'tilgan OPLS, shuningdek, ular chaqirgan tasniflash muammosiga ham kengaytirilishi mumkin
aniqlanganlar tasniflash uchun javobgardir. 2b -rasmning yuqori qismi shuni ko'rsatadi
Bu erda biz PLS modelining ba'zi amaliy jihatlarini ko'rsatish uchun misoldan foydalanamiz (Kang,
yuqorida aytib o'tilgan. Eslab qoling
PLS birinchi marta regressiya muammolarini hal qilish uchun ishlab chiqilgan bo'lsa-da, undan foydalanish mumkin
yurak etishmovchiligi guruhida ortdi. Ular OPLS-DA modelini NMR spektrlari ma'lumotlari bilan ishlatdilar (ya'ni
Xolms, Trygg 2006).
A'zolik. PLS yoki PLS-DA da modelni tekshirishni ko'rib chiqayotganda, bashorat qilingan qoldiq summasi
ikki tomonlama o'zaro tekshirish protsedurasidan foydalanish tavsiya etiladi (Szymanska, Saccenti, Smilde,
va PRESS modelning bashoratli kuchini baholash uchun ishlatiladi. PLS-DA usuli uchun,
(Boulesteix 2004; Nguyen, Rok 2002). PLS-DA da qiymati sinfni ifodalovchi vektor hisoblanadi
koroner yurak etishmovchiligi (CHF) guruhlari va nazorat guruhlari. 2a -rasm birinchi ikkitasining ballar grafigi
2
2
2
2
28
Machine Translated by Google
2b -rasmdagi natijalar .
mavzuni p o'lchovli fazodagi nuqta sifatida ko'rish mumkin, bu erda p - o'zgaruvchilar soni. Agar
2010; Chjan, Gowda, Asiago, Shanaiah, Barbas, Raftery 2008). PLS usulini unutmang
chetida joylashgan. SVM qo'llab-quvvatlash vektorlarini aniqlash uchun o'qitiladi. dagi chegara
(Kortes, Vapnik 1995). Bo'shliq uchun chegaralar qo'llab-quvvatlash vektorlari, ya'ni nuqtalar bilan belgilanadi
Onder va boshqalar. 2014 yil; Velagapudi, Hezaveh, Reigstad, Gopalacharyulu, Yetukuri, Islom, Felin va boshqalar.
eng katta chegara, ya'ni ikki guruh o'rtasidagi eng katta masofa, uni kvadrat yordamida hal qilish mumkin
Bishop (Bishop 2006). Biroq, ma'lumotlarni chiziqli ravishda ajratib bo'lmasligi juda keng tarqalgan,
yangi predmetlar (kuzatishlar) giper tekislikning qaysi tomoniga tegishli ekanligini aniqlash orqali amalga oshiriladi.
tasniflash usuli (Bu, Li, Zeng, Yang, Yang 2007).
ba'zan emas, balki o'lchamlarni qisqartirish (xususiyat tanlash) vositasi sifatida ham foydalanish mumkin
ma'lumotlarni ajratib turuvchi bo'shliqning o'rtasiga ajratuvchi giper tekislik deyiladi. Bashorat shunday
ma'lumotlarni tasniflash uchun tekislik (p-o'lchovli fazoda p-1 o'lchovli tekislik). ni topishni maqsad qilganmiz
kirish ma'lumotlari matritsasi ) va undan keyin ajratish uchun mas'ul bo'lgan metabolitlar yordamida aniqlangan
Metabolomik ma'lumotlar matritsa shaklida ifodalanganligi sababli, har bir mavzu qator vektoridir; shunday qilib, har biri
Do'stlaringiz bilan baham: |