Hajmining qisqarishi
O'lchovlilikni kamaytirish ko'p o'lchovli ma'lumotlar to'plamining eng muhim komponentlarini (xususiyatlarini) tanlash yoki ajratib olishni o'z ichiga oladi. Scikit-learn o'lchamlarni kamaytirish uchun bir nechta yondashuvlarni taklif qiladi. Ulardan biri asosiy komponentlar tahlili (PCA).
Model tanlash
Mashinani o'rganish modellarini o'rgatish va sinab ko'rish uchun siz tasodifiy ravishda ma'lumotlarni kichik to'plamlarga bo'lishingiz kerak. Bunga kirish va ularning tegishli chiqishlari kiradi. Sklearn.model_selection.train_test_split() funksiyasi quyidagi hollarda foydalidir:
>>> numpy ni np sifatida import qiling >>>
sklearn.model_selection import train_test_split
>>> x, y = np.arange(1, 21).reshape(-1, 2), np.arange(3, 40, 4)
>>> x
massivi([[ 1, 2],
[ 3, 4],
[ 5, 6],
[ 7, 8],
[ 9, 10],
[11, 12],
[13, 14],
[ 15, 16],
[17, 18],
[19, 20]])
>>> y
massivi([ 3, 7, 11, 15, 19, 23, 27, 31, 35, 39])
>>> x_poezd , x_test, y_train, y_test =\
... train_test_split(x, y, test_size=0,4, random_state=0)
>>> x_train
massivi([[ 3, 4],
[13, 14],
[15, 16],
[7, 8],
[ 1, 2],
[11, 12]])
>>> y_train
massivi([ 7, 27, 31, 15, 3, 23])
>>> x_test
massivi([[ 5, 6],
[17, 18 ],
[ 9, 10],
[19, 20]])
>>> y_test
massivi([11, 35, 19, 39])
Ma'lumotlar to'plamining odatiy bo'linishidan tashqari, scikit-learn o'zaro tekshirishni amalga oshirish, grid qidiruvi yordamida modellaringizning giperparametrlarini sozlash, modelning ishlashini ko'rsatadigan ko'plab miqdorlarni hisoblash (masalan, aniqlash koeffitsienti, standart xato, tushuntirish, xato matritsasi, tasniflash hisoboti, f-ballar va boshqalar bilan dispersiya ball).
Ma'lumotlar to'plami
Scikit-learn sizning modellaringizni o'rganish va sinab ko'rish uchun mos keladigan bir nechta ma'lumotlar to'plamini taqdim etadi. Asosan, bu ma'lum ma'lumotlar to'plamlari. Ular modellarni sinab ko'rish uchun etarli miqdordagi ma'lumotlarni ifodalaydi va shu bilan birga unchalik katta emas, bu esa maqbul o'quv davomiyligini ta'minlaydi.
Misol uchun, sklearn.datasets.load_boston() funksiyasi Boston hududi uchun uy narxlari ma'lumotlarini ko'rsatadi (narxlar yangilanmagan!). 506 ta kuzatuv mavjud va kirish matritsasida 13 ta ustun (xususiyatlar) mavjud:
>>> sklearn.datasets dan import load_boston
>>> x, y = load_boston(return_X_y=True)
>>> x.shape, y.shape
((506, 13), (506,))
Ushbu ma'lumotlar to'plami ko'p o'lchovli regressiya uchun javob beradi.
Yana bir misol sharob bilan bog'liq ma'lumotlar to'plami. Uni sklearn.datasets.load_wine() funksiyasi yordamida olish mumkin:
>>> sklearn.datasets dan import load_wine
>>> x, y = load_wine(return_X_y=True)
>>> x.shape, y.shape
((178, 13), (178,))
>>> np.unique (y)
massiv([0, 1, 2])
Ushbu ma'lumotlar to'plami tasniflash uchun javob beradi. Unda Italiyaning uch xil vino kompaniyasiga tegishli 13 ta xususiyat va 178 ta kuzatuv mavjud.
Do'stlaringiz bilan baham: |