Yo'q.
|
metadata paket
|
Yo'q.
|
metadata paket
|
bitta
|
out_ads
|
IP chiqish
|
o'n bir
|
pkt_in
|
nazorat summasi
kiruvchi
|
2
|
reklamalar ichida
|
kiruvchi IP
|
12
|
pkt_out
|
nazorat summasi chiquvchi
|
3
|
out_mac
|
chiquvchi Mac
|
13
|
pkt_delay_tugun
|
farq nazorat summasi
|
4
|
in_mac
|
kiruvchi MAC
|
o'n to'rt
|
bayt_rate
|
baytlar soni menga bir soniya bering
|
besh
|
pkt_type
|
turi paket
|
15
|
pkt_rate
|
raqam paketlar ichida menga bir soniya bering
|
6
|
pkt_size
|
paket hajmi
|
16
|
avg_size
|
o'rtacha hajmi paketlar
|
7
|
FID
|
identifikator ramka formati
|
17
|
pkt_t_send
|
vaqt Uchib ketish vaqt taxtasi paket
|
8
|
sqn_raqami
|
tartibli
xona paket
|
o'n sakkiz
|
pkt_t_rsd
|
qabul qilish vaqti
paket
|
to'qqiz
|
num_pkt
|
raqam
paketlar
|
19
|
birinchi
|
vaqt Uchib ketish vaqt taxtasi birinchi paket
|
10
|
bayt_raqam
|
baytlar soni
|
yigirma
|
oxirgi
|
vaqt Uchib ketish vaqt taxtasi
oxirgi paket
|
Dasturiy ta'minot asboblar uchun tahlil qabul qildi ma'lumotlar
Uchun trening Va tahlil ma'lumotlar ishlatilgan python kutubxonalari: o'rganing [169], pandalar, nopok [170], lightgbm [173] Va matplotlib [171] (jadval
besh).
stol 3.3. Ishlatilgan dasturiy ta'minot ob'ektlar uchun tahlil ma'lumotlar
Modul
|
Ilova ichida ish
|
pandalar
|
Asosiy davolash ma'lumotlar, Ish dan etiketlangan ma'lumotlar, shakllanishi ma'lumotlar ramkalari.
|
o'rganing
|
Xususiyatlarni tanlash , amalga oshirish algoritmlar tasnifi
|
yorug'likGBM
|
Gradient modelini yaratish oshirish ustida hal qiluvchi daraxtlar
|
nopok
|
Ishlash mayor operatsiyalar yuqorida n-massivlar va matritsalar.
|
matplotlib
|
vizualizatsiya qilish , shakllanishi grafikalar Va diagrammalar
|
Ma'lumki, 2017 yilda Microsoft jamoasi taqdimot qilgan dasturiy ta'minot kutubxona algoritm mashina o'rganish, foydalanish gradient oshirish - LightGBM. Bu rivojlanish ko'rsatdi afzallik ichida tezlik ish, yoqilgan solishtirish dan raqobatchilar dan teng berilgan aniqlik [172]. Natijada, LightGBM kutubxonasi tarmoqni tasniflash muammosida qo'llash uchun optimal vosita tirbandlik [181].
Pandalar kutubxonasi massiv yozuvlari bir xil bo'lishini talab qilmaydi bir xil turdagi, shuning uchun har bir ustun boshqa turga ega bo'lishi mumkin (butun sonlar, suzuvchi nuqta raqamlari, satrlar va boshqalar). Kutubxonaning yana bir afzalligi Pandalar - turli xil ma'lumotlar bazasi formatlari bilan ishlash qobiliyati va fayllar, CSV dan oldin SQL [126].
Uchun vizualizatsiya ma'lumotlar Va qabul qilish qo'shimcha foydali ma `lumot uchun tahlil ishlatilgan kutubxona matplotlib, qaysi hisoblanadi Asosiy kutubxona uchun yaratish grafikalar Va diagrammalar ichida Python Va vizualizatsiya yaratish funktsiyalarini o'z ichiga oladi (chiziqli diagrammalar, gistogrammalar shunday Batafsil).
Bosqich o'rganish
Ustida berilgan bosqich davom etayapdi shakllanishi ta'lim berish Va sinov namunalar. bo'linish ustida namunalar ishlab chiqarilgan dan foydalanish funktsiyalari
train_test_split [174]. Old bo'linish to'plam ma'lumotlar edi aralashgan dan psevdo-tasodifiy sonlar generatori yordamida [175]. uchun yaratilgan faqat bitta sinfga tegishli misollarni tanlamaslik uchun (misol uchun, agar biz olaylik yaqinda o'ttiz% nusxalari ichida sifat sinov o'rnatilgan bo'lsa, ularning barchasi bir xil yorliqga ega bo'ladi, chunki tartiblash faqat ular uchun). Faqat bittasini o'z ichiga olgan test to'plamidan foydalanish sinf, umumlashtirish qobiliyatini ob'ektiv baholash imkoniyatini bermaydi modellar tasnifi. Xulosa funktsiyalari train_test_split bor quyidagi NumPy massivlari: X_train (satrlarning 70%), X_test (satrlarning 30%), y_train, y_test[156].
Shuni ta'kidlash kerakki, parametr qiymatlarini sanab o'tish va testda maksimal aniqlikni ta'minlaydigan kombinatsiyalarni tanlash o'rnatish ma'lumotlar. Bu, ichida mening burilish, emas anglatadi nima ustida yangi ma'lumotlar aniqlik bo'ladi o'xshash. Agar sinov to'plam edi qo'llaniladi uchun parametr sozlamalari, keyin model sifatini baholash uchun uni ishlatish emas mumkin ko‘rinadi [176]. Xuddi shu sababga ko'ra, ma'lumotlar bo'linadi tarbiyaviy va sinov namunalar (rasm 3.1) [156].
3.1-rasm. Ma'lumotlar to'plamini o'quv va test to'plamlariga bo'lish [156]
Model sifatini baholash uchun yaxshi amaliyot uchun ilgari ishlatilmagan mustaqil ma'lumotlar to'plamini olish sozlamalar parametrlari modellar [177]. Uchun yechimlar bu vazifalar ma'lumotlar mumkin
bolmoq buzilgan ustida namunalar hali bir marta Va, shunday yo'l shakllangan uch namunalar:
tarbiyaviy - uchun bino modellar tasniflash;
tasdiqlash - uchun ta'riflar optimal parametrlari modellar;
sinov - uchun taxminlar sifat ish tanlangan parametrlari.
Keyin ta'riflar eng zo'r parametrlari modellar dan foydalanish tasdiqlash namunalar model qurilish ishlari olib borilmoqda yana, lekin allaqachon ustida asos birlashtirilgan ta'lim va tasdiqlash namunalari. Shunday qilib, uchun bino modellar tasnifi ishlatilgan maksimal mumkin ma'lumotlar miqdori [156].
Do'stlaringiz bilan baham: |