Yo'q.
|
Paket metamaʼlumotlari
|
Yo'q.
|
Paket metamaʼlumotlari
|
bitta
|
out_ads
|
IP chiqish
|
o'n bir
|
pkt_in
|
nazorat summasi
kiruvchi
|
2
|
reklamalar ichida
|
kiruvchi IP
|
12
|
pkt_out
|
chiquvchi nazorat summasi
|
3
|
out_mac
|
chiquvchi Mac
|
o'n uch
|
pkt_delay_tugun
|
nazorat summasi farqi
|
4
|
in_mac
|
kiruvchi MAC
|
14
|
bayt_rate
|
soniyada bayt soni
|
5
|
pkt_type
|
paket turi
|
15
|
pkt_rate
|
soniyada paketlar soni
|
6
|
pkt_size
|
paket hajmi
|
o'n olti
|
avg_size
|
o'rtacha hajmi paketlar
|
7
|
FID
|
ramka formati identifikatori
|
17
|
pkt_t_send
|
paketni jo'natish vaqti
|
sakkiz
|
sqn_raqami
|
tartibli
paket raqami
|
o'n sakkiz
|
pkt_t_rsd
|
qabul qilish vaqti
paket
|
9
|
num_pkt
|
raqam
paketlar
|
o'n to'qqiz
|
birinchi
|
birinchi paketning jo'nash vaqti
|
10
|
bayt_raqam
|
baytlar soni
|
yigirma
|
oxirgi
|
jo'nash vaqti
oxirgi paket
|
Ma'lumotlarni tahlil qilish uchun dasturiy vositalar
Ma'lumotlarni tayyorlash va tahlil qilish uchun quyidagi python kutubxonalari ishlatilgan: scikit-learn [169], pandas, numpy [170], lightgbm [173] va matplotlib [171] (jadval).
5).
3.3-jadval. Ma'lumotlarni tahlil qilish dasturidan foydalaniladi
Modul
|
Ishda ariza
|
pandalar
|
Birlamchi ma'lumotlarni qayta ishlash, etiketli ma'lumotlar bilan ishlash, ma'lumotlar ramkalarini shakllantirish.
|
o'rganing
|
xususiyatlarni tanlash, amalga oshirish tasniflash algoritmlari
|
yorug'likGBM
|
Model qurish gradient qaror daraxtlarini kuchaytirish
|
nopok
|
n-massivlar va matritsalar ustida asosiy amallarni bajarish.
|
matplotlib
|
Vizualizatsiya ma'lumotlar, grafik va diagrammalarni shakllantirish
|
Ma’lumki, 2017-yilda Microsoft jamoasi gradientni kuchaytirishdan foydalangan holda mashinali o’qitish algoritmi uchun dasturiy ta’minot kutubxonasini taqdim etdi – LightGBM. Ushbu ishlanma bir xil aniqlikdagi raqobatchilarga nisbatan tezlikda ustunlikni ko'rsatdi [172]. Natijada, LightGBM kutubxonasi tarmoq trafigini tasniflash vazifasida foydalanish uchun optimal vositadir [181].
Pandalar kutubxonasi massiv yozuvlarining bir xil turdagi bo'lishini talab qilmaydi, shuning uchun har bir ustun boshqa turdagi bo'lishi mumkin (butun sonlar, floatlar, satrlar va boshqalar). Pandas kutubxonasining yana bir afzalligi - CSV dan SQLgacha bo'lgan turli xil ma'lumotlar bazasi va fayl formatlari bilan ishlash qobiliyatidir [126].
Ma'lumotlarni vizualizatsiya qilish va tahlil qilish uchun qo'shimcha foydali ma'lumotlarni olish uchun Matplotlib kutubxonasidan foydalanildi, u Python-da grafiklar va diagrammalar yaratish uchun asosiy kutubxona bo'lib, vizualizatsiya (chiziqli diagrammalar, gistogrammalar va boshqalar) yaratish funksiyalarini o'z ichiga oladi.
O'rganish bosqichi
Ushbu bosqichda o'quv va test namunalari shakllantiriladi. Namunalarga bo'linish funksiya yordamida amalga oshirildi
train_test_split[174]. Bo'lishdan oldin ma'lumotlar to'plami psevdo-tasodifiy raqamlar generatori yordamida aralashtirildi [175]. Bu faqat bitta sinfga tegishli misollarni tanlamaslik uchun amalga oshiriladi (masalan, agar test to'plami sifatida oxirgi 30% misollarni oladigan bo'lsak, ularning barchasi bir xil yorliqga ega bo'ladi, chunki ular tartiblangan). Faqat bitta sinfni o'z ichiga olgan test to'plamidan foydalanish tasniflash modelining umumlashtirish qobiliyatini obyektiv baholash imkoniyatini bermaydi. train_test_split ning chiqishi quyidagi NumPy massivlaridir: X_train (70% qatorlar), X_test (30% qatorlar), y_train, y_test [156].
Shuni ta'kidlash kerakki, parametr qiymatlarini sanash amalga oshirildi va test ma'lumotlar to'plamida maksimal aniqlikni ta'minlaydigan kombinatsiyalarni tanlash amalga oshirildi. Bu, o'z navbatida, aniqlik yangi ma'lumotlar bo'yicha o'xshash bo'ladi degani emas. Agar test to'plami parametrlarni sozlash uchun ishlatilgan bo'lsa, unda modelning sifatini baholash uchun uni ishlatish mumkin emas [176]. Xuddi shu sababga ko'ra, ma'lumotlar o'quv va test to'plamlariga bo'linadi (3.1-rasm) [156].
3.1-rasm. Ma'lumotlar to'plamini o'quv va test to'plamlariga bo'lish [156]
Modelning sifatini baholashning yaxshi amaliyoti avval model parametrlarini sozlash uchun ishlatilmagan mustaqil ma'lumotlar to'plamini olishdir [177]. Ushbu muammoni hal qilish uchun ma'lumotlar
yana namunalarga bo'linadi va shuning uchun uchta namuna hosil bo'ladi:
o'qitish - tasniflash modelini qurish;
validatsiya - modelning optimal parametrlarini aniqlash;
test - tanlangan parametrlarning sifatini baholash uchun.
Validatsiya to'plamidan foydalangan holda modelning eng yaxshi parametrlarini aniqlagandan so'ng, model qayta quriladi, lekin birlashtirilgan o'quv va tekshirish to'plamlari asosida. Shunday qilib, tasniflash modelini yaratish uchun maksimal mumkin bo'lgan ma'lumotlardan foydalaniladi [156].
Do'stlaringiz bilan baham: |