Things jurnali
4
Algoritm 1APT-MAC: slotni belgilash uchun psevdokod
1:Magistr M;
|
⊲O'quvchi
|
2:D to'plami;
|
⊲Barcha qurilmalar
|
3:R xaritasi:(d∈D)→ikki barobar;
|
⊲Mukofotlar xaritasi
|
4:/*Mukofotlar xaritasini ishga tushirish*/
|
|
5:uchund∈Dqil
|
|
6:
|
R[d] = 1,0;
|
|
7:uchun tugaydi
o'quvchi tegdan javob oladimen,u kutilgan mukofotni yangilaydiQ(ai)kutilgan mukofotni yig'ish orqali qabul qilingan harakatlar uchunQ(ai)(n)oldingi so'rovda hisoblangan va joriy natija va oldingi so'rovda kutilgan mukofot o'rtasidagi farq, tenglamada belgilangan. 1,
Q(ai)(n +1) =Q(ai)(n) + a(mukofot - Q(ai)(n)) (1)
8:R = softmax(R);
9:/*Har bir tsikl vaqt oralig'iga to'g'ri keladi*/
10:esarostqil
Keyingi qurilma = Keyingi (R) ni tanlang;
Bool goodQuery = M.query (keyingi); agar
goodQuerykeyin
R[keyingi]=updateReward(keyingi,bonus);
boshqa
R[keyingi]=updateReward(keyingi, yomon); agar
tugaydi
R = softmax(R);
19:vaqt tugaydi
ga so'rovlarkashf qilishnechaqurilmalar—Sensor bilan kengaytirilgan RFID teglari - uyda mavjud va har biriga noyob identifikatorni tayinlaydi. Bu vaqtda o'quvchi atrofdagi barcha qurilmalarni biladi va mumkinso'rovulargama'lumotlarni yig'ish bort datchiklari orqali seziladi.
Asosiy muammo: o'quvchi teglarni qaysi tartibda so'rashi kerak? Ruxsat etilgan slotlarni belgilashga ega TDMA yondashuvi eng talabchan qurilmalarga ustunlik bermasdan teglarni ketma-ket so'raydi va masshtablashmaydi. Bizning APT-MAC protokolimiz qurilmani uzatish ehtiyojlarini hurmat qiladi va kanalga kirishni to'g'ri tartibga soladi. Biz sensorning xatti-harakati va talablarini o'rganish uchun mustahkamlovchi o'rganishdan foydalanamiz: u atrof-muhit naqshlarini, bu naqshlardagi o'zgarishlarni va o'qish uchun talab qilinadigan stavkalarni aniqlaydi. Misol tariqasida, protokol video o'yin boshqaruvchisi qachon ishga tushirilishini tushunishi va unga davriy qurilmalarga (masalan, atrof-muhit sensorlari yoki ma'lumot displeylariga) qaraganda tez-tez ma'lumotlarni yuborish imkonini beradi. Protokolning asosiy maqsadi - yangi sensor ma'lumotlarini yaratish va uni o'quvchiga etkazish o'rtasidagi vaqtni minimallashtirish uchun teglarni so'rash. Ushbu maqsadga erishish uchun o'quvchi harakat-reaktsiya paradigmasiga asoslangan ko'p qurolli bandit algoritmini [18], kuchaytirishni o'rganish algoritmini amalga oshiradi. Bu algoritm 5 ta komponentni o'z ichiga oladi: 1) muhitda amallarni bajaruvchi agent, ya'ni o'quvchi; 2) to'plamA = ai, i =1, ...,n, (nsensorlar soni) agent amalga oshirishi mumkin bo'lgan harakatlar, masalan, so'rov yorlig'imen,so'rov yorlig'ij,va boshqalar.,; 3) to'plamSagent bo'lishi mumkin bo'lgan shtatlar (bizning holatlarimizda yagona holat "yangi so'rovni bajarishga tayyor"); 4) formulaQ(ai)harakatning kutilgan mukofotini baholashaiva 5) vektorQhar bir harakat uchun kutilgan mukofotni saqlash uchun.
Vaqt ajratilgan va har bir oraliq, shuningdek, davr deb ataladi, o'quvchining harakatini o'z ichiga oladi, (teg so'rov uchun). Slotni belgilash uchun psevdokod 1-algoritmda berilgan. Eng yuqori kutilgan mukofotga ega teg keyingi so'rov uchun tanlanadi (Keyingi-ni tanlang usuli). Faraz qilaylik, o'quvchi davrni boshlayaptin+1so'rov tegi orqali keyingi = iva shuning uchun chora ko'rishai. Qachon
bu erda a - o'rganish tezligi va u bilan belgilanadi0,1 (Biz buni empirik ravishda eng yaxshi qiymat deb topdik).Sovrinjoriy so'rovning natijasi: agar so'ralgan teg yangi ma'lumotlarni yuborgan bo'lsa, bu ijobiy qiymatdir (R[keyingi] = yangilashReward(keyingi, bonus)), va agar so'ralayotgan tegga o'rnatilgan sensor oxirgi so'rovdan keyin yangi ma'lumot bermagan bo'lsa (R [keyingi] = yangilashReward (keyingi, yomon)). Xususan, mukofot sifatida hisoblanadiMukofot = bonus-malus, qayerdabonus =0.4 vamalus =0,01.Agar teg yangi ma'lumotlarni yuborgan bo'lsaMukofot = 0,39.Agar o'quvchi oxirgi so'rovdan beri yangi ma'lumotlarga ega bo'lmagan tegni so'ragan bo'lsa, mukofot salbiy, ya'ni, Mukofot = -0,01.Har bir mukofot yangilanishidan so'ng, biz Softmax [18] ni bajaramizQvektor (R = softmax(R)). Softmax bilan biz siqiladiQvektor qiymatlari [0,1] oralig'ida. ning barcha qiymatlariQSoftmax dan keyin 1 ga qo'shing.
Ijobiy mukofot tegga kanalga kirishni qo'lga kiritish va uni saqlab qolish imkonini beradi: endigina ishga tushirilgan video o'yin boshqaruvchisi (ya'ni, joystik) har safar so'ralganda yangi ma'lumotlarni yuboradi va shuning uchun kanalga tez-tez kirish uchun juda yuqori mukofotga ega bo'ladi. Biroq, hech bir sensor har bir slotda yangi ma'lumotlarni yaratish uchun shunchalik tez emas (tajriba natijalari [11] slotlar oxirgi ekanligini ko'rsatadi.6Xonim). Bundan tashqari, teglar bort sensorlaridan ma'lumotlarni o'qish va yangi qiymatlarni yozish uchun so'rovga muhtoj. Natijada, tegni har bir slotda so'rash mumkin emas va shuning uchun biz minimal so'rov kechikishini (MinQD) o'rnatdik, ya'ni teglar so'ralishi mumkin bo'lgan minimal vaqt oralig'i (MinQD belgilangan vaqtda belgilanadi).50Xonimempirik tadqiqotga asoslangan). Boshqalar har doim yuqori mukofot qiymatiga ega bo'lganligi sababli teg hech qachon so'ralmaydigan ochlik muammosining oldini olish uchun biz maksimal so'rov kechikishini (MaxQD) ham o'rnatdik, ya'ni kutilgan mukofotdan qat'i nazar teglar so'ralishi kerak bo'lgan vaqt oralig'i. , ya'ni har bir teg ketma-ket ikkita so'rov o'rtasida bu vaqtdan ko'proq vaqt kutmaydi.
MaxQD vaqti adolatni kafolatlaydi. MinQD barcha qurilmalar uchun umumiy qiymatga o'rnatilishi mumkin bo'lsa-da, MaxQD qurilmalarning namuna olish tezligi talablariga bog'liq - joystik yoki kamera atrof-muhit sensoriga qaraganda tez-tez ma'lumotlarni yuborishi kerak. Shunday qilib, MaxQD ishga tushirish bosqichida har bir qurilma uchun dinamik ravishda o'rnatiladi. Tizim ishga tushganda, MaxQD o'rnatiladi2000 Xonimhar bir qurilma uchun. Tizim ishlayotgan vaqtda, o'quvchi MaxQD ni har bir qurilma uchun kuzatadigan ma'lumotlar yo'qotilishi asosida yangilaydi. Ma'lumotlar yo'qolishi 50 ta so'rov oralig'ida (har bir qurilma uchun) o'quvchi tomonidan qabul qilingan yangi ma'lumotlar namunalari soni qurilma tomonidan ishlab chiqarilgan yangi ma'lumotlar namunalari soni bo'yicha hisoblanadi (bu ma'lumot hisoblagichni saqlashga qodir bo'lgan qurilma tomonidan taqdim etiladi) o'zgarishlar soni, ya'ni ketma-ket ikkita so'rovlar orasidagi yangi namunalar soni). Agar namunadagi o'zgarishlar soni o'quvchi tomonidan olingan yangi ma'lumotlar namunalari sonidan ko'p bo'lsa, o'quvchi tegni tez-tez so'rashi kerak. Xususan, biz o'rnatdik 15%toqat qilinadigan ma'lumotlar yo'qotilishi. Qachon o'quvchi ko'proq yo'qotadi
2327-4662 (c) 2018 IEEE. Shaxsiy foydalanishga ruxsat beriladi, lekin qayta nashr qilish/qayta tarqatish IEEE ruxsatini talab qiladi. Qo'shimcha ma'lumot olish uchun http://www.ieee.org/publications_standards/publications/rights/index.html ga qarang.
Ushbu maqola ushbu jurnalning keyingi sonida chop etish uchun qabul qilingan, ammo to'liq tahrir qilinmagan. Tarkib yakuniy nashrdan oldin o'zgarishi mumkin. Iqtibos ma'lumoti: DOI 10.1109/JIOT.2019.2913231, IEEE Internet of
Do'stlaringiz bilan baham: |