4.1 O'rnatilgan tasvirni qayta ishlash
Machine Translated by Google
9
4.2 Bo'linish
Bo'lim ichki xotiraga yuklanishi mumkin, ko'p yadroli arxitekturaning turli yadrolari uchun
taqsimlanadi va bu bo'lim 3(a)-rasmda ko'rsatilganidek, bir nechta yadrolar tomonidan parallel
ravishda qayta ishlanadi. Kamchilik shundaki, ulashgan yadrolar bir-biridan tasvir piksellarini talab
qiladi. Bu umumiy xotira yoki umumiy avtobus tizimi orqali aloqa orqali hal qilinishi mumkin. Shakl
3(b) da ko'rsatilgan ikkinchi yondashuvda har bir yadro o'zining sharpa zonasi maydoniga ega
bo'lgan kichik bo'limga ega bo'ladi. Shunday qilib, hech qanday aloqa yoki ma'lumot almashish
talab qilinmaydi, lekin sharpali piksellarni saqlash uchun qo'shimcha xarajatlar kattaroq va ko'proq
ichki xotira talab qilinadi. Agar protsessor yadrolari orasidagi aloqa yuki qo'shimcha sharpali
piksellar uchun yuklashdan kichikroq bo'lsa, birinchi yondashuvga ustunlik berish kerak. Bu,
masalan, nozik taneli protsessor massivlari kabi chambarchas bog'langan yadrolarda sodir bo'ladi.
(Reichenbach va boshqalar, 2011) da biz qismlarga ajratish sxemalarini batafsilroq taqdim etdik
va analitik modelni ishlab chiqdik. Maqsad dastur cheklovlariga qarab tizim parametrlarining
optimal to'plamini topish, ko'p yadroli protsessor va tashqi xotira yoki avtobus tizimi o'rtasida yuk
muvozanatiga erishish edi. Biz o'rnatilgan ilovalar uchun maxsus ko'p yadroli tizimlar uchun
moslashtirilgan tom chizig'i modelini taqdim etdik.
Agar o'rnatilgan ko'p yadroli tizimning ichki xotirasi to'liq tasvirni saqlash uchun etarlicha katta
bo'lmasa, tasvirni qismlarga ajratishdan foydalanish mumkin. Agar rasm hisoblash uchun
bo'lingan bo'lsa, muammo yuzaga keladi. Rasm pikselini qayta ishlash uchun trafaret o'lchamiga
bog'liq bo'lgan qo'shni qo'shnilarning ma'lum bir soni talab qilinadi. Bo'lim chegarasini qayta
ishlash uchun ichki xotiraga qo'shimcha piksellar yuklanishi kerak. Ushbu piksellarning qo'shimcha
talab qilinadigan maydoni arvoh zonasi deb ataladi va 3-rasmda to'lqinli chiziqlar bilan tasvirlangan.
Bo'limlarni parallel qayta ishlashning ikki yo'li mavjud (3(a) va 3(b)-rasmlar).
3-rasm. Tasvirlarni qismlarga ajratish yondashuvlari
Ajratish kvadrat mintaqalarda amalga oshirilishi kerak. Ular arvoh zonasi uchun bo'linish maydoni
va yuqori xarajatlar o'rtasidagi munosabatlarga nisbatan maqbuldir.
Parallel o'rnatilgan hisoblash arxitekturalari
7
Parallel o'rnatilgan hisoblash arxitekturalari
(a) bitta bo'limga parallel ishlov berish
(b) bir nechta kichik bo'limlarni mustaqil ravishda
parallel qayta ishlash
Machine Translated by Google
O'rnatilgan tizimlar - Yuqori samarali tizimlar, ilovalar va loyihalar
Bu protsessor ishlashi va tashqi xotira o'tkazish qobiliyati o'rtasidagi bog'liqlikni ko'rsatadi. Gorizontal o'q
yuklangan baytga qo'llaniladigan operatsiyalar soni bo'lgan va tasvirni qayta ishlash operatsiyasi bilan
berilgan operatsion intensivlikni aks ettiradi. Vertikal o'q soniyasiga kadrlarda erishish mumkin bo'lgan
ishlashni aks ettiradi. Parametrli gorizontal egri chiziqlar ma'lum bir parallellashtirish darajasi uchun ko'p
yadroli protsessor ish faoliyatini, diagonal egri chiziq esa tashqi xotira tarmoqli kengligi bilan cheklanishni
ifodalaydi. Operatsion intensivligi past bo'lgan algoritmlar odatda xotira o'tkazish qobiliyatini cheklaydi. Har
bir yuklangan bayt uchun faqat bir nechta operatsiyani bajarish kerak, shuning uchun protsessor yadrolari
ko'pincha yangi ma'lumotlar mavjud bo'lmaguncha ishlamaydi. Boshqa tomondan, yuqori operatsion
intensivlikka ega algoritmlar protsessorning eng yuqori ishlashi bilan cheklanadi. Bu shuni anglatadiki, har
bir qadam uchun etarli ma'lumotlar mavjud, ammo protsessor yadrolari quvvatga ega.
standart ko'p yadroli protsessorlar uchun Roofline modeli (Williams va boshq., 2009). Bizning moslashtirilgan
modelimiz 4-rasmda tasvirlangan.
Bunday hollarda erishish mumkin bo'lgan ishlash yadrolar soniga, ya'ni parallelizatsiya darajasiga bog'liq.
Diagonal egri chiziq va gorizontal egri chiziqlar orasidagi kesishish nuqtalari optimaldir, chunki protsessor
ishlashi va tashqi xotira o'tkazish qobiliyati o'rtasida teng yuk muvozanati mavjud.
4-rasm. Moslashtirilgan tom chizig'i modeli
Standart ko'p yadroli tizimda parallellashtirish darajasi belgilanadi va unumdorlikni faqat SIMD birliklari kabi
maxsus arxitektura xususiyatlari yoki masalan, kesh effektlaridan foydalanish orqali yaxshilash mumkin.
Ilovaga xos ko'p yadroli tizimda bu shart emas. Parallellashtirish darajasini tanlash mumkin, masalan, agar
Soft-IP protsessorlari FPGA-lar uchun yoki ASIC-larni ishlab chiqish uchun ishlatilsa. Demak, parallellashtirish
darajasini mavjud tashqi xotira o'tkazish qobiliyatiga qarab optimal tanlash mumkin. (Reichenbach va
boshq., 2011) biz tasvirni qayta ishlash algoritmining operatsion intensivligiga qanday ta'sir qilish
mumkinligini ham ko'rsatdik. Yuqorida aytib o'tilganidek, Marching Pixel algoritmlari iterativ yondashuvlardir.
Shuningdek, tasvirni oldindan qayta ishlashning iterativ operatsiyalari mavjud, masalan, skeletizatsiya. Bu
barcha iterativ niqob algoritmlari iterativ deb nomlanadi
IN-TECH tomonidan o'rnatiladi
8
10
Machine Translated by Google
11
Iloji bo'lsa, mahalliy tasvirni qayta ishlash operatsiyalarini qayta ishlash uchun tasvir ma'lumotlarining
oqimiga ustunlik berish kerak. Buning sababi shundaki, oqimli yondashuv talab qilinadigan tashqi xotiraga
kirish uchun maqbuldir. Kontseptsiya 5-rasmda keltirilgan.
Xulosa qilib aytganda, agar tasvirni ko'p yadroli arxitekturaning ichki xotirasida to'liq saqlash imkoni
bo'lmasa, bo'linishdan foydalanish mumkin. Arvoh zonasi tufayli, agar tasvir qayta ishlash uchun bo'lingan
bo'lsa, ma'lumotlarni almashish talab qilinadi. Agar protsessor yadrolari bir-biri bilan chambarchas
bog'langan bo'lsa, bo'lim bir nechta yadrolar tomonidan parallel ravishda qayta ishlanishi kerak. Aks holda,
protsessor yadrolariga qo'shimcha sharpali piksellar bilan bir nechta kichik bo'limlar taqsimlanishi kerak.
trafaret halqalari (ISL). Ushbu algoritmlar uchun sharpa zonasi kengligini oshirish orqali bitta yuklangan
bo'lim uchun bir nechta iteratsiyalarni qayta ishlash mumkin. Bu shuni anglatadiki, yuklangan baytdagi
operatsiyalarni oshirish mumkin. Yuqori ish intensivligi tashqi xotira tarmoqli kengligidan yaxshiroq
foydalanishga olib keladi. Shunday qilib, parallelizatsiya darajasini teng yuk muvozanatiga erishilgunga
qadar oshirish mumkin, bu esa unumdorlikning oshishiga olib keladi.
5-rasm. Streaming yondashuvi
Rasm, masalan, yuqori chapdan pastki o'ng burchakka ishlov beriladi. Ichki xotira bir nechta tasvir
satrlarini saqlash uchun katta siljish registrlari sifatida joylashtirilgan. Protsessor yadrosi niqobning kerakli
piksellariga kirish huquqiga ega. Shift registrining o'lchami tasvirga bog'liq
Bizning Moslashtirilgan Roofline Modelimiz kabi analitik modellar nafaqat yangi ilovalarga xos
arxitekturalarni optimallashtirilgan ishlab chiqishga qodir. Ular, shuningdek, qayta ishlash zanjiridagi
qiyinchiliklarni topish uchun mavjud tizimlarni tahlil qilish uchun ishlatilishi mumkin. Oldingi ishda biz
ParCA deb nomlangan ISL algoritmlarini echish uchun ko'p yadroli SoC ishlab chiqdik (Reichenbach va
boshq., 2010). Moslashtirilgan tom chizig'i modeli bilan biz ushbu arxitekturani qayta ishlash zanjirida
to'siqni aniqladik, chunki arxitekturani ishlab chiqishda sharpa zonasining kengligi hisobga olinmagan.
Ilovaning cheklovlariga asoslangan analitik modeldan foydalangan holda, tizim parametrlarini
parallellashtirish darajasi dasturga xos arxitektura ishlab chiqilishidan oldin optimal tarzda aniqlash mumkin.
Bo'lim hajmi mavjud ichki xotira va ishlatilgan bo'lim yondashuvi yordamida tanlanishi kerak. Agar dastur
uchun maxsus ko'p yadroli tizim ishlab chiqilsa, tashqi xotira tarmoqli kengligi bilan bog'liq holda
parallellashtirish darajasi kabi optimal tizim parametrlarini aniqlash uchun dastur cheklovlariga asoslangan
analitik modeldan foydalanish kerak.
Do'stlaringiz bilan baham: |