اسپارڪ اسٽريمنگ ڊيٽا صفائي جو طريقو
(I) ڊي اسٽريم ۽ آر ڊي ڊي
جيئن اسان ڄاڻون ٿا، اسپارڪ اسٽريمنگ جي حساب سان اسپارڪ ڪور تي ٻڌل آهي، ۽ اسپارڪ ڪور جو ڪور آر ڊي ڊي آهي، تنهن ڪري اسپارڪ اسٽريمنگ کي پڻ آر ڊي ڊي سان لاڳاپيل هجڻ گهرجي. بهرحال، اسپارڪ اسٽريمنگ صارفين کي سڌو سنئون آر ڊي ڊي استعمال ڪرڻ جي اجازت نٿو ڏئي، پر ڊي اسٽريم تصورن جي هڪ سيٽ کي خلاصو ڪري ٿو، ڊي اسٽريم ۽ آر ڊي ڊي جامع رشتا آهن، توهان ان کي جاوا ۾ سينگار جي نموني طور سمجهي سگهو ٿا، يعني ڊي اسٽريم آر ڊي ڊي جو واڌارو آهي، پر رويو آر ڊي ڊي سان ملندڙ جلندڙ آهي.
ڊي اسٽريم ۽ آر ڊي ڊي ٻنهي جون ڪيتريون ئي حالتون آهن.
(1) ۾ ساڳيا ٽرانسفارميشن عمل آهن، جهڙوڪ نقشو، reduceByKey، وغيره، پر ڪجهه منفرد پڻ آهن، جهڙوڪ ونڊو، mapWithStated، وغيره.
(2) سڀني ۾ ايڪشن ايڪشن آهن، جهڙوڪ هر هڪ آر ڊي ڊي، ڳڻپ، وغيره.
پروگرامنگ ماڊل هڪجهڙائي رکي ٿو.
(ب) اسپارڪ اسٽريمنگ ۾ ڊي اسٽريم جو تعارف
ڊي اسٽريم ۾ ڪيترائي ڪلاس شامل آهن.
(1) ڊيٽا سورس ڪلاس، جهڙوڪ ان پٽ ڊي اسٽريم، مخصوص جيئن ڊائريڪٽ ڪافڪا ان پٽ اسٽريم، وغيره.
(2) ڪنورشن ڪلاس، عام طور تي ميپڊ ڊي اسٽريم، شفلڊ ڊي اسٽريم
(3) آئوٽ پُٽ ڪلاس، عام طور تي جيئن ته ForEachDStream
مٿي ڏنل مان، شروعات (ان پٽ) کان آخر (آئوٽ پُٽ) تائين ڊيٽا ڊي اسٽريم سسٽم ذريعي ڪيو ويندو آهي، جنهن جو مطلب آهي ته استعمال ڪندڙ عام طور تي سڌو سنئون آر ڊي ڊي ٺاهي ۽ هٿرادو نٿو ڪري سگهي، جنهن جو مطلب آهي ته ڊي اسٽريم کي آر ڊي ڊي جي زندگي جي چڪر لاءِ ذميوار هجڻ جو موقعو ۽ ذميواري آهي.
ٻين لفظن ۾، اسپارڪ اسٽريمنگ ۾ هڪ آهيخودڪار صفائيفنڪشن.
(iii) اسپارڪ اسٽريمنگ ۾ آر ڊي ڊي جنريشن جو عمل
اسپارڪ اسٽريمنگ ۾ آر ڊي ڊيز جو لائف فلو هن ريت آهي.
(1) ان پٽ ڊي اسٽريم ۾، حاصل ڪيل ڊيٽا آر ڊي ڊي ۾ تبديل ٿي ويندي آهي، جهڙوڪ ڊائريڪٽ ڪافڪا ان پٽ اسٽريم، جيڪو ڪافڪا آر ڊي ڊي ٺاهيندو آهي.
(2) پوءِ MappedDStream ۽ ٻين ڊيٽا ڪنورشن ذريعي، هن وقت کي سڌو سنئون RDD سڏيو ويندو آهي جيڪو ڪنورشن لاءِ نقشي جي طريقي سان مطابقت رکي ٿو.
(3) آئوٽ پُٽ ڪلاس آپريشن ۾، صرف جڏهن آر ڊي ڊي ظاهر ٿئي ٿو، توهان استعمال ڪندڙ کي لاڳاپيل اسٽوريج، ٻيا حساب ڪتاب، ۽ ٻيا آپريشن ڪرڻ جي اجازت ڏئي سگهو ٿا.