اسپارڪ اسٽريمنگ ڊيٽا صاف ڪرڻ واري ميڪانيزم
(I) ڊي اسٽريم ۽ آر ڊي ڊي
جيئن ته اسان ڄاڻون ٿا، اسپارڪ اسٽريمنگ جي حساب سان اسپارڪ ڪور تي ٻڌل آهي، ۽ اسپارڪ ڪور جو بنيادي حصو RDD آهي، تنهنڪري اسپارڪ اسٽريمنگ پڻ RDD سان لاڳاپيل هجڻ گهرجي.بهرحال، اسپارڪ اسٽريمنگ صارفين کي سڌو RDD استعمال ڪرڻ نه ٿو ڏئي، پر DStream تصورن جو هڪ سيٽ خلاصو ڪري ٿو، DStream ۽ RDD جامع لاڳاپا آهن، توهان ان کي جاوا ۾ سجاڳي نموني سمجهي سگهو ٿا، اهو آهي، DStream RDD جو هڪ واڌارو آهي، پر رويي RDD سان ملندڙ جلندڙ آهي.
DStream ۽ RDD ٻنهي جا ڪيترائي شرط آهن.
(1) ساڳيا ٽرانسفارميشن ڪارناما آھن، جھڙوڪ Map، reduceByKey، وغيره، پر ڪجھ منفرد، جھڙوڪ Window، mapWithStated، وغيره.
(2) سڀني وٽ ايڪشن ڪارناما آهن، جهڙوڪ foreachRDD، شمار، وغيره.
پروگرامنگ ماڊل مسلسل آهي.
(ب) اسپارڪ اسٽريمنگ ۾ ڊي اسٽريم جو تعارف
DStream ڪيترن ئي طبقن تي مشتمل آهي.
(1) ڊيٽا ماخذ طبقن، جهڙوڪ InputDStream، مخصوص جيئن DirectKafkaInputStream، وغيره.
(2) ڪنورشن ڪلاس، عام طور تي MappedDStream، ShuffledDStream
(3) ٻاھرين ڪلاس، عام طور تي جيئن ForEachDStream
مٿين کان، ڊيٽا جي شروعات (ان پٽ) کان آخر تائين (آئوٽ پٽ) DStream سسٽم طرفان ڪيو ويندو آهي، جنهن جو مطلب آهي ته صارف عام طور تي RDDs ٺاهي ۽ ٺاهي نه ٿو سگهي، جنهن جو مطلب آهي ته DStream کي موقعو ۽ ذميواري آهي. RDDs جي زندگي جي چڪر لاء ذميوار.
ٻين لفظن ۾، اسپارڪ اسٽريمنگ هڪ آهيخودڪار صفائيفنڪشن.
(iii) اسپارڪ اسٽريمنگ ۾ آر ڊي ڊي جي نسل جو عمل
اسپارڪ اسٽريمنگ ۾ RDDs جي زندگي جي وهڪري ھيٺ ڏنل آھي.
(1) InputDStream ۾، وصول ڪيل ڊيٽا RDD ۾ تبديل ٿي ويندي آهي، جهڙوڪ DirectKafkaInputStream، جيڪو KafkaRDD ٺاهي ٿو.
(2) پوءِ MappedDStream ۽ ٻين ڊيٽا جي تبادلي جي ذريعي، هن وقت کي سڌي طرح RDD سڏيو ويندو آهي تبادلي لاءِ نقشي جي طريقي سان ملندڙ
(3) آئوٽ ڪلاس آپريشن ۾، صرف جڏهن RDD بي نقاب ٿئي ٿي، توهان صارف کي اجازت ڏئي سگهو ٿا ته لاڳاپيل اسٽوريج، ٻيون حساب ڪتاب، ۽ ٻيا عمل انجام ڏين.