क्या ईएमआर पर स्पार्क अमेज़ॅन एस 3 से अंतर्निहित एचडीएफएस को इनपुट डेटा वितरित करता है?
ईबीएस वॉल्यूम का क्या उपयोग है जो नोड्स से भी जुड़ा हुआ है?
2 जवाब
प्रत्येक नोड के लिए रूट ईबीएस वॉल्यूम ऑपरेटिंग सिस्टम और एप्लिकेशन फ़ाइलों के लिए उपयोग किया जाता है। यह डिफ़ॉल्ट रूप से 10GB वॉल्यूम है। कोर नोड्स से जुड़े अतिरिक्त वॉल्यूम एचडीएफएस के लिए उपयोग किए जाते हैं। टास्क नोड्स में अतिरिक्त वॉल्यूम हो सकते हैं, लेकिन टास्क नोड्स में एचडीएफएस नाम नोड्स नहीं होते हैं, और एचडीएफएस डेटा स्टोर नहीं करेंगे।
EMR के लिए इंस्टेंस स्टोरेज दस्तावेज़:
इंस्टेंस स्टोर और/या ईबीएस वॉल्यूम स्टोरेज का उपयोग एचडीएफएस डेटा के साथ-साथ बफ़र्स, कैशे, स्क्रैच डेटा और अन्य अस्थायी सामग्री के लिए किया जाता है जो कुछ एप्लिकेशन स्थानीय फाइल सिस्टम में "स्पिल" कर सकते हैं।
यदि ऐसा करने के लिए कॉन्फ़िगर किया गया है तो स्पार्क एचडीएफएस में अस्थायी डेटा संग्रहीत करेगा। आप सेट करने के लिए spark.local.dir
जैसे प्रॉपर्टी कॉन्फ़िगर कर सकते हैं जहां स्पार्क को डेटा लिखना चाहिए।
जब तक आप विशेष रूप से एचडीएफएस को डेटा नहीं लिख रहे हैं, तब तक आपको कोर नोड्स के लिए बड़ी ईबीएस मात्रा का प्रावधान करने की आवश्यकता नहीं है। मेरा सुझाव है कि आप जो अनुमान लगाते हैं उसके साथ एक क्लस्टर लॉन्च करें, और फिर आपकी एचडीएफएस आवश्यकताओं में वृद्धि के रूप में अतिरिक्त कोर नोड्स जोड़ना।
मौसम आप एचडीएफएस निर्दिष्ट करते हैं या नहीं, यह हमेशा ईएमआर द्वारा स्पिन किया जाता है। मुझे कोई दस्तावेज नहीं मिला कि EMR HDFS को क्यों घुमाता है; लेकिन मेरे अनुभव के अनुसार EMR पहले HDFS को अस्थायी भंडारण के रूप में लिखता है और फिर इन डेटा को S3 में कॉपी करता है। रूट वॉल्यूम के कुछ भाग का उपयोग इस HDFS --evn को होस्ट करने के लिए किया जाता है, हालांकि आपने EMR को घुमाते समय HDFS चेकबॉक्स को चेक नहीं किया था
संबंधित सवाल
नए सवाल
amazon-emr
Amazon Elastic MapReduce (Amazon EMR) एक वेब सेवा है जो व्यवसायों, शोधकर्ताओं, डेटा विश्लेषकों और डेवलपर्स को बड़ी मात्रा में डेटा को आसानी से और प्रभावी ढंग से संसाधित करने में सक्षम बनाती है। यह Amazon Elastic Compute Cloud (Amazon EC2) और Amazon Simple Storage Service (Amazon S3) के वेब-स्केल इन्फ्रास्ट्रक्चर पर चलने वाले एक होस्ट किए गए Hadoop ढांचे का उपयोग करता है।