क्या ईएमआर पर स्पार्क अमेज़ॅन एस 3 से अंतर्निहित एचडीएफएस को इनपुट डेटा वितरित करता है?

ईबीएस वॉल्यूम का क्या उपयोग है जो नोड्स से भी जुड़ा हुआ है?

0
Lwica Gorska 25 फरवरी 2020, 20:30

2 जवाब

प्रत्येक नोड के लिए रूट ईबीएस वॉल्यूम ऑपरेटिंग सिस्टम और एप्लिकेशन फ़ाइलों के लिए उपयोग किया जाता है। यह डिफ़ॉल्ट रूप से 10GB वॉल्यूम है। कोर नोड्स से जुड़े अतिरिक्त वॉल्यूम एचडीएफएस के लिए उपयोग किए जाते हैं। टास्क नोड्स में अतिरिक्त वॉल्यूम हो सकते हैं, लेकिन टास्क नोड्स में एचडीएफएस नाम नोड्स नहीं होते हैं, और एचडीएफएस डेटा स्टोर नहीं करेंगे।

EMR के लिए इंस्टेंस स्टोरेज दस्तावेज़:

इंस्टेंस स्टोर और/या ईबीएस वॉल्यूम स्टोरेज का उपयोग एचडीएफएस डेटा के साथ-साथ बफ़र्स, कैशे, स्क्रैच डेटा और अन्य अस्थायी सामग्री के लिए किया जाता है जो कुछ एप्लिकेशन स्थानीय फाइल सिस्टम में "स्पिल" कर सकते हैं।

यदि ऐसा करने के लिए कॉन्फ़िगर किया गया है तो स्पार्क एचडीएफएस में अस्थायी डेटा संग्रहीत करेगा। आप सेट करने के लिए spark.local.dir जैसे प्रॉपर्टी कॉन्फ़िगर कर सकते हैं जहां स्पार्क को डेटा लिखना चाहिए।

जब तक आप विशेष रूप से एचडीएफएस को डेटा नहीं लिख रहे हैं, तब तक आपको कोर नोड्स के लिए बड़ी ईबीएस मात्रा का प्रावधान करने की आवश्यकता नहीं है। मेरा सुझाव है कि आप जो अनुमान लगाते हैं उसके साथ एक क्लस्टर लॉन्च करें, और फिर आपकी एचडीएफएस आवश्यकताओं में वृद्धि के रूप में अतिरिक्त कोर नोड्स जोड़ना।

0
Tyrone321 27 फरवरी 2020, 10:32

मौसम आप एचडीएफएस निर्दिष्ट करते हैं या नहीं, यह हमेशा ईएमआर द्वारा स्पिन किया जाता है। मुझे कोई दस्तावेज नहीं मिला कि EMR HDFS को क्यों घुमाता है; लेकिन मेरे अनुभव के अनुसार EMR पहले HDFS को अस्थायी भंडारण के रूप में लिखता है और फिर इन डेटा को S3 में कॉपी करता है। रूट वॉल्यूम के कुछ भाग का उपयोग इस HDFS --evn को होस्ट करने के लिए किया जाता है, हालांकि आपने EMR को घुमाते समय HDFS चेकबॉक्स को चेक नहीं किया था

0
chen 27 फरवरी 2020, 11:11