हमारी Google बकेट में बहुत सी बड़ी फ़ाइलें (~ गीगाबाइट) हैं। मैं इन फ़ाइलों को संसाधित करना और नई उत्पन्न करना चाहता हूं। विशिष्ट होने के लिए, ये JSON फ़ाइलें हैं, जिनमें से मैं एक फ़ील्ड निकालना चाहता हूं और कुछ फ़ाइलों को एक में जोड़ना चाहता हूं।

मैं कुबेरनेट्स में पॉड्स के रूप में चलने वाली कुछ स्क्रिप्ट लिख सकता था, जो बाल्टी से जुड़ती थीं और डेटा को वहां और पीछे से स्ट्रीम करती थीं। लेकिन मुझे यह बदसूरत लगता है - क्या बाल्टी में डेटा प्रोसेसिंग के लिए विशेष रूप से कुछ बनाया गया है?

0
Vojtěch 3 अक्टूबर 2018, 13:42

1 उत्तर

सबसे बढ़िया उत्तर

एक बिग डेटा समस्या की तरह बदबू आ रही है।

बड़ी फ़ाइलों के संसाधन के लिए अपाचे स्पार्क जैसे बड़े डेटा सॉफ़्टवेयर का उपयोग करें। चूंकि, डेटा Google क्लाउड में है, इसलिए Google क्लाउड डेटाप्रोक का सुझाव देंगे। इसके अलावा, K8S पर बिग डेटा एक WIP है और K8S को अभी के लिए छोड़ने की सिफारिश करेगा। हो सकता है कि भविष्य में K8S पर बिग डेटा का उपयोग करें। K8S पर बिग डेटा पर अधिक (यहां और यहां)।

आपके समाधान के साथ (K8S और हाथ से बने कोड का उपयोग करके), सभी दोष सहिष्णुता को मैन्युअल रूप से संभालना होगा। लेकिन, अपाचे स्पार्क के मामले में गलती सहनशीलता (नोड नीचे जा रहा है, नेटवर्क विफलता इत्यादि) का स्वचालित रूप से ख्याल रखा जाता है।

समाप्त करने के लिए, मैं अभी के लिए K8S के बारे में भूल जाने और समस्या को हल करने के लिए बिग डेटा पर ध्यान केंद्रित करने की सलाह दूंगा।

2
Praveen Sripati 3 अक्टूबर 2018, 11:52