मैं Dask के लिए अपेक्षाकृत नया हूं और मेरे पास 12GB की एक बड़ी फ़ाइल है जिसे मैं संसाधित करना चाहता हूं। यह फ़ाइल एक SQL BCP फ़ाइल से आयात की गई थी जिसे मैं sql पर अपलोड करने से पहले Dask से लड़ना चाहता हूँ। इसके हिस्से के रूप में, मुझे कुछ कार्यवाही व्हाइटस्पेस को हटाने की जरूरत है उदा। 'एसक्यूएल ट्यूटोरियल' को 'एसक्यूएल ट्यूटोरियल' में बदल दिया गया है। मैं इसे पांडा का उपयोग करके निम्नानुसार करूंगा:
df_train['colum1'] = pd.core.strings.str_strip(df_train['column1'])
ऐसा लगता है कि dask में यह सुविधा नहीं है क्योंकि मुझे त्रुटि मिलती है
विशेषता त्रुटि: मॉड्यूल 'dask.dataframe.core' में कोई विशेषता नहीं है 'तार'
क्या डस्क का उपयोग करके ऐसा करने का कोई स्मृति-कुशल तरीका है?
1 उत्तर
एक लंबी खोज के बाद मैं इसे डास्क एपीआई:
str
स्ट्रिंग विधियों के लिए नेमस्पेस
तो आप उपयोग कर सकते हैं:
df_train['colum1'] = df_train['column1'].str.strip()
जुड़े हुए प्रश्न
नए सवाल
python
पायथन एक बहु-प्रतिमान है, गतिशील रूप से टाइप किया हुआ, बहुउद्देशीय प्रोग्रामिंग भाषा है। यह एक साफ और एक समान वाक्यविन्यास सीखने, समझने और उपयोग करने के लिए त्वरित होने के लिए डिज़ाइन किया गया है। कृपया ध्यान दें कि अजगर 2 आधिकारिक तौर पर 01-01-2020 के समर्थन से बाहर है। फिर भी, संस्करण-विशिष्ट पायथन सवालों के लिए, [अजगर -२.०] या [अजगर -३.x] टैग जोड़ें। पायथन वेरिएंट (जैसे, ज्योथन, PyPy) या लाइब्रेरी (उदा।, पांडस और न्यूमपी) का उपयोग करते समय, कृपया इसे टैग में शामिल करें।