मैं Dask के लिए अपेक्षाकृत नया हूं और मेरे पास 12GB की एक बड़ी फ़ाइल है जिसे मैं संसाधित करना चाहता हूं। यह फ़ाइल एक SQL BCP फ़ाइल से आयात की गई थी जिसे मैं sql पर अपलोड करने से पहले Dask से लड़ना चाहता हूँ। इसके हिस्से के रूप में, मुझे कुछ कार्यवाही व्हाइटस्पेस को हटाने की जरूरत है उदा। 'एसक्यूएल ट्यूटोरियल' को 'एसक्यूएल ट्यूटोरियल' में बदल दिया गया है। मैं इसे पांडा का उपयोग करके निम्नानुसार करूंगा:

df_train['colum1'] = pd.core.strings.str_strip(df_train['column1'])

ऐसा लगता है कि dask में यह सुविधा नहीं है क्योंकि मुझे त्रुटि मिलती है

विशेषता त्रुटि: मॉड्यूल 'dask.dataframe.core' में कोई विशेषता नहीं है 'तार'

क्या डस्क का उपयोग करके ऐसा करने का कोई स्मृति-कुशल तरीका है?

0
Sql_Pete_Belfast 22 सितंबर 2020, 14:39

1 उत्तर

सबसे बढ़िया उत्तर

एक लंबी खोज के बाद मैं इसे डास्क एपीआई:

str
स्ट्रिंग विधियों के लिए नेमस्पेस

तो आप उपयोग कर सकते हैं:

df_train['colum1'] = df_train['column1'].str.strip()
1
jezrael 22 सितंबर 2020, 14:53