मेरे पास 6k से अधिक डेटा वाला डेटासेट है। मैं जानना चाहता हूं कि लापता डेटा और गैर-संख्यात्मक डेटा (त्रुटि) को एक साथ कैसे गिनना है, और फिर घटना को साजिश करने के लिए हिस्टोग्राम का उपयोग करना है।
मैं लापता डेटा और त्रुटि डेटा का पता लगाने के लिए इस कोड का उपयोग करता हूं लेकिन मैं हर बार केवल एक सबसेट को फ़िल्टर कर सकता हूं। मुझे नहीं पता कि उन्हें कैसे समेटा जाए। ए, बी, और सी का डेटा प्रकार वस्तु है। आईडी और डी के लिए इंट और फ्लोट हैं।
यह प्रोग्रामेटिक रूप से कैसे किया जा सकता है? और फिर घटना दिखाने के लिए हिस्टोग्राम का उपयोग करना।
df[pd.to_numeric(df['a'], errors='coerce').isnull()]
df = pd.DataFrame({'Id':[1, 2, 3, 4, 5],
'a': [1, 2, good, 'bad', NaN],
'b': [0.1, worse, NaN, better, 0.5],
'c': ['2.5', 'best', '6.5', 'NaN', '10.5'],
'd': ['10', '20', '30', '40', '50']})
1 उत्तर
सेटअप
df = pd.DataFrame({'A' : ['', np.nan, 3], 'B' : ['amount', 5, 3]})
df_error = (pd.to_numeric(df.stack(dropna=False), errors='coerce')
.isna()
.map({True : 'error', False : 'not error'})
.groupby(level=1)
.value_counts()
.unstack())
df_error.plot(kind='bar')
नए सवाल
python
पायथन एक बहु-प्रतिमान है, गतिशील रूप से टाइप किया हुआ, बहुउद्देशीय प्रोग्रामिंग भाषा है। यह एक साफ और एक समान वाक्यविन्यास सीखने, समझने और उपयोग करने के लिए त्वरित होने के लिए डिज़ाइन किया गया है। कृपया ध्यान दें कि अजगर 2 आधिकारिक तौर पर 01-01-2020 के समर्थन से बाहर है। फिर भी, संस्करण-विशिष्ट पायथन सवालों के लिए, [अजगर -२.०] या [अजगर -३.x] टैग जोड़ें। पायथन वेरिएंट (जैसे, ज्योथन, PyPy) या लाइब्रेरी (उदा।, पांडस और न्यूमपी) का उपयोग करते समय, कृपया इसे टैग में शामिल करें।