मेरे पास 6k से अधिक डेटा वाला डेटासेट है। मैं जानना चाहता हूं कि लापता डेटा और गैर-संख्यात्मक डेटा (त्रुटि) को एक साथ कैसे गिनना है, और फिर घटना को साजिश करने के लिए हिस्टोग्राम का उपयोग करना है।

मैं लापता डेटा और त्रुटि डेटा का पता लगाने के लिए इस कोड का उपयोग करता हूं लेकिन मैं हर बार केवल एक सबसेट को फ़िल्टर कर सकता हूं। मुझे नहीं पता कि उन्हें कैसे समेटा जाए। ए, बी, और सी का डेटा प्रकार वस्तु है। आईडी और डी के लिए इंट और फ्लोट हैं।

यह प्रोग्रामेटिक रूप से कैसे किया जा सकता है? और फिर घटना दिखाने के लिए हिस्टोग्राम का उपयोग करना।

df[pd.to_numeric(df['a'], errors='coerce').isnull()]
df = pd.DataFrame({'Id':[1, 2, 3, 4, 5],
                   'a': [1, 2, good, 'bad', NaN],
                   'b': [0.1, worse, NaN, better, 0.5],
                   'c': ['2.5', 'best', '6.5', 'NaN', '10.5'],
                   'd': ['10', '20', '30', '40', '50']})
1
Xiang 29 अक्टूबर 2020, 21:45

1 उत्तर

सबसे बढ़िया उत्तर

सेटअप

df = pd.DataFrame({'A' : ['', np.nan, 3], 'B' : ['amount', 5, 3]})

df_error = (pd.to_numeric(df.stack(dropna=False), errors='coerce')
              .isna()
              .map({True : 'error', False : 'not error'})
              .groupby(level=1)
              .value_counts()
              .unstack())
df_error.plot(kind='bar')

enter image description here

0
ansev 29 अक्टूबर 2020, 22:11