मेरे पास मेरे निपटान में डेटासेट है जिसमें लगभग 500 कॉलम हैं जिन्हें मुझे तलाशने और केवल प्रासंगिक कॉलम रखने की आवश्यकता है। पांडा info(verbose = True)
विधि इस संख्या को ठीक से प्रदर्शित भी नहीं करती है। मैंने नल की कल्पना करने के लिए लापता पुस्तकालय का भी उपयोग किया। हालाँकि, यह बहुत अधिक RAM का उपयोग करता है। यहाँ matplotlib के बजाय क्या उपयोग करें?
आप बहुत सारी सुविधाओं (100 से अधिक) वाले डेटासेट तक कैसे पहुंचते हैं? बेकार सुविधाओं को खत्म करने के लिए कोई उपयोगी कार्यप्रवाह? जानकारी () या किसी विकल्प का उपयोग कैसे करें?
हाँ, सब कुछ देखने के लिए विस्तृत विकल्पों का भी उपयोग किया। यहां प्रश्न यह है कि इसे स्थानीय रूप से कैसे सेट किया जाए?
import pandas as pd
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
2 जवाब
बेकार सुविधाओं के मुद्दे के संबंध में, आप आसानी से फीचर प्रभावशीलता से जुड़े कुछ मीट्रिक का अनुमान लगा सकते हैं और कुछ थ्रेसहोल्ड का उपयोग करके इसे फ़िल्टर कर सकते हैं। sklearn सुविधा चयन डॉक्स देखें।
बेशक ऐसा करने से पहले आपको यह सुनिश्चित करना होगा कि विशेषताएं संख्यात्मक हैं और उनका प्रतिनिधित्व आपकी पसंद के परीक्षणों के लिए उपयुक्त है। ऐसा करने के लिए मेरा सुझाव है कि आप sklearn पाइपलाइन देखें। (वैकल्पिक) और प्रीप्रोसेसिंग डॉक्स।
फीचर उपयोगिता का आकलन करने से पहले, सुनिश्चित करें कि आप लापता डेटा हैंडलिंग, श्रेणीबद्ध चर और फीचर स्केलिंग को कूटबद्ध करते हैं।
आप XGBoost की feature_importance विशेषता का उपयोग कर सकते हैं। हालाँकि, आपको पहले XGB का उपयोग करके अपने डेटा को प्रशिक्षित करने की आवश्यकता है और फिर feature_importance का उपयोग करके, केवल महत्वपूर्ण विशेषताओं पर विचार करें (अपनी पसंद की सीमा निर्धारित करके)
पीसीए या किसी अन्य एल्गोरिदम का उपयोग करके आयाम में कमी काम आ सकती है।
संबंधित सवाल
नए सवाल
python
पायथन एक बहु-प्रतिमान है, गतिशील रूप से टाइप किया हुआ, बहुउद्देशीय प्रोग्रामिंग भाषा है। यह एक साफ और एक समान वाक्यविन्यास सीखने, समझने और उपयोग करने के लिए त्वरित होने के लिए डिज़ाइन किया गया है। कृपया ध्यान दें कि अजगर 2 आधिकारिक तौर पर 01-01-2020 के समर्थन से बाहर है। फिर भी, संस्करण-विशिष्ट पायथन सवालों के लिए, [अजगर -२.०] या [अजगर -३.x] टैग जोड़ें। पायथन वेरिएंट (जैसे, ज्योथन, PyPy) या लाइब्रेरी (उदा।, पांडस और न्यूमपी) का उपयोग करते समय, कृपया इसे टैग में शामिल करें।