मेरे पास मेरे निपटान में डेटासेट है जिसमें लगभग 500 कॉलम हैं जिन्हें मुझे तलाशने और केवल प्रासंगिक कॉलम रखने की आवश्यकता है। पांडा info(verbose = True) विधि इस संख्या को ठीक से प्रदर्शित भी नहीं करती है। मैंने नल की कल्पना करने के लिए लापता पुस्तकालय का भी उपयोग किया। हालाँकि, यह बहुत अधिक RAM का उपयोग करता है। यहाँ matplotlib के बजाय क्या उपयोग करें?

आप बहुत सारी सुविधाओं (100 से अधिक) वाले डेटासेट तक कैसे पहुंचते हैं? बेकार सुविधाओं को खत्म करने के लिए कोई उपयोगी कार्यप्रवाह? जानकारी () या किसी विकल्प का उपयोग कैसे करें?

हाँ, सब कुछ देखने के लिए विस्तृत विकल्पों का भी उपयोग किया। यहां प्रश्न यह है कि इसे स्थानीय रूप से कैसे सेट किया जाए?

import pandas as pd
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
0
sumixam 20 मई 2020, 15:44

2 जवाब

बेकार सुविधाओं के मुद्दे के संबंध में, आप आसानी से फीचर प्रभावशीलता से जुड़े कुछ मीट्रिक का अनुमान लगा सकते हैं और कुछ थ्रेसहोल्ड का उपयोग करके इसे फ़िल्टर कर सकते हैं। sklearn सुविधा चयन डॉक्स देखें।

बेशक ऐसा करने से पहले आपको यह सुनिश्चित करना होगा कि विशेषताएं संख्यात्मक हैं और उनका प्रतिनिधित्व आपकी पसंद के परीक्षणों के लिए उपयुक्त है। ऐसा करने के लिए मेरा सुझाव है कि आप sklearn पाइपलाइन देखें। (वैकल्पिक) और प्रीप्रोसेसिंग डॉक्स

फीचर उपयोगिता का आकलन करने से पहले, सुनिश्चित करें कि आप लापता डेटा हैंडलिंग, श्रेणीबद्ध चर और फीचर स्केलिंग को कूटबद्ध करते हैं।

0
RaidasGrisk 20 मई 2020, 16:08
हाँ, मैं इनके बारे में scikit में जानता हूँ। याद दिलाने के लिए धन्यवाद! हो सकता है कि इसे जाने दिया जाए, हालांकि, यह एमएल चरण की तैयारी के बारे में अधिक है। मैं वास्तव में डेटासेट की खोज में पहले कदमों के बारे में पूछ रहा हूं। तो यह एक ईडीए हिस्सा है और सफाई और तैयारी नहीं है।
 – 
sumixam
20 मई 2020, 16:42
मुझे आपका बिंदु पता है। पांडा की जानकारी के अलावा, आप देख सकते हैं वर्णन करें
 – 
RaidasGrisk
20 मई 2020, 16:51
  1. आप XGBoost की feature_importance विशेषता का उपयोग कर सकते हैं। हालाँकि, आपको पहले XGB का उपयोग करके अपने डेटा को प्रशिक्षित करने की आवश्यकता है और फिर feature_importance का उपयोग करके, केवल महत्वपूर्ण विशेषताओं पर विचार करें (अपनी पसंद की सीमा निर्धारित करके)

  2. पीसीए या किसी अन्य एल्गोरिदम का उपयोग करके आयाम में कमी काम आ सकती है।

0
Mehul Gupta 20 मई 2020, 18:49