मैं RFE तकनीक और statsmodels लाइब्रेरी का उपयोग करके कार डेटासेट पर एक रैखिक प्रतिगमन मॉडल बना रहा हूं। मेरे अंतिम मॉडल का पी-वैल्यू 5% के भीतर है और इसमें उच्च एफ-आंकड़े हैं। प्रेडिक्टर वेरिएबल्स के लिए VIF मान 5 से काफी नीचे हैं लेकिन स्थिर टर्म (इंटरसेप्ट) के लिए VIF 8.18 है। मैंने मॉडल में स्थिरांक जोड़ने के लिए add_constant विधि का उपयोग किया है। मेरे संदेह निम्नलिखित हैं:

  1. स्थिरांक के लिए उच्च विचरण क्या दर्शाता है?
  2. क्या मुझे वीआईएफ की गणना करते समय निरंतर अवधि को अनदेखा करना चाहिए?

ये मेरे परिणाम हैं:

This is the summary of my final model

VIF results for the model

मैं मशीन लर्निंग में नया हूं और पहली बार इस साइट पर प्रश्न पोस्ट कर रहा हूं। कृपया मुझे बताएं कि क्या मेरे प्रश्न का उत्तर देने के लिए किसी और जानकारी की आवश्यकता है।

1
Saily_Shah 11 जिंदा 2020, 15:33

1 उत्तर

सबसे बढ़िया उत्तर

Stats.stackexchange पर सांख्यिकीय प्रश्न बेहतर ढंग से पूछे जाते हैं। हालाँकि, मैं सिर्फ statsmodels के लिए इसके माध्यम से गया, उदा। https://github.com/statsmodels/statsmodels/issues/2376

सबसे पहले, आपके मॉडल और डेटा में कोई बहुसंस्कृति समस्या नहीं है। पी-मान कम हैं और आत्मविश्वास अंतराल बहुत संकीर्ण हैं, इसलिए मॉडल में पैरामीटर एक अच्छा अनुमान होना चाहिए। 8 का vif बड़ा नहीं होता है।

स्थिरांक में एक बड़ा vif इंगित करता है कि (ढलान) व्याख्यात्मक चर में भी एक बड़ा स्थिर घटक होता है। एक उदाहरण तब होगा जब एक चर का एक बड़ा माध्य होता है लेकिन केवल एक छोटा विचरण होता है। डिज़ाइन मैट्रिक्स की निरंतर और रैंक की कमी के साथ पूर्ण समरूपता के लिए एक उदाहरण डमी वैरिएबल ट्रैप है, जब हमने डमी एन्कोडिंग में एक श्रेणीगत चर के स्तरों में से एक को नहीं हटाया और डमी योग 1 है और इसलिए, एक स्थिर .

Vif गणना में स्थिरांक को शामिल करने का उद्देश्य उपयोगकर्ता द्वारा प्रदान किए गए डिज़ाइन मैट्रिक्स exog के साथ इस तरह की समस्याओं का पता लगाना है। यदि हम मानित या मानकीकृत व्याख्यात्मक चरों पर vif की गणना करते हैं तो यह दिखाई नहीं देगा।

सांख्यिकी और अर्थमिति में इस बारे में लंबे समय से बहस चल रही है कि क्या बहुसंरेखण उपायों में एक स्थिरांक शामिल होना चाहिए या केवल अमानवीय व्याख्यात्मक चर के साथ काम करना चाहिए।

मैं वर्तमान में statsmodels के लिए एक एक्सटेंशन तैयार कर रहा हूं जो उपयोगकर्ताओं को निरंतर और बिना दोनों संस्करणों की गणना करने का विकल्प देता है। कुछ मामलों में पुनर्मूल्यांकन, अवमानना ​​और स्केलिंग, संख्यात्मक सटीकता और भविष्यवाणी में सुधार कर सकते हैं। इसलिए हम ऐसे उपाय करना चाहते हैं जो उपयोगकर्ताओं द्वारा प्रदान किए गए वास्तविक डिज़ाइन मैट्रिक्स की जांच करें, लेकिन यह देखने के लिए डेटा के एक मानकीकृत संस्करण की भी जांच करें कि क्या कम करने और स्केलिंग से संख्यात्मक सटीकता में सुधार हो सकता है।

3
Josef 11 जिंदा 2020, 22:14