मान लीजिए कि आप वर्गीकरण कार्य के लिए मशीन लर्निंग का उपयोग करने का प्रयास कर रहे हैं, मान लीजिए, जानवरों की तस्वीरें देख रहे हैं और घोड़ों को ज़ेबरा से अलग कर रहे हैं। यह कार्य अत्याधुनिक प्रतीत होगा।
लेकिन अगर आप लेबल वाली तस्वीरों का एक गुच्छा लेते हैं और उन्हें तंत्रिका नेटवर्क या सपोर्ट वेक्टर मशीन जैसी किसी चीज़ पर फेंक देते हैं, तो व्यवहार में क्या होता है कि ज़ेबरा घोड़ों की तुलना में इतने दुर्लभ होते हैं कि सिस्टम 'हमेशा एक घोड़ा' कहना सीख जाता है। क्योंकि यह वास्तव में अपनी त्रुटि को कम करने का तरीका है।
न्यूनतम त्रुटि जो हो सकती है लेकिन यह भी बहुत उपयोगी परिणाम नहीं है। सिस्टम को यह बताने का अनुशंसित तरीका क्या है 'मुझे सबसे अच्छा अनुमान चाहिए कि कौन सी तस्वीरें ज़ेबरा हैं, भले ही इससे कुछ गलत सकारात्मकता पैदा हो जाए'? इस समस्या पर ज्यादा चर्चा होती नहीं दिख रही है।
2 जवाब
चीजों में से एक जो मैं आमतौर पर असंतुलित वर्गों (या विषम डेटा सेट) के साथ करता हूं, वह बस अधिक डेटा उत्पन्न करता है। मुझे लगता है कि यह सबसे अच्छा तरीका है। आप वास्तविक दुनिया में बाहर जा सकते हैं और असंतुलित वर्ग का अधिक डेटा एकत्र कर सकते हैं (उदाहरण के लिए ज़ेबरा के और चित्र प्राप्त करें)। आप केवल प्रतिलिपियाँ बनाकर या इसे रूपांतरणों के साथ डुप्लिकेट करके अधिक डेटा उत्पन्न कर सकते हैं (उदाहरण के लिए क्षैतिज रूप से फ़्लिप करें)।
आप एक क्लासिफायरियर भी चुन सकते हैं जो आमतौर पर उपयोग किए जाने वाले - सटीकता पर वैकल्पिक मूल्यांकन (प्रदर्शन) मीट्रिक का उपयोग करता है। सटीक/रिकॉल/F1 स्कोर देखें।
एंड्रयू एनजी के एमएल कोर्स का छठा सप्ताह इस विषय पर बात करता है: लिंक
असंतुलित कक्षाओं को संभालने पर मुझे एक और अच्छा वेब पेज मिला है: nofollow noreferrer">लिंक
इस प्रकार की असंतुलित डेटा समस्या के साथ, कक्षाओं की तुलना करने के बजाय प्रत्येक वर्ग से जुड़े पैटर्न सीखने का यह एक अच्छा तरीका है - यह पहले असुरक्षित सीखने के माध्यम से किया जा सकता है (जैसे ऑटोएन्कोडर के साथ)। इसके साथ एक अच्छा लेख https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/। एक अन्य सुझाव - क्लासिफायर को चलाने के बाद, भ्रम मैट्रिक्स का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि अतिरिक्त डेटा का पीछा कहाँ किया जाना चाहिए (यानी कई ज़ेबरा त्रुटियां)
संबंधित सवाल
नए सवाल
machine-learning
मशीन लर्निंग एल्गोरिदम के बारे में कार्यान्वयन प्रश्न। मशीन लर्निंग के बारे में सामान्य प्रश्न उनके विशिष्ट समुदायों को पोस्ट किए जाने चाहिए।