मान लीजिए कि आप वर्गीकरण कार्य के लिए मशीन लर्निंग का उपयोग करने का प्रयास कर रहे हैं, मान लीजिए, जानवरों की तस्वीरें देख रहे हैं और घोड़ों को ज़ेबरा से अलग कर रहे हैं। यह कार्य अत्याधुनिक प्रतीत होगा।

लेकिन अगर आप लेबल वाली तस्वीरों का एक गुच्छा लेते हैं और उन्हें तंत्रिका नेटवर्क या सपोर्ट वेक्टर मशीन जैसी किसी चीज़ पर फेंक देते हैं, तो व्यवहार में क्या होता है कि ज़ेबरा घोड़ों की तुलना में इतने दुर्लभ होते हैं कि सिस्टम 'हमेशा एक घोड़ा' कहना सीख जाता है। क्योंकि यह वास्तव में अपनी त्रुटि को कम करने का तरीका है।

न्यूनतम त्रुटि जो हो सकती है लेकिन यह भी बहुत उपयोगी परिणाम नहीं है। सिस्टम को यह बताने का अनुशंसित तरीका क्या है 'मुझे सबसे अच्छा अनुमान चाहिए कि कौन सी तस्वीरें ज़ेबरा हैं, भले ही इससे कुछ गलत सकारात्मकता पैदा हो जाए'? इस समस्या पर ज्यादा चर्चा होती नहीं दिख रही है।

0
rwallace 7 सितंबर 2017, 19:33

2 जवाब

सबसे बढ़िया उत्तर

चीजों में से एक जो मैं आमतौर पर असंतुलित वर्गों (या विषम डेटा सेट) के साथ करता हूं, वह बस अधिक डेटा उत्पन्न करता है। मुझे लगता है कि यह सबसे अच्छा तरीका है। आप वास्तविक दुनिया में बाहर जा सकते हैं और असंतुलित वर्ग का अधिक डेटा एकत्र कर सकते हैं (उदाहरण के लिए ज़ेबरा के और चित्र प्राप्त करें)। आप केवल प्रतिलिपियाँ बनाकर या इसे रूपांतरणों के साथ डुप्लिकेट करके अधिक डेटा उत्पन्न कर सकते हैं (उदाहरण के लिए क्षैतिज रूप से फ़्लिप करें)।

आप एक क्लासिफायरियर भी चुन सकते हैं जो आमतौर पर उपयोग किए जाने वाले - सटीकता पर वैकल्पिक मूल्यांकन (प्रदर्शन) मीट्रिक का उपयोग करता है। सटीक/रिकॉल/F1 स्कोर देखें।

एंड्रयू एनजी के एमएल कोर्स का छठा सप्ताह इस विषय पर बात करता है: लिंक

असंतुलित कक्षाओं को संभालने पर मुझे एक और अच्छा वेब पेज मिला है: nofollow noreferrer">लिंक

1
Anton Savelyev 7 सितंबर 2017, 20:06

इस प्रकार की असंतुलित डेटा समस्या के साथ, कक्षाओं की तुलना करने के बजाय प्रत्येक वर्ग से जुड़े पैटर्न सीखने का यह एक अच्छा तरीका है - यह पहले असुरक्षित सीखने के माध्यम से किया जा सकता है (जैसे ऑटोएन्कोडर के साथ)। इसके साथ एक अच्छा लेख https://www.r-bloggers.com/autoencoders-and-anomaly-detection-with-machine-learning-in-fraud-analytics/amp/। एक अन्य सुझाव - क्लासिफायर को चलाने के बाद, भ्रम मैट्रिक्स का उपयोग यह निर्धारित करने के लिए किया जा सकता है कि अतिरिक्त डेटा का पीछा कहाँ किया जाना चाहिए (यानी कई ज़ेबरा त्रुटियां)

1
dmb 11 सितंबर 2017, 00:25