विसंगति का पता लगाने में कुछ बाहरी लोगों को कैसे दबाया जाता है?

हमने ऑटोएन्कोडर का उपयोग करके एक मॉडल बनाया है और इसने विसंगतियों का पता लगाया है। कुछ डेटा बिंदु जिन्हें विसंगतियों (सामान्य वितरण के बाहर) के रूप में चिह्नित किया गया है, वास्तव में विसंगतियां नहीं हैं।

इन्हें विसंगतियों के रूप में न पहचानने के लिए हम मॉडल को कैसे प्रशिक्षित करते हैं?

क्या हम डेटासेट में इन डेटा बिंदुओं के कई डुप्लिकेट जोड़ते हैं और फिर से प्रशिक्षण लेते हैं, या क्या कोई अन्य तकनीक है जिसे हम यहां लागू कर सकते हैं।

यहां सामान्य वितरण कोसाइन समानता (दूरी) का है क्योंकि डेटा बिंदु टेक्स्ट डेटा (लॉग प्रविष्टियां) के वेक्टरकृत प्रतिनिधित्व हैं। इसलिए यदि इनपुट और पुनर्निर्मित वेक्टर के बीच कोसाइन दूरी सामान्य वितरण के अंतर्गत नहीं आती है तो इसे विसंगति के रूप में माना जाता है।

0
Shreyance Shaw 26 अक्टूबर 2020, 10:48

1 उत्तर

सबसे बढ़िया उत्तर

चूंकि विसंगति डिटेक्टर को आमतौर पर बिना निगरानी के प्रशिक्षित किया जाता है, इसलिए बाहरी पहचान गुणों को खोए बिना सीधे उस प्रक्रिया में लेबल को शामिल करना कठिन हो सकता है। एक सरल विकल्प उन उदाहरणों को लेना है जिन्हें विसंगतियों के रूप में चिह्नित किया गया था, और उन्हें एक ऐसे क्लासिफायरियर में डाल दिया जो "वास्तविक विसंगति" बनाम "असली विसंगति" में वर्गीकृत नहीं होता है। इस क्लासिफायरियर को उन पूर्व विसंगतियों पर प्रशिक्षित किया जाएगा जिन्हें लेबल किया गया है। यह या तो बाइनरी वर्गीकरण हो सकता है, या ज्ञात "असली नहीं" नमूने के लिए एक-वर्ग wrt हो सकता है। एक साधारण प्रारंभिक बिंदु k-निकटतम-पड़ोसी या एक डोमेन-विशिष्ट दूरी फ़ंक्शन होगा। क्लासिफायर अव्यक्त फीचर वेक्टर को इनपुट के रूप में उपयोग कर सकता है, या अपना स्वयं का फीचर निष्कर्षण कर सकता है।

इस तरह के सिस्टम का वर्णन गलत सकारात्मक दमन के साथ विसंगति का पता लगाने में किया गया है (relayr.io)। झूठी नकारात्मक दर को कम करने के लिए इस पेपर में एक ही मूल विचार का उपयोग किया जाता है: स्निपर: सुनिश्चित ट्रू-पॉजिटिव दर के साथ गलत-नकारात्मक दर को कम करने के लिए विसंगति का पता लगाने के लिए कुछ-शॉट सीखना

1
jonnor 28 अक्टूबर 2020, 09:38