वर्तमान में मैं एक ऐसे प्रोजेक्ट पर काम कर रहा हूं जिसके लिए कीवर्ड निष्कर्षण की आवश्यकता है या हम कीवर्ड आधारित टेक्स्ट वर्गीकरण कह सकते हैं। डेटासेट में 3 कॉलम टेक्स्ट, कीवर्ड और सीसी शब्द होते हैं, मुझे टेक्स्ट से कीवर्ड निकालने और फिर उन कीवर्ड के आधार पर टेक्स्ट को वर्गीकृत करने की आवश्यकता होती है, डेटासेट में प्रत्येक पंक्ति के अपने कीवर्ड होते हैं, मैं इसी तरह के कीवर्ड निकालना चाहता हूं। मैं टेक्स्ट और कीवर्ड कॉलम प्रदान करके प्रशिक्षित करना चाहता हूं ताकि मॉडल अज्ञात टेक्स्ट के लिए कीवर्ड निकालने में सक्षम हो। कृपया मदद करें

image contains dataset

-1
Revati Nanda 26 नवम्बर 2020, 11:33

1 उत्तर

सबसे बढ़िया उत्तर

कीवर्ड निष्कर्षण आमतौर पर केवल एक सेट करके TF-IDF स्कोर का उपयोग करके किया जाता है स्कोर दहलीज। क्लासिफायरियर को प्रशिक्षित करते समय, एक निश्चित सीमा पर कीवर्ड्स को काटने का कोई मतलब नहीं होता है, यह जानते हुए कि कुछ कीवर्ड होने की संभावना नहीं है, क्लासिफायर के लिए भी एक मूल्यवान जानकारी हो सकती है।

विशेष शब्दों के लिए TF-IDF स्कोर प्राप्त करने का सबसे आसान तरीका है TfIdfVectorizer में scikit-learn जो सभी श्रमसाध्य टेक्स्ट प्रीप्रोसेसिंग चरण (टोकन, स्टॉप वर्ड्स को हटाकर) करता है।

आप शायद अपने वर्गीकरण कार्य के लिए BERT को ठीक करके बेहतर परिणाम प्राप्त कर सकते हैं (लेकिन निश्चित रूप से बहुत अधिक कम्प्यूटेशनल लागतों की कीमत पर)।

0
Jindřich 1 पद 2020, 10:30