क्या कोई अच्छी पायथन लाइब्रेरी है जिसमें विशेष रूप से सामान्य अंग्रेजी "फेंक अवे वर्ड्स" जैसे "उम", "उह" का कुछ प्रकार का शब्दकोश है जिसका उपयोग मैं एनएलपी के लिए टेक्स्ट को साफ करने के लिए कर सकता हूं?

इसी तरह, मेरे सहयोगी ने कठबोली / बंद शब्दों की एक सूची बनाना शुरू कर दिया। मुझे एक पाइथन लाइब्रेरी पसंद आएगी जो इन सभी को ढूंढती है। नीचे उसका जेएस कोड "नहीं" और "नाव" को "नहीं" में बदलने जैसा सामान करता है

  txt = txt.replace(
        /\b(yeah|ya|yep|yup|yes)\b/g, "yes"
    ).replace(
        /\b(no|naw|nope)\b/g, "no"
    ).replace(
        /\b([ah]+|uh-huh|uh+|um+|mhm+|huh+|oh)\b/g, ""
    ).replace(
        /\b(im|i'm|i am)\b/g, "im"
    ).replace(
        /\b(gotta|gonna|got to|going to|wanna|want to)\b/g, "yyxxa"
    ).replace(
        /\b(ok|okay|k)\b/g, "okay"
    );
2
Bruce Bookman 9 नवम्बर 2019, 01:27
मुझे विश्वास नहीं है कि आप जो अनुरोध कर रहे हैं वह मौजूद है। हो सकता है कि आप एक सूची या टेक्स्ट फ़ाइल बना सकें जिसे आप अपने प्रोग्राम में शामिल कर सकें।
 – 
unkn0wn.dev
9 नवम्बर 2019, 01:38

1 उत्तर

उत्तर का एक अंश यहां है: https://github.com/words/ फिलर्स/ब्लॉब/मास्टर/इंडेक्स.जेसन

0
Bruce Bookman 13 नवम्बर 2019, 00:13