अगर मैं निम्नलिखित कोड चलाता हूं:

from nltk.tokenize import word_tokenize
text = "God is Great! I won a lottery."
print(word_tokenize(text))

मुझे यह आउटपुट मिलता है: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

इस मामले में, सूची में टोकन उसी क्रम में दिखाई दे रहे हैं जैसे वे इनपुट वाक्य में हैं।

हालाँकि, क्या वे हमेशा उसी क्रम में होते हैं जैसे इनपुट वाक्य में?

0
Saurabh Verma 2 जुलाई 2019, 08:18

1 उत्तर

सबसे बढ़िया उत्तर

हां, वे हमेशा उसी क्रम में होते हैं जैसे इनपुट वाक्य में।

विधि word_tokenize कॉल re.findall। re.findall के बारे में रेगुलर एक्सप्रेशन दस्तावेज़ीकरण निम्नलिखित बताता है।

स्ट्रिंग की सूची के रूप में, स्ट्रिंग में पैटर्न के सभी गैर-अतिव्यापी मिलान लौटाएं। स्ट्रिंग को बाएं से दाएं स्कैन किया जाता है, और मिलान पाए गए क्रम में लौटाए जाते हैं।

संदर्भ:
https://www.nltk.org/_modules/nltk/ Tokenize/punkt.html#PunktLanguageVars.word_tokenize (इस पृष्ठ पर word_tokenize खोजें)
https://docs.python.org/3/library/re.html (इस पेज पर सभी खोजें)
https://docs.python.org/2/library/re.html (इस पृष्ठ पर खोज खोजें)

0
Michael_H 28 जुलाई 2019, 12:46