मेरे पास df है जो वर्तमान में कुछ इस तरह दिखता है:

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

मैं कुछ इस तरह हासिल करने के लिए विविधताओं को दूर करने की कोशिश कर रहा हूँ

Car Name      Number
Adam Leaf     9
Claire Green  3
1
User112211 17 अक्टूबर 2019, 17:13

2 जवाब

सबसे बढ़िया उत्तर

इसे लेवेनशेटिन दूरी की गणना के माध्यम से हल किया जा सकता है या FuzzyWuzzy लाइब्रेरी का उपयोग करके बेहतर तरीके से हल किया जा सकता है

https://www.datacamp.com/community/tutorials/fuzzy-string-python

0
User112211 18 अक्टूबर 2019, 13:01

यहाँ jellyfish से एक रास्ता है

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0
3
BENY 17 अक्टूबर 2019, 17:23