मेरे पास एक दो पांडा डेटाफ्रेम है जिसमें कई पंक्तियां हैं जो एक दूसरे के डुप्लीकेट के पास हैं, एक मान को छोड़कर, जो टाइमस्टैम्प मान है। मेरा लक्ष्य इन डेटाफ़्रेम को एकल डेटाफ़्रेम में मर्ज करना है, और इन लगभग दोहराई जाने वाली पंक्तियों के लिए, अंतिम टाइमस्टैम्प वाली पंक्ति प्राप्त करें।

मैं किसके साथ काम कर रहा हूं इसका एक उदाहरण यहां दिया गया है:

DF1:

       id               name created_at
0   1  Cristiano Ronaldo 2020-01-20
1   2              Messi 2020-01-20
2   3             Juarez 2020-01-20

DF2:

      id               name created_at
0   1  Cristiano Ronaldo 2020-01-20
1   2              Messi 2020-01-20
2   3             Juarez 2020-02-20

और यहाँ मैं क्या चाहूंगा:

       id               name created_at
3   1  Cristiano Ronaldo 2020-01-20
4   2              Messi 2020-01-20
5   3             Juarez 2020-02-20

जुआरेज़ पंक्ति के लिए मुझे अंतिम "created_ad" मिलता है

क्या यह संभव है?

2
milho 27 सितंबर 2020, 22:07

1 उत्तर

सबसे बढ़िया उत्तर

आप दूसरे डेटाफ़्रेम को पहले वाले में जोड़ सकते हैं, टाइमस्टैम्प का उपयोग करके डेटाफ़्रेम को सॉर्ट कर सकते हैं और फिर डुप्लिकेट ड्रॉप कर सकते हैं।

df_merged = df1.append(df2, ignore_index = True)
df_merged = df_merged.sort_values('created_at')
df_columns = df_merged.columns.tolist()
df_columns.remove('created_at')
df_merged.drop_duplicates(inplace = True, keep = 'last', subset = df_columns)
1
milho 28 सितंबर 2020, 13:49