मैं अपने स्पार्क डेटाफ़्रेम में एक स्तंभ बनाने की कोशिश कर रहा हूँ यदि एक स्तंभ की पंक्ति एक अलग डेटाफ़्रेम में है। यह मेरा मुख्य स्पार्क डेटाफ़्रेम है (df_main) +--------+ |main | +--------+ |28asA017| |03G12331| |1567L044| |02TGasd8| |1asd3436| |A1234567| |B1234567| +--------+ यह मेरा संदर्भ ह....
12 जुलाई 2021, 11:37
मैंने आर में बबल प्लॉट बनाने के लिए नीचे एक्सेल में डेटा आयात किया है: # A tibble: 6 x 3 Country Series `2019` <chr> <chr> <dbl> 1 United Kingdom GDP per capita 42354. 2 United Kingdom Life Expectancy 81 3 United Kingdom Population (M) 67 4 United States ....
11 जुलाई 2021, 09:24
मेरे पास एक डेटाफ्रेम है जहां प्रत्येक कॉलम एक अलग समूह है और उस कॉलम में प्रत्येक मान किसी प्रकार का पहचानकर्ता है। सभी कॉलम अलग-अलग लंबाई के हैं और समूहों के बीच मूल्यों में कुछ ओवरलैप है। मेरा लक्ष्य एक नया डेटाफ़्रेम तैयार करना है जिसमें कॉलम नाम समान रहे हैं, प्रारंभिक डेटाफ़्रेम में मौजूद प्....
1 जुलाई 2021, 03:09
मैं नीचे दिए गए कोड के साथ एक विशिष्ट अवलोकन drop करने की कोशिश कर रहा हूं: drop if (importus==6.4e+06 & country =="Congo, Dem. Rep.") कोड कोई त्रुटि नहीं पैदा करता है लेकिन वैज्ञानिक संकेतन के कारण यह अवलोकन को नहीं छोड़ रहा है और यह छोटी संख्या के साथ काम करता है जैसे: drop if (importus==75990 & ....
17 नवम्बर 2020, 21:19
मैं जिस एक्सएमएल फाइल को पढ़ने की कोशिश कर रहा हूं वह b' से शुरू होती है। सुनिश्चित नहीं है कि डीकोड समस्या को कैसे संभालना है?....
7 नवम्बर 2020, 08:38
मैं इस डेटाफ्रेम को बदलने के लिए एक साफ Dplyr समाधान खोजने की कोशिश कर रहा हूं; Rule <- c('Rule 1', 'Rule 1', 'Rule 1', 'Rule 1', 'Rule 2', 'Rule 2', 'Rule 2') Condition <- c('1 of 4', '2 of 4', '3 of 4', '4 of 4', '1 of 3', '2 of 3', '3 of 3') Clause <- c('Temperature > 60', 'Temperature < 90', 'Ra....
12 अक्टूबर 2020, 05:44
मेरे पास दो नमूना डेटा फ़्रेम हैं, df1 और df2 जैसा कि नीचे दिया गया है। df1 में खिलाड़ियों के नाम (player1_name,player_name2) और उनके खेले जाने की तारीख के साथ चयनित टेनिस मैच फिक्स्चर की सूची है। खिलाड़ियों के लिए यहां पूरा नाम इस्तेमाल किया गया है। df2 में प्रत्येक तिथि के लिए सभी टेनिस मैच परिण....
30 सितंबर 2020, 21:24
मेरे पास इस उदाहरण की तरह यहां एक डेटाबेस है, और मुझे घटना से 10 मिनट पहले और घटना से 10 मिनट के औसत, योग और मानक विचलन की गणना करने की आवश्यकता है। डेटाफ़्रेम में संख्याएँ केवल वर्णन करने के लिए हैं। df = data.frame(seq(ISOdatetime(2020,5,4,0,0,0), ISOdatetime(2020,5,4,0,19,0), by=(60*1))) colname....
26 सितंबर 2020, 03:47
मेरे पास डेटा (सीएसवी में वर्तमान) है जिसमें घटनाओं के साथ एक चर होता है (खाली हो सकता है या व्हाइटस्पेस द्वारा अलग किए गए 30 ईवेंट कोड तक हो सकता है) और फिर अलग-अलग चर ईडी 1, ईडी 2, ईडी 3 में सूचीबद्ध घटनाओं में से प्रत्येक के लिए घटना की तारीख ... इस डेटा से कुछ भी उपयोगी पाने के लिए मुझे प्रत्येक....
22 सितंबर 2020, 20:31
मेरे पास एक डेटाफ्रेम है जहां मैं दो कॉलम के आधार पर सबसे बड़े जोड़े ढूंढना चाहता हूं। हालाँकि जब मैं डेटाफ़्रेम को समूहित करता हूँ, तो अन्य स्तंभों पर मामूली भिन्नताएँ मेरे परिणाम को प्रभावित करती हैं। मैं आपको बता दूँ: library(plyr) usercsv_data <- data.frame(id_str = c("89797", "12387231231", "....
22 सितंबर 2020, 03:36
मुझे आशा है कि सभी लोग ठीक से काम कर रहे हैं। मैं वर्तमान में एक आँख ट्रैकिंग डेटासेट के साथ काम कर रहा हूँ। मैंने R पैकेज "gazepath" का उपयोग करके निर्धारणों को संसाधित किया है। इसने मुझे एक्स/वाई विमान पर विशेष निर्देशांक के लिए निर्धारण का आउटपुट प्रदान किया है। मेरा लक्ष्य गणना करना है: पहली न....
20 सितंबर 2020, 23:45
लक्ष्य: स्तंभ नाम की समानता के आधार पर अनेक स्तंभों का विलय करना। समस्याएं: मैं एक बड़े डेटा सेट से निपट रहा हूं जहां कॉलम नाम दोहराए गए हैं और इस तरह दिखते हैं: wk1.1, wk1.2, wk1.3। प्रत्येक पंक्ति के लिए, समान कॉलम नामों में केवल एक मान होगा, और अन्य NA होंगे। Coalesce बहुत मददगार है, लेकिन जब म....
24 जुलाई 2020, 23:50
मेरे पास पांच द्विबीजपत्री भविष्यवक्ता चर, एक आश्रित द्विबीजपत्री चर, और पूर्वानुमानित संभावनाओं का एक स्तंभ वाला एक डेटा फ्रेम है: F1 F2 F3 F4 F5 Pred_Prob 1 A D E G I 0.25 2 B C F H J 0.3 3 A C E G I 0.9 4 B C F H J 0.4 5 B C F H J 0.2 6 A D F ....
16 जुलाई 2020, 07:10
मेरे पास एकाधिक कॉलम के साथ एक pyspark डेटाफ्रेम है। उदाहरण के लिए नीचे वाला। from pyspark.sql import Row l = [('Jack',"a","p"),('Jack',"b","q"),('Bell',"c","r"),('Bell',"d","s")] rdd = sc.parallelize(l) score_rdd = rdd.map(lambda x: Row(name=x[0], letters1=x[1], letters2=x[2])) score_card = sqlCon....
मैं डेटा एनालिटिक्स डैशबोर्ड बनाने की कोशिश कर रहा हूं और मैं शाइनी का उपयोग कर रहा हूं, जिसमें मैं अपेक्षाकृत नया हूं। मेरे डैशबोर्ड की सुविधाओं में से एक उपयोगकर्ता द्वारा उत्पन्न डेटा पर k- साधन क्लस्टरिंग का उपयोग करता है। मैं क्लस्टरिंग विश्लेषण को ठीक काम करने के लिए प्राप्त कर सकता हूं, लेक....
6 जुलाई 2020, 20:23
मैं जिस डेटासेट को पढ़ना चाहता हूं वह GitHub पर tar.gz फ़ाइल के रूप में रहता है और हर कुछ घंटों में अपडेट किया जाता है। जबकि मैं हमेशा इस फ़ाइल को डाउनलोड कर सकता हूं, इसे असम्पीडित कर सकता हूं, और सीएसवी से पढ़ सकता हूं, यह बहुत बेहतर होगा यदि मैं सीधे इस URL को पंडों के डेटा फ्रेम में समयबद्ध तरी....
2 जुलाई 2020, 08:19
मेरे पास एक डेटासेट है जिसमें लंबा प्रारूप है लेकिन इस उदाहरण की तरह पंक्ति अलगाव के साथ: <style type="text/css"> table.tableizer-table { font-size: 12px; border: 1px solid #CCC; font-family: Arial, Helvetica, sans-serif; } .tableizer-table td { paddin....
2 जुलाई 2020, 07:08
यहां वे कोड हैं जिनका मैं उपयोग करता हूं library(quantmod) library(timetk) library(dplyr) library(tibble) library(tidyr) mdate <- "2015-10-30" edate <- "2016-01-05" tickers <- c("ABG","ACH","ADM","AEG","AEM","AGQ","AGRO","AKOb","APO") data <- do.call(cbind.data.frame, lapply(tickers, function(x....
30 मई 2020, 08:24
मेरे पास एक डेटा फ्रेम है, और एक वेक्टर है जिसमें केवल दो नंबर हैं: 201 और 200। type <- c(222, 222, 199, 251, 106, 88, 88, 88, 88, 61, 199, 251) latency <- c(4167, 4433, 5109, 5635, 6618, 6980, 7246, 7512, 7778, 8045, 8311, 8577) urevent <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12) acc <- c(201, 200....
25 अप्रैल 2020, 23:06
मैं विश्व बैंक की वेबसाइट से एक डेटासेट को अलग करने की कोशिश कर रहा हूं और मुझे श्रृंखला के नाम को पहली पंक्ति और सभी वर्षों को एक कॉलम के साथ संरचित करने के लिए एक तरह से फिर से आकार देने की आवश्यकता है। डेटासेट में ५० साल और १०० से अधिक संकेतक हैं, इसलिए मेरे लिए काम करने के लिए इस नयी आकृति को क....
25 अप्रैल 2020, 15:23
मैं अपने डेटाफ्रेम में एक विशिष्ट कॉलम को समूहबद्ध और समेकित करने का प्रयास कर रहा हूं और फिर इस पूरे आउटपुट को एक्सेल में लिखता हूं; हालांकि, जब मैं नीचे दिए गए कोड का उपयोग करने के बाद एक्सेल फ़ाइल की जांच करता हूं, तो इसमें आउटपुट के रूप में केवल एक समेकित कॉलम होता है और इसमें कोई अन्य समूह शाम....
24 अप्रैल 2020, 02:25
https://www.kaggle.com/shivamb/ netflix-shows-and-movies-exploratory-analysis/data ---- में डेटा सेट होता है। यह नेटफ्लिक्स डेटा सेट से शो पर किया गया एक खोजपूर्ण डेटा विश्लेषण है। डेटा तकरार प्रक्रिया में दो मुख्य उद्देश्य हैं। सबसे पहले date_added कॉलम से केवल वर्ष का हिस्सा अलग से प्राप्त करना....
22 अप्रैल 2020, 11:24
मैं एक ऑनलाइन कोर्स कर रहा हूं। 'बाइकशेयरिंग_डेटा' पांडा ऑब्जेक्ट का नाम है और 'कार्यदिवस' उस डेटा फ्रेम में कॉलम का नाम है। ट्यूटर डेटासेट को दो नमूनों में विभाजित करना चाहता है और 'कार्यदिवस' को ([0, 1]) समूहों में विभाजित करता है। उसने यही लिखा है: sample_01 = bikesharing_data[(bikesharing_dat....
21 अप्रैल 2020, 16:05
मेरे पास एक बड़ा क्वेरी परिणाम है जो कई हफ्तों में प्रत्येक व्यक्ति का वजन दिखाता है, और मैं उन लोगों के नाम ढूंढना चाहता हूं जिनका वजन हमेशा हफ्तों में बढ़ता है। नीचे एक नमूना डेटा है। name week weight tom 2020W10 76 tom 2020W09 75 tom ....
20 अप्रैल 2020, 15:06
एक सीएसवी फ़ाइल से पांडा का उपयोग करते हुए, अजगर में डेटा तकरार करते हुए, प्रतिशत परिवर्तन गणना के लिए कॉलम बनाते समय उत्पन्न होने वाले -inf मानों से कैसे निपटें? मान लीजिए कि आपके पास एक डेटा है जिसे आपने डेटाफ़्रेम के रूप में पांडा का उपयोग करके अजगर में लोड किया है। फिर, आप एक और कॉलम बनाते हैं....
18 अप्रैल 2020, 18:59