स्पार्क पायथन एपीआई (पायस्पार्क) पायथन को अपाचे-स्पार्क प्रोग्रामिंग मॉडल को उजागर करता है।

के बारे में अधिक pyspark...

ग्लू २.० से ३.० पर स्विच करते समय, जिसका अर्थ है स्पार्क २.४ से ३.१.१ पर स्विच करना, इस त्रुटि के साथ १ ९ ०० से पहले टाइमस्टैम्प को संसाधित करते समय मेरी नौकरियां विफल होने लगती हैं: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. You may get a different result due to....
23 अगस्त 2021, 13:51
मैं अपने स्पार्क डेटाफ़्रेम में एक स्तंभ बनाने की कोशिश कर रहा हूँ यदि एक स्तंभ की पंक्ति एक अलग डेटाफ़्रेम में है। यह मेरा मुख्य स्पार्क डेटाफ़्रेम है (df_main) +--------+ |main | +--------+ |28asA017| |03G12331| |1567L044| |02TGasd8| |1asd3436| |A1234567| |B1234567| +--------+ यह मेरा संदर्भ ह....
12 जुलाई 2021, 11:37
उदाहरण के लिए मेरे पास pyspark dataframe नीचे है। मैं डेटाफ़्रेम में मान्य करना चाहता हूँ यदि मान 'dd-mmm-yyyy'format में है और शो पास की स्थिति है या फिर शो की स्थिति विफल हो गई है। मैंने नीचे दिए गए कोड के साथ प्रयास किया लेकिन यह त्रुटि के साथ विफल रहता है to_date परिभाषित नहीं है। इस पास और अ....
30 मई 2021, 08:44
मैं एकेडमिक्स_कैटेगरी नामक एक नया कॉलम जोड़ना चाहता हूं, जिसमें मान एकेडमिक डिग्री और कोई एकेडमिक डिग्री नहीं है। मैंने एक udf फ़ंक्शन बनाया है जो यह जांचता है कि कोई बिल्डस्टैंड (शिक्षा) अकादमिक डिग्री से मेल खाता है या नहीं। समस्या यह है कि आउटपुट में प्रत्येक मूल्य कोई अकादमिक डिग्री नहीं है। fr....
7 मई 2021, 21:15
मेरे पास डेटा फ़्रेम हैं जिनमें टाइमस्टैम्प कॉलम हैं। मैं इसे आज तक परिवर्तित करता हूं, तिथि के अनुसार विभाजित किया जाता है और इसे हर दिन एक बढ़ती हुई लकड़ी की छत फ़ाइल में जोड़ देता हूं। अगर मैं एक डेटासेट जोड़ता हूं जिसमें 2021-04-19 01:00:01 से 2021-04-19 13:00:00 तक टाइमस्टैम्प हैं, तो यह इसे व....
19 अप्रैल 2021, 16:45
[![यहां छवि विवरण दर्ज करें] [1]] [१] मैं मौजूदा JSON को कॉलम में बदलना चाहता हूं: namedTags = [{"rid":"ri.compass..ae1","name":"reservoir"}, {"rid":"ri.compass..ed18","name":cave"}, {"rid":"ri.compass..c97","name":"staging"}] मैं सूची में केवल नाम एकत्र करना चाहता हूं नए कॉलम में अपेक्ष....
15 अप्रैल 2021, 07:43
अजगर या pyspark का उपयोग करके वर्ष (इस प्रारूप में 202114) के साथ सप्ताह संख्या की सूची कैसे प्राप्त करें। आज की तारीख (२०२११४) को देखते हुए आउटपुट {२०२११३,२०२११२,२०२१११,२०२११०,२०२१०९,२०२१०८} होना चाहिए।....
9 अप्रैल 2021, 19:18
my_data=[ {'stationCode': 'NB001', 'summaries': [{'period': {'year': 2017}, 'rainfall': 449}, {'period': {'year': 2018}, 'rainfall': 352.4}, {'period': {'year': 2019}, 'rainfall': 253.2}, {'period': {'year': 2020}, 'rainfall': 283}, {'period': {'year': 2021....
9 अप्रैल 2021, 02:24
मैं निम्नलिखित कोड खंड चला रहा हूँ, import pyspark from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import ntile spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate() simpleData = (("James", "Sales", 3000), \ ("Michael", "....
2 अप्रैल 2021, 06:29
मेरे पास नीचे का कार्य है जो पांडा डेटाफ्रेम पर काम करता है def event_list(df,steps): df['steps_present'] = df['labels'].apply(lambda x:all(step in x for step in steps)) return df डेटाफ़्रेम में एक कॉलम होता है जिसे लेबल कहा जाता है जिसमें सूची के रूप में मान होते हैं। यह फ़ंक्शन डेटाफ़्र....
2 अप्रैल 2021, 01:06
मेरे पास यह डेटाफ्रेम नीचे है: +--------+----------+----------+--------+----------+ |SID |StartDate |EndDate |CID |Date Added| +--------+----------+----------+--------+----------+ |1001 |2021-04-05|2021-04-05|1002 |2021-03-26| |1001 |2021-03-30|2021-03-31|1002 |2021-03-26| |100....
29 मार्च 2021, 14:11
हम निम्नलिखित df से CID के लिए मानों को कैसे फ़िल्टर करते हैं जहाँ ID और TS का संयोजन समान है। डीएफ = आईडी सीआईडी ​​टीएस एक C1 t1 एक C2 t1 एक C3 t2 बी सी४ टी२ आउटपुट डीएफ आवश्यक सीआईडी सी 1 सी२ धन्यवाद।....
26 मार्च 2021, 08:17
मैंने व्याख्या की कि स्पार्क सम फंक्शन स्ट्रिंग कॉलम नाम के साथ काम कर सकता है। हालांकि, column name या column object का उपयोग करने पर मुझे अलग-अलग परिणाम दिखाई देते हैं। schema = ["department", "employee", "knwos_ops", "developer"] data = [("frontend", "john", 0, 1,), ("frontend", "jenny", 1, 1,),....
24 मार्च 2021, 14:09
मेरे पास 2 pyspark डेटाफ्रेम हैं जिन्हें मैं शामिल करने का प्रयास कर रहा हूं जहां कॉलम में कुछ मानों में कोष्ठक है। उदाहरण के लिए मानों में से एक है "Mangy (Dog)" अगर मैं इस तरह शामिल होने का प्रयास करता हूं: df1.join(df2 expr("df1.animal rlike df2.animal_stat") मुझे कोई परिणाम नहीं मिलता है। इस....
19 मार्च 2021, 06:15
तो मेरे पास एक डेटाफ्रेम है जो इस तरह दिखता है user_id item category rank ------------------------------- user_1 item1 categoryA 1 user_1 item2 categoryA 2 user_1 item3 categoryA 3 user_1 item4 categoryD 4 user_1 item5 categoryD 5 user_2 item6 categoryB 1 user_2 item7 categoryB....
10 मार्च 2021, 14:40
मेरे पास PySpark में DF है |id |Name |Age | |-- |------ |--- | |1 |John |31 | |2 |Sam |34 | |3 |Chris |28 | जिसे मुझे नीचे डीएफ में बदलने की जरूरत है, |id | Name | Age | | ------ | ---------------- | ----------- | |{'v':1} | {'v':'John'} | ....
2 मार्च 2021, 14:34
कृपया मदद करें ... मेरे पास इस तरह का डेटा है: from pyspark.context import SparkContext from pyspark.sql.session import SparkSession sc = SparkContext.getOrCreate() spark = SparkSession(sc) from pyspark.sql.functions import substring, length dept = [("A",1,"2020-11-07 23:19:12"), ("A",1,"2020-11-07 ....
मैं आकार के एक पाइस्पार्क डेटाफ्रेम [२७३४९८४ पंक्तियों x ११ कॉलम] को एक पांडा डेटाफ्रेम कॉलिंग toPandas() में बदलने की कोशिश कर रहा हूं। जबकि यह Azure डेटाब्रिक्स नोटबुक का उपयोग करते समय पूरी तरह से ठीक (11 सेकंड) काम कर रहा है, मैं एक java.lang.OutOfMemoryError: Java heap space अपवाद में चला जाता....
मैं स्पार्क 2.4 के भीतर एक स्ट्रीम (अनबाउंड) डेटा फ्रेम का मूल्यांकन करना चाहता हूं: time id value 6:00:01.000 1 333 6:00:01.005 1 123 6:00:01.050 2 544 6:00:01.060 2 544 जब आईडी 1 का सारा डेटा डेटाफ्रेम में आ जाता है और अगली आईडी 2 का डेटा आता है तो मैं आईडी 1 के....
9 पद 2020, 17:32
मेरे पास नीचे की तरह एक ताना वस्तु है। data_dict={1016070000000: [[15245438, 1198], [53273831, 1198]], 10160700000201: [53273831, 1197]} मैं इसे नीचे के रूप में डेटाफ्रेम में परिवर्तित करना चाहता हूं। ID cola colb 1016070000000 15245438 1198 1016070000000 53273831 1198....
9 पद 2020, 14:25
मेरे पास एक pypspark स्कीमा है जो इस तरह दिखता है root |--field1 |--field2 | |--element: struct | | |--field01 | | |--field02 मुझे इस तरह दिखने के लिए डेटाफ्रेम स्कीमा को फिर से बनाना होगा: root |--field1 |--field2 | |--element: struct | | |--field01 | | |--field02 |--newfield | |--field1 |--newfie....
नीचे दिए गए कोड में, एक PySpark पाइपलाइन में दो ट्रांसफॉर्मर होते हैं। पाइपलाइन दिए गए इन दो ट्रांसफार्मरों के नाम कैसे प्रिंट करें? from pyspark.ml.feature import (StringIndexer, OneHotEncoder) from pyspark.ml import Pipeline gender_indexer = StringIndexer(inputCol = 'Sex', outputCol = 'SexIndex')....
मैं pyspark के माध्यम से db2 से कनेक्ट करने का प्रयास कर रहा हूं, नीचे मेरी कनेक्शन स्ट्रिंग है। from pyspark import SparkConf, SparkContext, SQLContext conf = SparkConf().setAppName("test").setMaster("local").set("spark.jars","\IBM\IBM_DATA_SERVER_DRIVER\java\db2jcc4.jar") sc = SparkContext(conf=c....
8 पद 2020, 00:31
val sorting = sc.parallelize(List(1,1,1,2,2,2,2,3,3,3,4,4,4,4,5,5,5,6,6,7,8,8,8,8,8)) sorting.map(x=>(x,1)).reduceByKey((a,b)=>a+b).map(x=>(x._1,"==>",x._2)).sortBy(s=>s._2,false).collect.foreach(println) output: (8,==>,5) (1,==>,3) (2,==>,4) (3,==>,3) (4,==>,4) (5,==>,3) (6,==>,2) (7,==>,1) मै....
7 पद 2020, 21:41
उन रिकॉर्ड्स का चयन कैसे करें जहां दो सरणियाँ समान नहीं हैं, भले ही PySpark का उपयोग करके सरणी तत्वों के क्रम की परवाह किए बिना?....