मुझे नीचे दी गई पंक्तियों को पढ़ने की जरूरत है जिसमें अल्पविराम से अलग किए गए मान हैं और आउटपुट में दिखाए गए अनुसार एक महत्वपूर्ण मूल्य जोड़ी आरडीडी उत्पन्न करते हैं। मैं किसी भी मार्गदर्शन की सराहना करने के लिए नया हूं। इनपुट: R-001, A1, 10, A2, 20, A3, 30 R-002, X1, 20, Y2, 10 R-003,....
25 पद 2021, 12:47
पाइस्पार्क 2.3.1 मेरी पंक्तियों में col1 में केवल पूर्णांक होने चाहिए। मैं किसी भी पंक्ति को फ़िल्टर करने का प्रयास कर रहा हूं जिसमें एक भी वर्ण है। मैं इसे पाइस्पार्क में कैसे कर सकता हूं? मैंने कोशिश की df.select('col1').filter(df.col1.rlike(^[a-zA-Z])) हालाँकि जिन पंक्तियों में वर्णमाला होती ....
23 पद 2021, 11:11
यहाँ मेरी त्रुटि लॉग है: $ /spark-submit --master yarn --deploy-mode cluster pi.py ... 2021-12-23 01:31:04,330 INFO retry.RetryInvocationHandler: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby. Visit https://s....
23 पद 2021, 05:22
मुझे यह जावा वर्ग मिला noreferrer">https://github.com/apache/spark/blob/master/streaming/src/test/java/org/apache/spark/streaming/JavaMapWithStateSuite.java कि मैं जूनिट परीक्षण चलाना चाहता हूं स्पार्क स्टेट से खुद को परिचित कराने के लिए। हालांकि, जब मैं इस जावा क्लास को अपने आईडीई में एक नई परियो....
23 पद 2021, 03:28
मेरे पास जेसन फाइलों में अमेज़ॅन एस 3 में संग्रहीत नीचे एक जेसन है। { "owner": "mindey", "ownerId": "4e751a", "batch": "test1", "mode": "testserve", "subType": "self", "versionId": "v89.0563", "createdDate": "2021-12-10T00:41:02.652Z", "modifiedDate": "2021-12-10T00:4....
22 पद 2021, 23:30
क्या मेरे पास एक उच्च ऑर्डर फ़ंक्शन हो सकता है जो func(varargs*) लौटाता है, उदाहरण के लिए, (s: String*) => String? मैं निम्नलिखित करने की कोशिश कर रहा हूँ: def concatKeys(delimiter: String) = { def concat(k1: String, k2: String): String = if (k1.isEmpty) k2 else k1 + delimiter + k2 (keys:....
मेरे पास एक CSV फ़ाइल है जिसमें दिनांक कॉलम है जैसा कि नीचे दिखाया गया है, datecol ---------- 2021-01-11 2021-02-15 2021-02-10 2021-04-22 अगर मैं स्पार्क संस्करण 2.4.5 में inferSchema को सक्षम करके इस फ़ाइल को पढ़ता हूं तो मुझे स्कीमा के नीचे मिल रहा है, root |-- datecol: timestamp (nullable = tru....
22 पद 2021, 14:03
मेरे पास नीचे डेटा है और final_column सटीक आउटपुट है जिसे मैं प्राप्त करने का प्रयास कर रहा हूं। मैं flag का संचयी योग करने की कोशिश कर रहा हूं और आराम करना चाहता हूं यदि flag 0 है तो नीचे दिए गए डेटा के रूप में मान को 0 पर सेट करें cola date flag final_column a 2021-10-01 0 0 a 2021-1....
21 पद 2021, 20:38
मेरे पास स्कीमा के साथ एक डेटाफ़्रेम है जिसमें मानचित्र मानों की एक नेस्टेड सरणी है: root |-- array_of_properties: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- name: string (nullable = true) | | |-- props: map (nullable = true) | | | |-- ke....
21 पद 2021, 20:03
मेरे पास नीचे की तरह एक डेटाफ्रेम है जिसमें इसमें कुंजी और मूल्य जोड़े दोनों हैं। | Name | Age | Location | abc | 12 | loc1 | def | 13 | loc2 मैं इसमें से एक जेसन स्ट्रिंग बनाना चाहता था। जब मैं एक .toJSON() करता हूं और इकट्ठा करता हूं तो मुझे उस डेटाफ्रेम से नीचे की जोंस स्ट्रिंग मिल रही ह....
ईकेएस पर ईएमआर में संसाधन सीमा निर्धारित करने के बारे में कोई कैसे जाता है? मेरा ड्राइवर पॉड लॉन्च करने में विफल हो रहा है क्योंकि यह अनुमति से अधिक CPU का अनुरोध कर रहा है। यह मेरे लिए कोई मतलब नहीं है। मैं नीचे दिए गए दस्तावेज़ों से आरंभिक कोड चला रहा हूं। मैंने --conf spark.driver.limit.cores=....
मैं एक pyspark डेटाफ़्रेम में एक नया कॉलम जोड़ना चाहता हूँ जिसमें एक स्थिर DenseVector हो। मेरा प्रयास निम्नलिखित है लेकिन यह विफल रहता है: from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() data = [(1,2),(3,4),(5,6),(7,8)] df = spark.createDataFrame(data=data) @udf(r....
मेरे पास एक ही कॉलम के साथ दो डेटा-फ्रेम (Dataset<Row>) हैं, लेकिन स्ट्रक्चर्स के अलग-अलग ऑर्डर ऐरे हैं। df1: root |-- root: string (nullable = false) |-- array_nested: array (nullable = false) | |-- element: struct (containsNull = true) | | |-- array_id: integer (nullable = false) | | ....
मेरे पास दो शब्दकोश हैं। एक जहां UserID कुंजी है और उनका स्थान मान है। पहले आइटम इस तरह दिखते हैं: {'U1001': ('22.139997', '-100.978803'), 'U1002': ('22.150087', '-100.983325')} और एक अन्य शब्दकोश जहां PlaceID कुंजी है और स्थान मूल्य है। पहले आइटम इस तरह दिखते हैं: {'134999': ('18.915421', '-99....
20 पद 2021, 00:15
मैंने एक प्रोग्राम की डॉकर छवि बनाई है जिसमें findspark.init() फ़ंक्शन है। कार्यक्रम स्थानीय मशीन पर अच्छी तरह से चलता है। जब मैं छवि को docker run -p 5000:5000 imgname:latest के साथ चलाने का प्रयास करता हूं, तो मुझे निम्न त्रुटि मिलती है: Traceback (most recent call last): File "app.py", line 3....
19 पद 2021, 22:51
मैं स्पार्क और पायथन के लिए बहुत नया हूँ। मैं स्पार्क संरचित स्ट्रीमिंग में कोई मीट्रिक देखने की कोशिश कर रहा हूं (उदाहरण के लिए, "processedRowsPerSecond"), लेकिन मुझे नहीं पता कि यह कैसे करना है। मैंने "स्ट्रक्चर्ड स्ट्रीमिंग प्रोग्रामिंग गाइड" में पढ़ा है कि "प्रिंट (क्वेरी। लास्ट प्रोग्रेस)" के....
मैं स्पार्क का उपयोग करके लकड़ी की छत फ़ाइलों को पढ़ने की कोशिश कर रहा हूं, अगर मैं जून के लिए डेटा पढ़ना चाहता हूं, तो मैं निम्नलिखित कार्य करूंगा: "gs://bucket/Data/year=2021/month=6/file.parquet" अगर मैं सभी महीनों के लिए डेटा पढ़ना चाहता हूं, तो मैं निम्नलिखित कार्य करूंगा: "gs://bucket/Data/ye....
मेरे पास इस तरह की एक टेबल है company_id | an_array_of_maps -------------------------------------------------------------- 234 | [{"a": "a2", "b": "b2"}, {"a": "a4", "b": "b2"}] 123 | [{"a": "a1", "b": "b1"}, {"a": "a1", "b": "b1"}] 678 | [{"b": "b5", "c": "c5"}, {"b": Null,....
18 पद 2021, 13:06
Pyspark/pandas के लिए बहुत नया मदद की ज़रूरत है। मेरे पास एक टेबल टेबल 1 है जो कुछ इस तरह दिखती है ----------------- Id ID2 qty ----------------- A1 S1 5 A2 S1 5 A3 S2 10 ---------------- मेरे पास एक टेबल टेबल 2 है जो कुछ इस तरह दिखती है ----------------- ID2 totalQty ....
18 पद 2021, 00:32
मैं अपने डेटाब्रिक्स समुदाय संस्करण पर tmp फ़ोल्डर में एक Great_Expectations सूट को निम्नानुसार सहेजने में सक्षम हूं: ge_partdf.save_expectation_suite('/tmp/myexpectation_suite.json',discard_failed_expectations=False) लेकिन समस्या यह है, जब मैं क्लस्टर को पुनरारंभ करता हूं तो tmp फ़ोल्डर में json फ....
मैंने क्लाउड डेटाप्रोक क्लस्टर 1.4 पर अपना स्पार्क/स्कैला कोड 2.3.0 चलाने की कोशिश की जहां स्पार्क 2.4.8 स्थापित है। मुझे एवरो फाइलों को पढ़ने के संबंध में एक त्रुटि का सामना करना पड़ा। यहाँ मेरा कोड है: sparkSession.read.format("com.databricks.spark.avro").load(input) यह कोड अपेक्षा के अनुरूप वि....
Azure HDInsight क्लस्टर पर Python का उपयोग करते हुए, हम स्पार्क डेटाफ़्रेम को Parquet फ़ाइलों के रूप में Azure Data Lake Storage Gen2 में सहेज रहे हैं, जो निम्न कोड का उपयोग कर रहा है: df.write.parquet('abfs://my_dwh_container@my_storage_account.dfs.core.windows.net/mypath, 'overwrite', compression=....
क्या आप Pyspark . में एक शर्त के आधार पर कॉलम ड्रॉप कर सकते हैं? शर्त यह है कि मैं एक कॉलम छोड़ना चाहता हूं: df_train.groupby().sum() == 0 यहाँ पांडा में एक त्वरित उदाहरण है: import pandas as pd #create dataframe df = pd.DataFrame(np.array([[0,2,1],[0,2,8],[0,6,2]]), columns=['a','b', 'c']) #remo....
data की तरह का एक DataFrame है |timestamp |value| |2021-01-01 12:00:00| 10.0| |2021-01-01 12:00:01| 10.0| |2021-01-01 12:00:02| 10.0| |2021-01-01 12:00:03| 10.0| |2021-01-01 12:00:04| 10.0| |2021-01-01 12:00:05| 10.0| |2021-01-01 12:00:06| 10.0| |2021-01-01 12:00:07| 10.0| और events का डेट....
मुझे पता था कि स्पार्क कॉन्फ़िगरेशन में दास को कार्यकर्ता में बदल दिया गया था। लेकिन जब मैं स्पार्क-3.2.0 डाउनलोड करता हूं, तो मैंने देखा कि start-slave.sh और start-worker.sh दोनों 'sbin' फ़ोल्डर के अंतर्गत मौजूद हैं। क्या दोनों गोले एक ही काम करते हैं?....
17 पद 2021, 11:38