रेसिलिएंट डिस्ट्रिब्यूटेड डेटसेट्स (आरडीडी) एक वितरित मेमोरी एब्स्ट्रैक्शन हैं जो प्रोग्रामर को मैपआरड्यूस जैसे डेटा फ्लो मॉडल की गलती सहिष्णुता को बनाए रखते हुए बड़े क्लस्टर्स पर इन-मेमोरी कम्प्यूटेशन करने की अनुमति देता है।

के बारे में अधिक rdd...

मैं अपने स्पार्क डेटाफ़्रेम में एक स्तंभ बनाने की कोशिश कर रहा हूँ यदि एक स्तंभ की पंक्ति एक अलग डेटाफ़्रेम में है। यह मेरा मुख्य स्पार्क डेटाफ़्रेम है (df_main) +--------+ |main | +--------+ |28asA017| |03G12331| |1567L044| |02TGasd8| |1asd3436| |A1234567| |B1234567| +--------+ यह मेरा संदर्भ ह....
12 जुलाई 2021, 11:37
मैं स्पार्क के लिए नया हूं और मुझे पता है कि स्पार्क आमतौर पर कार्यों को क्रमबद्ध करता है और इसे सभी निष्पादकों को भेजता है और एचडीएफएस में उपलब्ध डेटा के ब्लॉक पर काम करता है। लेकिन अगर मेरे पास निम्न कोड है, Random random = new Random(); //statement A int randomValue = random.nextInt(); //stateme....
25 मार्च 2021, 14:02
val sorting = sc.parallelize(List(1,1,1,2,2,2,2,3,3,3,4,4,4,4,5,5,5,6,6,7,8,8,8,8,8)) sorting.map(x=>(x,1)).reduceByKey((a,b)=>a+b).map(x=>(x._1,"==>",x._2)).sortBy(s=>s._2,false).collect.foreach(println) output: (8,==>,5) (1,==>,3) (2,==>,4) (3,==>,3) (4,==>,4) (5,==>,3) (6,==>,2) (7,==>,1) मै....
7 पद 2020, 21:41
मैं मानचित्र से मूल्य प्राप्त करने की कोशिश कर रहा हूं-नौकरी को कम करता हूं यानी 11 से हिनिन। (mutuelle,1) (hinein.,11) (Pfennig,1) मैं सभी मूल्यों को प्रिंट करने में सक्षम हूं, लेकिन मैं केवल विशिष्ट लोगों को कैसे ढूंढूं? val counts = books.flatMap(line => line.split(" ")) val MappedRDD = counts.m....
26 नवम्बर 2020, 18:42
मैं पुनर्विभाजन ऑपरेशन से भ्रमित हूं। कृपया नीचे दिए गए कोड को देखें import org.apache.spark._ import org.apache.log4j._ object FriendsByAge { def parseLine(line: String)={ val fields = line.split(",") val age = fields(2).toInt val numFriends = fields(3).toInt (age, numFriends....
12 नवम्बर 2020, 19:17
तो मेरे पास स्ट्रिंग प्रारूप में शब्दों और संख्याओं के साथ एक आरडीडी है जिसे मैंने विराम चिह्न और सफेद जगहों को विभाजित और हटा दिया है: ['Hi', 'today', 'is', 'a', 'great', 'day', 'to', 'gather', 'flowers', 'lets', 'collect', '50', 'Roses', '400', 'Tulips', 'and', '20', 'Sunflowers', 'today'] मैं अल....
23 अक्टूबर 2020, 20:35
मेरे पास 100 से अधिक कॉलम वाली एक टेबल है। मुझे कुछ स्तंभों से दोहरे उद्धरण चिह्नों को निकालने की आवश्यकता है। मुझे कॉलम() और मानचित्र() का उपयोग करके इसे करने के 2 तरीके मिले कॉलम के साथ उपयोग करना () cols_to_fix = ["col1", ..., "col20"] for col in cols_to_fix: df = df.withColumn(col, regexp_....
21 अक्टूबर 2020, 02:22
यह उत्तर स्पष्ट रूप से आरडीडी पर्सिस्ट () और कैशे () और इसकी आवश्यकता के बारे में बताता है - (क्यों) हमें कैशे को कॉल करने या RDD पर बने रहने की आवश्यकता है इसलिए, मैं समझता हूं कि someRdd.persist(DISK_ONLY) को कॉल करना आलसी है, लेकिन someRdd.saveAsTextFile("path") उत्सुक है। लेकिन इसके अलावा (मैन्य....
20 अक्टूबर 2020, 08:45
मेरे पास एक RDD RDD[Employee] है जहां कर्मचारी में कॉलम आईडी, first_name, last_name, dob हैं मैं id का मान RDD[Employee] के अनुक्रमणिका मान के साथ सेट करना चाहता हूं। मैं यह कैसे करूँगा? मैं rdd.zipWithIndex() का उपयोग करके अनुक्रमणिका प्राप्त करने में सक्षम हूं, लेकिन मुझे नहीं पता कि आगे क्या क....
5 अक्टूबर 2020, 19:09
मेरे पास निम्न प्रारूप में एक टेक्स्ट फ़ाइल है। <Begin Id=1 Name=John Age=32 <End <Begin Id=2 Name=Jack Age=20 <End मैं जो करना चाहता हूं वह स्कैला का उपयोग करके स्पार्क में डेटा फ्रेम बनाना है, उपरोक्त कुंजियों को कॉलम नामों और उनके मानों को डेटा फ्रेम में पंक्तियों के रूप में ल....
2 सितंबर 2020, 14:57
मेरे पास निम्नलिखित मूवी डेटा है जो नीचे जैसा है, मुझे हर साल 2002,2 and 2004,1 जैसी फिल्मों की गिनती मिलनी चाहिए Littlefield, John (I) x House 2002 Houdyshell, Jayne demon State 2004 Houdyshell, Jayne mall in Manhattan 2002 val data=sc.textFile("..line to file") val dataSplit=data.map(lin....
31 अगस्त 2020, 01:46
मेरे पास bank_rdd नामक एक RDD है जिसे CSV फ़ाइल से आयात किया गया है। सबसे पहले मैंने प्रत्येक पंक्ति को अल्पविराम से अलग करके एक सूची में विभाजित किया है bank_rdd1 = bank_rdd.map(lambda line: line.split(',')) शीर्षक शीर्षक हैं: accountNumber, personFname, personLname, balance मैंने फिर हेडर हटा दि....
28 अगस्त 2020, 08:10
rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ]) # convert to as follows ..., ... ..., ... # show result rdd.collect() [Row(col='a1'), Row(col='a2'), Row(col='a3'), Row(col='a4'), Row(col='a5'), ] मुझे पता है कि Java Spark में हम Row का उपयोग कर सकते हैं लेकिन PySpark में ला....
17 अगस्त 2020, 05:18
इस बात के पुख्ता कारण हैं कि क्यों groupByKey से बचना चाहिए और ऑप्टिमाइज़ netwokr बैंडविड्थ भेजने के लिए कम करना पसंद करें। https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html क्या ऐसे कोई मामले हैं जहां Groupby वास्तव में आवश....
29 जुलाई 2020, 19:03
मेरे पास कुछ कॉलम के साथ एक पाइस्पार्क डेटाफ्रेम है col1 col2 col3 --------------------- 1. 2.1. 3.2 3.2. 4.2. 5.1 और मैं तीन कार्यों f1(x), f2(x), f3(x) को डेटाफ्रेम के संवाददाता कॉलम में लागू करना चाहता हूं, ताकि मुझे मिल जाए col1 col2 col3 ----------------------....
29 जुलाई 2020, 15:32
मैं अब अपने आप repartition() और coalesce() के व्यवहार का परीक्षण करना चाहता हूं, विशेष रूप से ऐसी सामान्य स्थिति में जहां numsPartion अपरिवर्तित रहता है, मैं देखना चाहता हूं कि क्या इसके साथ पुनर्विभाजन का आह्वान होगा वही विभाजन संख्या अभी भी सभी डेटा पर पूर्ण फेरबदल करेगी। तब मुझे एहसास हुआ कि मे....
6 जुलाई 2020, 08:04
public static void main(String[] args) { SparkSession sessn = SparkSession.builder().appName("RDD2DF").master("local").getOrCreate(); List<Integer> lst = Arrays.asList(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20); Dataset<Integer> DF = sessn.createDataset(lst, Encoders....
12 जून 2020, 20:13
मैंने जो पढ़ा है, उससे आरडीडी ऑप्टिमाइज़ेशन का लाभ नहीं ले सकता है स्पार्क के पास संरचित डेटा के लिए है क्योंकि डेटाफ़्रेम सक्षम है, क्या यह उचित है कि असंरचित डेटा स्रोतों के साथ काम करते समय हमें आरडीडी का उपयोग करना चाहिए, जबकि संरचित डेटा स्रोत जैसे डेटाबेस से एए टेबल हमें डेटाफ्रेम का उपयोग कर....
7 जून 2020, 19:04
मुझे एक स्कैला कोड को पायथन में कनवर्ट करना है। स्कैला कोड स्ट्रिंग के आरडीडी को केस-क्लास के आरडीडी में परिवर्तित करता है। कोड इस प्रकार है: case class Stock( stockName: String, dt: String, openPrice: Double, highPrice: Double....
मेरे पास एक समान प्रश्न है: मैं डिक्ट्स का एक अलग RDD कैसे प्राप्त कर सकता हूं पायस्पार्क में? हालाँकि, कुछ अंतर है। मेरे पास स्ट्रिंग के रूप में एक कुंजी और निम्न आकार में मान के रूप में एक सूची है: {"link0":["link1","link2",...]}। ताकि मेरे प्रत्येक RDD विभाजन में dicts संग्रहीत हो जाएं। संग्रह....
23 मई 2020, 07:58
मैं प्रत्येक rdd सूची के पहले तत्व को बदलना चाहता हूं। सबसे पहले मैं rdd स्ट्रिंग को rdd सूची में परिवर्तित करता हूं: ff = rdd.map(lambda x: x.split(",")) simpleRDD = ff.map(lambda x: x) print("Partitions structure: {}".format(simpleRDD.glom().collect())) विभाजन संरचना (उदाहरण): [[['2020-05-22 12....
22 मई 2020, 13:00
क्या कोई मेरी मदद कर सकता है कि rdd रूपांतरण से कैसे बचा जाए? val qksDistribution: Array[((String, Int), Long)] = tripDataset .map(i => ((i.getFirstPoint.getQk.substring(0, QK_PARTITION_LEVEL), i.getProviderId), 1L)) .rdd .reduceByKey(_+_) .filter(_._2>maxCountInPartition/10)....
21 मई 2020, 20:38
मैं इसका उपयोग कर डेटाफ्रेम के विभाजन की संख्या लाने की कोशिश कर रहा हूं: df.rdd.getNumPartitions.toString लेकिन जब मैं स्पार्क लॉग की निगरानी करता हूं, तो मैं देखता हूं कि यह कई चरणों में घूमता है और यह एक महंगा ऑपरेशन है। मेरी समझ के अनुसार, डेटाफ़्रेम मेटाडेटा के माध्यम से rdd में एक संरचनात्म....
20 मई 2020, 16:38
मैं PySpark में इस प्रश्न के समाधान को दोहराने की कोशिश कर रहा हूं (स्पार्क <2.3, इसलिए कोई map_keys नहीं): MapType से कुंजी और मान कैसे प्राप्त करें SparkSQL DataFrame में कॉलम नीचे मेरा कोड है (उपरोक्त लिंक किए गए प्रश्न का वही डीएफ): import pyspark.sql.functions as F distinctKeys = df\ .sel....
20 मई 2020, 04:57
हैलो डेटासेट 2 को ठीक से पढ़ने के लिए मुझे अपना कोड कैसे संशोधित करना चाहिए? %%writefile read_rdd.py def read_RDD(argv): parser = argparse.ArgumentParser() # get a parser object parser.add_argument('--test_set', metavar='test_set', type =ParallelMapDataset) args = parser.parse_args(argv) # ....