मेरे पास एक पाइपलाइन है जिसमें एकाधिक प्रतिलिपि गतिविधि है, और इन गतिविधियों का मुख्य उद्देश्य एकाधिक फ़ाइलों को एक फ़ाइल में मर्ज करना है। इस पाइपलाइन की समस्या यह है कि इसे निष्पादित करने में (फाइलों को मर्ज करने के लिए) लगभग 4 घंटे लगते हैं। कृपया अवधि कम करने का कोई तरीका है।

आपके जवाब के लिए धन्यवाद ।

2
Java user 7 नवम्बर 2021, 16:23
अनुक्रमित lcompressed ines, अन्य डिस्क, RAM उपयोग (बफर आकार), कुछ थ्रेड्स, सावधानीपूर्वक संगामिति/कतार। बाइनरी बाइट्स पढ़ना (कोई UTF-8 रूपांतरण नहीं)।
 – 
Joop Eggen
7 नवम्बर 2021, 16:33

1 उत्तर

सबसे बढ़िया उत्तर
  1. यदि प्रतिलिपि कार्रवाई Azure एकीकरण पर की जा रही है रनटाइम, निम्नलिखित चरणों का पालन किया जाना चाहिए:

    डेटा इंटीग्रेशन यूनिट्स (DIU) और समानांतर कॉपी सेटिंग्स के लिए, से शुरू करें डिफॉल्ट मान।

  2. यदि आप स्व-होस्ट किए गए एकीकरण रनटाइम का उपयोग कर रहे हैं, तो आपको यह करना होगा निम्नलिखित:

    अनुशंसा करेंगे कि आप IR को एक अलग कंप्यूटर पर चलाएँ। मशीन चाहिए डेटा स्टोर सर्वर से अलग रखा जाना चाहिए। डिफ़ॉल्ट का उपयोग शुरू करें समानांतर प्रतिलिपि सेटिंग्स और एकल पर स्वयं-होस्टेड आईआर के लिए डिफ़ॉल्ट नोड.

अन्यथा आप लाभ उठा सकते हैं:

  1. एक डेटा एकीकरण इकाई (DIU)

यह एक ऐसा उपाय है जो Azure डेटा फ़ैक्टरी और Synapse पाइपलाइनों में एकल इकाई की शक्ति का प्रतिनिधित्व करता है। पावर सीपीयू, मेमोरी और नेटवर्क संसाधन आवंटन का एक संयोजन है। DIU केवल Azure एकीकरण रनटाइम पर लागू होता है। डीआईयू सेल्फ-होस्टेड इंटीग्रेशन रनटाइम पर लागू नहीं होता है।

  1. समानांतर प्रतिलिपि

आप जिस समानांतर गतिविधि का उपयोग करना चाहते हैं, उस समानता को इंगित करने के लिए समानांतर प्रतिलिपियाँ गुण सेट कर सकते हैं। इस संपत्ति को कॉपी गतिविधि के भीतर अधिकतम संख्या में थ्रेड के रूप में सोचें। धागे समानांतर में काम करते हैं। थ्रेड या तो आपके स्रोत से पढ़ते हैं, या आपके सिंक डेटा स्टोर को लिखते हैं।

यहां, MSFT दस्तावेज़ है कॉपी गतिविधि प्रदर्शन का समस्या निवारण करने के लिए।

Azure तालिका में डेटा की प्रतिलिपि बनाते समय, डिफ़ॉल्ट समानांतर प्रतिलिपि 4 होती है। DIU सेटिंग की सीमा 2-256 होती है। हालाँकि, विभिन्न प्रतिलिपि परिदृश्यों में DIU के विशिष्ट व्यवहार भिन्न होते हैं, भले ही आप अपनी इच्छानुसार संख्या निर्धारित करते हैं।

कृपया तालिका सूची यहाँ देखें, विशेष रूप से नीचे के भाग के लिए

enter image description here

जैसा कि आपने देखा, DIU की कुछ सीमाएँ हैं, इसलिए आप अपने कस्टम परिदृश्य के साथ इष्टतम सेटिंग चुन सकते हैं।

यदि आप 1GB डेटा कॉपी करने की कोशिश कर रहे हैं, तो किसी तरह DIU ने कभी भी 4 को पार नहीं किया।

लेकिन जब आप 10GB डेटा कॉपी करने की कोशिश करते हैं, तो आप देख सकते हैं कि DIU ने 4 से आगे बढ़ना शुरू कर दिया है।

यहां डेटा एकीकरण इकाइयों की सूची है।

enter image description here

1
IpsitaDash-MT 8 नवम्बर 2021, 15:22
अपवोट के लिए बहुत बहुत धन्यवाद :) @ जावा उपयोगकर्ता, क्या आप कृपया उत्तर स्वीकार कर सकते हैं ताकि यह अन्य समुदाय के सदस्यों के लिए फायदेमंद हो और प्रश्न का उत्तर दिया जाएगा।
 – 
IpsitaDash-MT
8 नवम्बर 2021, 09:12
1
आपके उत्तर के लिए धन्यवाद, वास्तव में मैं अपनी पाइपलाइन निष्पादित करने के लिए डिफ़ॉल्ट एकीकरण रन टाइम का उपयोग कर रहा हूं, जो डिफ़ॉल्ट रन टाइम या स्वयं-होस्टेड एकीकरण रनटाइम बेहतर है?
 – 
Java user
8 नवम्बर 2021, 11:18
Azure एकीकरण रनटाइम Microsoft द्वारा प्रबंधित किया जाता है। अंतर्निहित बुनियादी ढांचे के सभी पैचिंग, स्केलिंग और रखरखाव का ध्यान रखा जाता है। आईआर केवल सार्वजनिक नेटवर्क में डेटा स्टोर और सेवाओं तक पहुंच सकता है, जहां एक स्व-होस्टेड एकीकरण रनटाइम क्लाउड डेटा स्टोर और निजी नेटवर्क में डेटा स्टोर के बीच कॉपी गतिविधियों को चला सकता है। --- आपकी जरूरत पर निर्भर करता है।
 – 
IpsitaDash-MT
8 नवम्बर 2021, 11:30
1
डिफ़ॉल्ट रूप से यह डीआईयू में ऑटो इंगित करता है और समानांतर प्रतिलिपि पर कुछ भी नहीं, और जब मैं मॉनीटर देखता हूं तो मैंने पाया कि 4 डीआईयू का उपयोग किया गया है और 1 समानांतर प्रतिलिपि है
 – 
Java user
8 नवम्बर 2021, 12:00
1
धन्यवाद यह स्पष्ट है;)
 – 
Java user
8 नवम्बर 2021, 18:06