मैं एक ऐसी विधि की तलाश में हूं जिससे मैं एक gzip संग्रह से DEFLATE एल्गोरिदम द्वारा बनाए गए एन्कोडिंग शब्दकोश को निकाल सकूं।

मुझे पूरे संग्रह से LZ77 निर्मित पॉइंटर्स की आवश्यकता है जो फ़ाइल से पैटर्न के साथ-साथ उपरोक्त बिंदुओं के साथ हफ़मैन ट्री को संदर्भित करता है।

क्या पायथन में कोई समाधान है?

क्या कोई https://github.com/madler/infgen/blob/ को जानता है Master/infgen.c जो शब्दकोश प्रदान कर सकता है?

1
malocho 14 सितंबर 2021, 16:51

1 उत्तर

सबसे बढ़िया उत्तर

इनपुट में किसी भी बिंदु पर संपीड़न के लिए उपयोग किया जाने वाला "शब्दकोश" उस बिंदु से पहले असम्पीडित डेटा के 32K बाइट्स से अधिक कुछ नहीं है।

हाँ, infgen सभी LZ77 संदर्भों और व्युत्पन्न हफ़मैन कोड को एक पठनीय रूप में दिखाते हुए, एक डिफ्लेट स्ट्रीम को अलग कर देगा। आप पायथन से infgen चला सकते हैं और पायथन में आउटपुट की व्याख्या कर सकते हैं।

Infgen में एक गैर-मानव-पढ़ने योग्य बाइनरी प्रारूप के लिए एक -b विकल्प भी है जो कि आप जो करना चाहते हैं उसे संसाधित करने के लिए तेज़ हो सकता है।

1
Mark Adler 15 सितंबर 2021, 00:03
बहुत बहुत धन्यवाद, मार्क!
 – 
malocho
15 सितंबर 2021, 01:20