मैं एक विक्रेता लिंक निर्देशिका के माध्यम से स्क्रैप कर रहा हूँ। Ive ने एक सूप बनाया और सभी डेटा को अलग कर दिया जो मैं find_all विधि का उपयोग करके चाहता हूं। हालांकि मुझे जो स्ट्रिंग चाहिए वह सूप के भीतर और घोंसला है। मैं समझता हूं कि find_all एक सूची देता है लेकिन मुझे जो चाहिए उसे प्राप्त करने के लिए मुझे सूची को और डिस्टिल करने की आवश्यकता है। मदद के लिए धन्यवाद क्योंकि मैं अपने लैपटॉप को पूरे कमरे में चकमा देने वाला हूं। नीचे मेरा वर्तमान कोड है।

मैं पायथन की अच्छी समझ के साथ कोडिंग की दुनिया में नया हूं, लेकिन सुंदर सूप की केवल एक बुनियादी समझ है।

URL = get(https://www......) # importing the url I want to work over
soup = BeautifulSoup(URL.text, 'html.parser') # making the soup
IsoUrl = soup.find_all('a',class='xmd-listing-company-name') # Isolates the tags of the links I need. 

कमोबेश यही वह जगह है जहां मैं फंस जाता हूं। उपरोक्त अलगाव से मुझे निम्नलिखित से बनी एक सूची मिलती है। नीचे सूची का केवल एक आइटम है।

<a class="xmd-listing-company-name"href="/rated.company.html" itemprop='url><span itemprop='name'>Company</span></a>'

सूची में उपरोक्त तारों में से 10+ हैं। मैं प्रत्येक स्ट्रिंग से '/rated.company.html' को परिमार्जन करना चाहता हूं और उन्हें पुनरावृति करने के लिए एक सूची में जोड़ना चाहता हूं।

किसी भी मार्गदर्शन की बहुत सराहना की जाती है। अगर मुझे कुछ स्पष्ट करना है तो कृपया मुझे बताएं

1
ScoobertTheDoo551 31 अक्टूबर 2017, 01:42

1 उत्तर

सबसे बढ़िया उत्तर

आप बस find_all के परिणामों पर लूप कर सकते हैं और नीचे की तरह href निकाल सकते हैं:

results = [iso['href'] for iso in IsoUrl]

# >>> ["/rated.company.html", ...]
0
PRMoureu 31 अक्टूबर 2017, 01:52