मैं इस वेबपृष्ठ पर प्रत्येक एपिसोड के लिए सभी लिंक निकालने के लिए देख रहा हूं, हालांकि मुझे html_nodes() का उपयोग करने में कठिनाई हो रही है जहां मुझे पहले ऐसी कठिनाई का अनुभव नहीं हुआ है। मैं "।" का उपयोग कर कोड को पुनरावृत्त करने का प्रयास कर रहा हूं। ताकि उस सीएसएस के साथ पृष्ठ के सभी गुण प्राप्त हो जाएं। यह कोड सभी विशेषताओं का आउटपुट देने के लिए है, लेकिन इसके बजाय मुझे {xml_nodeset (0)} मिलता है। मुझे पता है कि एक बार मेरे पास विशेष रूप से उनमें से लिंक प्राप्त करने के लिए सभी विशेषताओं के बाद क्या करना है, लेकिन यह कदम इस वेबसाइट के लिए एक बाधा साबित हो रहा है।

यहां वह कोड है जिसे मैंने आर में शुरू किया है:

episode_list_page_1 <- "https://jrelibrary.com/episode-list/"

episode_list_page_1 %>%
  read_html() %>%
  html_node("body") %>%
  html_nodes(".type-text svelte-fugjkr first-mobile first-desktop") %>%
  html_attrs()
0
Oscar Evans 4 अक्टूबर 2020, 00:00

1 उत्तर

सबसे बढ़िया उत्तर

यह रिवेस्ट डाउन यहां काम नहीं करता है क्योंकि यह पेज जानकारी प्रदर्शित करने के लिए इस पेज पर एक आईफ्रेम में एक और वेबपेज डालने के लिए जावास्क्रिप्ट का उपयोग करता है।

यदि आप अंतर्निहित स्क्रिप्ट को खोजते हैं तो आपको इस पृष्ठ का संदर्भ मिलेगा: "https://datawrapper.dwcdn.net/eoqPA/66/" जो आपको "https://datawrapper.dwcdn.net/eoqPA/67 पर पुनर्निर्देशित करेगा। /"। इस दूसरे पृष्ठ में वह डेटा है जिसे आप एम्बेडेड JSON के रूप में ढूंढ रहे हैं और जावास्क्रिप्ट के माध्यम से जेनरेट किया गया है।

शो के लिंक निकालने योग्य हैं, और एक Google दस्तावेज़ का लिंक है जो पूर्ण अनुक्रमणिका है।

इस पृष्ठ को खोजने पर Google दस्तावेज़ का लिंक प्राप्त होता है:

library(rvest)
library(dplyr)
library(stringr)

page2 <-read_html("https://datawrapper.dwcdn.net/eoqPA/67/")

#find all of the links on the page:
str_extract_all(html_text(page2), 'https:.*?\\"') 

#isolate the Google docs
print(str_extract_all(html_text(page2), 'https://docs.*?\\"') )
#[[1]]
#[1] "https://docs.google.com/spreadsheets/d/12iTobpwHViCIANFSX3Pc_dGMdfod-0w3I5P5QJL45L8/edit?usp=sharing"                                                
#[2] "https://docs.google.com/spreadsheets/d/12iTobpwHViCIANFSX3Pc_dGMdfod-0w3I5P5QJL45L8/export?format=csv&id=12iTobpwHViCIANFSX3Pc_dGMdfod-0w3I5P5QJL45L8"
1
Dave2e 4 अक्टूबर 2020, 03:24