網(wǎng)站seo優(yōu)化爬取詳細(xì)信息
日期 : 2020-09-30 15:40:02
爬取詳細(xì)信息。
首先,現(xiàn)在Element找到每部分內(nèi)容所在的標(biāo)簽,標(biāo)簽相同的,通過(guò)get_attribute查找屬性確定位置。
其次,與json方法一樣,將每個(gè)小標(biāo)簽賦予空值,防止找不到該小標(biāo)簽影響整個(gè)頁(yè)面的爬取。
接著,通過(guò)find_elements_by_css_selector用法,將定位好的內(nèi)容爬取下來(lái),并賦值給對(duì)應(yīng)的變量。
最后,將所有變量整合,放進(jìn)列表ulist1中,方便后續(xù)寫(xiě)入Excel。為方便后續(xù)數(shù)據(jù)的處理、分析和研究,將爬取下來(lái)的內(nèi)容保存到Excel中,對(duì)于爬取數(shù)據(jù)量大的,亦可以保存到MongoDB中。
首先,現(xiàn)在Element找到每部分內(nèi)容所在的標(biāo)簽,標(biāo)簽相同的,通過(guò)get_attribute查找屬性確定位置。
其次,與json方法一樣,將每個(gè)小標(biāo)簽賦予空值,防止找不到該小標(biāo)簽影響整個(gè)頁(yè)面的爬取。
接著,通過(guò)find_elements_by_css_selector用法,將定位好的內(nèi)容爬取下來(lái),并賦值給對(duì)應(yīng)的變量。
最后,將所有變量整合,放進(jìn)列表ulist1中,方便后續(xù)寫(xiě)入Excel。為方便后續(xù)數(shù)據(jù)的處理、分析和研究,將爬取下來(lái)的內(nèi)容保存到Excel中,對(duì)于爬取數(shù)據(jù)量大的,亦可以保存到MongoDB中。