企業(yè)網(wǎng)站建設(shè)歸檔采集范圍
日期 : 2020-11-28 22:00:33
歸檔采集范圍。自然資源部門戶網(wǎng)站網(wǎng)頁歸檔采集范圍限定于mnr.gov.cn域名下的網(wǎng)頁,其內(nèi)容涵蓋政務(wù)公開、新聞宣傳、辦事服務(wù)、互動(dòng)交流4個(gè)方面。政務(wù)公開主要包括部機(jī)關(guān)各司局、國家自然資源督察機(jī)構(gòu)、部各直屬單位、地方各級(jí)自然資源主管部門提供的各類政策文件、標(biāo)準(zhǔn)法規(guī),以及土地市場和礦業(yè)權(quán)相關(guān)行業(yè)市場數(shù)據(jù)等內(nèi)容;新聞宣傳包括重要會(huì)議、重要活動(dòng)、重要講話、政策解讀等內(nèi)容;辦事服務(wù)包括土地、礦產(chǎn)、測繪、地質(zhì)和科技等方面辦事服務(wù)內(nèi)容,以及公示查驗(yàn)、備案查詢等內(nèi)容;互動(dòng)交流以留言評(píng)論、在線訪談、征集調(diào)查等內(nèi)容為主要體現(xiàn)。
本研究經(jīng)過分析研判,政務(wù)公開、新聞宣傳和互動(dòng)交流等相關(guān)內(nèi)容基本只依托門戶網(wǎng)站發(fā)布系統(tǒng),可以完成歸檔采集。對(duì)于辦事服務(wù)等內(nèi)容,門戶網(wǎng)站一般只提供相關(guān)系統(tǒng)的入口,有關(guān)信息存儲(chǔ)在其他系統(tǒng)、無法被完整獲取,此類信息暫時(shí)不納入歸檔采集范圍。
在技術(shù)上,本研究使用網(wǎng)絡(luò)爬蟲工具抓取網(wǎng)頁文本、圖片、動(dòng)畫、音視頻、腳本及網(wǎng)頁相關(guān)元數(shù)據(jù)等內(nèi)容。爬蟲工具根據(jù)預(yù)制的系統(tǒng)模板和網(wǎng)頁URL信息,通過網(wǎng)站拓?fù)浣Y(jié)構(gòu)分析、目標(biāo)網(wǎng)頁內(nèi)容去噪和解析、網(wǎng)頁版本控制等技術(shù),對(duì)采集到的數(shù)據(jù)進(jìn)行采集和整理,實(shí)現(xiàn)對(duì)海量網(wǎng)頁信息的高效、智能處理。
本研究經(jīng)過分析研判,政務(wù)公開、新聞宣傳和互動(dòng)交流等相關(guān)內(nèi)容基本只依托門戶網(wǎng)站發(fā)布系統(tǒng),可以完成歸檔采集。對(duì)于辦事服務(wù)等內(nèi)容,門戶網(wǎng)站一般只提供相關(guān)系統(tǒng)的入口,有關(guān)信息存儲(chǔ)在其他系統(tǒng)、無法被完整獲取,此類信息暫時(shí)不納入歸檔采集范圍。
在技術(shù)上,本研究使用網(wǎng)絡(luò)爬蟲工具抓取網(wǎng)頁文本、圖片、動(dòng)畫、音視頻、腳本及網(wǎng)頁相關(guān)元數(shù)據(jù)等內(nèi)容。爬蟲工具根據(jù)預(yù)制的系統(tǒng)模板和網(wǎng)頁URL信息,通過網(wǎng)站拓?fù)浣Y(jié)構(gòu)分析、目標(biāo)網(wǎng)頁內(nèi)容去噪和解析、網(wǎng)頁版本控制等技術(shù),對(duì)采集到的數(shù)據(jù)進(jìn)行采集和整理,實(shí)現(xiàn)對(duì)海量網(wǎng)頁信息的高效、智能處理。