企業(yè)做網(wǎng)站藏文網(wǎng)頁倒排索引(下)
日期 : 2020-10-21 18:42:11
藏文網(wǎng)頁倒排索引。
第四步:對(duì)標(biāo)題建索引。大部分的Web文檔有文檔標(biāo)題TITLE, 標(biāo)題反映了文檔的主要內(nèi)容, 是搜索和導(dǎo)航的重要依據(jù)。標(biāo)題索引以詞、短語或句子為索引單位, 具體根據(jù)詞表匹配情況確定, 如果標(biāo)題匹配詞表中的規(guī)范詞則使用規(guī)范詞, 如果沒有則直接以標(biāo)題建索引。藏文規(guī)范詞表是動(dòng)態(tài)更新的。檢索時(shí)以匹配標(biāo)題索引為優(yōu)先策略, 先查詢標(biāo)題索引庫(kù), 再查詢?nèi)乃饕龓?kù)。
第五步:索引庫(kù)更新。網(wǎng)站的頁面信息是動(dòng)態(tài)更新的, 由網(wǎng)絡(luò)爬蟲抓取得到的藏文網(wǎng)頁倒排索引庫(kù)也需要更新。搜索引擎的倒排索引更新有多種方式, 包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少, 網(wǎng)絡(luò)爬蟲工作周期短, 藏文網(wǎng)頁的倒排索引庫(kù)更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后, 建立新的索引庫(kù), 將查詢引擎鏈接指向新的索引庫(kù), 同時(shí)保留近兩期的索引庫(kù), 將更早的索引庫(kù)刪除。每次添加新的索引庫(kù)后, 先將之前近兩期的索引庫(kù)保留一段時(shí)間備用。
第四步:對(duì)標(biāo)題建索引。大部分的Web文檔有文檔標(biāo)題TITLE, 標(biāo)題反映了文檔的主要內(nèi)容, 是搜索和導(dǎo)航的重要依據(jù)。標(biāo)題索引以詞、短語或句子為索引單位, 具體根據(jù)詞表匹配情況確定, 如果標(biāo)題匹配詞表中的規(guī)范詞則使用規(guī)范詞, 如果沒有則直接以標(biāo)題建索引。藏文規(guī)范詞表是動(dòng)態(tài)更新的。檢索時(shí)以匹配標(biāo)題索引為優(yōu)先策略, 先查詢標(biāo)題索引庫(kù), 再查詢?nèi)乃饕龓?kù)。
第五步:索引庫(kù)更新。網(wǎng)站的頁面信息是動(dòng)態(tài)更新的, 由網(wǎng)絡(luò)爬蟲抓取得到的藏文網(wǎng)頁倒排索引庫(kù)也需要更新。搜索引擎的倒排索引更新有多種方式, 包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少, 網(wǎng)絡(luò)爬蟲工作周期短, 藏文網(wǎng)頁的倒排索引庫(kù)更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后, 建立新的索引庫(kù), 將查詢引擎鏈接指向新的索引庫(kù), 同時(shí)保留近兩期的索引庫(kù), 將更早的索引庫(kù)刪除。每次添加新的索引庫(kù)后, 先將之前近兩期的索引庫(kù)保留一段時(shí)間備用。