企業(yè)網站建設基于網頁內容的專用識別方式
日期 : 2020-12-22 12:09:11
基于網頁內容的專用識別方式。由于基于網頁內容的作弊方式種類繁多,很難找到一種通用的識別方式,所以一般是針對某種作弊方式設計某種專用的識別方法。
針對關鍵詞堆砌和搜索結果摘要抄襲類型垃圾網頁,可以考慮其與正常網頁在某些內容特征上的不同,例如最為明顯的是內容可視比例和內容壓縮比例。
通常垃圾網頁的內容可視比例和內容壓縮比例比正常網頁都要高很多。除此之外,超鏈接的比例、標點符號的比例、助詞的詞頻等這些指標也可以作為識別垃圾網頁的特征。
針對關鍵詞堆砌和搜索結果摘要抄襲類型垃圾網頁,可以考慮其與正常網頁在某些內容特征上的不同,例如最為明顯的是內容可視比例和內容壓縮比例。
通常垃圾網頁的內容可視比例和內容壓縮比例比正常網頁都要高很多。除此之外,超鏈接的比例、標點符號的比例、助詞的詞頻等這些指標也可以作為識別垃圾網頁的特征。