企業(yè)網(wǎng)站設(shè)計(jì)網(wǎng)頁去噪流程
日期 : 2022-02-28 23:13:23
網(wǎng)頁去噪流程:
1) 節(jié)點(diǎn)分割。將網(wǎng)頁映射為DOM樹, 根據(jù)當(dāng)前DOM節(jié)點(diǎn)的信息以及子節(jié)點(diǎn)信息進(jìn)行節(jié)點(diǎn)分割, 完成信息塊提取。
2) 檢測(cè)分割條。首先利用網(wǎng)頁的初始坐標(biāo)和終止坐標(biāo)作為初始化分隔條, 然后利用頁面塊與分割條之間的位置關(guān)系生成新的檢測(cè)條。
3) 利用分隔條的權(quán)值重構(gòu)語義塊, 沿著分隔條從低到高的方向進(jìn)行迭代合并, 這樣最終將網(wǎng)頁分割成主題相關(guān)性很高的塊的集合。
1) 節(jié)點(diǎn)分割。將網(wǎng)頁映射為DOM樹, 根據(jù)當(dāng)前DOM節(jié)點(diǎn)的信息以及子節(jié)點(diǎn)信息進(jìn)行節(jié)點(diǎn)分割, 完成信息塊提取。
2) 檢測(cè)分割條。首先利用網(wǎng)頁的初始坐標(biāo)和終止坐標(biāo)作為初始化分隔條, 然后利用頁面塊與分割條之間的位置關(guān)系生成新的檢測(cè)條。
3) 利用分隔條的權(quán)值重構(gòu)語義塊, 沿著分隔條從低到高的方向進(jìn)行迭代合并, 這樣最終將網(wǎng)頁分割成主題相關(guān)性很高的塊的集合。