亚洲欧美精品aaaaaa片-亚洲国产精久久久久久久-国内精品久久久久久中文字幕-国模无码一区二区三区不卡-性色av极品无码专区亚洲-亚洲国产精品99久久久久久-三级毛片精品在线观看-亚洲黄片在线播放-日韩亚洲专区中文字幕-亚洲国产a国产片精品-荫蒂被男人添的好舒服A片漫画,久久精品成人鲁丝电影,日本强伦姧人妻一区二区,16女下面流水不遮视频

{dede:field.typename/}資訊

探知 ? 創造美好

不斷超越客戶的期望值,源自我們對這個行業的熱愛

火車頭采集器如何過濾掉多余的標簽(純正則替換)

來源:常見問題解疑 - 遠策科技 | 2022-01-24

火車采集器幾乎所有網頁都能采集,用途很廣。比如網站采集內容、采集數據挖掘客戶、輿情監測、文件批量下載等。我日常主要用于網站日常采集文章,今天分享下如何通過火車采集器得到一個”標準“的內容。


這里所謂的標準,是所采集的文章每一個段落都是<p></p>,沒有多余的HTML標簽和與主題無關的字符。這里我們可以通過 純正則替換 達到我們的目的。


以下為一些常用的 純正則替換 規則示例:


清除與正文無關的內容

正則<header>[\s\S]*?</header>|<!--.*?-->| |規則4|規則5 

替換空

如文中的廣告,注釋等。如果發布到一些免費平臺,有的HTML特殊字符并不會被轉化,只需在末尾加入'|&.*?;'過濾掉最后特殊HTML字符即可。


只保留圖片以及常用的塊級元素

正則 (?i)<(?!/?h|/?p|/?div|br|img).*?> 

替換空

只保留標題標簽 h 分段標簽 p、div、br 以及圖像標簽 img ;前面的(?i)表示不區分大小寫


把標簽修改為p

正則<(?!img)(/?)\w+.*?> 

替換<$1p>

去掉除了img標簽外的所有標簽的選擇器或樣式,并把標簽修改為p,如果需要保留其他標簽可以參考這樣寫 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 這里是保留img和h標題標簽


改成標準圖像代碼

正則<img.*?src="(.+?)".*?> 

替換<img src="$1">

把亂七八糟的圖像樣式,改成標準圖像代碼


規范段落標簽

正則</?p>

替換</p><p>

規范段落標簽<p>開始</p>結束,某些站個別文章,</p>結束后沒有<p>開始就直接是下個段落的內容


段落去除前后空格

正則 \s*(<\/?p>)\s* 

替換$1

把<p>或</p>前后的空格替換為空


去除多余P標簽

正則(<p>){2,}|(</p>){2,}

替換$1$2

把連續2個以上的<p>或</p>替換為1個


去除空段落

內容<p></p> 

替換空

把所有的空段落替換為空,普通替換即可


清理多余標簽

正則 ^</p>|<p>$

替換空

由于第五步的關系,文章開頭可能是</p>結尾可能是<p>需要清理他們


其他可能用到的

過濾英文正則[a-zA-Z]

過濾兩位以上的數字(\d{2,100})


多一份參考,總有益處

131-1155-0088 / 159-3167-7513

遠策 - 建站推廣一站式服務

您可 微信掃碼 或 撥打電話 咨詢
在線咨詢 稍后再說

131-1155-0088