<cite id="uj6js"></cite>

查看其它板塊

火車頭采集器如何過濾掉多余的標簽（純正則替換）

來源：常見問題解疑 - 遠策科技 | 2022-01-24

火車采集器幾乎所有網頁都能采集，用途很廣。比如網站采集內容、采集數據挖掘客戶、輿情監測、文件批量下載等。我日常主要用于網站日常采集文章，今天分享下如何通過火車采集器得到一個”標準“的內容。

這里所謂的標準，是所采集的文章每一個段落都是，沒有多余的HTML標簽和與主題無關的字符。這里我們可以通過純正則替換達到我們的目的。

以下為一些常用的純正則替換規則示例：

清除與正文無關的內容

正則<header>[\s\S]*?</header>|| |規則4|規則5

替換空

如文中的廣告，注釋等。如果發布到一些免費平臺，有的HTML特殊字符并不會被轉化，只需在末尾加入'|&.*?;'過濾掉最后特殊HTML字符即可。

只保留圖片以及常用的塊級元素

正則 (?i)<(?!/?h|/?p|/?div|br|img).*?>

替換空

只保留標題標簽 h 分段標簽 p、div、br 以及圖像標簽 img ;前面的(?i)表示不區分大小寫

把標簽修改為p

正則<(?!img)(/?)\w+.*?>

替換<$1p>

去掉除了img標簽外的所有標簽的選擇器或樣式，并把標簽修改為p，如果需要保留其他標簽可以參考這樣寫 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 這里是保留img和h標題標簽

改成標準圖像代碼

正則<img.*?src="(.+?)".*?>

替換<img src="$1">

把亂七八糟的圖像樣式，改成標準圖像代碼

規范段落標簽

正則</?p>

替換

規范段落標簽開始結束，某些站個別文章,結束后沒有開始就直接是下個段落的內容

段落去除前后空格

正則 \s*(<\/?p>)\s*

替換$1

把或前后的空格替換為空

去除多余P標簽

正則(){2,}|(){2,}

替換$1$2

把連續2個以上的或替換為1個

去除空段落

內容

替換空

把所有的空段落替換為空，普通替換即可

清理多余標簽

正則 ^|$

替換空

由于第五步的關系，文章開頭可能是結尾可能是需要清理他們

其他可能用到的

過濾英文正則[a-zA-Z]

過濾兩位以上的數字(\d{2,100})

返回首頁了解更多常見問題解疑

遠策科技

河北遠策科技有限公司以工匠精神打造精致服務，不循規蹈矩，不驚世駭俗，為企業互聯網營銷整合方案，服務涵蓋：網站建設、網站推廣、品牌優化、微信開發、VI設計、視頻制作等。解決企業互聯網營銷難題，讓企業不再為推廣而煩惱。

遠見卓識

10年網站建設推廣經驗

18家優秀合作設計機構

117家品牌長期合作共贏

1000+網站建設案例作品

專注營銷型網站建設定制

深厚經驗網站建設團隊

完備的項目流程管理體系

企業一站式網絡推廣服務

策無遺算

一路走來，崇尚創意是我們的活力和根源，讓客戶滿意是我們工作的目標，不斷超越客戶的期望值源自我們對這個行業的熱愛！遠策科技結合十年互聯網品牌設計經驗和整合營銷的理念，將策略和執行緊密結合，有效提升企業推廣整體表現！

建站公司地址：石家莊市長安嘉和廣場1911、裕華區ICC環球智慧中心24F | 業務咨詢：131-1155-0088 , 159-3167-7513

河北遠策網絡公司為您提供石家莊網站建設制作,網站優化推廣,網站改版托管等 | 冀ICP備18035311號-1 | SITEMAP | 冀公網安備:13010202002454號

首頁

網站建設

營銷推廣

微信開發

資訊

案例

聯系

探知 ? 創造美好

查看其它板塊

火車頭采集器如何過濾掉多余的標簽（純正則替換）

快捷標簽

多一份參考，總有益處

遠策科技

遠見卓識

策無遺算

相關鏈接展開

遠策 - 建站推廣一站式服務

131-1155-0088

關于

Yuan Ce

探知 ? 創造美好

查看其它板塊

火車頭采集器如何過濾掉多余的標簽（純正則替換）

快捷標簽

多一份參考，總有益處

遠策科技

遠見卓識

策無遺算

相關鏈接 展開

遠策 - 建站推廣一站式服務

131-1155-0088

微信掃碼 立即咨詢

相關鏈接展開

微信掃碼立即咨詢