求一个保留保留个别标签的正则表达式
采集任意网页,但是想保留标签p、br、img等。我原来有一个 <(?!p|br|img)[^>]*> 但是好像不准确。
这个表达式就是差 <style type="text/css"> </style> 里面的内容没有剔除,
搞得采集的内容有一大堆CSS
--------------------编程问答-------------------- script 标签也没有过滤,
没有剔除script里面的内容 --------------------编程问答-------------------- 采集任意网页??? --------------------编程问答-------------------- try
(?is)<\W*(p|img|br)[^>]*>(?:.+?</\1>)?--------------------编程问答-------------------- 避免错误的匹配到pre的标签,修改一下,如果楼主觉得不对。贴几个网址来,我拿你说不行的网页代码做匹配试试,千万别一句不行敷衍了事。
(?is)<\W*(p|img|br)\b[^>]*>(?:.+?</\1>)?--------------------编程问答-------------------- 楼上兄弟,(?is)<\W*(p|img|br)\b[^>]*>(?:.+?</\1>)?
\W、\1提示:无法识别转义序列。
补充:.NET技术 , C#