html文件分析的正则表达式
时间:2010-09-02 来源:wojiushizjc
删除所有的html标签
<(.[^>]*)>
匹配双字节的字符,用来匹配中文
[^\x00-\xff]
匹配文件中的一个标签获取标签中的内容,以td为例
<(td+)\s*(\w+(=('|").*?\4)?\s*)*>(.*?)</\1>
如果C#中使用的话
<(td+)\\s*(\\w+(=('|\").*?\\4)?\\s*)*>(.*?)</\\1>
取第6个值(0是第一个值)
匹配标签内的属性,以src为例
src="(.*?)"
时间有限~先写这么多吧~如果要解决嵌套估计还要要求大家好好研究下~
相关阅读 更多 +