深山工作室

深山工作室 >

利用asp正则功能去除网页中自定义HTML标记(来自eWebEditor)

function ExecReg(re, content)
    Dim myRegExp, ResultString
    Set myRegExp = New RegExp
     myRegExp.Global = True
     myRegExp.Pattern = re
     ResultString = myRegExp.Replace(content, "")
     ExecReg = ResultString
end function

function DecodeFilter(html)
         html = LCase(html)
' 去除所有客户端脚本javascipt,vbscript,jscript,js,vbs,event,
         html = ExecReg("</?script[^>]*>", html)
         html = ExecReg("(javascript|jscript|vbscript|vbs):", html)
         html = ExecReg("on(mouse|exit|error|click|key)", html)
         html = ExecReg("&#", html)
' 去除表格<table><tr><td><th><a><p><img><div>
         html = ExecReg("</?table[^>]*>", html)
         html = ExecReg("</?tr[^>]*>", html)
         html = ExecReg("</?th[^>]*>", html)
         html = ExecReg("</?td[^>]*>", html)
         html = ExecReg("</?a[^>]*>", html)
         html = ExecReg("</?p[^>]*>", html)
         html = ExecReg("</?img[^>]*>", html)
         html = ExecReg("</?div[^>]*>", html)
         html = ExecReg("</?ul[^>]*>", html)
         html = ExecReg("</?li[^>]*>", html)
         html = ExecReg("</?tbody[^>]*>", html)
         html = ExecReg("</?h1[^>]*>", html)
         html = ExecReg("</?h2[^>]*>", html)
         html = ExecReg("</?h3[^>]*>", html)
         html = ExecReg("</?h4[^>]*>", html)
         html = ExecReg("</?h5[^>]*>", html)
         html = ExecReg("</?h6[^>]*>", html)
         html = ExecReg("</?b[^>]*>", html)
         html = ExecReg("</?strong[^>]*>", html)
' 去除样式类class=""
         html = ExecReg("(<[^>]+) class=[^ |^>]*([^>]*>)", html)
' 去除样式style=""
         html = ExecReg("(<[^>]+) style=""[^""]*""([^>]*>)",   html)
' 去除XML<?xml>
         html = ExecReg("<\?xml[^>]*>", html)
' 去除命名空间<o:p></o:p>
         html = ExecReg("</?[a-z]+:[^>]*>", html)
' 去除字体<font></font>
         html = ExecReg("</?font[^>]*>", html)
' 去除字幕<marquee></marquee>
         html = ExecReg("</?marquee[^>]*>", html)
' 去除对象<object><param><embed></object>
         html = ExecReg("</?object[^>]*>",   html)
         html = ExecReg("</?param[^>]*>", html)
         html = ExecReg("</?embed[^>]*>", html)
         DecodeFilter= html
end function


使用:DecodeFilter(内容)

前一页:asp计算器
后一页:利用ASP正则提取文章里面的图片的有效的src地址
相关阅读
dw里面查找替换使用正则删除sqlserver里面的CONSTRAINT
Python pandas删除指定行/列数据的方法实例
Appium元素定位方式之android_uiautomator定位
uni-app开发表单input组件的一些规则说明自己预留使用
正则的常表达式
删除程序页面代码中的注释标签
asp通过多次获得来取得用户的真实IP
httpd.ini中的RewriteRule、RewriteCond规则了解以有二级域名解析实例
更多>>ASP相关信息
ASP中Utf-8与Gb2312编码转换乱码问题的解决方法页面编码声明
asp显示随机密码
通过阿里云服务接口获得ip地址详细信息
iis点开后任务栏上有显示,但是窗口看不到的解决办法
RSA加密解密插件
更多>>最新添加
dw里面查找替换使用正则删除sqlserver里面的CONSTRAINT
Android移动端自动化测试:使用UIAutomatorViewer与Selenium定位元素
抖音直播音挂载小雪花 懂车帝小程序
javascript获取浏览器指纹可以用来做投票
火狐Mozilla Firefox出现:无法载入您的Firefox配置文件 它可能已经丢失 或是无法访问 问题解决集合处理办法