Logo

过滤掉html所有标签及样式、js脚本

photo

2022年04月28日

css样式正则:<style[\\s\\S]+?</style>

js脚本正则:<script[\\s\\S]+?</script>

标签正则:<[^\\>]*>

使用这三种正则表达式,基本能把页面的所有杂质过滤掉,只留下文本内容。

/// <summary>
    /// 去掉html内容中全部标签
    /// </summary>
    /// <param name="content">html内容</param>
    /// <returns>去掉html标签的内容</returns>
    public static string DropHtmlTag(string content)
    {
        //去掉<*>
        string Info = Drop(content, "<style[\\s\\S]+?</style>");
        Info = Drop(Info, "<script[\\s\\S]+?</script>");
        return Drop(Info, "<[^\\>]*>");
    }
    /// <summary>
    /// 删除字符串中指定的内容
    /// </summary>
    /// <param name="src">要修改的字符串</param>
    /// <param name="pattern">要删除的正则表达式模式</param>
    /// <returns>已删除指定内容的字符串</returns>
    public static string Drop(string src, string pattern)
    {
        Regex regex = new Regex(pattern, RegexOptions.None | RegexOptions.Compiled);
        return regex.Replace(src, "");
    }

橙子主题打折出售

其实我不卖,主要是这里是放广告的,所以就放了一个
毕竟主题都没做完,卖了也是坑.

购买它
所有附件
该文章没有附件.
本文为原创文章,请注意保留出处!

热门文章

Adobe Acrobat Pro 激活 这里记录了一些AdobeAcrobat的激活教程和组件。浏览量:1,987 作者:Pastore Antonio
1830 浏览量
“sudo: apt-get:找不到命令”的解决方法 Linux系统:CentOS7原因分析:这是由于CentOS的软件安装工具不是apt-get,而是...“sudo:apt-get:找不到命令”的解决方法 作者:Pastore Antonio
1540 浏览量
一个不可思议的一天 上周五可以说是我人生中的梦魇……因为时间没安排好,为了一个10几分钟的会议,打的花了100多。然...一个不可思议的一天 作者:Pastore Antonio
1531 浏览量
Win10中使用cmd命令快速安装telnet服务 Win10中不能够使用Telnet的主要原因是由于系统默认情况下是没有安装telnet服务的,所以我...Win10中使用cmd命令快速安装telnet服务 作者:Pastore Antonio
1524 浏览量
Windows Server IIS+ARR反向代理(配置反向代理服务器) 1.概念说明:反向代理反向代理服务器位于用户与目标服务器之间,但是对于用户而言,反向代理服务器就相...WindowsServerIIS+ARR反向代理(配置反向代理服务器) 作者:Pastore Antonio
1518 浏览量