Logo

过滤掉html所有标签及样式、js脚本

photo

2022年04月28日

css样式正则:<style[\\s\\S]+?</style>

js脚本正则:<script[\\s\\S]+?</script>

标签正则:<[^\\>]*>

使用这三种正则表达式,基本能把页面的所有杂质过滤掉,只留下文本内容。

/// <summary>
    /// 去掉html内容中全部标签
    /// </summary>
    /// <param name="content">html内容</param>
    /// <returns>去掉html标签的内容</returns>
    public static string DropHtmlTag(string content)
    {
        //去掉<*>
        string Info = Drop(content, "<style[\\s\\S]+?</style>");
        Info = Drop(Info, "<script[\\s\\S]+?</script>");
        return Drop(Info, "<[^\\>]*>");
    }
    /// <summary>
    /// 删除字符串中指定的内容
    /// </summary>
    /// <param name="src">要修改的字符串</param>
    /// <param name="pattern">要删除的正则表达式模式</param>
    /// <returns>已删除指定内容的字符串</returns>
    public static string Drop(string src, string pattern)
    {
        Regex regex = new Regex(pattern, RegexOptions.None | RegexOptions.Compiled);
        return regex.Replace(src, "");
    }

橙子主题打折出售

其实我不卖,主要是这里是放广告的,所以就放了一个
毕竟主题都没做完,卖了也是坑.

购买它
所有附件
该文章没有附件.
本文为原创文章,请注意保留出处!

热门文章

修复群晖Synology Drive client右键菜单缺失问题 本教程主要解决windows10右键菜单中没有SynologyDrive菜单的问题,整体思路是找到...修复群晖SynologyDriveclient右键菜单缺失问题 作者:Pastore Antonio
2005 浏览量
docker如何查看一个镜像内部的目录结构及其内部都有哪些文件 前言:有时候我们会在docker上下载一个镜像,或者是上传一个镜像到docker上,甚至有时候就是在...docker如何查看一个镜像内部的目录结构及其内部都有哪些文件 作者:Pastore Antonio
1944 浏览量
Adobe Acrobat Pro 激活 这里记录了一些AdobeAcrobat的激活教程和组件。浏览量:1,825 作者:Pastore Antonio
1668 浏览量
追寻日出,找回自己 为什么我要去追寻日出?其实我是一个很懒的人,每次都起不来,直到有一次我在租房中睡到了大天亮,阳光照...追寻日出,找回自己 作者:Pastore Antonio
1625 浏览量
Swagger2 接口多级分组方法 swagger无疑是Java开发的最佳伴侣,接口非常方便调试;当然也有用Postman,因人而异吧...Swagger2接口多级分组方法 作者:Pastore Antonio
1532 浏览量