C#下解析html页面的几种方式

Xzavier Aaron 2024年06月25日

678 阅读 0 评论约 3086 字阅读约 7 分钟

写网页抓取应用的时候经常需要解析html页面，此时就需要html解析器。当然可以自己从零开始写一个全新的html parser，但是对于一般的网页分析，使用现成的解析器可能更好(可靠性、稳定性、性能)。

java平台下sourceforge上有一个开源的解析器，可以从这里下载：http://htmlparser.sourceforge.net。但是在dot net平台下一直没有很好的开源html解析器，因此通常dot net平台下一般有下面几种解析html网页的方式：

1、使用微软的mshtml com组件

这种大概在c++语言下用的最多，dot net下也可以使用，添加对mshtml com组件的引用。使用mshtml com的优势是可以运行网页里的java script脚本，有的网站做得很变态，网页的最终内容是通过网页的onload事件里的java script脚本实时生成的，网页文件里根本就没有所需要的正常内容；但是也有个缺点，在俺的实际使用中，发现用mshtml com会导致内存占用持续上升，直到所有物理内存耗光，dot net的垃圾回收机制看来没起作用

2、使用HtmlAgilityPack

HtmlAgilityPack是一个开源的html解析器，底层是通过将html格式转成标准的xml格式文件来实现的(使用dot net里的XPathDocument等xml相关类)，可以从这里下载：http://htmlagilitypack.codeplex.com。可以通过指定xpath路径提取需要的内容，上面那个网站也提供了一个自动生成xpath路径的工具HAP Explorer。缺点和上面使用mshtml com组件一样，内存占用非常大，会耗光所有物理内存。

3、使用SgmlReader

SgmlReader也是一个开源的解析器，可以从这里下载(微软自己网站上的那个不完整，缺少一些文件)。用这个工具先将html文件转成标准的xml格式文件，再通过制定xpath路径来提取所需要的内容(xpath路径可以通过上面的那个工具生成)。下面一个简单的示例代码：
XPathDocument pathDoc = null;
using (SgmlReader sgmlReader = new SgmlReader())
{
sgmlReader.DocType = “HTML”;
sgmlReader.InputStream = new StringReader(html);
using (StringWriter stringWriter = new StringWriter())
{
using (XmlTextWriter xmlWriter = new XmlTextWriter(stringWriter))
{
while (!sgmlReader.EOF)
{
xmlWriter.WriteNode(sgmlReader, true);
}
string xml = stringWriter.ToString().Replace(“xmlns=\”http://www.w3.org/1999/xhtml\””, “”);
pathDoc = new XPathDocument(new StringReader(xml));
}
}
}
//提取出整个table
string xpath = “//div[@class=\”infoList\”]/table”;//xpath表达式
XPathNavigator nav = pathDoc.CreateNavigator();
XPathNodeIterator nodes = nav.Select(xpath);
if (!nodes.MoveNext())
{
return;
}
nodes = nodes.Current.Select(“//tr”);
if (!nodes.MoveNext()) return;
string str = “”;
while (nodes.MoveNext())
{
//遍历所有行
XPathNodeIterator tdNode = nodes.Current.Select(“./td”);
while (tdNode.MoveNext())
{
//遍历列
str += tdNode.Current.Value.Trim() + ” “;
}
str += “\r\n”;
}
//输出结果
Console.WriteLine(str);

如果要提取图片的src，xpath写成这样：//div[@class=\”infoList\”]/img/@src

注意：

上面的这行 stringWriter.ToString().Replace(“xmlns=\”http://www.w3.org/1999/xhtml\””, “”);

使用SgmlReader转换后的html会在根元素<html>自动加上命名空间http://www.w3.org/1999/xhtml，变成这样：
<html xmlns=”http://www.w3.org/1999/xhtml”>

如果不把这个xmlns=”http://www.w3.org/1999/xhtml”移走，那么

XPathNodeIterator nodes = nav.Select(xpath);

这条语句将取不出来内容，也即是nodes.MoveNext()的值将会是false，网上很多例子里都没有提到这点

例子中的html样本：
<html>
<head>
<title>示例Test</title>
</head>
<body>
<div id=”a1″ class=”a1″>
<div class=”infoList” id=”infoList”>
<div class=”clearit”></div>
<table cellspacing=”0″>
<tr>
<td>甲A</td>
<td class=”td2″>09-25 00:00</td>
</tr>
<tr>
<td>德乙</td>
<td class=”td2″>09-26 10:10</td>
</tr>
</table>
<img src=”http://www.aaaa.com/images/b234.jpg” alt=”图片1″ title=”图片1″>
</div>
</div>
</doby>
</html>

使用SgmlReader的好处就是内存占用稳定，在俺实际使用中内存上下浮动不会超过20M（2个线程，间隔60秒抓取一个新页面，7*24小时不间断的后台服务程序）。不足就是html转成xml格式耗时间

4、自己写html解析器

这种方式就不详细说了，每个人的实现都不相同。

分享到：

发表评论

橙子主题打折出售

其实我不卖，主要是这里是放广告的，所以就放了一个
毕竟主题都没做完，卖了也是坑.

购买它

留言板

暂无任何留言

发表回复取消回复

Editor.js

查看链接进入文章

C#获取网页内容的三种方式 2024年06月25日

搜索网络，发现C#通常有三种方法获取网页内容，使用WebClient、WebBrowser或者Htt...C#获取网页内容的三种方式

阅读数：587 分类：转载

AIGC

MVP 聚技站｜GitHub Copilot SDK 入门：五分钟构建你的第一个 AI Agent

引言：为什么 Agent 开发不再是少数人的游戏近年来，随着人工智能技术的快速发展，AI Agen <a href="https://www.destlive.c...

15 篇文章

探索AIGC相关的精彩内容，共 15 篇文章

Azure AI 服务之语音识别

简介 Azure AI 服务中的语音识别 API 是微软提供的一项先进技术，旨在帮助开发者轻松实现语 ... C#下解析html页面的几种方式

2026-02-17 · Xzavier Aaron

MCP | 一文详解什么是 MCP以及 MCP 可以做什么

一、什么是 MCP MCP（Model Context Protocol）是一个专为大型语言模型（L ... C#下解析html页面的几种方式

2026-02-14 · Shen, Luke

你的工作流程，值得一个“全自动数字分身”：录制、截图、成文，一气呵成

一、一句话认识 TestFlow Recorder 在数字化工作环境中，如何准确记录操作步骤并生成清 ... C#下解析html页面的几种方式

2026-02-14 · Xzavier Aaron

Flowise 前端框架配置指南

用户需求问题：有没有适合配置 Flowise 的前端框架？目标：寻找类似 Open WebUI ... C#下解析html页面的几种方式

2026-02-14 · Xzavier Aaron

查看「AIGC」全部文章

最热分类

MVP 聚技站｜GitHub Copilot SDK 入门：五分钟构建你的第一个 AI Agent 引言：为什么Agent开发不再是少数人的游戏近年来，随着人工智能技术的快速发展，AIAgen...MVP聚技站｜GitHubCopilotSDK入门：五分钟构建你的第一个AIAgent 2026-03-05 · Xzavier Aaron

Coolify开发教程-配置自定义域名和证书证书和域名首先先域名解析到Coolify所在的服务器，然后获取你的证书NGINX版本的，这里就不赘...Coolify开发教程-配置自定义域名和证书 2026-03-05 · Pastore Antonio

Azure AI 服务之语音识别简介AzureAI服务中的语音识别API是微软提供的一项先进技术，旨在帮助开发者轻松实现语...AzureAI服务之语音识别 2026-02-17 · Xzavier Aaron

修复moss本机访问SharePoint 401.1 HTTP错误环境概述在本次问题分析中，我们首先需要明确系统的运行环境。了解环境配置不仅能帮助我们定位问题，也为...修复moss本机访问SharePoint401.1HTTP错误 2026-02-15 · Xzavier Aaron

C#文件下载的几种方式简介文件下载功能在现代软件开发中占据了重要地位，无论是为用户提供资源、分发文档，还是实现数据传输，...C#文件下载的几种方式 2026-02-15 · Shen, Luke

IIS 部署 Vue 项目 404 问题解决方案在将使用VueRouter的History模式项目部署到IIS时，可能会遇到刷新页面或...IIS部署Vue项目404问题解决方案 2026-03-06 · Xzavier Aaron

WordPress服务器无法处理图片的解决方法问题描述在使用WordPress进行图片上传时，部分用户可能会遇到服务器无法处理图片的问题。这种情...WordPress服务器无法处理图片的解决方法 2026-02-15 · Xzavier Aaron

OpenClaw 入门指南：从原理到实战引言本文旨在为读者提供一份关于OpenClaw的深入指南，涵盖其核心原理和实际应用。这篇文章的...OpenClaw入门指南：从原理到实战 2026-02-15 · Xzavier Aaron

SharePoint2010升级到SharePoint2013操作手册第一章前言在技术领域中，随着软件系统的迭代升级，企业往往面临如何将现有的系统迁移到新版本的问题。...SharePoint2010升级到SharePoint2013操作手册 2026-02-15 · Xzavier Aaron

在现有Seafile 上追加 Azure Blob 磁盘已有运行中的Seafile（Docker）现有数据保持不变新增几个AzureBlob作为...在现有Seafile上追加AzureBlob磁盘 2025-11-21 · Pastore Antonio

.NET CORE 传统方式调用SharePoint 直接贴代码：usingMicrosoft.SharePoint.Client;usingPnP....NETCORE传统方式调用SharePoint 2025-09-25 · Pastore Antonio

Azure 申请SharePoint 应用登录后台如下：进入Azure:选择之后进入创建应用：进入之后输入名字按照如下图示点击注册：创...Azure申请SharePoint应用 2025-09-25 · Pastore Antonio

VS中MVC解决方案复制后修改调试端口我之前是直接去解决方案属性中修改：然后恭喜你，你会喜提报错。正确方式，打开项目属性：这里重置切...VS中MVC解决方案复制后修改调试端口 2025-03-17 · Pastore Antonio

如何在C#WinForms应用程序中显示当前版本信息在开发C#WinForms应用程序时，向用户展示当前版本信息是一个常见的需求。这不仅可以帮助用户了解...如何在C#WinForms应用程序中显示当前版本信息 2025-03-10 · Pastore Antonio

2022年4月30日削苹果削了手，太懒不想收藏资料的时候复制粘贴所以开发了一个快速发布的组件。花了2天…… 2022-04-30 · Pastore Antonio

2021年12月27日头疼/胸闷/肋条疼/脚脖子疼……没钱……明天要给员工发工资了。 2021-12-27 · Pastore Antonio

2021年12月22日今天天气：多云转晴早上太多雾，但怕迟到还是一路超速……赶到了目的地，在车库绕了四层没一个车位，绕晕...2021年12月22日 2021-12-22 · Pastore Antonio

最热标签

aspnet-wwwroot-error-solution ASP.NETCore启动报错：DirectoryNotFoundExceptionwwwroo...aspnet-wwwroot-error-solution 2025-12-28 · Pastore Antonio

SharePoint Server 出现 ERR_HTTP2_PROTOCOL_ERROR 如果SharePointServer在http的情况下能够访问，但是在https下不能访问报错如...SharePointServer出现ERR_HTTP2_PROTOCOL_ERROR 2025-10-21 · Pastore Antonio

.NET CORE 快速文本搜索器简单的搜索引擎：usingSystem;usingSystem.Collections.Gen....NETCORE快速文本搜索器 2025-09-25 · Pastore Antonio

.NET CORE 传统方式调用SharePoint 直接贴代码：usingMicrosoft.SharePoint.Client;usingPnP....NETCORE传统方式调用SharePoint 2025-09-25 · Pastore Antonio

.NET CORE 使用应用方案操作SharePoint Online 世纪互联版我来为你创建一个.NETCore应用程序，用于向世纪互联SharePointOnline....NETCORE使用应用方案操作SharePointOnline世纪互联版 2025-09-25 · Pastore Antonio

Microsoft Excel 365 的 DCOMCNFG 中缺少 Microsoft Excel 应用程序试试这个方法：这个方法不是解决你看不看得到，而是配置你看不到也能使用了。原操作方案：Micro...MicrosoftExcel365的DCOMCNFG中缺少MicrosoftExcel应用程序 2025-06-11 · Pastore Antonio

为你的wordpress主题添加支持文章格式如果你的主题不支持文章格式，首先你需要在functions.php中添加如下类似代码让你的主题支持该...为你的wordpress主题添加支持文章格式 2024-04-17 · Pastore Antonio

wordpress新增文章类型要在WordPress中添加自定义文章类型，您可以按照以下步骤进行：使用函数创建自定义文章类型：...wordpress新增文章类型 2024-04-17 · Pastore Antonio

去除WordPress登录页面的翻译组件在主题function.php中添加如下内容：add_filter(‘login_d...去除WordPress登录页面的翻译组件 2023-08-30 · Pastore Antonio

Linux 下Wordpress博客搭建 WordPress#下载安装文件cd/usr/local/nginx/html/blogw...Linux下WordPress博客搭建 2021-12-11 · Pastore Antonio

从零开始在linux下搭建wordpress博客一，准备linux环境本地虚拟机可以忽略第一部分微博以及微信的公共平台现在正火的一塌糊涂。既...从零开始在linux下搭建wordpress博客 2021-12-11 · Pastore Antonio

centos 常见问题 1：DNS配置域名无法在Linux下解析是一个比较普遍的问题，造成这个问题有很多原因，比如：服务器...centos常见问题 2023-11-08 · Pastore Antonio

linux中查找包含指定内容的文件文件名+内容根据时间查找日志查询指定时间段内的日志查找关键字只显示包含内容的文件名文件名+...linux中查找包含指定内容的文件 2021-12-11 · Pastore Antonio

Linux 下Wordpress博客搭建 WordPress#下载安装文件cd/usr/local/nginx/html/blogw...Linux下WordPress博客搭建 2021-12-11 · Pastore Antonio

linux 安装php8 准备工作　　创建空文件夹>mkdir/opt/php//创建目录>cd/...linux安装php8 2021-12-11 · Pastore Antonio

C#下解析html页面的几种方式

橙子主题打折出售

留言板

发表回复取消回复

MVP 聚技站｜GitHub Copilot SDK 入门：五分钟构建你的第一个 AI Agent

热门文章

最热分类

最热标签

最新发布

C#下解析html页面的几种方式

橙子主题打折出售

留言板

发表回复 取消回复

MVP 聚技站｜GitHub Copilot SDK 入门：五分钟构建你的第一个 AI Agent

热门文章

最热分类

最热标签

最新发布

发表回复取消回复