Logo

怎么用Python导出HTML网页为纯文本txt文件?一分钟教会你

photo

2024年06月03日

在你的日常生活与职场中,时常会需要将网络文档保存以便将来参考。传统的手动复制与粘贴方式不仅效率低下、耗时耗力,还可能因操作失误导致信息错误。幸运的是,Python为我们提供了更为便捷的解决方案。接下来将向您展示一个高效的程序,它们能够让您轻松地将网页信息转换为文档格式,从而大幅提升您的工作效率。

首先,确保你已经安装了所需的库。如果没有,可以通过以下命令安装:

pip install requests beautifulsoup4

接下来是程序主要代码:

import requests
from bs4 import BeautifulSoup

# 网页URL这里需要你替换成你自己所需要的url值
url = 'http://example.com示例网址,请替换成你自己的'

# 发送HTTP请求获取网页内容
response = requests.get(url)
web_content = response.text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(web_content, 'html.parser')

# 提取网页中的文本内容
# 这里使用strip=True来去除每行末尾的空白字符,包括换行符
# 使用joinlines=True来将所有文本合并为一个长字符串,去除中间的空白行
text = '\n'.join(soup.stripped_strings)

# 保存文本内容到txt文件
with open('output.txt', 'w', encoding='utf-8') as file:
    file.write(text)

print('网页内容已提取并保存到文本文件。')

这段 Python 代码的作用是从指定的 URL 下载网页内容,并将其纯文本内容提取出来,最后保存到一个名为 “output.txt” 的文本文件中。以下是每一步骤的详细解释:

1. 导入库:

`import requests` 导入了 `requests` 库,这是一个用于发送 HTTP 请求的库,可以方便地获取网页内容。

2. 定义要爬取的网址:

这里定义了一个字符串变量 `url`,它指向了示例网址 `’http://example.com’`。在实际应用中,您可以替换为想要爬取的实际网址。

3. 发送 GET 请求并获取响应:

使用 `requests.get()` 函数向指定的 `url` 发送一个 HTTP GET 请求。返回的对象 `response` 包含了服务器对请求的响应,其中包括了网页的原始内容以及其他响应头信息。

4. 提取响应的文本内容:

从 `response` 对象中获取网页的 HTML 内容作为字符串,赋值给变量 `web_content`。

5. 解析 HTML 内容:

使用 `BeautifulSoup` 创建一个解析器对象 `soup`,传入 `web_content` 作为要解析的 HTML 文档,同时指定了解析器类型为 Python 自带的 ‘html.parser’。`soup` 对象可以用来遍历、搜索、修改和提取 HTML 文档中的内容。

6. 提取并合并网页中的所有文本:

`stripped_strings` 是 `BeautifulSoup` 对象的一个生成器,它会迭代去除标签后所有的字符串内容(即去除字符串两边的空白字符,并忽略空字符串),并将这些文本内容连接起来,每个文本块之间用换行符 `\n` 分隔,最终得到一个只包含纯文本内容的字符串 `text`。

7. 将文本内容写入文件:

使用上下文管理器 `with` 打开一个名为 `’output.txt’` 的文件,模式设为 `’w’` 表示覆盖写入,同时指定了编码为 `’utf-8’` 以支持多语言字符。接着调用 `file.write(text)` 将 `text` 字符串内容写入到此文件中。

8. 输出提示信息:

最后,程序打印出一条消息,表明网页内容已经成功提取并保存到了文本文件中。

橙子主题打折出售

其实我不卖,主要是这里是放广告的,所以就放了一个
毕竟主题都没做完,卖了也是坑.

购买它
所有附件
该文章没有附件.
本文为原创文章,请注意保留出处!

热门文章

西游记之大圣归来 《西游记之大圣归来》是根据中国传统神话故事《西游记》进行拓展和演绎的3D动画电影。由横店影视、天空之城、燕城十月与微影时代作为出品方,高路动画、恭梓兄弟、世纪长龙、山东影视、东台龙行盛世、淮安西游产业与永康壹禾作为联合出品方出品,田晓鹏执导,张磊、林子杰、刘九容和童自荣等联袂配音。影片讲述了已于五行山下寂寞沉潜五百年的孙悟空被儿时的唐僧——俗名江流儿的小和尚误打误撞地解除了封印,在相互陪伴的冒险之旅中找回初心,完成自我救赎的故事。 作者:Pastore Antonio
1429 浏览量
Jquery如何选取元素及其所有子元素?jquery选择器大全 $("#myELement")选择id值等于myElement的元素,id值不能重复在文档中只能有...Jquery如何选取元素及其所有子元素?jquery选择器大全 作者:Pastore Antonio
1399 浏览量
Office 365身份认证–深度解析(一) 微软Office365现在支持的认证方式,正准确的说是AzureActiveDirectory...Office365身份认证–深度解析(一) 作者:Pastore Antonio
1374 浏览量
Navicat设置MySQL索引+MySQL索引知识 引用:https://www.cnblogs.com/bypp/p/7755307.htmlht...Navicat设置MySQL索引+MySQL索引知识 作者:Pastore Antonio
1367 浏览量
ffmpeg+srs 实现直播流 这篇文章是我在做直播流的时候收集的所有素材,没有太多的整理,都放到了脑袋里面了,之后有时间了再整理成...ffmpeg+srs实现直播流 作者:Pastore Antonio
1359 浏览量