简单的Python爬虫自动下载小说

Programer/IT Automation

Last Post by tai chi 4 years ago

1 Posts

1 Users

0 Likes

3,292 Views

RSS

tai chi

(@taichi)

Member

Joined: 4 years ago

Posts: 408

Topic starter 29/04/2020 12:42 pm

简单的爬虫自动下载小说

import requests #导入HTTP请求库
from pyquery import PyQuery #PyQuery，原生css选择器

'''获取单章节内容'''
def get_one_chapter(chapter_url = None, name = None):
response = requests.get(url = chapter_url)
doc = PyQuery(response.text)
title = doc("h1").text() #“h1”各网站标签不尽相同，请自行分析网站源码配置
content = doc("#content").text() #“#content”各网站小说内容关键词，请自行分析网站源码配置
print(title,content)
with open(file = name + ".txt", mode = "a+", encoding = "utf-8") as f:
f.write(title + "\n\n" + content)

'''解析一本书所有章节的url和书名''
def get_index(book_url):
index_url = book_url
text = requests.get(url = index_url).text
doc = PyQuery(text)
links = doc('#list a') #links 获取所有链接标签
name = doc('h1').text()
for link in list(links.items())[8:]: #一般目录网页都会有限显示最新更新章节，更具实际情况跳过章节
chapter_url = 'http://www.XXXXXX' + link.attr.href #防止有人说我打广告，网址自己配置
get_one_chapter(chapter_url = chapter_url, name = name)

'''解析全站书籍url'''
def get_all_book_url():
all_book_url = "http://www______XXXXXX%22& z" target="_blank" rel="noopener"> http://www.XXXXX X"
response = requests.get(url = all_book_url).text
doc = PyQuery(response)
links = doc('#main a')
for link in list(links.items()):
book_url = 'http://www.XXXXXX' + link.attr.href
get_index(book_url = book_url)

get_all_book_url()

Quote

Topic Tags

Python 爬虫

中国历史上最高水平的36首诗

36《登幽州台歌》·陈子昂前不见古人，后不见来者。念天地之悠悠，独怆然而涕下！陈子昂是唐诗开创时期在诗歌革新...

By ITPro , 2 months ago
RE: 网络通|免费内网穿透工具

机房现场运维用的 - frp远程连接windows桌面 June 20, 2023 YY.K Permali...

By tai chi , 10 months ago
Win10 Win11系统版本一键切换v6.5

Official website： OSSQ-Win10 Win11系统版本一键切换是一款系统版本转换工具...

By tai chi , 12 months ago
[Windows] 异地组网工具 Radmin_LAN

Radmin LAN是一款使用简单的免费软件产品，用于创建虚拟本地网络。该程序允许用户安全地连接位于防火墙后的...

By tai chi , 12 months ago
Aegisub视频加字幕工具 [Windows][MAC]

Aegisub 是一款自由、跨平台的开源字幕编辑软件。它能让您轻松且高效地完成时间轴的制作，并利用内置的各种实...

By tai chi , 12 months ago
ShotCut v23.05.07 视频剪辑编辑软件 [Windows][macOS][GNU/Linux]

ShotCut 是一款开源免费跨平台的视频剪辑软件，ShotCut支持数百种音频和视频格式以及编解码器。无需导...

By tai chi , 12 months ago
数据恢复软件合辑

另：首先感谢[@夜色随风]大哥射U，大家使用软件时最好提前百度使用方法，如果比较重要的数据还是建议大家用专业数...

By tai chi , 12 months ago
网络小说的拓荒史

一看日历，现在已经是2020年5月了。网络小说发展至今多少年了呢？大概是23年了，与网络小说同年龄的人现在都已...

By tai chi , 12 months ago

简单的Python爬虫自动下载小说

Share this:

Like this: