|
教程概述
本教程先是幽络源初步教学分析掌阅书籍的络结构,比较后提供完整的爬取源码与使用说明,并展示结果,切记勿将本教程内容肆意非法使用。
确定目标
首次做,就先随便找一本的某一页作为目标
任意选择一本进入到任意一页,通过开发人员工具,也就是F12,在元素中可以看到页面中的内容际为引入的iframe,如图
复制这个iframe链接,在另一个页面打开,可以看到,确为书中的内容,如图
确定使用什么库
同样的打开开发人员工具,然后刷新页,在络中可以看到,响应的是一个html页面,而不是像json一样的数据,也不是js内容,因此我们此次爬取应当是用requests_html库,如图
分析页面
在元素栏,我们大致看下页面用到了什么标签,如图,可以看到还不少,特别对于这种编程类的书,可能小说类的书标签没这么复杂、繁多,包括了
h1~h5、div、p、pre、code、ul、img、strong,如图
爬取页面测试
导入requests_html,简单的爬取下当前页面,看看是否有结果,注意headers中请务必替换为自己的Cookie,这个是用户登录掌阅后,个人的Cookie,而且是会失效的,代码与图如下
fromrequests_htmlimportHTMLSession
headers={
'Cookie':'pc_yz_ireader_zypc_guid=4e74VQNTVVFWVVYJAwYGU1MEV1FbDABRXgxWUVBFDgMEChZVA1UkI1FUJRQBIHMATnAHc1IUICQMAE4iDAcCBnAJcl0LUVZDXQ;acw_tc=ac110001173433024156602e0092fe3024a7908746542deb2cde133dcf3d;ZyId=53f28cda676292968b316;Hm_lvt_2583df02aa8541db9378beae2ed00ba0=1732523971,1733117980,17343303;HMACCOUNT=640F76DB991E075B;pc_yz_ireader_userInfo=5a8aVDBAEIA1MFCFwDVlBVB1ZRUwYFBgICAwAADFAJHRdfWgkWREtWEXtZCAQVXUQMUlVZEggKAgUFVFUAVAZEXxZYAgYLGkEGUlEWFUY08TAEELEgkCDBZWQw0f;Hm_lpvt_2583df02aa8541db9378beae2ed00ba0=17343504',#将'your_cookie_here'替换为际的Cookie值
'User-Agent':'Mozilla50(WindowsNT100;Win64;x64)脚本leWebKit53736(KHTML,likeGecko)Chrome9104472124Safari53736'
}
catchUrl=r"wwwireadercomcnindexphp?ca=ChapterContentbid=12582074cid=17"
session=HTMLSession()
response=sessionget(catchUrl,headers=headers)
print(responsehtmlhtml)
通过如上代码,我们获取了当页的元素信息并输出到了控制台,下面来逐步解析标签,结合python-docx库,将爬取的信息存入到word中
分析标签并输出
在<body中可以看到所有内容其都在一个class为h5_mainbody的div标签中,因此可以粗略的直接获取该div下的所有元素,代码与图如下
session=HTMLSession()
response=sessionget(catchUrl,headers=headers)
eles=responsehtmlfind("h5_mainbody*")
foreleineles:
print(ele)#输出每个元素
完整源码与使用方式
完整源码
行数有点大,这里就不直接贴出了,我保存在了夸克盘中(请勿肆意非法使用),完整源码见链接:
panquarkcnsc865bd395ef4
使用方式:
如图,我这里以爬取《Python编程:从入门到践》为例子
可以看到本书的bid为12582074
比较后一页的cid为207
因此我将这个参数填入到源码中
此外,特别需注意的是cookie也要填入自己的,如图
爬取结果
为了演示,我这里只爬取了50页,结果如图,可以看到,书本内容完整的爬取到了word中,且根据标题做了分级,还是很不错的
总结建议
在这个爬取源码中,算是比较良好,能完整的爬取所有内容,我个人认为不足的是图片处理还需化,代码中的图片处理是直接获取的原图,为了美观,应当根据css来决定图片的大小,以上是幽络源的python使用requests_html库爬取掌阅的分析教程与完整源码提供,如有疑问,可加群询问,如有其他需求可站内留言。
更要紧的是,把幽络源分析透彻,让其社会功能发挥到极致才是我们当务之急要做的。幽络源-免费源码,网络兼职,技术教程,项目服务一站式综合平台。https://www.youluoyuan.com/
|
|