python3 爬取豆瓣每本书对应评论用户的个人想读和在读的标签
目录结构
douban
├── DBOperator.py 操作数据
├── GetBookTag.py 个人用户书的标签
├── GetBookUrl.py 每本书的地址
├── GetPeople.py 每本书对应所有的评论用户
├── init.py 空包
└── UserAgent.py 浏览器头
#
所需环境
python3.x
项目源代码
https://github.com/hannoch/pythoncode/tree/master/douban
pip install requirements.txt
本程序的流程
流程就是,随便一本书—用户评论—用户想读的书–得到想读和在读的标签 脚本执行先后顺序:
1、首先要得到每本书对应的地址 python3 GetBookUrl.py
2、再得到每本书对应所有的评论用户 python3 GetPeople.py
3、最后得到用户的标签 python3 GetBookTag.py
ps:三个脚本可独立运行,需要替换每个脚本里的cookies
顺序流程
数据库存储如下: