0%

数据爬取

微博爬虫

1、站点分析

① 目标网站
微博高级搜索

② 网站测试

  • 通过输入发现网站的数据都是通过ajax进行数据传输的,所以没办法直接根据url进行爬取
  • 可以直接通过关键字搜索得到结果,然后评论要根据微博mid或者点击获取

2、爬取策略

  • 使用selenium实现高级搜索
  • 先爬取热门的微博20条
  • 然后针对每条微博,通过selenium实现评论爬取,这里对评论的爬取可以利用ajax,具体后面再分析

3、尝试

4、部署

知乎爬虫

数据处理

数据存储