0%

基于爬虫的可视化文本分析平台2-提纲

课题名称—基于爬虫的网络信息可视化分析平台

课题意义

  • 实现对一些主流信息发布网站数据的爬取,获取实时的信息数据
  • 对网络信息进行分析聚类然后进行可视化的直观展示,更快捷直观的了解热点问题及其影响
  • 通过定向数据爬取,更具体的了解某些热点信息的发展趋势

课题综述(研究现状)

  • 网络爬虫
  • NLP文本分析
  • 信息数据可视化

课题难点

  • 数据高并发批量爬取
  • 定向数据爬取的队列管理问题
  • 目标网站的反爬机制
  • 数据的抽取与清洗
  • 文本分析的目标结果与精度的提升
  • 可视化展示的信息时效性问题
  • 功能扩展接口

课题方案和需要条件

一、爬虫

  • 使用scrapy+redis实现分布式爬虫
  • 定向数据爬取时维护一个优先级队列,同时针对当前网站状况和目标优先级进行排队处理

二、文本分析

  • 文本聚类
  • 情感分析
  • 时间演化分析

三、数据可视化

  • 基于echarts实现前端图表展示
  • 热点排行、关注度
  • 情感positive
  • 情感时间演变图表

计划进度与预期成果

  • 爬虫功能和接口开发
  • 数据的清洗和过滤模块开发
  • 文本分析模型构建和调试
  • 前端可视化界面搭建
  • 后期调试与

论文翻译

  • Oladejo Bolanle;Babajide Olanrewaju A Framework for News Media Knowledge Discovery Based on Text Mining Techniques[J] SJZN181115640011,2020
  • Kaur P,Attwal KS.Data Mining:Review[J].International Journal of Computer Science & Information Technolo,2014
  • Generative Models for Mining Latent Aspects and Their Ratings from Short Reviews. Li H,Lin R,Hong R,et al. IEEE International Conference on Data Mining . 2016