0%

基于爬虫的可视化文本分析平台1

项目方向

利用NLP加爬虫实现对大批量文本的抽取和语义分析,然后通过网站平台进行可视化分析和展示

项目目标

利用爬虫技术和NLP技术,实现对一些新闻或者实时热点网站的抓取和分析,然后通过网页端进行可视化的展示,可以选择性将爬虫和网站抓取作为重点,

项目选型

— 后台 django+scrapy爬虫+mongodb(这里数据的存储用于网站的用户数据分析,比如热点问题)

—前端Vue+echarts实现可视化展示

项目细节

— 爬虫

项目核心,暂定使用scrapy爬虫实现高并发数据爬取,这里主要要解决的是爬取的队列问题。目标可以是一些主流的信息发布网站,比如微博、头条等等。

— 语义分析

这里要解决的问题是大批量的文本的语义分析,对于语义分析,也就是挖取文本的有用信息,这里也是项目最大的扩展点,这里可以先基于简单的文本positive概率等信息进行分析,然后预留一些功能拓展的接口。

— 数据可视化
相较于传统基于已有数据的网站,基于爬虫的网站要解决的就是信息时效性的展示问题,本系统因为后台还要对数据进行爬取分析和整理会比较耽误时间,所以可以将前端的展示界面设计为定时更新的一些分析结果,比如一些热点讨论等等。

然后在前端可以实现对指定目标信息的选取,然后后台会将目标放入等待队列中进行同步,然后按照优先级和当前运行状况进行数据的爬取、清洗和分析,然后将结果先保存在后台数据库中,等到用户后面进行信息查看的时候,再将结果进行可视化展示。