如何构建电商舆情分析系统
针对电商行业对互联网新闻舆情的分析需求,构建了一套面向海量新闻数据的电商舆情分析系统,并设计了适用于海量新闻数据聚类的算法,满足了电商行业对互联网新闻数据的智能检索、话题聚类及新闻分析等舆情分析需求,帮助用户实时分析和监控互联网新闻热点,掌控新闻热度和传播走势,及时发现舆情风险并制定相应策略。
近年来,信息技术推动了现代网络技术的广泛应用和普及,网络媒体作为“第四类舆情传播媒体”逐渐受到关注,并作为舆情信息汇集的新通道和“观点的集散地”进入主流社会视野。
需求概述:电商建立面向海量新闻媒体数据的舆情分析系统,通过智能检索得到相关的舆情信息,通过话题聚类发现热点话题,通过话题监控实时监控舆情的发展态势,并对热点舆情进行预警。
系统总体架构:基于上述需求,面向海量新闻数据的电商舆情分析系统架构设计自底向上分为五层:数据源、采集层、存储层、模型层和可视化。
面向海量新闻数据的舆情分析流程:首先,基于关键词标签进行分布式聚类;然后,通过计算类中心开展排序;最后,通过分布式Single-Pass算法进行类合并。
系统整体部署:面向海量新闻数据的电商舆情分析系统架构的核心是大数据平台,它提供了TF-IDF计算公式、余弦距离计算公式、数据采集、存储、分析和服务发布功能。
本文主要通过爬虫的方式采集主流新闻网站数据:大数据平台首先从网页中提取有效内容(标题、正文等),通过关键词过滤掉垃圾数据(拒绝访问、网页登录等信息),再调用NLP服务器提供的分词、实体识别等基础功能对有效数据进行预处理,然后存入ES建索引供用户查询,最后使用本文所述聚类方法对新闻进行话题聚类,根据文章数量对话题进行排序,方便用户快速发现热点话题。
本文针对电商行业对互联网新闻舆情的分析需求,搭建了一套基于大数据和自然语言处理等技术的电商舆情分析系统,该系统实现了海量新闻智能检索、话题聚类以及新闻特征分析等功能。同时,针对海量新闻数据,本文设计了结合TF-IDF文本关键词技术和Single-Pass文本聚类技术的分布式聚类方法,弥补现有聚类算法无法高效完成成百上千万新闻数据聚类的空白。目前,该系统已正式上线且稳定运行,基本验证了算法的有效性及系统功能的完备性。
本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢