登峰杯大赛数据挖掘全国一等奖作品分享
导读
本期特别推荐“登峰杯”大赛数据挖掘全国总决赛一等奖作品,作者是来自浙江省湖州中学的四位学霸级同学。本篇论文的核心内容分为“探索规律”和“建立模型”。对于前者,小组以“发现规律”-“构造定律”-“验证定律”的流程相继构造了“八日定律(余热定律)”、“五日定律”、“误差定律”等定律,并通过统计学检验加以验证。此外,论文中定义的“波动系数”、“跟风系数”、“A/B/C类电视剧”等均为新定义参数,在对电视剧特征描述方面有所创新。对于后者,小组舍弃了传统的加权求和模型,将几何模型与数字模型对接,通过螺旋圆柱线这一图形描述电视剧热度随播放时间的上升,其中剧集与圆周,半径与收视人口等等均能巧妙地一一对应,起到了同时从数据和形意上解释热度这一概念的目的。总体来说是本文是一篇写作非常规范,庞杂的数据收集并且论文内含丰富创意,可见作者其中的心血,非常值得各位同学借鉴学习。
团队队员介绍
●殷瞻远:现就读于美国加州大学洛杉矶分校(UCLA)应用数学专业,毕业于浙江省湖州中学,曾获美国数学竞赛(AMC)全球前1%荣誉称号,并参加美国数学邀请赛(AIME)。曾率队参加第一、二届登峰杯数学建模竞赛获得初赛二等奖,第二届登峰杯数据挖掘竞赛,全国一等奖获全国物理竞赛三等奖,浙江省物理竞赛一等奖,
●凌程翌:现就读于合肥工业大学电子信息工程专业,毕业于浙江省湖州中学,曾参加第一、二届登峰杯数学建模竞赛获得初赛二等奖,第二届登峰杯数据挖掘竞赛全国一等奖,连续三年获得浙江省信息学竞赛三等奖,精通Pascal,C,C++,Python,MATLAB等多种编程语言。
●黎沈少杰:现就读于复旦大学软件工程专业,毕业于浙江省湖州中学,曾参加第一、二届登峰杯数学建模竞赛获得初赛二等奖,第二届登峰杯数据挖掘竞赛全国一等奖,全国第十七届国际机器人奥林匹克中国区竞赛人形挑战项目金牌,人形表演项目金牌。
●朗逸霖:现就读于重庆大学通信工程系,毕业于浙江省湖州中学,曾获得第一届登峰杯课外学术作品大赛全国二等奖,参加第二届登峰杯数据挖掘竞赛全国一等奖,第三十届浙江省青少年科技创新大赛二等奖。其“汽车高温维生系统”获国家实用新型ZL。
论文摘要
本文探索电视剧收视率和播放量中隐含的各种定律,在看似杂乱无规律的收视率和播放量中寻找其变化的必然性,为电视剧收视率和播放量的预测做好铺垫。同时本文从多个角度出发探索收视率与播放量之间的联系和区别,探索其描述准确度的不同以及数据变化的特点和趋势性。通过归纳出的结论,本文试图发现不同种类电视剧热播前后的播放量规律。
基于传统的数据模型,本文还结合几何学知识以及物理学知识对电视剧热度进行全面新定义,通过新定义的热度动态地预测电视剧前十热度榜,并且解释新模型的合理性。
关键词:收视率;播放量;八日定律;五日定律;概率曲线图;波动/跟风系数;圆柱螺旋线;水冷;热度预测
问题分析
1、对电视剧后三集收视率预测问题的分析
由于对电视剧后三集收视率的预测是基于电视剧先前的收视情况而定的,而电视剧先前的收视情况的变化模式则因电视剧而异。因此,根据电视剧先前的收视情况定义指标,通过这些指标对电视剧进行分类,再通过其他相关指标,使用统计学方法,推算电视剧后三集收视率的合理区间。
2、对热播前后播放量关系的探究
根据电视剧热播期间和热播后播放量变化模式的不同,本文打算从热播前和热播后各日播放量之和入手,并且着重研究收官附近各日播放量变化的模式。另外本文发现,由于引进剧有相当一部分并非同步引进,因而对于延迟引进的电视剧应当予以分别讨论。
3、对收视率与播放量间异同的分析
由于收视率和播放量均为评价电视剧好坏的指标,因而本文从“两者呈正相关关系”这一假设出发,探究两者的联系;对于两者的不同,本文决定从指标的准确程度以及两者的图像出发结合生活实际探究其本质上的不同。
4、对新热度定义的探究
由于传统的热度定义仅仅以收视率和播放量作为衡量标准,而忽视了舆论等因素对于热度的影响,综合考虑,这一标准是不全面的。若将其他因素纳入考虑标准,通常的想法是将该问题化归为多因子分析问题,排除各因素之间的相互关系,通过综合评价模型以公式表述。但本团队结合几何学知识,一反常规,着重突出传统数据(表象数据)和舆论数据(隐象数据)之间的联系,通过圆柱螺旋线的形式,循环往复地描述热度的上升,而以模拟高温物体在环境下冷却的形式描述热度的下降。
论文内容精选
后三集收视率预测:如何判定1/2/3类剧?
通过绘制半程收视率占全程收视率比值的箱线图,确定1/2/3类剧分类标准,使得该三个区间预测可信度近似。
如何确定后三集收视率区间?
使用Inverse Normal函数,计算在包括不同大小的数据范围的情况下,后三集比后半程(全程)收视率的范围,可同时求得范围和预测精度。前者适用于1类剧,后者适用于2/3类剧。
后三集收视率结论与预测:
在60%的预测准确度下
一类剧:(半程/全程<90%)后三集平均收视率/后半程平均收视率
二类剧:(90%<半程/全程<103.75%)后三集平均收视率/全程平均收视率
三类剧:(半程/全程>103.75%)后三集平均收视率/全程平均收视率
随着预测准确度提高收视率区间有所增大(详见论文)。
热播期前后播放量变化模式
对于A类剧,我们发现电视剧播放量曲线与高斯函数相近,但在收尾阶段,高斯函数积分求得预测电视剧播放量与实际播放量有较大偏差,以下是4部具有代表性电视剧的播放量散点图与拟合曲线:
蓝色柱为高斯函数拟合优度
红色柱为指数函数拟合优度
黄色柱为收官八日内播放量占总播放量比值中,b+c的值一般等于播放天数+8日。因此,我们将其前后分别用高斯和指数函数进行拟合。
八日定律结论与预测
1.电视剧收官八日内电视剧播放量呈高斯函数变化;
2.电视剧收官八日后电视剧播放量呈指数函数变化;
3.电视剧收官八日内播放量约占电视剧收官108日内播放量的88%;
得出八日定律后,我们发现在电视剧收官日附近(即高斯函数达到顶峰附近时),往往散点图(即真实值)高于函数曲线(即预测值),因此我们对收官前后五日的数据进行研究:
收官五日定律结论与预测
1.电视剧收官前后五日内电视剧播放量往往高于高斯函数拟合结果;
2.电视剧收官前后五日内电视剧播放量五次函数(拟合优度为1)与高斯函数拟合预测值之差约为收官后108日内电视剧播放量的3.2%;
电视剧收视率与播放量间的异同
由于无法直接寻找收视率与播放量间的关系,因此我们对电视剧进行聚类。以收官后108天为界,之前为热播剧,之后为后热播剧。对于热播剧,则寻找其热播期内的收视率与播放量间的通用关系;对于后热播剧,则寻找收视率与播放量间的随机概率关系。
为统一播放量的评估标准,我们将播放量推算至电视剧收官108天后,以下是对于未收官电视剧和已收官电视剧的预测方法:
已收官电视剧:
未收官电视剧:
根据已有电视剧播放量拟合函数;
·根据拟合函数积分得到收官8日内播放量;
·根据收官8日内播放量和八日定律求得收官108天内播放量;
·热播剧收视率与播放量间函数:
由于后热播剧收视率与播放量间并没有强相关关系,存在一定随机性,因此我们通过NormalCDF函数(假设固定收视率,播放量呈正态分布)确定当收视率一定时,播放量低于某一数值的概率,从而形成不同可能性的概率曲线。
热度螺旋上升模型
表象线代表传统数据(收视率和播放量)对电视剧热度带来的增量。由于收视率和播放量均为可明显衡量电视剧热度的因素,并且表象线位于每周圆柱螺旋线的外侧部分,因而称之其为表象线。表象线既描述收视率/播放量每日相对变化的大小,又描述其绝对大小,故表象线升角可为负值(热度衰减)。每周表象线所带来的热度增量与其升角和半径均有关。
新评估模型ZD的优势在于其为动态模型,即每部电视剧的热度值是随时间变化而变化的,因其每日收视率/播放量等表象线因素和好评率、搜索量、弹幕数等隐象线因素均会更新,因此电视剧的圆柱螺旋线即会更新一圈,产生当日的新热度值。动态的评估模式,可以增加电视剧的评估维度(即可以以时间为维度评估电视剧热度,可以得到电视剧各集的评价,也可以在不同的时间阶段对电视剧进行横向或纵向比较)。
总之,新评估模型是对旧评估模型的一次优化和全面化,在总体方向上、细节上和全面性上均满足了电视剧热度评估的需要。更为重要的是,新评估模型运用几何方法,形象地将电视剧热度展现在几何图形中,并且化静态为动态,构建了电视剧热度的实时评估体系。
本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢