1. 研究目的与意义
随着信息技术的发展,网络日益成为人们认识及交流的重要平台。与此同时,网络谣言也越加泛滥。微博因其低门槛、匿名性,社交的公开性及其很强的连通性,成为网络谣言的重灾区。谣言会对个人、社会乃至国家产生危害巨大,会造成群众恐慌,引发信任危机,因此及时有效的清理微博谣言变得非常有现实意义。尽管目前已出台很多法律抵制谣言,然而由于微博每日新增微博量巨大,传播速度很快,依然有很多谣言在网络上发酵产生危害,因此仅仅以法律的权威减少谣言的传播是不够的。我们还需要利用检测模型的研究,尽早地检测出微博上的谣言,使其传播还未扩大或者产生危害之前将其清理掉。因此本文研究非常有意义。
2. 研究内容和预期目标
研究内容:本文主要针对微博平台上的网络谣言检测。为了检测微博谣言,本文将先研究谣言的特点,如谣言内容文本的特征、用户的特征以及传播过程中展现出的特征等,并根据这些特征建立合适模型拟合,使得绝大部分的谣言都能通过这个模型检测出来,从而达到对微博上的谣言进行控制的效果。
拟解决的关键问题:研究中目前首要的问题是数据收集问题,虽然数据仅限于微博平台,但由于谣言数量众多,且文本数据量复杂、庞大,还要考虑到剔除一些非典型的数据。数据的可靠程度直接影响到研究的结果,因此数据收集是目前的重中之重,有了数据才能进行下一步研究。其次,数据的分析处理也是一个比较复杂的过程。提取谣言什么样的特征也很重要,提取的要素又要显著又不能过多,否则会失去谣言的“共性”拟合不出适合的模型。最关键的是模型的拟合,拟合的好坏决定了这次研究的结果。
写作提纲:本文大致分三个板块,第一板块先介绍数据收集和处理过程。数据处理也就是针对数据选择一些典型的指标并根据这些指标分类汇总。在谣言文本信息提取时,设定类别对文本类型及情感指向进行提取(例如用?表示质疑,用!表示吃惊)。第二板块就是建立模型,这一板块需要大量的尝试,运用多种模型拟合。最后一板块是模型应用,将上面的模型对比验证,选取最佳的模型,与此同时我们选取一些近期的谣言带入模型进行检验应用。
3. 国内外研究现状
国内外对这方面的研究较少,而且大部分还是几年前的研究,随着网络的发展,微博谣言又呈现出一些新的特点,因此有的模型可能不太适用。此外,大部分对微博谣言检测的研究仅仅停留在用时间序列拟合预测,方法比较单一。而且预测出的结果有些也不太理想,时间序列预测需要谣言先发展一定时间才能根据它表现出的时间变化特点对其进行判断,有一定的滞后性,而对谣言的检测控制关键还是要有及时性,在谣言未产生危害前消灭它。因此,我们在这一领域还有较大的改进空间。
4. 计划与进度安排
本文针对微博谣言,通过分析谣言的文本的特征、用户特征以及传播过程中的特征,并选取一定的指标,收集数据。拟采用建立三个模型分别对谣言进行识别检测,三个模型可以从不同的方面进行模拟,以达到互补的效果。若微博上一个文本的特点同时能通过这三个模型,那么它必然是谣言,这样我们就达到了研究的目的。不过多个模型会导致一个样本在其中两个模型中通过另一个却不通过的情况,可靠度上升但效率有所下降。最后是模型的检测和应用,还需要选取一些近期的谣言将其带入模型检验模型的有效性,选取最佳模型,并对三个模型的适用情况及其特点和有效程度进行分析。
5. 参考文献
[1]吴越,肖容.面向微博谣言关注度的大数据时序特性分析[j/ol].软件导刊:1-6[2019-11-28].http://kns.cnki.net/kcms/detail/42.1671.tp.20191122.1626.074.html.
[2]毛二松,陈刚,刘欣,王波.基于深层特征和集成分类器的微博谣言检测研究[j].计算机应用研究,2016,33(11):3369-3373.
[3]何书元.应用时间序列分析[m].北京:北京大学出版社,2007.
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。