舆情监测

2022-03-24 版权声明 我要投稿

第1篇:舆情监测

网络舆情的监测技术探讨

摘 要:网络舆情是互联网发展到一定阶段的必然产物,其在对应情况下会形成特定的社会舆论力量,对于人们的生产生活工作产生不同程度的影响。实现对于网络舆情的精细化管理和控制成为共识,各个行为主体都结合实际网络舆情监测需求,积极使用对应的检测技术方案,以引导实际网络舆情的检测朝着更加理想的方向发展和进步。文章从这个角度来讲述,首先对于网络舆情监测的相关概念进行诠释,继而分析了网络舆情监测技术的价值,在此基础上,积极总结和归纳了当前网络舆情的监测技术,以便增强对于网络舆情监测技术的有效认知。

关键词:网络舆情;监测技术;监测手段;监测策略

1 网络舆情监测的概况

1.1 网络舆情与网络舆情监测概况

网络舆情是指在互联网环境中,对社会问题提出不同的看法,由此诞生对应的网络舆情。可以将其归结到社会舆论的体系中去,只是信息传递的方式是互联网,信息传递的效率更快,不受时间和空间等因素的影响,由此很容易形成对应的舆情,继而影响到人们的工作和生活。从当前来看,网络舆情主要有如下几种表现方式:新闻评论方式、BBS论坛方式、博客方式、播客方式、微博方式、聚合新闻方式、新闻跟帖方式、转帖方式等。在这些网络信息交互平台上,更加容易形成实际的网络舆情。网络舆情的影响力在于:会对政治生活秩序产生影响,会对于社会稳定产生影响,如果实际的网络舆情处于失控的状态,很容易出现突发事件,继而诱发民众的不良情绪,甚至过激行为,对产生不良影响[1]。

网络舆情监测,是指结合网络舆情的产生机制,运用互联网信息采集技术、信息智能化处理技术等,对海量的互联网数据信息进行自动抓取,分类聚类,主体检测,专题聚集,由此对于实际的网络舆情实现检测,对于新闻专题实现追踪,并且形成对应的舆情监测报告,为实际的信息需求提供动态的信息基础,以便其作出对应的决策。从现阶段来看,网络舆情的监测方式集中体现为两种:(1)人工监测方式,发挥搜索引擎的效能,对于网站或者平台进行人工监测,人工的监测效率比较低,往往难以对大量的信息进行实时监测,会对监测的价值发挥产生不良影响,展现出其使用的局限性。(2)自动监测方式,主要是使用网络舆情监测系统来帮助其完成实际的监测任务,确保做好实际的网络舆情信息分析,继而帮助其作出实际决策。这种方式的优势很明显,系统架构难度大,成本比较高,需要发挥多种舆情监控技术的协作效能,但是可以展现出极高的舆情监控素质和能力,能够在众多的领域得以有效应用。

1.2 网络舆情监测的必要性

不同领域不同行业不同网络舆情使用者,其关注的监测对象是不一样的,此时需要的监测技术方案也有所差异。但是从宏观角度来看,网络舆情监测的必要性集中体现在如下几个方面:(1)实现网络舆情数据的掌握,可以获取到更加多有商业价值的情报,以我国6.49亿网民为例,其都是通过网络来进行资讯获取的,并且在对应的互联网信息平台上进行交互,对于这些交互信息进行分析和利用,可以是企业营销策略调整的重要依据,可以是实际产品研发的重要渠道,继而极好地展现出其自身的商业价值。(2)实现网络舆情的监测,可以为行为主体的文化建设、形象建设、思想建设等工作奠定基础。了解对象行为主体的思想动态、行动动态,继而制定和执行对应的网络舆情监测方案,可以使得实际的声誉建设、文化建设、思想建设工作朝着更加精确的方向发展。比如政府部门建立的网络舆情监测和预警系统,可以更好地与民众进行交互,了解民众的舆情,对于其需求进行反馈,继而驱动实际网络舆情朝着有利于我国社会主义核心价值观培育和践行的方向发展[2]。

2 网络舆情监测技术的探讨

2.1 网络舆情信息提取技术

网络舆情信息提取技术是舆情监控的重要环节,其来源为动态网页,在实际信息采集格局中,使用网络爬虫或者网页清洗技术,做到实际信息的提取。在此方面又可以归结为如下几种:(1)正则表达式匹配和MD5解密融合技术,认为在实际网络爬虫方案中,可以将这两者融合起来,以发挥出实际技术的效能,继而确保实际的爬虫可以切实发挥效能。(2)基于SrcRank算法,使得网络舆情信息源的重要性得以排列,继而建立信息源的表现力体系,了解网民对于对应事件的舆情信息源影响力,由此建立对应的评估机制,在此过程中,实现自定义数据信息的抓取,虽然不能确保所有类型文件都被纳入其中,或者覆盖整个网络信息,但是可以在特定的网络环境中发挥其在网络舆情信息提取中的效能。

2.2 网络舆情文本挖掘处理技术

文本挖掘处理是网络舆情系統的重要运作环节,需要对于文本进行规范化处理,并且将实际的网页格式的文档进行格式操作,确保其统一性。在此基础上,还需要考量实际的网页是否存在冗余的情况,并且制定对策,由此保证实际网络舆情处理效率和效益的提升。一般情况下,网络舆情的数据是非结构性的,这就要求在进行预处理的时候,采取特定的手段来进行。比如以Xquery为基础,实现网络舆情关联挖掘方案的敲定,这种技术方案可以使得实际挖掘速度得到提升。再者,还可以从判断页面内容和主题相关性的维度,以关键词为基础实现匹配模型的构建,信息主题的过滤和聚合,是以布尔模型和向量空间模型为基础的,由此确定实际的用户索引规则,确保其语义信息匹配度,并在此基础上完成实际的文本挖掘处理工作[3]。

2.3 网络舆情分类技术

网络舆情分类,主要任务在于:对于获取到的网络信息,采取对应的手段或者标准,做好类别划分,一般是以自然语言处理技术为基础来驱动的,一则文本分类技术,再则文本聚类技术。以文本分类为基准,其分类的实现路径有两种:(1)以规则为基础,实现规则的界定,由此保证实际类别的有效划分。(2)以统计为基础,采取对应的方式,完成实际的统计。下面我们来一一分析,选择以规则的方式来进行。权威专家会对于类别进行规则限定,由此找到对应的规则文档,将其妥善划分到对应的类别中;选择以统计的方式进行,基于训练学习,实现分类模型的构建,由此达到实际的类别划分基准[4]。

2.4 网络舆情文本表示和主题发现技术

文本表示和主题发现,是舆情监控系统中的重要节点。尤其在当前网络信息量不断增加的情况下,搜索引擎可以实现特定信息的查找,继而可以获得对应的主题信息。从当前实际主体识别的技术来看,一开始使用线性文本聚类手段,接着以内容特点的话题标注引统计识别的方式来驱动,由此完成实际文本表示和主题发现工作。详细来讲述,其技术实现路径有:(1)计算词语在回帖传播链上的影响力,对于实际的影响力特征进行提炼,由此找到对应有影响力的主题。(2)对于BBS而言,主要倡导以层次化关键词抽取的方式来进行,界定父关键词和子关键词,并且将机器学习融入其中,这样就可以获取对应的关键词。(3)巧妙地将本体论和语义计算技术融入实际舆情分析中去,尤其是针对网络舆情群体事件,此技术方案可以发挥出更加理想的效果。(4)立足主题发现,将主题发现技术运用进去,此时需要进行的步骤有主题聚类、主题描述和主题可视化操作,由此使得实际发现效益和效率得到全面提升[5]。

2.5 网络舆情意见挖掘和观点分析技术

网络舆情意见挖掘和观点分析,是实际网络舆情监测中的重要节点。当前一般会在电子商务领域中使用,主要以对应商品意见挖掘为目标。为此,其实现路径主要有:以挖掘领域本土构建为基础,对于文本中的主题和观点进行有效获取,并且分析词语的情感特点,由此实现极性词典的构建,并且采取多样化手段,确保文本情感倾向性的有效挖掘。再者,在对文本内容进行分析的时候,要识别实际情感趋向、观点趋向、情感动态趋向,在对应的时间段实现有效的挖掘。此时实际的处理手段主要有3种:(1)以简单统计分析法;(2)机器学习法;(3)细粒度情感法[6]。

3 网络舆情监测技术未来发展趋势

3.1 综合性

当前诸多领域和行业都在强调网络舆情监测技术的使用,由此衍生出很多的网络舆情监测技术手段,这些技术单一的系统架构中可以切实地发挥其效能,使得网络舆情系统展现出多样化的功能。但是随着实际网络舆情监控需求的多元化发展,此时要求将多种监测技术融合到一起,以发挥出综合性的功能,需要处理好不同技术方案之间的关系,保证在对应系统架构中,彼此之间相互协作,由此引导实际网络舆情监测技术的效能得到全面发挥。

3.2 标准性

技术的多样化发展,为其在某个领域或者行业的专业应用奠定了夯实的技术基础,而为了确保实际技术实现行为的有效性,引导这样的技术朝着标准化和规范化发展,也成为未来网络舆情监控技术的发展趋势之一。也就是说在未来网络舆情监测技术会形成对应的国际标准、国家标准、行业标准、企业标准、地方标准等,依靠完善的标准体系,引导实际网络舆情监测工作朝着规范化的方向发展和进步[7]。

3.3 专业性

技术专业性的发展主要体现在:越来越多以网络舆情监控技术应用服务为主导的企业开始成立,越来越多的人开始参与到实际的网络舆情监控技术系统构建的工作岗位中去,实现实际行业的不断细分,继而形成对应行业格局,这就是实际网络舆情监控技术在未来的专业化发展前景。从当前实际网络舆情监控系统的应用实践来看,专业化发展将会成为这种新型行业可持续发展的重要环节。

3.4 商业性

也就是说网络舆情监测技术虽然有着不同的应用环境和目标,但是其最终的落脚点都会作用到策略上,尤其对于部分商业经营为主导的行为主体,会利用网络舆情监测技术,引导实际的经营决策与网络舆情监测之间的交互,由此使得实际网络舆情监测工作朝着更加商业化的方向发展,因为在此过程中实际的价值会不断呈现,这在客观上也会促进实际网络舆情行业的可持续发展和进步[8]。

4 结语

综上所述,网络舆情的监测工作,将会在未来朝着商业化、综合化、专业化和标准化的方向发展和进步,站在这样发展的维度去审视当前诸多网络舆情监测技术,可以引导我们进入全新的技术发展阶段,希望能够在网络舆情技术方面的研发体系朝着更加完善的方向发展,实际的技术协作素质不断提升,这样可以为制定更加健全的技术方案,奠定夯实的基础。而在实际网络舆情监控的过程中,确保实际监控需求得到界定,并且采取对应的监控手段,确保实际网络舆情监控系统朝着更加完善的方向发展。作为网络舆情监测技术的研发者,要持续运用其他学科的方法,在原有数据挖掘算法的基础上改进或者提出新的算法,提高网络輿情监测技术水准,以便在未来的网络舆情监控行业占据优势地位。

[参考文献]

[1]卢文刚,魏思琦.全媒体时代突发公共卫生事件网络舆情治理:以“山东非法疫苗事件”为例[J].中华灾害救援医学,2017(6):3.

[2]石方夏.社会管理视角下的西藏网络舆情引导机制研究[J].西藏发展论坛,2016(6):70-73.

[3]刘静.主要发达国家加强突发事件网络舆情政府治理的经验与启示[J].沈阳干部学刊,2017(2):36-38.

[4]车洪莹.“互联网+”背景下网络舆情治理策略研究[J].新闻研究导刊,2017(10):92.

[5]林楠,蔡乙华.网络舆情应对与政府公信力维护[J].广州大学学报(社会科学版),2017(4):27-31.

[6]魏淑艳,唐荣呈.辽宁省网络舆情事件的发展态势及应对策略[J].沈阳大学学报(社会科学版),2014(3):285-290.

[7]夏厦.互动视角下突发网络舆情政府回应分析—以天津港大爆炸为例[J].今传媒,2017(6):54-55.

[8]殷辂.网络舆情事件的最新特点及其治理路径—以2016年河南省网络舆情事件为例[J].郑州航空工业管理学院学报(社会科学版),2017(5):25-30.

作者:艾克拜尔江·买买提

第2篇:品牌舆情监测:另一个新闻视角

数字化、网络化之后,特别是社交类网络媒体勃兴之后,任何组织机构和个人面对的媒体环境都发生了根本的变化,传统媒体环境下行之有效的方法现在越来越不管用,甚至产生副作用了。不管是被搅入“郭美美事件”的中国红十字会,还是因“7·23”动车追尾事件而引发公众强烈不满情绪的铁道部,在信息发布环节都曾经试图通过国家级通讯社和主流媒体单方向传递事先准备好的说辞,但是,铺天盖地的网络信息,特别是微博上的不同信息源传递着品质不一、情绪各异的内容,在马赛克似的信息墙上,为公众还原着事件的真相。甚至有资深的媒体人惊叹,在信息的及时性、互动性和还原性等方面,传统媒体与新媒体相比,是一次“完败”!

这样的媒介环境下,企业应该如何充分而有效地利用媒介资源,为企业的市场竞争营造良好的舆论环境?说实话,到现在为止,还没有经过实证检验的有效且普适的方法。因此,对于每一个具体的组织而言,有效利用媒介资源必须建立在对实际发生的与企业品牌相关的舆情信息充分了解的前提下,借鉴已经发生的成功经验与失败教训,总结出一套符合自身特点的信息传播与控制方法。否则,所有为企业形象和品牌价值提升所做的工作都有可能白费。换言之,考量媒体的传播价值,可以通过观察它信息传播和扩散的广度和深度得以实现,舆情监测工作正是通过技术手段解决这一问题的有效方法。

关注度:新闻价值的广度指标

企业作为信息的主动传播者,总是希望有利于企业形象和品牌价值提升的信息传播面越广越好,从接受者的角度说,就是受关注的程度越高越好。现在,好多企业领导人对于这一指标的考量还停留在直观感受阶段,他们要求公关营销部门搜罗所有媒体刊发的新闻,文字、照片、视频,越详细越好。我就不止一次地接触到这样的机构,他们把厚厚的一摞摞资料摊放在我面前,展示他们的传播与推广成绩。说实话,每一次我都为他们的辛勤劳动而赞叹他们的敬业精神,同时,也会指出他们这一工作方法的原始落后之处。

现阶段,通过技术手段实现全媒体的信息监测已经不是难事,而关注度就是第一个衡量信息传播波及面的指标。通常情况下,关注度可以根据传播平台的性质加以划分,比如,传统媒体的新闻信息量是一个重要的指标,因为它代表着大众传媒的传播辐射面;网络论坛和博客类的信息是第二个层面,它代表着网络传播的辐射范围;微博等社会化媒体的信息量则是第三个层面,它代表着人际与大众传播相结合的方式所产生的传播广度。在此基础上,根据不同媒体传播效率的高低赋予不同的权重,就可以获得某一事件或新闻的关注度指标。

获得量化指标的目的,是对不同信息传播平台的传播能力进行历时性的对比,发现它们的变动情况,及时调整传播策略,实现传播效果的最大化。同时,可以发现公众对于企业相关信息的关注重点与企业期待的关注重点是否一致,从而在信息源头上加以控制。比如,许多企业在通过大众媒体进行传播推广的时候,总是忍不住要向公众介绍企业的技术领先优势,市场竞争能力,每年的赢利水平等等,总之,凡是向上级领导和董事会汇报的业绩部分,都希望公众知道。殊不知,公众其实对这些不感兴趣,除非他是持有你企业股票的股民。公众最关心的是企业生产的产品是不是安全的、有品质保证的,企业是不是有社会责任感和消费者保护意识的,等等。如果有较长时间的企业舆情监测,这一点应该不难发现。

当然,传统的大众媒体、网络论坛中活跃着的意见领袖和社会化媒体中活跃着的芸芸大众,他们的关注点会有所不同,这一点同样可以通过舆情监测的方式加以发现。在此基础上,企业就可以形成更为精细化的传播策略,在不同的信息传播平台上安排重心各异的传播内容,让企业期待和传播平台的特点相吻合,从而实现企业传播者期待的传播效果。

影响力:新闻价值的深度指标

影响力是一个衡量深度的传播效果指标。

不同传播平台的影响力不一样,测量方法也不一样。对于传统媒体而言,似乎已经有了一套成熟的衡量指标。比如,报纸的发行量、传阅率;电视的收视率、满意度;广播的收听率、忠诚度等,这些都是可以通过多种途径获得的。

相对于传统媒体,新媒体的信息传播影响力评估存在着许多不确定的因素,其中最主要的原因是新媒体发展变化太快,还难以找到一种怎么变化都行之有效的评估指标。但是,有些间接的指标仍然可用,比如,对于博客和论坛而言,评论数、跟帖数就是很好的指标;对于微博而言,除评论和转发之外,粉丝数以及转发者和评论者的粉丝数等,都可以通过一定的数据模型,实现量化的测度。

对于企业的公关与营销部门而言,传播平台对公众的传播能力固然重要,企业对这些媒体平台的影响力更具实用价值。因为,媒体被影响的程度越深,其影响受众的强度和深度也就越高。

举例言之,环球舆情调查中心曾经对央视亚运会传播效果进行监测。在对新闻媒体的影响力监测方面,将新闻媒体关于央视亚运播报的报道分为三种等级,分别是“提及”、“转载”和“针对”。这三种报道中,“提及”表示该媒体对央视的报道力度最小,“转载”的力度稍大,“针对”性的报道力度最大。综合监测发现,“提及”央视亚运播报的略多,占36.0%,“转载”央视的亚运报道以及“针对”央视亚运播报的新闻数量相当,分别为32.3%、31.7%,参照环球舆情调查中心对传播影响力度的评价体系,中央电视台亚运播报之于新闻的综合影响力度为57.9(综合值),处于中等偏高的水平。再对网络论坛和微博传播的相关信息进行定量分析之后,就可以看出不同传播平台的传播影响力。

每一次传播推广战役,对于传播主体而言都是一次考验。新媒体环境带来的种种传播不确定性,给企业形象推广与宣传提出了全新的挑战。舆情监测在提供传播效果评估数据的同时,还能为宣传战役的经验积累提供量化的数据支持。

环球舆情调查中心在对北京电视台网络春晚前期推广活动的效果进行监测评估时发现,网络新闻量的浪潮式变化,分别对应着一系列宣传造势活动,如《春晚e起来》地面活动、多位明星试音和网络春晚彩排等。北京台及其合作媒体腾讯网的主动宣传工作收到了良好效果,引发其他媒体对北京台春晚的关注与报道。然而,临近春晚及春晚节目播出过程中,主动性宣传力度减弱,网络春晚的播出未能引发网评和微博关注高潮。直至北京台春晚的播出才引起了网民的高度关注,并点燃其置评热情。从而使得网络春晚的最终收视效果受到了一定的影响。

当然,关注度也好,影响力也罢,人们期待的都是传播效果与传播目标的契合。但是,实际上,不管是舆情还是新闻价值,它们都是向量,它们既有强度和深度,也有方向。因此,在企业关注的舆情监测中,关注度、影响力是非常重要的指标,态度的正负面却是直击企业神经的指标。

正负面:新闻价值的向量指标

从企业形象塑造或者品牌价值提升的角度说,人们都希望舆情变化的方向是合意的。然而,情况并不总如人意,甚至很多时候不如人意。以至于有人说,2010年是企业舆情危机的“井喷年”。

事实上,企业面临的所谓舆情危机绝不会止于2010年,今年上半年的情形表明,面对舆情危机的不仅仅是企业,还有社会知名人士、公共组织、政府部门等等。也许,对于公众而言,一次企业的舆情危机会在一个爆发期之后烟消云散,但是对于具体企业而言,很有可能是致命性的,从此,企业形象一落千丈,企业品牌失去了公众最基本的信任,产品销量出现严重滑坡。

因此,对于新闻价值的判断,企业、新闻媒体和社会公众的尺度是不一样的,从企业形象管理的角度说,有效地控制负面信息,有策略地传播正面信息,有技巧地引导中性信息,成为媒介资源管理的重要工作。

在许多人看来,当有媒体愿意为企业说好话的时候,有效扩大这种好话的传播面是一件很容易的事情。实际情况并不那么简单,很多时候,企业要表达的意思会被公众按照自己的情感体验进行解读。举个例子,中石化为了回应公众对天价酒的质疑,用他们的食堂工作人员的话证明他们依然保持着艰苦朴素的精神,“萝卜也会分部位进行红烧或凉拌”的说法在网上热传,以至于潘石屹看了也忍不住追问关于萝卜的吃法:“萝卜的什么部位适合红烧?什么部位适合凉拌?这的确是很重要的问题。”

既然舆情的发展方向有时不可预期,那么,及时而准确地了解舆情变动情况就显得很重要,包括舆情的强度变化、影响面的变化、态度的变化,其中,对于负面信息的及时掌握尤为重要。因为,负面信息如果得不到及时有效的回应,很有可能在瞬间转化为舆情危机,从而对企业造成不可挽回的损失。在这个意义上,企业舆情监测的危机预警价值凸显出来。

一般来讲,危机应对有黄金48小时之说,也就是说,在危机发生的两天时间内应该由责任部门向公众发布关于危机的有效解释和实际的应对方法。但是,在新媒体传播环境中,特别是人人都可以成为传播源的社会化媒体爆发式增长后,危机应对的黄金时间大大缩短,甚至有学者提出黄金4小时的论点。也就是说,如果危机主体不能够在混乱的信息大肆传播之前,将公众可以接受的事件真相和应对措施公之于众的话,就很有可能爆发大规模的舆情危机,甚至酝酿成一场品牌灾难。

总之,舆情变化的动态监测应该成为企业形象塑造和品牌价值提升的重要环节,并通过舆情监测实现企业形象传播和媒介资源管理的科学化、智能化,在此前提下,将舆情监测的结果与数据分析的发现转化为指导媒介资源管理和企业形象塑造的技术手段。当然,这一切并不是机器本身可以完成的,它需要一支训练有素的技术和传播推广团队,他们可以从一连串舆情变化的数据中发现问题、发现规律,从而让企业在宣传推广中避开暗礁,走向蓝海。

(作者为传媒经济学博士,环球舆情调查中心常务副主任)

作者:戴元初

第3篇:网络舆情监测系统的分析与设计

摘 要:大数据时代下,网络舆情监测对政府合理控制舆情方向、进行舆情治理具有重要意义。网络舆情监测系统主要根据网络舆情需求,构建在.NET平台下基于Entity Framework模型的网络舆情监测系统的C/S和B/S框架体系。系统对信息采集、信息过滤、关键词挖掘、舆情主题分类等模块进行优化分析设计和实现。应用马尔可夫模型,将舆情发展态势划分为生成期、发展期、极速发展期和衰退期,通过对历史数据的计算实现了舆情的未来发展区间。

关键词:舆情监测;网页文本分析;网络爬虫;舆情预警;预测

1 引言(Introduction)

互聯网作为一种新的信息传播形式迅速发展,对人们的日常生活产生了巨大影响[1],已然引起学术界的广泛关注,目前研究方向包括网络舆论的传播、控制及相关问题[2,3]。据《中国互联网络发展统计报告》显示,截至2018年上半年,我国网民数量已达8.02亿人[4],互联网已被公认为是继报纸、广播、电视之后能够反映社会舆情的重要载体之一[5]。此外,超过六成的中国网民经常在网上就各种话题发表言论并进行讨论[6],以充分表达自身的思想观点和利益诉求。

由于网络中的舆情在一定程度上能够代表现实世界中人们的观点,并且对现实世界的稳定产生一定的影响,因此如何才能监测和发现网络舆情,为政府或者企业提供决策上的数据支持成为舆情问题研究的一个重要课题,本文旨在通过对网络爬虫、中文分词、信息存储方式、马尔可夫模型等的研究,来实现一个可以及时、准确的舆情监测和预测系统,为相关领域的工作人员提供数据上的支持。

2 网络舆情监测系统需求分析(Requirements analysis of the network public opinion monitoring system)

运用互联网平台进行交流具有匿名、及时、参与程度广、影响面宽、破坏面大等特点,这些特点给舆情监督的工作人员带来了极大的困难和挑战。因此,国内外普遍重视舆情监测关键技术的研究,目前,舆情监测涉及的技术非常多,其核心多为网络信息抓取技术、网络信息提取技术、自然语言处理技术。其中,网络信息抓取技术多指利用网络爬虫工具进行信息抓取工作[7];网络信息提取技术则指将文本里的信息进行结构化处理,多被处理为表格形式[8];自然语言处理技术主要研究人与计算机交互的语言问题,通过分词、关键词提取等一系列操作对舆情状况进行分析,从而达到舆情监测的目的。

国内对网络舆情的监测起步较晚,又由于中西文的差异造成中文分词技术、文本挖掘技术等许多先进技术无法借鉴,同时研究机构与应用机构又严重脱节,直接导致我国的舆情产品比较昂贵同时发展也较为迟缓。不过,随着电子计算机和互联网络在中国的普及,网络舆情对社会生活的影响越来越大,网络舆情监控的产品也越来越多,其中以网智天元、北大方正、西盈信息、人民网舆情为代表的软件公司纷纷推出了自己的产品,并且都实现了24小时实时监控、关键词监测设置、舆情分析报告等基本功能。虽然国内的软件可以完成对网络舆情的监测任务,并且提供完整的分析报告,但是还没有提供对于舆情事件的趋势预测功能。

3 网络舆情监测系统概要设计(Overview of network public opinion monitoring system)

3.1 系统总体功能介绍

网络舆情监测系统主要由舆情数据处理系统和舆情趋势预测系统两个部分组成,在舆情数据处理系统中,又包括信息采集、信息处理、关键词提取等模块。系统的功能模块图如图1所示。

系统采用C/S和B/S相结合结构进行设计,C/S客户端主要负责自动采集指定网站上的信息,并且对信息进行过滤和分析,最后对信息进行存储;B/S系统主要用于数据展现、数据查询以及舆情趋势预测等功能,系统的架构图如图2所示。

3.2 系统数据流程图

系统的数据流来自采集模块,从自定义的采集网站中开始采集网络信息,采集的结果直接通过信息过滤模块,将用户所需信息从采集的网页源代码中分离出来,保存到本地数据库。随后,关键词提取模块读取采集信息的正文,利用中科院的ICTCLAS 2013版分词系统提取正文信息中的关键词及关键词在文本中权重,并将其保存到数据库中,系统的数据流图如图3所示。

4 网络舆情监系统关键模块的设计与实现(Design and implementation of the key modules in the network public opinion monitoring system)

网络舆情监测系统主要分为两大部分,即舆情数据处理系统以及数据查询显示系统。其中舆情数据处理系统又包括信息采集、信息处理、趋势预测等三个主要模块。该系统主要用于数据的采集分析与处理,为用户提供有效的舆情信息。数据查询显示系统主要用于信息查询与趋势预测。该系统主要为用户提供舆情信息、舆情分析统计,以及舆情趋势判断等功能。其中,信息采集、信息处理、趋势预测也是网络舆情监测系统中的重点与难点。

信息采集模块的实现步骤如下:

Step1:在数据库中准备好需要抓取信息的网站的URL地址,并且配置好每个网站中的信息过滤规则。

Step2:根据用户预设的采集空间信息,初始化信息采集模型,并且通过该采集模型,对URL地址列表进行循环采集,下载当前页面的HTML代码到本地,然后由HTML解析模型进行数据解析。

Step3:在HTML解析过程中,将网页的HTML代码根据相应的网站信息过滤规则进行解析,并且将有效的信息保存到本地数据库中。

Step4:循环上述过程,24*7小时执行数据采集的过程,保持采集的数据的及时性。

信息处理模块的实现步骤如下:

Step1:系统读取数据库中为被处理的帖子的信息。

Step2:利用中科院的ICTCLAS 2013分词系统,提取出文本中的关键词,以及关键词所占有的权重。

Step3:将关键词信息保存到数据库中,并且以此作为相应帖子的内容标签。

趋势预测模块的实现步骤如下:

Step1:将热度趋势划分为四个状态区间,大于0的分为两个区间, =急速上升, =缓慢上升,小于0的也分为两个区间 =缓慢下降, =快速下降。

Step2:统计出热度趋势值从当前状态到下一刻状态的数目。

Step3:计算初始状态概率向量以及转移矩阵,预测对象在任何一个时期处于任何一个状态的概率。

5 网络舆情监测系统的测试(Testing of the network public opinion monitoring system)

网络舆情监测系统的测试主要分为功能测试和性能测试。功能测试中,主要对系统的UI界面操作,以及查询显示功能进行测试,确保系统能够给用户提供简洁、准确的数据以及良好的用户体验。性能测试主要对系统的舆情主体分类和舆情趋势预测的准确性进行测试,测试的结果表明,本系统可以准确地对信息进行舆情事件的划分和对舆情趋势进行预测。

系统包括首页、舆情监测、舆情管理、舆情站点这四个栏目,涵盖了系统需求部分所提及的所有功能。主页为用户提供了关键词搜索界面,用户在搜索的文本框中,输入想要监测的舆情的关键词,并且选择想要监测的时间段和监测的网站范围,就可以得到与关键词相关的帖子数量日均变化图、帖子热度日均变化图、帖子各站点比例图,以及帖子在未来一段时间内的趋势预测,搜索的结果页面如图4至图6所示。

6 结论(Conclusion)

综观本文的研究过程和结果,存在以下几点不足与改进:

(1)在舆情趋势预测方面,通过将马尔可夫模型运用到舆情监测的机制当中,有效地对大区间内的舆情事件趋势进行了预测。

(2)在舆情数据获取方面,系统所建立的规则不仅可以对单个论坛使用,而是可以应用于多个论坛当中,保证了系统所监测的论坛的普遍性。

(3)信息处理过程未详细研究,只是借鉴了中科院的ICTCLAS分词系统,对中文分词等过程及方法还需要进一步的分析和研究。

(4)由于时间仓促,本文对于舆情信息倾向性分析,时候评估分析等技术及应用未进行深入研究。

根据本文总结的改进之处和不足,本课题展望如下:

通过实验论证,系统可以进一步完善中文分词模块;对于本文未深入研究的技术和应用,将进行进一步的研究,旨在全面提高网络舆情监测系统的准确性、合理性以及实用性,为舆情监测领域提供优秀的技术平台。

参考文献(References)

[1] ZHANG Le-jun,TONG Wang,JIN Zi-long,et al.The research on social networks public opinion propagation influence models and its controllability[J].中国通信,2018,15(07):98-110.

[2] WANG Qi-yao,JIN Yue-hui,ZHEN Lin,et al.Influence maximization in social networks under an Independent cascade-based model[J].Physica a:Statistical Mechanics and Its Applications,2016(444):20-34.

[3] FEI Xiong,YUN Liu,CHENG Jun-jun.Modeling and predicting opinion formation with trust propagation in online social networks[J].Communications in Nonlinear Science and Numerical Simulation,2017(44):513-524.

[4] 李朋朋,李英武.“互联网+”背景下降低员工网络闲散行为的思考[J].决策探索(下),2019(01):87.

[5] 尉译心.网络舆情监控系统的关键技术[J].电子技术与软件工程,2018(07):26-27.

[6] 杨华.网络言论失范与政府管理[J].采写编,2011(05):54-56.

[7] 胡亚楠.社交网络数据获取技术与实现[D].哈尔滨工业大学,2011.

[8] 程楠.一種基于大数据技术快速处理医疗文本的方法[J].中国数字医学,2017,12(09)45-46;58.

作者:洪小娟 宗江燕 于建坤 黄卫东

第4篇:网络舆情监测系统的设计与实现

摘 要: 针对当前网络舆情监测引导方面出现的一系列问题,本文设计实现了网络舆情监测系统,通过系统设计和应用,为地方政府及时高效的进行网络舆情监测分析、进一步做好网络形象构建与传播发挥积极的作用。

关键词: 网络舆情; 舆情监测; 引导机制

0 引 言

伴随着信息技术的迅猛发展,互联网已成为广大人民群众抒发民意、表达愿望、参政议政的重要场所,也是政府职能部门收集民意、了解民情、监测互联网活动的重要场所。面对互联网上每天迅速增长的海量互联网信息和产生的网络舆情,人工方式已经远不能实现对互联网信息处理和网络舆情的监测[1]。因此,设计与实现网络舆情监测系统是目前迫切的需要,本文对此进行了研究。

1 系统的设计思路、目标及框架结构

1.1 基本思路

网络舆情监测系统能够为政府部门全面掌握网络舆情、争取处置主动权提供有效分析依据,实现政府部门对网络舆情监测和新闻专题追踪等需求[2,3]。本系统将利用整合互联网搜索技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、热点发现和分析、专题聚焦等,形成简报、报告、图表等分析结果。

1.2 系统建设目标

网络舆情监测系统要能实现及时快捷的对互联网信息进行整合,包括网站新闻、微博言论、论坛帖子等,并运用先进的中文网站过滤技术[4]、信息处理技术、文本聚类技术、热点追踪挖掘等技术对互联网海量进行自动筛选获取、自动分析产生监测预警,从而实现对网络舆情信息的收集与监测,并最终将处理结果以图形、图表等多种方式显示出来,为政府主管职能部门全面掌握互联网上民众的思想动态、社会活动,及时有效的做出正确舆论引导,避免恶性事件发生,有利于维护社会稳定、构建和谐社会。本文设计的网络舆情监测系统包括三大功能模块,即:舆情数据采集模块,数据处理模块和舆情分析模块。

1.3 系统框架结构

本文所设计的网络舆情监测系统采用了面向对象的方法,实现手动进行信息采集、信息数据分析、数据索引建立以及舆情发现与跟踪等功能;用户使用时可自行设置运行参数,服务器按照设置要求定时运行,完成用户设定参数的信息采集、分析以及话题发现和追踪等功能并将运行结果进行存储,方便以后比较使用;数据处理完成后,系统以图表图形等方式展现统计结果,具体系统框架结构如图 1所示。

2 系统建设方案

网络舆情监测系统的数据流来自系统数据采集模块,数据采集模块从设置定义的网站采集海量互联网数据信息,并将采集结果存储到服务器上;数据处理模块负责解析HTML文件,将服务器上的文件读取出来,对文件中的文本进行分词,同时把分词前后的语句及相关信息分别保存到数据库中[5];舆情分析模块对保存到数据库中的文本信息进行分析,确定其事态的强弱程序,以此完成舆情发现和深度挖掘分析;舆情预警模块按照预先设定的报警机制读取数据库中形成的舆情信息,并以直观的图表方式将结果反馈给用户。

本系统主要分为三大模块,即:舆情数据采集模块、数据处理模块和舆情分析决策模块。其中数据处理模块又包含信息处理、话题发现两大功能模块。该系统主要用于数据的采集分析与处理,为用户提供有效的舆情信息。

3 网络舆情监测系统实现

3.1 舆情数据采集

舆情信息采集模块为整个舆情监测系统的基础模块,该模块主要完成了对指定数据采集空间内的信息资源进行采集与存储,该模块所采集的信息资源,将作为舆情分析的有效文本集合[6]。采集过程中运用网络蜘蛛技术实现多线程蜘蛛同时进行抓取,大大提高抓取效率。

在采集过程中,为了提高系统性能,系统采用了如下处理方案:

(1) 系统采用文本数据库进行数据存储,降低了关系型数据库读写消耗;

(2) 设置缓存区,对常用数据进行缓存,定期将过期信息写入文本数据库,降低输入输出读写消耗;

(3) 采用多线程数据采集,以提高采集速度。

采集模块主要代码如下:

protected void search()

{

DateTime start = DateTime.Now;

_indexDirectory = Server.MapPath("index"); //词库路径;

dictPath = Server.MapPath("App_Data"); //词库路径

highanalyzer = new Lucene.Net.Analysis.Standard.StandardAnalyzer();

_searcher = new IndexSearcher(_indexDirectory);

Analyzer KTDanalyzer = new KTDictSegAnalyzer(dictPath);

PerFieldAnalyzerWrapper wrapper = new PerFieldAnalyzerWrapper(highanalyzer);

simpleAnalyzer = new WawaSimpleAnalyzer(); //按分隔符语汇单元化的分析器

wrapper.AddAnalyzer("title",simpleAnalyzer);

wrapper.AddAnalyzer("content",simple Analyzer);

string[] fields = new string[] { "title" };

if (keyssidt == "2")

{ fields = new string[] { "content" }; }

_mfqp = new MultiFieldQueryParser(fields, wrapper);

string nowq1 = reqs(this.Query);

if (nowq1.Length<2)

return;

q1 = _mfqp.Parse(reqs(this.Query));

BooleanQuery m_BooleanQuery = new Boolean Query();

Query query1 = new TermQuery(new Lucene.Net.Index.Term("soid", keyssid)); //词语搜索

m_BooleanQuery.Add(q1, BooleanClause.Occur.MUST);

……

Repeater1.DataBind();

DataBind();

}

采集模块主要结构如图2所示。

3.2 数据信息处理模块

数据信息处理模块实现分词与建立索引的功能。该模块主要对信息采集过程采集到的文本数据库进行读取,逐条进行数据清理,去除文本中的脚本等无用信息,提取出文本的标题、内容,并利用 Lucene.Net 对文本进行分词索引,为热点话题发现模块创建文本模型提供数据资源[6]。

分词索引功能的实现,主要是利用了采集回的HTML信息,进行信息处理,并对有效数据进行分词,建立索引[7]。

实现步骤如下:第一步,系统读取文本数据库,将每条数据的内容读入信息预处理模块,在信息预处理模块中,对文本内容进行分析,根据

标签等,分别获取文本的标题及内容;第二步,利用中文分词系统,建立本系统中使用的 Analyzer 及Tokenizer 类,将分词器跟分析器进行合理的组合,使之产生对文本分词和过滤效果,同时将文本规则切分为一个个可以进入索引的最小单元;第三步,构造indexWriter对象,并将负责把索引文件写入存储介质,是控制逻辑存储转换为物理存储的纽带;第四步,建立索引,并对索引结构进行优化。信息处理模块主要代码如下:

public class HTMLDocParser

{ private String htmlPath;

private HTMLParser htmlParser;

public HTMLDocParser(String htmlPath)

{ this.htmlPath=htmlPath;

initHtmlParser();

}

private void initHtmlParser()

{ InputStream inputStream=null;

try

{inputStream=new FileInputStream(htmlPath);}

catch (FileNotFoundException e)

{e.printStackTrace();}

if(null!=inputStream)

{ try

{

htmlParser=new HTMLParser(new Input Stream Reader(inputStream,”utf-8”));

catch (UnsupportedEncodingException e)

{ e.printStackTrace();}

}

}

……

}

信息处理模块主要结构如图3所示。

3.3 舆情分析模块

使用 B/S访问方式作为舆情分析模块的主要开发模式,更加有利于分析人员及时有效获取当前舆情信息,其实现步骤为:第一步,抽取阶段主要完成数据源数据的链接、数据访问等工作;第二步,清洗阶段则完成了对列属性的清洗和增补、对数据结构的清洗和增补以及对数据规则和业务规则的清洗和增补工作,并为下一步准备数据;第三步,一致性处理完成了维度表的建立、度量及性能指标的建立,去除重复数据,并为下一步准备数据;第四步,交付阶段则主要完成了维度表数据的加载及处理,并将处理好的数据加载到数据仓库,然后利用 Reporting Service 功能实现舆情信息的统计、分析。

4 结 论

本文针对网络舆情监测引导进行了系统开发研究,提出了舆情数据采集模块、数据处理模块和舆情分析模块相结合的设计思路,并设计实现了网络舆情监测系统。通过系统设计和应用,实现政府部门对网络舆情监测和新闻专题追踪等需求,形成简报、报告、图表等分析结果显示出来,从而更好的为地方政府开展网络舆情监测分析、做好社会管理工作发挥积极的作用;并且在地方政府掌握网络舆情、引导网络舆情发展、构建地方政府良好形象方面提供了有效分析依据。

参考文献:

[1] 高洪杰. 互联网舆情监测分析系统实现[D]. 上海:复旦大学,2009.

[2] 杨涛. 智能信息处理技术在互联网舆情分析中的应用[D]. 上海:同济大学,2008.

[3] 潘文富,郭友实. 网络舆情监测技术研究综述[J]. 福建电脑,2011(8):39-41.

[4] 刘小强,廖建锋. WSN中一种基于网格的并行数据收集方案[J]. 计算机应用与软件,2014(7):127-131.

[5] 张显江,刘小强. 一种参数联合优化的网络流量非线性预测模型[J]. 计算机工程与应用,2014(6):64-67.

[6] 于琨,孙新领. 基于信息挖掘的高校网络舆情监测系统开发[J]. 河南机电高等专科学校学报,2012(1):24-26.

[7] 刘小强. 二手转让及房产租售垂直搜索引擎的设计与实现[J]. 三门峡职业技术学院学报,2010(3):118-121.

(责任编辑:徐兴华)

作者:刘小强 苟元琴

第5篇:网络舆情监测系统的研究与实现

〔摘 要〕网络舆情作为一种重要的舆情形式,具有形成速度快,受众人群广等特点,对国家和社会的影响越来越重大。互联网用户可以自由地在微博、论坛、博客等中发表有关社会中各类现实问题的态度和意见。监测网络舆情的主要手段就是利用网络爬虫对目标网络的页面数据进行挖掘,然后对挖掘的数据进行分类处理,并科学地统计舆情信息。本文主要分析网络舆情的特征和处理对策,并利用网络爬虫、全文检索、关键词评分、以及科学数理统计等手段对网络舆情监测系统的原理进行探索与系统实现。

〔关键词〕网络舆情;爬虫;关键字排名

DOI:10.3969/j.issn.1008-0821.2013.11.009

舆情是民众关于现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和[1-2]。网络舆情信息是指社会民众通过互联网这一媒介所表达的情绪、态度、信念、意识、思想、意见、要求和行为方式等方面的综合表现,是对现代社会物质、政治、精神和社会4个文明建设活动的各种反映[3-5]《2012年互联网舆情分析报告》蓝皮书指出,2012年微博成为社会舆情的发动机,在本年网民重点关注的是社会转型、环境问题、钓鱼岛问题、南海问题等热点话题。据统计2012全年关于“钓鱼岛与反日游行”话题的网络博文合计17 742万篇,“伦敦奥运”话题博文7 583万篇,“神舟九号与天宫一号对接”的话题博文3 923万篇。由此可见,网络舆情基本都是在短期爆发的,且影响范围广泛,都是些对国家、对社会意义深远的热门话题。因此,对网络舆情进行监测分析是十分必要的。随着科技的发展,计算机技术的迅速普及与推广,网络为社会各阶层的人们提供了广阔、自由的交流平台[6],互联网成为了社会网络舆情传播的主要平台。而网络舆情主要来自于BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,可以说真话,也可以说假话,言论相对自由,网络的开放性直接决定了网络舆情的直接性、突发性、偏差性。网络舆情的独立属性,信息流和环境会影响舆论的传播[7]。网络舆情主要来自BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,言论相对自由,网络的开放性直接地决定了网络舆情的直接性、突发性和偏差性。本文设计的网络舆情监测系统,主要考虑以下几个方面:(1)对主流的社交网站、门户网站的网页、帖吧、文本文件、新闻评论、微博、博客等近期发布的信息,进行分类存储处理。(2)对指定的网站上的近期信息,包括网页、帖吧、文本文件、新闻评论、微博、博客等数据进行采集与归类存储处理。(3)对采集到的各种数据进行关键字分词处理,分词存储,分词评分,分词排名等处理。(4)建设关键字检索系统,检索的结果按照标题与内容的综合评分进行合理的排序。(5)本网络检测系统,采用合理的框架,预留更多未来开发的扩展接口,方便开源与二次开发。

2013年11月第33卷第11期现?代?情?报Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期网络舆情监测系统的研究与实现Nov.,2013Vol.33 No.111 系统的主要功能模块

1.1 网络舆情的采集模块根据设置的检索条件,如限定域名的http:∥.sina.com/的所有页面的信息,将采集的数据适当的过滤,留下有用的关键数据。爬取的对象为重点新闻网站、知名社交网站、各大论坛,博客,以及政府网站等。

1.2 数据处理模块对从网络上采集而来的数据进行处理,处理的手段包括:归类、分词、标注、加权、存储优化等。

1.3 关键字检索为本网络舆情监控系统提供一个搜索引擎的功能,方便对网络蜘蛛爬取的数据进行查看管理。在一次检索的基础上,提供二次检索。提供智能的检索方案,按字索引、按词索引以及字词混合索引,对检索结果进行排名与统计。

1.4 舆情分析与统计舆情分析是对舆情进行深层次的思维加工和分析研究。主要包括内容分析法和实证分析法。内容分析法对信息内容进行客观系统的定量分析,提示信息所含有的隐性情报内容,对事物发展做情报预测。实证分析法是通过分析大量案例和相关数据从而得出结论的一种研究方法。经过分析后,可以自动提取关键字,提取一段完整的内容进行智能提取摘要,也可以根据已经设置的检索条件进行动态地提取摘要。对标题进行分词检索与排名。智能识别数据并归档到本地数据源。网上数据的表示可以采用“点”与“线”组成的模型图,来表示互联网中的各类数据。用“线”来表示各个页面之间的URL链接关系,用“点”来表示网络中的各个页面。在这样的一个由点线组成的网状结构的图形中,每一个点与线都表达了非常重要的信息。所以互联网中的文本类型的数据可以简单的划分成由页面标题、页面的内容、页面的超文本标记以及页面之间的URL链接等构成。一般的HTML页面由Head标签和Body表组成,主要的元素有标题Title,表格Table,层div等信息标签组成。然而每当用户浏览器收到数据时,去掉多媒体信息数据,如视频数据、flash动画、图片数据、音频数据等非文本文件数据,其余的文本文件所包含的信息可以分为两类:一类是用于结构控制的HTML标签,HTML由“〈”和“〉”构成一个标签,如〈div〉、〈head〉等标签;另外一类就是内容信息了,这些信息就提供给我们可以直接阅读的文字。也就是我们最终需要分词处理,存储处理的,建立索引的文本数据。在页面设计的时候,为了方便搜索引擎搜录其页面的信息,通常会在页面添加关键字,在页面的〈head〉标签中,可以添加〈meta name=”关键字1,关键字2,关键字3”content=”页面摘要描述……”〉的标签信息来描述本页面的主要信息,方便搜索引擎的网络蜘蛛爬取信息。

1.5 关键字高亮显示在查询检索结果中,对关键字进行统计并高亮显示,虽然是一个小功能,但是技术实现的难度大,对用户体验有较高的提升,使得在检索结果中对关键的信息对用户一目了然。

1.6 网络舆情的预测通过分析近期捕获的网络舆情,对这些数据进行自动分类,进一步聚类,并统计出各个关键字的数据图表,周期升降率,从而预测未来的舆情演化与趋势。

2 系统架构本网络舆情监测系统采用MVC的设计模式。MVC的全称就是Model View Controller的缩写,意思为模型model——视图view——控制器controller,MVC是最常用的一种程序基本结构的设计,使用MVC架构可以使业务逻辑模块、数据链路模块、UI界面模块具有良好的分层,这3个模块在具体的实现内容上彼此分离,在关系上又彼此调用,可以使各个模块的负责人集中精力编写各自的模块,只需要对彼此的调用关系提供接口,以便降低程序关系的耦合度,达到高内聚低耦合的目的,在MVC架构发展的近些年中,许多有经验的程序员习惯用Java的反射特性来更好地控制UI界面模块和业务逻辑模块的耦合性。利用MVC独特的界面层、控制层、数据模型层的良好解耦的特点,本系统基本架构为:

图1 MVC系统架构示意图

2.1 系统的功能架构本网络舆情监测系统按功能模块划分,可大致划分为网络爬虫采集模块、中文分词系统、UI界面管理模块、索引文件管理模块、内容搜索及搜索显示模块、中文全文检索系统、关键字智能评分系统、关键字高亮显示模块等八大模块。

网络舆情监控系统网络爬虫采集模块中文分词系统UI界面管理模块索引文件管理模块内容搜索及搜索显示模块中文全文检索系统关键字智能评分系统关键字高亮显示模块图2 系统各个功能模块

2.1.1 网络爬虫网络蜘蛛(Web Spider),也翻译为网络爬虫(Web Crawler),不管用其中的哪一个翻译都是一个非常形象的名称。其实,网络就好比蜘蛛网一样,上面有无数个节点,爬虫Crawler就好比是在网络中爬来爬去的一只虫子。网络蜘蛛在搜寻的网页中检索一个个超链接URL,再对各个URL进行判断是否曾经检索过,如果没有,则通过该链接进行信息爬取,并且一直循环爬取,一直到把该网站所有的页面都爬取完为止。

2.1.2 中文分词系统英文单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,惟独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多,困难的多。中文分词系统用于将一个又一个的单个汉字进行分词。一般中文分词是先判断前面和后面的几个汉字能否和本汉字组成为一个词语,并把前后连续的几个汉字,按照一定的顺序和语法进行重新排列或组合成为一个词序列的过程。中文分词最重要的是把最相关的结果排在最前面,这也称为相关度排序。

2.1.3 中文全文检索系统中文全文检索是指把一个中文的文件中的全部的文本和检索项,进行全文式的匹配检索文本文件的方法。中文的全文检索可以把一个数据库或者一些文本文件,一个Web页面的内容进行全文查找检索。该系统还能分析文中的相关字、词、句、段、篇等内容,并带有统计功能,如果我们给一本书的每一个分词都加上一个分字标签,那么就可以统计分析全文的内容了。比如,我们要统计“中国名著《西游记》这本书中,‘孙悟空’一词在本书中共出现多少次”就可以通过这个检索方法实现。

2.1.4 UI界面触发的事件反射到逻辑的处理事件的反射处理是利用Java的反射原理将View层中的事件反射到逻辑中来执行,UI响应反射事件时,需要通过事件动作配置数据Relation.java类,判断事件的类型,事件分为“无条件跳转”和“执行逻辑函数”两种类型。

图3 响应事件流程图

3 网络舆情的统计与分析如果人工采集互联网上的信息,这个工作量将会是巨大的,因此需要研究如何在网络上进行自动实现信息采集,并及时的对采集来的信息进行处理,由人工采集信息的防拥塞,变为自动采集的自动归类,梳理,建立索引。图4 中文分词的输入输出

网络舆情分析系统是处理已采集信息的核心功能模块,具体功能如下:(1)可以对热门话题与敏感词汇进行标识。(2)可以根据新闻发布机构的权威度、回复数量、评论的频率,对信息进行评分加权,使得检索时排位靠前。(3)可以识别出采集的信息在某一段时间内是否是最热门的话题,使用关键字的分词、排序、语法分析和语义分析,来辨别各类文章中是否包含敏感话题。互联网页面上的数据不仅包括页面的内容数据,还含有一些HTML超文本标签主要用来对网页的结构进行设计。目前,部分国际化组织制定HMTL5协议对页面上的数据的格式进行统一的标记,但是这一类协议仅仅用于内容信息的表述形式上,这样做的原因是让浏览页面的用户能够更好地阅读页面信息。

4 结 论本文在现有网络舆情研究的基础上,依据系统性、科学性、可靠性及可操作性原则,对如何采集监测网络舆情信息进行深入剖析,这有助于了解网络舆情发展规律,并据此设计了网络舆情监测系统,当然,该系统的功能还需进一步完善以便推广使用。

参考文献

[1]董亚倩,邓尚民.基于社会网络分析的网络舆情主体挖掘研究[J].情报资料工作,2011,(6):45-49.

[2]石彭辉.基于社会网络分析的网络舆情实证研究[J].现代情报,2013,33(2):27-31.

[3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.

[4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.

[5]戴媛,姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践,2008,31(6):873-876.

[6]陈新杰,呼雨,兰月新.网络舆情监测指标体系构建研究[J].现代情报,2012,32(5):4-7.

[7]Suo Shuguang,Chen Yu.The Dynamics of Public Opinion in Complex Networks[J].Journal of Artificial Societies and Social Simulation,2008,11(4):2.

(本文责任编辑:王 涓)

作者:邓凯英 彭超

第6篇:大陆研拟藏维文网络舆情监测系统

中国西藏网最终还是放弃了开通藏文博客的打算。网站的藏族编辑娜科告诉记者由于内容监管方面的压力,藏文博客必须采取先审核后发布的管理方式,如果处理不及时,或者处理不好,网友会有很大意见。目前,藏文网站的内容监管仍处于人工阶段,开通藏文博客需要付出很大的人力成本。综合考虑之后,中国西藏网决定将这一计划暂缓。

作为国家重点新闻网站,同时也是大陆最大的涉藏网站,中国西藏网的担心并非多余。2012年2月以来,受到一系列藏人自焚事件的影响,大陆地区一些颇具人气的藏文博客被关闭。青海湖网的藏文博客一度发出公告称:“由于部分用户不按照此博客宗旨发表日志,暂时关闭此博客,敬请广大博友谅解。”

此前亦有境外媒体报道称,著名的藏文博客网站www.Sangdhor.com也曾被关停,“原因是该网站发表的诗歌《哀痛》描述了发生在西藏的自焚事件。”

目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。

中央民族大学等机构正在进行《藏、维文网络敏感信息自动发现和预警技术》的课题研究,或许可以从一定程度上改变这种简单化的管理方式,也将缓解娜科等网站编辑在内容监管方面的工作压力。

藏文、维文网站是管理重点

中国互联网络信中心(CNNIC)发布的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

赵小兵是中央民族大学信息工程学院教授,同时担任国家语言资源监测与研究中心少数民族语言分中心副主任。据他介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字(傣文包含新傣文和老傣文两种文字)。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中维吾尔文网站175个、藏文网站109个。

1999年12月,世界首家藏文网站在西北民族学院建立,此后藏文网页的数量不断增长,大量的藏文论坛和藏文博客涌现出来。藏文网站从2009年的45个发展到2012年的130个。与全国网民增长速度相比,藏族网民的增速较为突出,增幅达86%,远远高于全国平均增长速度。

网络的普及正在改变藏族民众的生活方式。一些藏传佛教寺庙里的佛学院也为修行的学僧开设了计算机课程,学习打字、排版和网页设计等内容,并将推出自己的网站。考虑到西藏民众使用藏语文的习惯,大陆官方也—直致力于藏语言文字与现代化的信息技术同步发展的研究。早在1997年,藏文字符计算机编码就成为中国第一个具有国际标准、获得全球信息高速公路通行证的少数民族文字。

1998年,新疆诞生了第一个维文网站——塔克拉玛干,经过十几年的发展,维吾尔文网站也形成了一定的规模。但是2009年乌鲁木齐市发生“7.5”打砸抢烧严重暴力事件之后,新疆网站数量明显下降。原因是新疆维吾尔自治区通信管理局对全区已备案网站主体信息进行人工电话核查,从7月到12月,依据《非经营性互联网信息服务备案管理办法》注销了包括中文和维文网站在内的4966家网站备案。

舆情监测的现实困境

少数民族网站在境内蓬勃发展的同时,境外网站数量也有显著增加。2008年西藏“3·14”事件发生之后,《环球时报》引述外媒的报道称,在过去几年内,有大量宣扬“藏独”的网站和网页出现,“‘西藏流亡政府’已将互联网当做了一个强有力的吸引藏人对抗中国的武器。”

一年之后,新疆乌鲁木齐“7·5”事件让官方再次注意到互联网的作用。“7·5”事件发生之前,有些维文网站大批转载广东韶关旭日玩具厂“6·26”聚众斗殴事件,利用网络论坛进行造谣煽动,直到7月4日晚,一些网民在QQ群、维吾尔文论坛和个人空间发帖,响应“世维会”在境外组织的游行示威。大陆学者撰文称,“从‘7·5’事件我们认识到,维吾尔文个人网站已经成为舆情的重要窗口。”“目前有些维吾尔文个人网站论坛转载境外信息,报道不实消息,在一定范围内造成了恶劣的影响。维文新闻信息,特别是时政类信息的宣传存在着极大的安全隐患。”

2006年6月27日,西藏拉萨,一位年轻的喇嘛在网吧使用互联网。

其后,随着越来越多的少数民族运用本民族的文字,通过互联网来表达自己的情绪、态度、意见及要求,形成了少数民族地区的网络舆情。许多研究机构和市场主体声称,他们可以为客户提供这类网络舆情的监测服务:其舆情监控系统可在短时间内实现对新闻、论坛、博客、贴吧等各类网络信息进行汇集、分类、整合、筛选,也可对定制关键词的相关主题进行实时监测,全面分析网络舆隋发展趋势,提供基于网络舆情监测的决策参考和风险预警。

但政府部门对网络中藏文舆隋监控尚处于传统的人工方式,人民网舆情监测室尽管能够提供蒙古、藏、维吾尔、哈萨克、朝鲜等少数民族语言的舆情报告但也是通过人工检索进行分析,与中文舆情报告相比,欠缺科学的分析工具。

一些商业机构如谷尼国际软件公司,也开发了“谷尼互联网舆情监控系统(多语言版)”,支持维文、斯拉夫维文、拉丁维文的舆情服务。中科点击科技有限公司生产的“军犬网络舆情监测系统”,也声称“可有效监控藏文、维吾尔文、蒙古文、彝文、朝鲜文等少数民族语言舆情信息”。

谷尼国际软件公司副总邹鸿强告诉记者,针对少数民族语言舆情监测需求,在“3·14”事件和“7·5”事件后明显增多,客户不仅有宣传部门,还有公安机关和安全部门。

但是,谷尼国际软件公司提供的少数民族语言监测服务,目前仅能实现定向采集与全网搜索这两种监测方式,至于中文舆情监测中的内容情感分析、主题词自动提取、全文检索等服务则无法实现,主要原因是“没有少数民族语言的相关词库和知识库。”这些都有赖于相关学术机构提供基础性的研究成果。

预警敏感信息

目前大陆开展少数民族信息处理研究的学术机构并不多,主要集中在中央民族大学、新疆大学、西藏大学、内蒙古大学、西北民族大学、青海师范大学和中国社会科学院等高等院校和科研机构。随着少数民族网络舆情监控系统的应用需求越来越强烈,大陆近年来明显加强了这方面的研究投入。

中央民族大学承担的“藏、维文网络敏感信息自动发现和预警技术研究”课题,获得了国家民委的资助;西北民族大学中国民族信息技术研究院也开展了相关研究,其研究论文《基于藏文网页的网络舆情监控系统研究》获得了国家863项目“多语言基础资源库研制和共享”的基金资助。

赵小兵介绍说:“藏文信息处理技术的发展与中英文相比具有一定的滞后性,存在着编码方式不统一、藏文分词技术不成熟等问题,这样将对敏感词的监控以及话题的发现与跟踪造成极大的困难,很大程度上影响舆情监控的质量。”

中央民大学信息工程学院副教授闫晓东是“藏、维文网络敏感信息自动发现和预警技术研究”课题负责人。她告诉记者,该项目到2013年结项,预期目的是能够针对各类敏感信息,提出不同级别的预警方案,“目前能做到敏感词的自动发现和跟踪。”

赵小兵补充说,如果仅仅依靠关键词匹配的方式进行网站管理,发现敏感词就进行过滤的话,非常容易产生误判,也会带来负面效果。“少数民族语言本身的含义非常丰富,它有很多同义词,一个所谓的敏感词放在一句话中也许表达的意思可能并不敏感,同样,一个非敏感词恰恰可以用来表达敏感的意思。这种语言的多义胜与复杂性要求我们的检测软件更加智能,能够从词语的深层含义去判断它是否敏感,而不是简单地抓出一个表面形式上的词。这就要求我们的管理者不能将管理简单化,一定要人性化、智能化。”

西北民族大学研发的舆情监控系统目前据称可以“对藏文网页的‘敏感点’进行监控以及对‘热点’实现预警,有效地解决政府部门以传统人工方式对藏文进行舆情监测的实施难题,为政府掌握藏族地区的舆情状况以及网络文化安全作出贡献。”

另据记者了解,公安部门也在开发一套藏文舆情监测系统,其目的是掌握境内外藏文网络舆隋,从源头上了解境外“三股势力”(敌对势力、民族分裂势力和暴力恐怖势力)的最新动向,在应对其可能对境内造成的影响时把握主动权。该软件目前已经在公安系统内部测试使用。

由于现有技术手段不够成熟,内地少数民族文字网站普遍面临较大的监管压力,对于用户创造内容的博客和微博业务,一般不会轻易涉足。即使开通了这一业务,也都采用先审核后发布的办法,以应对可能出现的内容风险。

天山网是目前大陆唯一一家开通维吾尔文微博的维文网站,由新疆维吾尔自治区党委宣传部主办。维文微博自2012年3月开通以来,注册用户数量已超过3瓦每天发布的微博数量超过5000条,依靠3名管理员24个小时轮流值班进行审核,平均每个管理员每天审核1500多条微博。随着用户数量的增加,天山网只能依靠增加管理员的办法进行内容审核,保证网站运行安全。

(参考资料:江涛、于洪志等《基于藏文网页的网络舆情监控系统研究》,阿加提·依布拉音《新疆维吾尔文网站研究》等)(实习生黎风对本文亦有贡献)

编辑 李明三 美编 黄静

作者:李光 钟雅琼

第7篇:乐思网络舆情监测:自媒体时代的舆情危机公关需从网络舆情监测开始

【舆情研究】自媒体时代的舆情危机公关需从网络舆情监测开始

自媒体时代的到来使得以微博为代表的微博传播媒介治理和网络舆情监测成为舆情研究新课题。在自媒体时代,传播媒介特别是微博传播对于社会发展的积极作用和负面作用同样明显,而法规建设则远远落后于技术发展,因此,“微传播”是把双刃剑备受政企的重视。

微博作为自媒体传播时代的典型代表,其具有很强的信息传播力,特别是轰动性消 息的传播范围之广,对信息当事人影响程度之深令人惊讶。因此,微博成为众多政企 展开网络口碑建设的有效途径,然而由于网络管理机制的不完善、网民结构的多样化 和网络舆情监测手段的缺失,这就必然使得网络传播存在风险。

当下,经济的快速发展,使得整个社会呈现出浮躁感,网上泛娱乐化和炒作现象普遍,人们对负面新闻事件的敏感性增强,这些导致网络负面信息更容易发酵传播,形成负面舆情环境,如果处理不当不及时,对政企形象的破坏将是深远的。

乐思网络舆情监测系统监测数据显示:近段时间,网络上掀起的各类舆情议论潮,陕西的“表哥”事件、广东的“表叔”事件、白酒塑化剂超标事件以及肯德基速成鸡事件就是自媒体时代体现微博舆情威力的典型案例。微博热点事件的偶然集中发酵,使得政企对突然而至的网络舆情危机倍感压力,对事件发生没有心理准备,导致舆情 危机处置严重滞后,不利于网络舆情危机处置第一时间法则。因此,如何突围微博舆情危机,建立有效的网络舆情监测机制成为政企急需解决的问题。

现今,网络舆情危机爆发具有很大的突发性。一条不起眼的负面信息经网络的发酵很可能突然演变成一场网络舆情灾难,而如果缺乏有效网络舆情的预警,突发而来的舆情风暴就会让政企在处理危机时乏力感倍增。

面对自媒体时代网络危机的强劲爆发力,做好网络舆情监控就显得尤为重要。准确全面的网络舆情监测,可以很好地帮助政府企业获取网络微博舆情动态,了解民意民声,实时监测微博相关话题信息的传播效果,监控微博虚假负面信息,在网络舆情危机爆发时可以妥善的、有目的性的针对处置。

以乐思网络舆情监测系统为例。该网络舆情监测系统由两个子系统组成:自动 采集子系统与结果浏览子系统。可以对微博上一切与本地区相关的信息,特别是负面信息进行及时有效的监测,其监测范围囊括各大网络媒介的微博平台,并可对重点微博话 题实施重点监测,最后对检测结果生成各类数据图表和舆情日报周报。

在当下变幻莫测的复杂自媒体环境下,政府和企业只有做到知己知彼,才能及时发与我相关的舆情呼声,第一时间了解民意,在萌芽状态化解矛盾。

第8篇:网站舆情监测

关于建立网络安全领域监测预警和应急机制

的通知

各科室:

为加强网络安全领域监测,进一步提升网络安全预警和管控处置能力,结合单位实际,建立网络安全领域监测预警和工作协调机制。

一、组织领导

市公管办网络安全领域监测预警和应急工作协调机制,由市公管办领导班子成员统一领导下,综合科统筹协调落实,各科室共同配合开展工作。

二、工作重点

一是组织开展对单位网络安全信息内容的检查。重点加强对中心网站、微博、微信等环节的涉稳问题发现、研判、记录和处置,从落实网站主体责任、内容审核管理制度、技术管控手段建设、应急处置工作机制等方面加强检查。

二是组织开展网络安全稳定风险隐患专项治理。以全面实施《网络安全法》为契机,深入开展网络安全隐患排查、打击网络谣言、网络侵犯个人信息等系列专项活动。加强网络生态综合治理,维护好网络安全稳定。

三是加强关键信息基础设施保护和网络安全检查。重点检查各科室信息审核、信息发布、安全管理等,摸清关键信息基础设施风险状况,构建一体化防御体系,防止网络安全事件发生。 四是强化网络安全监测预警和信息通报。建立网络安全监测预警和信息通报体系,充分发挥信息通报作用,完善通报机制和平台建设,加强社会资源整合。

五是严格贯彻落实网络意识形态工作主体责任。按照“一岗双责”要求,实行层层负责制,按照《关于规范党员干部网络行为意见》有关要求,切实加强对党员干部网络行为的教育、引导和管理。

六是健全重大网络敏感案事件处置的协同联动机制。遇涉公共资源交易敏感突发舆情,启动网络舆情应急联动工作机制,及时与市网信办、协调沟通,制定舆论引导预案,及时有效地引导好涉及本单位网络舆情。

二〇一七年九月十日

上一篇:语文教育教学下一篇:压力控制器