舆情监测系统方案

2022-11-21 版权声明 我要投稿

一项工作不能盲目的开展,在开展前必须要进行详细的准备,这就是方案存在的意义,那么要如何书写方案,才能达到预期的效果呢?以下是小编整理的关于《舆情监测系统方案》相关资料,欢迎阅读!

第1篇:舆情监测系统方案

网络舆情监测系统的分析与设计

摘 要:大数据时代下,网络舆情监测对政府合理控制舆情方向、进行舆情治理具有重要意义。网络舆情监测系统主要根据网络舆情需求,构建在.NET平台下基于Entity Framework模型的网络舆情监测系统的C/S和B/S框架体系。系统对信息采集、信息过滤、关键词挖掘、舆情主题分类等模块进行优化分析设计和实现。应用马尔可夫模型,将舆情发展态势划分为生成期、发展期、极速发展期和衰退期,通过对历史数据的计算实现了舆情的未来发展区间。

关键词:舆情监测;网页文本分析;网络爬虫;舆情预警;预测

1 引言(Introduction)

互聯网作为一种新的信息传播形式迅速发展,对人们的日常生活产生了巨大影响[1],已然引起学术界的广泛关注,目前研究方向包括网络舆论的传播、控制及相关问题[2,3]。据《中国互联网络发展统计报告》显示,截至2018年上半年,我国网民数量已达8.02亿人[4],互联网已被公认为是继报纸、广播、电视之后能够反映社会舆情的重要载体之一[5]。此外,超过六成的中国网民经常在网上就各种话题发表言论并进行讨论[6],以充分表达自身的思想观点和利益诉求。

由于网络中的舆情在一定程度上能够代表现实世界中人们的观点,并且对现实世界的稳定产生一定的影响,因此如何才能监测和发现网络舆情,为政府或者企业提供决策上的数据支持成为舆情问题研究的一个重要课题,本文旨在通过对网络爬虫、中文分词、信息存储方式、马尔可夫模型等的研究,来实现一个可以及时、准确的舆情监测和预测系统,为相关领域的工作人员提供数据上的支持。

2 网络舆情监测系统需求分析(Requirements analysis of the network public opinion monitoring system)

运用互联网平台进行交流具有匿名、及时、参与程度广、影响面宽、破坏面大等特点,这些特点给舆情监督的工作人员带来了极大的困难和挑战。因此,国内外普遍重视舆情监测关键技术的研究,目前,舆情监测涉及的技术非常多,其核心多为网络信息抓取技术、网络信息提取技术、自然语言处理技术。其中,网络信息抓取技术多指利用网络爬虫工具进行信息抓取工作[7];网络信息提取技术则指将文本里的信息进行结构化处理,多被处理为表格形式[8];自然语言处理技术主要研究人与计算机交互的语言问题,通过分词、关键词提取等一系列操作对舆情状况进行分析,从而达到舆情监测的目的。

国内对网络舆情的监测起步较晚,又由于中西文的差异造成中文分词技术、文本挖掘技术等许多先进技术无法借鉴,同时研究机构与应用机构又严重脱节,直接导致我国的舆情产品比较昂贵同时发展也较为迟缓。不过,随着电子计算机和互联网络在中国的普及,网络舆情对社会生活的影响越来越大,网络舆情监控的产品也越来越多,其中以网智天元、北大方正、西盈信息、人民网舆情为代表的软件公司纷纷推出了自己的产品,并且都实现了24小时实时监控、关键词监测设置、舆情分析报告等基本功能。虽然国内的软件可以完成对网络舆情的监测任务,并且提供完整的分析报告,但是还没有提供对于舆情事件的趋势预测功能。

3 网络舆情监测系统概要设计(Overview of network public opinion monitoring system)

3.1 系统总体功能介绍

网络舆情监测系统主要由舆情数据处理系统和舆情趋势预测系统两个部分组成,在舆情数据处理系统中,又包括信息采集、信息处理、关键词提取等模块。系统的功能模块图如图1所示。

系统采用C/S和B/S相结合结构进行设计,C/S客户端主要负责自动采集指定网站上的信息,并且对信息进行过滤和分析,最后对信息进行存储;B/S系统主要用于数据展现、数据查询以及舆情趋势预测等功能,系统的架构图如图2所示。

3.2 系统数据流程图

系统的数据流来自采集模块,从自定义的采集网站中开始采集网络信息,采集的结果直接通过信息过滤模块,将用户所需信息从采集的网页源代码中分离出来,保存到本地数据库。随后,关键词提取模块读取采集信息的正文,利用中科院的ICTCLAS 2013版分词系统提取正文信息中的关键词及关键词在文本中权重,并将其保存到数据库中,系统的数据流图如图3所示。

4 网络舆情监系统关键模块的设计与实现(Design and implementation of the key modules in the network public opinion monitoring system)

网络舆情监测系统主要分为两大部分,即舆情数据处理系统以及数据查询显示系统。其中舆情数据处理系统又包括信息采集、信息处理、趋势预测等三个主要模块。该系统主要用于数据的采集分析与处理,为用户提供有效的舆情信息。数据查询显示系统主要用于信息查询与趋势预测。该系统主要为用户提供舆情信息、舆情分析统计,以及舆情趋势判断等功能。其中,信息采集、信息处理、趋势预测也是网络舆情监测系统中的重点与难点。

信息采集模块的实现步骤如下:

Step1:在数据库中准备好需要抓取信息的网站的URL地址,并且配置好每个网站中的信息过滤规则。

Step2:根据用户预设的采集空间信息,初始化信息采集模型,并且通过该采集模型,对URL地址列表进行循环采集,下载当前页面的HTML代码到本地,然后由HTML解析模型进行数据解析。

Step3:在HTML解析过程中,将网页的HTML代码根据相应的网站信息过滤规则进行解析,并且将有效的信息保存到本地数据库中。

Step4:循环上述过程,24*7小时执行数据采集的过程,保持采集的数据的及时性。

信息处理模块的实现步骤如下:

Step1:系统读取数据库中为被处理的帖子的信息。

Step2:利用中科院的ICTCLAS 2013分词系统,提取出文本中的关键词,以及关键词所占有的权重。

Step3:将关键词信息保存到数据库中,并且以此作为相应帖子的内容标签。

趋势预测模块的实现步骤如下:

Step1:将热度趋势划分为四个状态区间,大于0的分为两个区间, =急速上升, =缓慢上升,小于0的也分为两个区间 =缓慢下降, =快速下降。

Step2:统计出热度趋势值从当前状态到下一刻状态的数目。

Step3:计算初始状态概率向量以及转移矩阵,预测对象在任何一个时期处于任何一个状态的概率。

5 网络舆情监测系统的测试(Testing of the network public opinion monitoring system)

网络舆情监测系统的测试主要分为功能测试和性能测试。功能测试中,主要对系统的UI界面操作,以及查询显示功能进行测试,确保系统能够给用户提供简洁、准确的数据以及良好的用户体验。性能测试主要对系统的舆情主体分类和舆情趋势预测的准确性进行测试,测试的结果表明,本系统可以准确地对信息进行舆情事件的划分和对舆情趋势进行预测。

系统包括首页、舆情监测、舆情管理、舆情站点这四个栏目,涵盖了系统需求部分所提及的所有功能。主页为用户提供了关键词搜索界面,用户在搜索的文本框中,输入想要监测的舆情的关键词,并且选择想要监测的时间段和监测的网站范围,就可以得到与关键词相关的帖子数量日均变化图、帖子热度日均变化图、帖子各站点比例图,以及帖子在未来一段时间内的趋势预测,搜索的结果页面如图4至图6所示。

6 结论(Conclusion)

综观本文的研究过程和结果,存在以下几点不足与改进:

(1)在舆情趋势预测方面,通过将马尔可夫模型运用到舆情监测的机制当中,有效地对大区间内的舆情事件趋势进行了预测。

(2)在舆情数据获取方面,系统所建立的规则不仅可以对单个论坛使用,而是可以应用于多个论坛当中,保证了系统所监测的论坛的普遍性。

(3)信息处理过程未详细研究,只是借鉴了中科院的ICTCLAS分词系统,对中文分词等过程及方法还需要进一步的分析和研究。

(4)由于时间仓促,本文对于舆情信息倾向性分析,时候评估分析等技术及应用未进行深入研究。

根据本文总结的改进之处和不足,本课题展望如下:

通过实验论证,系统可以进一步完善中文分词模块;对于本文未深入研究的技术和应用,将进行进一步的研究,旨在全面提高网络舆情监测系统的准确性、合理性以及实用性,为舆情监测领域提供优秀的技术平台。

参考文献(References)

[1] ZHANG Le-jun,TONG Wang,JIN Zi-long,et al.The research on social networks public opinion propagation influence models and its controllability[J].中国通信,2018,15(07):98-110.

[2] WANG Qi-yao,JIN Yue-hui,ZHEN Lin,et al.Influence maximization in social networks under an Independent cascade-based model[J].Physica a:Statistical Mechanics and Its Applications,2016(444):20-34.

[3] FEI Xiong,YUN Liu,CHENG Jun-jun.Modeling and predicting opinion formation with trust propagation in online social networks[J].Communications in Nonlinear Science and Numerical Simulation,2017(44):513-524.

[4] 李朋朋,李英武.“互联网+”背景下降低员工网络闲散行为的思考[J].决策探索(下),2019(01):87.

[5] 尉译心.网络舆情监控系统的关键技术[J].电子技术与软件工程,2018(07):26-27.

[6] 杨华.网络言论失范与政府管理[J].采写编,2011(05):54-56.

[7] 胡亚楠.社交网络数据获取技术与实现[D].哈尔滨工业大学,2011.

[8] 程楠.一種基于大数据技术快速处理医疗文本的方法[J].中国数字医学,2017,12(09)45-46;58.

作者:洪小娟 宗江燕 于建坤 黄卫东

第2篇:网络舆情监测系统的设计与实现

摘 要: 针对当前网络舆情监测引导方面出现的一系列问题,本文设计实现了网络舆情监测系统,通过系统设计和应用,为地方政府及时高效的进行网络舆情监测分析、进一步做好网络形象构建与传播发挥积极的作用。

关键词: 网络舆情; 舆情监测; 引导机制

0 引 言

伴随着信息技术的迅猛发展,互联网已成为广大人民群众抒发民意、表达愿望、参政议政的重要场所,也是政府职能部门收集民意、了解民情、监测互联网活动的重要场所。面对互联网上每天迅速增长的海量互联网信息和产生的网络舆情,人工方式已经远不能实现对互联网信息处理和网络舆情的监测[1]。因此,设计与实现网络舆情监测系统是目前迫切的需要,本文对此进行了研究。

1 系统的设计思路、目标及框架结构

1.1 基本思路

网络舆情监测系统能够为政府部门全面掌握网络舆情、争取处置主动权提供有效分析依据,实现政府部门对网络舆情监测和新闻专题追踪等需求[2,3]。本系统将利用整合互联网搜索技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、热点发现和分析、专题聚焦等,形成简报、报告、图表等分析结果。

1.2 系统建设目标

网络舆情监测系统要能实现及时快捷的对互联网信息进行整合,包括网站新闻、微博言论、论坛帖子等,并运用先进的中文网站过滤技术[4]、信息处理技术、文本聚类技术、热点追踪挖掘等技术对互联网海量进行自动筛选获取、自动分析产生监测预警,从而实现对网络舆情信息的收集与监测,并最终将处理结果以图形、图表等多种方式显示出来,为政府主管职能部门全面掌握互联网上民众的思想动态、社会活动,及时有效的做出正确舆论引导,避免恶性事件发生,有利于维护社会稳定、构建和谐社会。本文设计的网络舆情监测系统包括三大功能模块,即:舆情数据采集模块,数据处理模块和舆情分析模块。

1.3 系统框架结构

本文所设计的网络舆情监测系统采用了面向对象的方法,实现手动进行信息采集、信息数据分析、数据索引建立以及舆情发现与跟踪等功能;用户使用时可自行设置运行参数,服务器按照设置要求定时运行,完成用户设定参数的信息采集、分析以及话题发现和追踪等功能并将运行结果进行存储,方便以后比较使用;数据处理完成后,系统以图表图形等方式展现统计结果,具体系统框架结构如图 1所示。

2 系统建设方案

网络舆情监测系统的数据流来自系统数据采集模块,数据采集模块从设置定义的网站采集海量互联网数据信息,并将采集结果存储到服务器上;数据处理模块负责解析HTML文件,将服务器上的文件读取出来,对文件中的文本进行分词,同时把分词前后的语句及相关信息分别保存到数据库中[5];舆情分析模块对保存到数据库中的文本信息进行分析,确定其事态的强弱程序,以此完成舆情发现和深度挖掘分析;舆情预警模块按照预先设定的报警机制读取数据库中形成的舆情信息,并以直观的图表方式将结果反馈给用户。

本系统主要分为三大模块,即:舆情数据采集模块、数据处理模块和舆情分析决策模块。其中数据处理模块又包含信息处理、话题发现两大功能模块。该系统主要用于数据的采集分析与处理,为用户提供有效的舆情信息。

3 网络舆情监测系统实现

3.1 舆情数据采集

舆情信息采集模块为整个舆情监测系统的基础模块,该模块主要完成了对指定数据采集空间内的信息资源进行采集与存储,该模块所采集的信息资源,将作为舆情分析的有效文本集合[6]。采集过程中运用网络蜘蛛技术实现多线程蜘蛛同时进行抓取,大大提高抓取效率。

在采集过程中,为了提高系统性能,系统采用了如下处理方案:

(1) 系统采用文本数据库进行数据存储,降低了关系型数据库读写消耗;

(2) 设置缓存区,对常用数据进行缓存,定期将过期信息写入文本数据库,降低输入输出读写消耗;

(3) 采用多线程数据采集,以提高采集速度。

采集模块主要代码如下:

protected void search()

{

DateTime start = DateTime.Now;

_indexDirectory = Server.MapPath("index"); //词库路径;

dictPath = Server.MapPath("App_Data"); //词库路径

highanalyzer = new Lucene.Net.Analysis.Standard.StandardAnalyzer();

_searcher = new IndexSearcher(_indexDirectory);

Analyzer KTDanalyzer = new KTDictSegAnalyzer(dictPath);

PerFieldAnalyzerWrapper wrapper = new PerFieldAnalyzerWrapper(highanalyzer);

simpleAnalyzer = new WawaSimpleAnalyzer(); //按分隔符语汇单元化的分析器

wrapper.AddAnalyzer("title",simpleAnalyzer);

wrapper.AddAnalyzer("content",simple Analyzer);

string[] fields = new string[] { "title" };

if (keyssidt == "2")

{ fields = new string[] { "content" }; }

_mfqp = new MultiFieldQueryParser(fields, wrapper);

string nowq1 = reqs(this.Query);

if (nowq1.Length<2)

return;

q1 = _mfqp.Parse(reqs(this.Query));

BooleanQuery m_BooleanQuery = new Boolean Query();

Query query1 = new TermQuery(new Lucene.Net.Index.Term("soid", keyssid)); //词语搜索

m_BooleanQuery.Add(q1, BooleanClause.Occur.MUST);

……

Repeater1.DataBind();

DataBind();

}

采集模块主要结构如图2所示。

3.2 数据信息处理模块

数据信息处理模块实现分词与建立索引的功能。该模块主要对信息采集过程采集到的文本数据库进行读取,逐条进行数据清理,去除文本中的脚本等无用信息,提取出文本的标题、内容,并利用 Lucene.Net 对文本进行分词索引,为热点话题发现模块创建文本模型提供数据资源[6]。

分词索引功能的实现,主要是利用了采集回的HTML信息,进行信息处理,并对有效数据进行分词,建立索引[7]。

实现步骤如下:第一步,系统读取文本数据库,将每条数据的内容读入信息预处理模块,在信息预处理模块中,对文本内容进行分析,根据

标签等,分别获取文本的标题及内容;第二步,利用中文分词系统,建立本系统中使用的 Analyzer 及Tokenizer 类,将分词器跟分析器进行合理的组合,使之产生对文本分词和过滤效果,同时将文本规则切分为一个个可以进入索引的最小单元;第三步,构造indexWriter对象,并将负责把索引文件写入存储介质,是控制逻辑存储转换为物理存储的纽带;第四步,建立索引,并对索引结构进行优化。信息处理模块主要代码如下:

public class HTMLDocParser

{ private String htmlPath;

private HTMLParser htmlParser;

public HTMLDocParser(String htmlPath)

{ this.htmlPath=htmlPath;

initHtmlParser();

}

private void initHtmlParser()

{ InputStream inputStream=null;

try

{inputStream=new FileInputStream(htmlPath);}

catch (FileNotFoundException e)

{e.printStackTrace();}

if(null!=inputStream)

{ try

{

htmlParser=new HTMLParser(new Input Stream Reader(inputStream,”utf-8”));

catch (UnsupportedEncodingException e)

{ e.printStackTrace();}

}

}

……

}

信息处理模块主要结构如图3所示。

3.3 舆情分析模块

使用 B/S访问方式作为舆情分析模块的主要开发模式,更加有利于分析人员及时有效获取当前舆情信息,其实现步骤为:第一步,抽取阶段主要完成数据源数据的链接、数据访问等工作;第二步,清洗阶段则完成了对列属性的清洗和增补、对数据结构的清洗和增补以及对数据规则和业务规则的清洗和增补工作,并为下一步准备数据;第三步,一致性处理完成了维度表的建立、度量及性能指标的建立,去除重复数据,并为下一步准备数据;第四步,交付阶段则主要完成了维度表数据的加载及处理,并将处理好的数据加载到数据仓库,然后利用 Reporting Service 功能实现舆情信息的统计、分析。

4 结 论

本文针对网络舆情监测引导进行了系统开发研究,提出了舆情数据采集模块、数据处理模块和舆情分析模块相结合的设计思路,并设计实现了网络舆情监测系统。通过系统设计和应用,实现政府部门对网络舆情监测和新闻专题追踪等需求,形成简报、报告、图表等分析结果显示出来,从而更好的为地方政府开展网络舆情监测分析、做好社会管理工作发挥积极的作用;并且在地方政府掌握网络舆情、引导网络舆情发展、构建地方政府良好形象方面提供了有效分析依据。

参考文献:

[1] 高洪杰. 互联网舆情监测分析系统实现[D]. 上海:复旦大学,2009.

[2] 杨涛. 智能信息处理技术在互联网舆情分析中的应用[D]. 上海:同济大学,2008.

[3] 潘文富,郭友实. 网络舆情监测技术研究综述[J]. 福建电脑,2011(8):39-41.

[4] 刘小强,廖建锋. WSN中一种基于网格的并行数据收集方案[J]. 计算机应用与软件,2014(7):127-131.

[5] 张显江,刘小强. 一种参数联合优化的网络流量非线性预测模型[J]. 计算机工程与应用,2014(6):64-67.

[6] 于琨,孙新领. 基于信息挖掘的高校网络舆情监测系统开发[J]. 河南机电高等专科学校学报,2012(1):24-26.

[7] 刘小强. 二手转让及房产租售垂直搜索引擎的设计与实现[J]. 三门峡职业技术学院学报,2010(3):118-121.

(责任编辑:徐兴华)

作者:刘小强 苟元琴

第3篇:网络舆情监测系统的研究与实现

〔摘 要〕网络舆情作为一种重要的舆情形式,具有形成速度快,受众人群广等特点,对国家和社会的影响越来越重大。互联网用户可以自由地在微博、论坛、博客等中发表有关社会中各类现实问题的态度和意见。监测网络舆情的主要手段就是利用网络爬虫对目标网络的页面数据进行挖掘,然后对挖掘的数据进行分类处理,并科学地统计舆情信息。本文主要分析网络舆情的特征和处理对策,并利用网络爬虫、全文检索、关键词评分、以及科学数理统计等手段对网络舆情监测系统的原理进行探索与系统实现。

〔关键词〕网络舆情;爬虫;关键字排名

DOI:10.3969/j.issn.1008-0821.2013.11.009

舆情是民众关于现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和[1-2]。网络舆情信息是指社会民众通过互联网这一媒介所表达的情绪、态度、信念、意识、思想、意见、要求和行为方式等方面的综合表现,是对现代社会物质、政治、精神和社会4个文明建设活动的各种反映[3-5]《2012年互联网舆情分析报告》蓝皮书指出,2012年微博成为社会舆情的发动机,在本年网民重点关注的是社会转型、环境问题、钓鱼岛问题、南海问题等热点话题。据统计2012全年关于“钓鱼岛与反日游行”话题的网络博文合计17 742万篇,“伦敦奥运”话题博文7 583万篇,“神舟九号与天宫一号对接”的话题博文3 923万篇。由此可见,网络舆情基本都是在短期爆发的,且影响范围广泛,都是些对国家、对社会意义深远的热门话题。因此,对网络舆情进行监测分析是十分必要的。随着科技的发展,计算机技术的迅速普及与推广,网络为社会各阶层的人们提供了广阔、自由的交流平台[6],互联网成为了社会网络舆情传播的主要平台。而网络舆情主要来自于BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,可以说真话,也可以说假话,言论相对自由,网络的开放性直接决定了网络舆情的直接性、突发性、偏差性。网络舆情的独立属性,信息流和环境会影响舆论的传播[7]。网络舆情主要来自BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,言论相对自由,网络的开放性直接地决定了网络舆情的直接性、突发性和偏差性。本文设计的网络舆情监测系统,主要考虑以下几个方面:(1)对主流的社交网站、门户网站的网页、帖吧、文本文件、新闻评论、微博、博客等近期发布的信息,进行分类存储处理。(2)对指定的网站上的近期信息,包括网页、帖吧、文本文件、新闻评论、微博、博客等数据进行采集与归类存储处理。(3)对采集到的各种数据进行关键字分词处理,分词存储,分词评分,分词排名等处理。(4)建设关键字检索系统,检索的结果按照标题与内容的综合评分进行合理的排序。(5)本网络检测系统,采用合理的框架,预留更多未来开发的扩展接口,方便开源与二次开发。

2013年11月第33卷第11期现?代?情?报Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期网络舆情监测系统的研究与实现Nov.,2013Vol.33 No.111 系统的主要功能模块

1.1 网络舆情的采集模块根据设置的检索条件,如限定域名的http:∥.sina.com/的所有页面的信息,将采集的数据适当的过滤,留下有用的关键数据。爬取的对象为重点新闻网站、知名社交网站、各大论坛,博客,以及政府网站等。

1.2 数据处理模块对从网络上采集而来的数据进行处理,处理的手段包括:归类、分词、标注、加权、存储优化等。

1.3 关键字检索为本网络舆情监控系统提供一个搜索引擎的功能,方便对网络蜘蛛爬取的数据进行查看管理。在一次检索的基础上,提供二次检索。提供智能的检索方案,按字索引、按词索引以及字词混合索引,对检索结果进行排名与统计。

1.4 舆情分析与统计舆情分析是对舆情进行深层次的思维加工和分析研究。主要包括内容分析法和实证分析法。内容分析法对信息内容进行客观系统的定量分析,提示信息所含有的隐性情报内容,对事物发展做情报预测。实证分析法是通过分析大量案例和相关数据从而得出结论的一种研究方法。经过分析后,可以自动提取关键字,提取一段完整的内容进行智能提取摘要,也可以根据已经设置的检索条件进行动态地提取摘要。对标题进行分词检索与排名。智能识别数据并归档到本地数据源。网上数据的表示可以采用“点”与“线”组成的模型图,来表示互联网中的各类数据。用“线”来表示各个页面之间的URL链接关系,用“点”来表示网络中的各个页面。在这样的一个由点线组成的网状结构的图形中,每一个点与线都表达了非常重要的信息。所以互联网中的文本类型的数据可以简单的划分成由页面标题、页面的内容、页面的超文本标记以及页面之间的URL链接等构成。一般的HTML页面由Head标签和Body表组成,主要的元素有标题Title,表格Table,层div等信息标签组成。然而每当用户浏览器收到数据时,去掉多媒体信息数据,如视频数据、flash动画、图片数据、音频数据等非文本文件数据,其余的文本文件所包含的信息可以分为两类:一类是用于结构控制的HTML标签,HTML由“〈”和“〉”构成一个标签,如〈div〉、〈head〉等标签;另外一类就是内容信息了,这些信息就提供给我们可以直接阅读的文字。也就是我们最终需要分词处理,存储处理的,建立索引的文本数据。在页面设计的时候,为了方便搜索引擎搜录其页面的信息,通常会在页面添加关键字,在页面的〈head〉标签中,可以添加〈meta name=”关键字1,关键字2,关键字3”content=”页面摘要描述……”〉的标签信息来描述本页面的主要信息,方便搜索引擎的网络蜘蛛爬取信息。

1.5 关键字高亮显示在查询检索结果中,对关键字进行统计并高亮显示,虽然是一个小功能,但是技术实现的难度大,对用户体验有较高的提升,使得在检索结果中对关键的信息对用户一目了然。

1.6 网络舆情的预测通过分析近期捕获的网络舆情,对这些数据进行自动分类,进一步聚类,并统计出各个关键字的数据图表,周期升降率,从而预测未来的舆情演化与趋势。

2 系统架构本网络舆情监测系统采用MVC的设计模式。MVC的全称就是Model View Controller的缩写,意思为模型model——视图view——控制器controller,MVC是最常用的一种程序基本结构的设计,使用MVC架构可以使业务逻辑模块、数据链路模块、UI界面模块具有良好的分层,这3个模块在具体的实现内容上彼此分离,在关系上又彼此调用,可以使各个模块的负责人集中精力编写各自的模块,只需要对彼此的调用关系提供接口,以便降低程序关系的耦合度,达到高内聚低耦合的目的,在MVC架构发展的近些年中,许多有经验的程序员习惯用Java的反射特性来更好地控制UI界面模块和业务逻辑模块的耦合性。利用MVC独特的界面层、控制层、数据模型层的良好解耦的特点,本系统基本架构为:

图1 MVC系统架构示意图

2.1 系统的功能架构本网络舆情监测系统按功能模块划分,可大致划分为网络爬虫采集模块、中文分词系统、UI界面管理模块、索引文件管理模块、内容搜索及搜索显示模块、中文全文检索系统、关键字智能评分系统、关键字高亮显示模块等八大模块。

网络舆情监控系统网络爬虫采集模块中文分词系统UI界面管理模块索引文件管理模块内容搜索及搜索显示模块中文全文检索系统关键字智能评分系统关键字高亮显示模块图2 系统各个功能模块

2.1.1 网络爬虫网络蜘蛛(Web Spider),也翻译为网络爬虫(Web Crawler),不管用其中的哪一个翻译都是一个非常形象的名称。其实,网络就好比蜘蛛网一样,上面有无数个节点,爬虫Crawler就好比是在网络中爬来爬去的一只虫子。网络蜘蛛在搜寻的网页中检索一个个超链接URL,再对各个URL进行判断是否曾经检索过,如果没有,则通过该链接进行信息爬取,并且一直循环爬取,一直到把该网站所有的页面都爬取完为止。

2.1.2 中文分词系统英文单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,惟独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多,困难的多。中文分词系统用于将一个又一个的单个汉字进行分词。一般中文分词是先判断前面和后面的几个汉字能否和本汉字组成为一个词语,并把前后连续的几个汉字,按照一定的顺序和语法进行重新排列或组合成为一个词序列的过程。中文分词最重要的是把最相关的结果排在最前面,这也称为相关度排序。

2.1.3 中文全文检索系统中文全文检索是指把一个中文的文件中的全部的文本和检索项,进行全文式的匹配检索文本文件的方法。中文的全文检索可以把一个数据库或者一些文本文件,一个Web页面的内容进行全文查找检索。该系统还能分析文中的相关字、词、句、段、篇等内容,并带有统计功能,如果我们给一本书的每一个分词都加上一个分字标签,那么就可以统计分析全文的内容了。比如,我们要统计“中国名著《西游记》这本书中,‘孙悟空’一词在本书中共出现多少次”就可以通过这个检索方法实现。

2.1.4 UI界面触发的事件反射到逻辑的处理事件的反射处理是利用Java的反射原理将View层中的事件反射到逻辑中来执行,UI响应反射事件时,需要通过事件动作配置数据Relation.java类,判断事件的类型,事件分为“无条件跳转”和“执行逻辑函数”两种类型。

图3 响应事件流程图

3 网络舆情的统计与分析如果人工采集互联网上的信息,这个工作量将会是巨大的,因此需要研究如何在网络上进行自动实现信息采集,并及时的对采集来的信息进行处理,由人工采集信息的防拥塞,变为自动采集的自动归类,梳理,建立索引。图4 中文分词的输入输出

网络舆情分析系统是处理已采集信息的核心功能模块,具体功能如下:(1)可以对热门话题与敏感词汇进行标识。(2)可以根据新闻发布机构的权威度、回复数量、评论的频率,对信息进行评分加权,使得检索时排位靠前。(3)可以识别出采集的信息在某一段时间内是否是最热门的话题,使用关键字的分词、排序、语法分析和语义分析,来辨别各类文章中是否包含敏感话题。互联网页面上的数据不仅包括页面的内容数据,还含有一些HTML超文本标签主要用来对网页的结构进行设计。目前,部分国际化组织制定HMTL5协议对页面上的数据的格式进行统一的标记,但是这一类协议仅仅用于内容信息的表述形式上,这样做的原因是让浏览页面的用户能够更好地阅读页面信息。

4 结 论本文在现有网络舆情研究的基础上,依据系统性、科学性、可靠性及可操作性原则,对如何采集监测网络舆情信息进行深入剖析,这有助于了解网络舆情发展规律,并据此设计了网络舆情监测系统,当然,该系统的功能还需进一步完善以便推广使用。

参考文献

[1]董亚倩,邓尚民.基于社会网络分析的网络舆情主体挖掘研究[J].情报资料工作,2011,(6):45-49.

[2]石彭辉.基于社会网络分析的网络舆情实证研究[J].现代情报,2013,33(2):27-31.

[3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.

[4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.

[5]戴媛,姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践,2008,31(6):873-876.

[6]陈新杰,呼雨,兰月新.网络舆情监测指标体系构建研究[J].现代情报,2012,32(5):4-7.

[7]Suo Shuguang,Chen Yu.The Dynamics of Public Opinion in Complex Networks[J].Journal of Artificial Societies and Social Simulation,2008,11(4):2.

(本文责任编辑:王 涓)

作者:邓凯英 彭超

第4篇:舆情监测系统建设方案

突发公共事件发生前、中、后均可进行舆情监测,对网络舆情进行实时关注,及时发生社会稳定的不利因素。

常态和非常态,自动搜索关注量较大的新闻和热点,通过对新闻及相关数据的挖掘、分析,及时发现社会安全隐患,及时发出预警信号,达到早发现、早报告、早处置的目的,做好社会安定防控工作。

舆情监测系统通过对热点问题和重点领域比较集中的网站信息,如:网页、论坛、博客等进行24小时监控,随时下载最新的消息和意见。下载后完成对数据格式的转换及元数据的标引。对下载本地的信息,进行初步的过滤和预处理,减少智能分析的工作量。对热点问题和重要领域实施监控,前提是必须通过人机交互建立舆情监测的知识库,用来指导智能分析的过程。对热点问题的智能分析,首先基于传统基于向量空间的特征分析技术上,对抓取的内容做分类、聚类和摘要分析,对信息完成初步的再组织。然后在监控知识库的指导下进行基于舆情的语义分析、倾向性分析,使管理者看到的民情民意更有效,更符合现实。最后将监控的结果,分别推送到不同的职能部门,供制定对策使用。

1.1 互联网舆情监控系统 1.1.1 需求分析

通过对网页、论坛、博客、新闻评论信息的深度搜索和挖掘,实时对突发公共卫生事件的媒体报道和公众舆论信息进行汇聚和统计分析,使市卫生局应急办人员能够随时了解社会公众的声音,每天自动生成舆情监测专报,上报相关领导,为领导决策提供准确、全面的信息。

1.1.2 建设方案 1.1.2.1 网络舆情抓取

自动采集网络媒体发布的网络新闻、BBS论坛信息、博客内容信息,舆情采集用户只需输入一个待采集的目标网址即可实现图文结合采集到本地。网页采集模块在互联网上不断采集新闻信息,并对这些信息统一加工过滤、自动分类,保存新闻的标题、出处、发布时间、正文、新闻相关图片等信息,经过手工配置还可以获得本条新闻的点击次数。以网络论坛BBS为代表的交互性网络站点,往往是一些突发事件的网络舆情爆发点。

1.1.2.2 网络舆情热点自动发现

对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态。系统会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计,提供不同时间段(1天、3天、7天、10天)的热点新闻。对每条热点新闻还可以查看新闻相关传播链,了解在某一时间段该热点新闻在哪些站点的传播数量。同样也提供热点帖子、热点专题等功能。

1.1.2.3 多维度关联的舆情展现

自动对每天采集的海量的、无类别的舆情进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。可支持自动生成新闻专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

1.1.2.4 舆情分析和统计

1、热点专题统计

热点专题总体分布、重点预警事件总分布、各类重点预警事件分布。

2、站点统计

可统计各采集站点的采集文章数、统计各论坛站点的采集文章数。

3、热点人名

系统自动抽取文章中的人名,并按该人名出现的文章次数进行统计,可查看热点人名的传播趋势。可按日期查询热点词语。

4、热点地名

系统自动抽取文章中的地名,并按该地名出现的文章次数进行统计,可查看热点地名的传播趋势。可按日期查询热点地名。

5、热点机构

系统自动抽取文章中的机构名,并按该机构名出现的文章次数进行统计,可查看热点机构的传播趋势。可按日期查询热点机构。

6、热点词语

系统自动抽取文章中的热点词语,并按该词语出现的文章次数进行统计,可查看热点词语的传播趋势。可按日期查询热点词语。 1.1.2.5 舆情专报生成

根据配置的关键词信息,自动定时生成要求格式的舆情专报,提供给领导进行参考。

第5篇:云舆情监测系统

随着网络日益的发达,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一,网络舆情的重要性凸显出来。网络舆论热点层出不穷,各种突发性事件都是通过互联网第一时间扩大传播。网络舆情信息主要来源是新闻评论、bbs、博客等,这些成为政府了解社情民意的直接渠道,也是新形势下政府的重要舆论阵地。因此,网络舆论一旦被错误地控制和引导,将成为影响社会稳定的重大隐患。

舆情监测系统在这样的环境下产生,它可以通过采集各大门户网站信息内容来知晓最新的社情民意,民众的舆论导向。

系统工作流程

采集新闻、论坛网站内容→通过监测系统网站分析、舆情分析第一时间发现敏感、热点话题→由专家学者、评论员或是新闻发言人分析报告、进行及时的舆论引导。

系统介绍

系统对所需信息进行过滤、分析、聚合和数据挖掘,以传播力和影响力作为分析指标,及时发现信息,分析并追踪传播及演变过程,并对指定重点敏感事件进行专项监测与分析。

云舆情监测系统提供对互联网信息(新闻、论坛、博客、贴吧、微博客等)实时采集、内容提取及排重;并且对获取的信息进行全面检索、主题检测、话题聚焦、相关信息推荐;按需求定制主题分类;为舆情研判提供时间趋势、传播路径、话题演化等工具,统计舆情信息,生成舆情报告。

全面实时监测网络舆情

采用定向采集为主、全网监控为辅的方式,自动对新闻(新闻跟帖、新闻评论、RSS)、论坛(回帖、点击数、回复数等)、博客、贴吧、微博客等网络媒体进行全面实时监测。 智能处理舆情信息

对互联网舆情信息自动提取关键词、摘要、分类、聚类、主题检测、关联分析、情感分析。

完善的舆情监控业务

自动监测敏感信息,自动聚焦热点话题,自动追踪潜在舆情事件。可预置审核流程,逐级审核、上报舆情信息。自动探测页面删除状态,统计研判网络舆情,生成可定制舆情报告。提供对本地网站的属地化管理,支持违规网站信息统计管理。

行业特色功能

支持实现对网络舆论导向的全面掌控、效果评估。

第6篇:网络舆情监测系统

舆情监测系统介绍

功能和服务

舆情监测系统的数据是经过清洗、过滤、抽取、分析和挖掘的,舆情监测系统的主要功能并不只是提供简单的舆情信息搜索,而是具有全网搜索、定向监测、自动发现,自动预警,趋势分析,自动分类等功能,具有丰富的统计结果。

而互联网搜索引擎只能提供相关的搜索服务,要靠人工主动去搜索,搜索结果出于商业利益的驱动,掺杂很多的不合理的因素,准确性、可用性不强。全面性和及时性方面完全不能满足舆情监控的需要。

采集范围和深度

舆情监测系统所采集的信息范围主要是定向的,是用户关注的特定区域、特定领域的网站,针对这些网站可以做到全面采集和精准采集。虽然baidu/google等互联网搜索虽然采集范围广泛,但是针对具体的舆情载体,采集深度不够,采集不全面。

目前搜索引擎的数据采集采用的是广度优先策略,会根据url地址进行重复采集的控制。对于论坛、贴吧等舆情载体不会按照主贴、跟帖、翻页的方式进行精确采集,采集深度满足不了舆情监控应用的需要。

西盈网络信息雷达系统专门针对西盈网络舆情监测(监控)系统和西盈竞争情报系统开发而成的,深度挖掘技术超越了google等以智能化和广度见长的搜索引擎爬虫系统。

更新速度

舆情监测系统用户可以自己设置采集的更新频率,对于舆情高发的载体网站可以做到分钟级的更新,这一点互联网搜索引擎是无法达到的。互联网搜索引擎的采集周期一般都是数天或者数周,甚至会出现漏采,无法采集的情况。

采集的网站种类

舆情监测系统可以做到对新闻,论坛,博客,贴吧等舆情载体的全面采集,尤其是针对论坛(包括跟帖),贴吧等这些“草根”网站(这些媒体往往是舆情高发区域),实现全面、迅速的舆情采集的同时,可以实时更新信息的点击数,回复数,转载数等等。而互联网搜索引擎大多是采集新闻网站,而对于论坛,贴吧、博客等等往往无能为力,更无法提供舆情分析需要的统计数据 。 采集数据的有效性

互联网搜索引擎所采集的数据,往往是没有经过过滤的,甚至充斥着大量的广告等垃圾信息。这些信息往往可以作为舆情的并不多。而舆情监测系统所采集的数据全部都是有效的,和用户相关的,真正称之为舆情的数据。

舆情信息储存和利用

舆情监测系统的信息是储存在用户本地的,可以进行归档,分析利用以及作为应用系统的数据来源,但是针对互联网搜索引擎中的数据,用户没有任何干预的手段,只能通过其固定的检索服务进行访问。

相关信息的数量

百度和谷歌等互联网搜索引擎虽然拥有绝对多的数据量,但是对于和用户相关的舆情信息,由于其没有定向采集全面,深度等优势,其收录数量就会大大低于舆情监测系统。另外,舆情监测系统集成了互联网搜索引擎的元搜索功能。可以整合多个搜索引擎的搜索数据。

总结

成功的舆情监测系统是主动告知用户google等搜索引擎中或收录或没有收录的与“我”相关的舆情信息。重大事件及时预警,并提供量化的统计分析数据助力舆情分析,通过自动生成舆情报告等方式辅助舆情工作。

网络舆情监控系统解决方案

方案背景

据中国互联网信息中心调查,截至2009年12月31日,中国网民达到3.84亿人,全国互联网普及率28.9%,手机网民规模达到2.33亿。网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源于新闻评论、BBS、博客、聚合新闻(RSS),网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴/转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。 方案内容

系统介绍

易观网络舆情监控系统,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测聚焦,倾向性研判等,实现用户的网络舆情监测和新闻主题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。

系统结构图

系统组网图

系统功能

1) 深度多渠道网络信息采集,为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。

2) 完善的信息预处理机制:超链分析,编码识别,URL去重,锚文本处理,垃圾信息过滤,内容去重,关键字抽取,正文抽取等。

3) 强大的索引分词机制,对舆情信息实施双重过滤,具有自动分类、自动聚类、相似性排重功能,系统能够自动完成热点发现。

4) 热点舆情:系统自动识别出热点焦点事件,以舆情形式分新闻、论坛和博客三种类别呈现。及时发现网络热点信息。

5) 专题追踪:生成专题报道对网络话题进行专题化的侦测和追踪,如两会、奥运会,对专题话题形成系统性的掌握和监控。

6) 分站/分类浏览:对系统中舆情可以按网站和不同的分类进行浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除)。

7) 趋势分析:来源载体/站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。

8) 突发事件分析:对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。 9) 多种舆情检索方式:可按网站、类别、时间段、关键词等条件进行专项化全文检索,并可生成查询时间和次数、关键词查询频率等查询统计数据。另外还将结合检索关键词,随时补充全文检索库中的关键词,有机结合个人操作习惯,可在检索结果中进行二次检索。

10) 舆情统计报告:根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。

11) 统计报表:系统生成各种形式的报表。报表包括图表和数据表格,图表包括饼图、折线图、直方图等,如总量图、趋势图等;数据表格是对舆情信息的数理统计,以数字的形式记录各项舆情数据。另外用户可以自己需求定制报表模版,比如日报、周报、月报等。

12) 舆情报警系统:对突发事件、涉及内容安全的敏感话题及时发现并报警,系统提供多种报警方式。

系统特点

1) 精准全面的网络舆情采集,能够对论坛、博客、新闻评论等内容进行全面、精确的采集和及时的更新,为舆情分析提供强有力的数据保障。

2) 多维度实时监测、过滤网络舆情信息,采集到本地的文章会自动标注并分析,具有趋势图直观展现。

3) 专业的舆情办公平台,用户可以根据实际工作需要,将需要关注的信息定制到系统,用户可以随时调出自己需要的资料,直接追踪关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省用户人力。

4) 专业的舆情分析顾问服务,基于易观深厚的互联网行业背景以及对网络舆情深刻的认识,协助用户进行舆情监控设计,对用户背景、行业特征及需求做深度调研,给出最适合用户的舆情监控方案。

5) 丰富的舆情项目开发实施经验,有专业的舆情实施队伍和资源,提供从舆情监测规划、舆情系统选型、舆情项目实施、舆情工作开展到舆情干预的一体化的舆情系统解决方案。

6) 拥有成熟的舆情产品,可以根据用户要求定制,需求牵引及时,在保证效果的同时提供良好的用户体验。

商业价值

帮助客户全面、及时、精准、专业、高效获取网络舆情并为己所用;

第一时间获取客户相关的正负面新闻、泄密信息、领导相关报道、近期舆论热点等,健全危机事件预警机制防患于未然;

协助企业客户准确掌握产品和市场情况,监控竞争对手和行业动态,为企业市场、行销决策提供支持支撑服务。

附件1:

“网络游戏未成年人家长监护工程”实施方案

“网络游戏未成年人家长监护工程”是一项在政府部门、人民团体指导下,社会和家长参与,网络游戏经营单位具体实施的社会行动,旨在加强家长对未成年人参与网络游戏的监护,引导未成年人健康、绿色地参与网络游戏,构建和谐家庭关系。该工程自2011年3月1日起全面实施。

一、“家长监护工程”的主要内容

(一)网络游戏经营单位建立专门的服务页面,公布专线咨询电话,开通专门受理渠道,介绍受理方式。

(二)家长需要了解、引导、控制孩子游戏活动的,由家长向网络游戏经营单位提供合法的监护人资质证明、游戏名称账号以及限制措施等信息。限制措施包括:限制每天或每周玩游戏的时间长度,限制玩游戏的时间段,或者完全禁止。

(三)网络游戏经营单位按照家长要求对未成年人的账号采取限制措施,并持续跟踪观察,及时反馈该账号的活动,为家长提供必要协助,制止或限制未成年人的不当游戏行为。

二、实施“家长监护工程”的具体要求

各网络游戏经营单位要做到“四有”,即有专人负责、有专线电话、有专区设置、有季度报告。

(一)专人负责

1. 要指定专门的负责人,并将指定负责人及联络方式向所在地省级文化行政部门备案;

2. 培训专门服务人员对“家长监护工程”提供专业咨询解答和服务支持;帮助家长了解被监护人游戏行为,提供家长与被监护人进行沟通的建议;

3. 服务人员要持续跟踪每个申请,及时与家长沟通情况,反馈该账号的活动,了解未成年人参与游戏的状况,为家长提供必要协助。

(二)专线电话

1. 开通单独的专线服务电话(区别于普通服务热线),提供咨询解答和受理服务;

2. 在原有的客服电话中提供转接到专线服务电话的链接;

3. 要提供多种服务渠道,确保家长可选择最便利的方式提出服务申请(传真、网络申请、电子邮件、信函邮寄、上门申请等)。

(三)专区设置

1. 在网站设置“家长监护工程”专区,在主要运营产品网站的显著位置设置进入该工程页面的链接方式; 2. 专区要有对工程情况、申请条件、处理流程、可采取的监护结果等事项的说明;

3. 要在专区显著位置设置监护服务申请入口、受理方式(家长监护专线);

4. 专区要预设好问题和答案,或展示虚拟案例操作流程及结果,供家长阅览和参考;

5. 专区要设置服务申请进度查询;

6. 专区要登载《未成年人健康参与网络游戏提示》(附件2),引导未成年人健康地玩游戏、玩健康的游戏。

(四)季度报告

各网络游戏经营单位要在每季度末向所在地省级文化行政部门提交“家长监护工程”情况报告。报告内容包括咨询数量、申请数量、受理与完成情况、重点案例分析、疑难问题说明,对于工程实施过程中出现的问题提出意见或建议。

三、强化信息公开和社会监督

文化部在中国文化市场网设置“家长监护工程”专栏,公布网络游戏经营单位名录、各经营单位“家长监护工程”服务网站主页、热线电话等信息,供家长和社会查询和监督。

第7篇:网络舆情监测系统评价标准

随着互联网的快速增长,网络舆情监测软件及其服务市场也迅速地发展起来,保守地估计,在中国大陆地区这个市场的总量已经逼近10亿元人民币规模。

市场参与者主要包括四种类型的公司:第一类是拥有网络信息搜索或(中文)文字信息处理等相关技术的软件公司;第二类是公关、广告公司,这类公司是在传统媒体监测业务基础上发展出网络新媒体监测业务;第三类是网络营销服务公司,近几年这类公司增长迅猛,网络社会化媒体的飞速发展是其发展的催化剂;第四类是依托传统媒体延伸出的增值服务。随着网络的发展,不少传统媒体也开始“触网”,并逐步发展出针对网络媒体的新业务,而网络舆情监测是其中的一个方面。例如,人民网舆情监测室。除了以上四类公司之外,还有一类进行网络舆情监测业务的参与者,他们是主管部门或行业机构所属的网络舆情监测机构,但严格意义上讲,此类机构和参与完全市场竞争的公司是不同的,因此,单独另归为一类。

社会化网络媒体的兴起,正在改变传统的信息传播机制。网络传播具有匿名性、速度快、范围大、持续力强、传播渠道多元化、传播效果可测量等特点。一条负面信息从出现到形成舆论热点的周期,从原来的24小时(传统新闻媒体比较典型的更新周期)缩短到现在的4小时(微博热点话题达到第一个传播峰值比较典型的时间周期)。如果不能在这4小时内做出解释、反馈、制定应对策略,就可能出现舆论一边倒的局面,甚至可能发生极具品牌杀伤力的公共危机。由此,也就有了网络舆情监测响应“黄金4小时”的说法。

做出及时、准确应对的前提是,要能够在第一时间了解网络舆情的内容、发生源、关键传播途径等相关信息数据。由此,对于网络舆情监测软件的性能提出相应要求。

如何来评价网络舆情监测软件(系统)的性能呢?个人认为主要着眼于以下三个方面。

评价标准之一:对网络内容监测的准确性。

对于内容的判断是一个关键技术,目前的监测系统还不能做到对内容信息的完全自动判断和处理,在不能保证内容识别百分之百准确率的情况下,往往需要对监测分析的中间产物或不能识别的信息进行一定程度的人工校验和清洗。

中文信息在处理上具有一定特殊性和技术难点。英文每个单词之间用空格或标点符号进行分隔,与英文不同,中文字之间没有空格,由字组成词存在多种可能情况,中文分词是识别的一个难点。

分词难点:一是分词的歧义识别,歧义是指同样的一句话,可能有两种或者更多的切分方法。主要有“交叉歧义”、“组合歧义”、“真歧义”(相关定义参见附录)三类情形。“真歧义”必须要联系上下文才能够确定在文中的具体涵义;二是新词识别,随着时代的发展,中文新词不断涌现,如果没有被收录而要进行自动识别是非常困难的。与之相似的还有专业术语、名称(包括,人名、商标、简称、机构名、缩略语等)等的识别问题。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

在分词基础上,中文内容监测还需要对信息自动进行聚类、情感分析、提取摘要,特别是自动根据上下文内容判断情感倾向与危机度、区分正负面。而这正是网络舆情监测的核心工作之一。

为了提高内容识别的准确性,大部分网络舆情监测系统采取了专业化发展的策略,通过面向特定领域的知识、经验和基础数据的积累与不断更新,逐步建立起舆情监测系统在特定领域内的服务特长和功能优势。由此,也就有了舆情监测服务市场的细分化,有的专注于民生与社会动向、有的专注于消费品牌、有的专注于特定行业„„

也有一些监测系统提供全方位的监测服务,这些系统有较好的业务包容性,能够满足网络舆情监测的主要需求,或者能够根据客户需要做到定制化的服务,这类系统通常都会针对新客户有一个系统部署阶段,在部署过程中完成一些定制化的工作。

“专用型系统”与“通用型系统”各有特色,客户在选择时主要评估是否能够充分满足自身需求,同时拥有较好的性价比。两类系统相比较,我个人更看好“专用型系统”未来的发展。主要根据是,网络媒体和内容形式的发展非常迅速,一个好的舆情监测系统必须有一个持续而专业化的服务保障体系为支撑,而“专用型系统”在此方面会有比较明显的优势。另外,“专用型系统”还可以根据特定行业或其他特定领域的特殊需求事先预置一些特色功能,如果设计得当,这些功能会对目标客户有很大帮助和价值,也会成为营销中的主要卖点之一。

准确性方面不同系统的表现差异很大。从市场反馈的情况看,在商用领域,需要分行业进行监测服务的业务积累,在某个行业或细分领域有的系统监测得好、有的系统就不行;同样,在政府管理服务领域,也有数个细分领域,不同系统的表现也是参差不齐。

评价标准之二:网络内容监测时效性。

时效性的高低与软硬件技术和运营设备资源都有密切关系,其中涉及到的专业技术不是本文关注的范畴。这里要指出的是,时效性与前面提到的准确性是紧密相关的。如果系统对内容的判断准确性高,需要的人工干预就少(当然,理想状态是完全不需要人工干预),监测信息处理的时滞就少,监测的时效性自然就会有保障。如果系统需要一定的人工干预,通常情况下,会平均滞后0.5~3天左右。这个时间已经远远超出了前文提到的网络舆情监测及响应“黄金4小时”周期。如果系统的时效性低,就不能对网络突发舆情进行及时监测和应急处理,而这对危机公关服务是非常关键的。

有一些监测系统的结果是依赖于baidu、google等搜索引擎的搜索结果进行再分析(所谓的元数据抓取),而这些大型搜索引擎的数据抓取更新是有自己的特定规律和周期。对于排名靠后的网站,搜索引擎爬虫软件会隔几天,甚至更长时间,才会光顾一次。这种情况下,时效性自然不会有保障。

当然,对于时效性,不同的客户会有不同的要求。有的客户会要求做到“实时监测”,例如提供危机公关服务的公关公司、广告公司和一些关注于民生与社会动向的机构等;也有的客户对时效性要求不是这么高,例如对品牌价值进行评估的服务需求,对特定事件做事后评估的服务需求等等。

通常情况下,时效性高低是网络舆情检测系统定价的一个重要基础,从节约经费的角度出发,客户还是应当选择满足自身业务时效性需求前提下性价比较高的系统和服务,不一定非要求做到“实时监测”。

评价标准之三:网络内容监测全面性。

网络内容监测全面性的概念很好理解,就是系统所监测网站的类别及总量。通常情况下,监测系统不会做全网监测,先不说技术上的困难,仅在运营费用和投入上就是中小规模公司难以承受的。性能优越的监测系统会有选择地进行网络监测,客户关注领域的相关网站、排名靠前的大网站、热点网站是监测的主要对象。

绝大多数号称能够做到“全网监测”的系统都是依赖对搜索引擎的搜索结果进行再分析——元数据抓取。前文已经指出,这种方式可以达到了大覆盖,但牺牲了时效性。

不过在全面性方面也有一些技术问题需要处理,一些主要的内容服务网站、社会化网络媒体和电商网站对于爬虫软件已经做了限制。限制的原因有所不同,内容服务网站、社会化网络媒体(SNS网站、微博等)主要是出于对信息及用户数据的保护和主管部门的特定要求,电商网站(自主平台类)主要为了防范网络商品比价。

综合地看,相对于“准确性”与“时效性”而言“全面性”问题更容易解决,技术因素是一方面,通过加大服务器和带宽等运营资源的投入也能够取得显著地改善。

网络舆情监测软件及其服务市场的发展趋势

网络舆情监测软件及其服务市场具有很大的发展潜力,个人观点在今后5年内这个市场都会保持快速发展势头,年复合增长率在30%以上。

我很赞同计世资讯研究(CCW Research)的观点——“舆情监测分析软件市场未来的发展方向是行业化与服务化”。行业化主要是指软件及服务要与各行业的特点紧密结合,服务化是指舆情监测软件将采用软件运营服务SaaS模式,舆情监测运营服务将成为一种新的发展模式,在降低投入门槛的同时将受到更多客户的青睐。

目前,市场格局还很分散,还没有上规模的运营服务商,这是一个市场空白。近几年云计算技术的快速发展将创造新的发展机会,在通过云计算大幅度提升软件系统效能和服务品质的同时,也有利于催生在这个细分领域内上规模的运营服务提供商。

从服务对象角度看,专业网络舆情监测软件及服务公司主要服务于政府部门、专业服务公司(主要是,公共公司、广告公司、网络营销服务公司)和互联网公司。然而,随着互联网对社会经济发展的快速渗透和融合,越来越多的企业和机构认识到了网络营销、网络舆情的重要性,他们中的一小部分已经开始尝试使用网络舆情监测软件及服务。虽然他们在客户市场中目前所占的比重还不到10%,但是到2018年很有可能占到30%以上的比重。 从商业服务角度,网络舆情监测软件及服务与网络营销服务之间存在着密切的联系。对于能够提供品牌监测的软件系统,如果能够把营销评估(营销决策支持)和营销管理工具结合起来,把系统服务延伸到营销管理与营销作业流程中,将具有更大的市场潜力。在这方面市场参与者还较少,做得好的系统很少,未来应该有不错的发展空间。(陈兴跃) 附录:

中文分词的歧义类型

(此附录的相关内容来自互联网)

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面▁的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆▁和服装”或者“化妆▁和服▁装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓▁球拍▁卖▁完▁了”、也可切分成“乒乓球拍卖▁完▁了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

第8篇:及时渔舆情监测系统案例

一、某政府部门:搭建及时有效的舆情监测系统

随着互联网技术的快速发展,舆情监控已经成为有关政府部门的一项重要工作。政府舆情监测,除了准确及时地发现舆情事件,有效地防止负面事件的发生以外,还有利于及时了解社会各阶层对社会存在和发展所持有的情绪、态度和看法、意见和行为倾向。某政府部门的职责主要是针对一些突发事件,提前了解动向,采取有效的防范措施,另外可以对一些错误的、不实的舆论及时地做出正确的引导,以便提前主动地采取应对措施和方案。

此政府部门经过再三筛选,最终选择中科汇联作为合作伙伴,搭建舆情监测系统,所监测范围涉及公共安全、重大事件、突发事件、环境污染、政府政策、政府行为、政府决策与群众利益的关系等方面。 此舆情监测系统的建立,确立境内、境外二种采集途径,确保监测全方位覆盖,信息无死角,支持按需定制及专业分析师解读,专业分析师会随时间不断分析,增加更新信息源与关键词,使政府部门的监测范围保持持续优化。

为使此政府部门能够更加直观有效地进行信息分析对比,此系统支持多种方式的信息综合显示,以多角度、多层次展示信息特点,揭示数据规律,帮助政府预判所收集到舆情信息的未来走势,最后将相关舆论信息及时、全面、准确地回馈给政府部门。与此同时,政府部门也会相应采取一些应对措施,及时发布一些有利于群众利益的政策,有效地降低了突发事件的风险。

由中科汇联搭建的舆情监测系统,为此政府部门了解社会民意添加了新渠道,为缓解社会矛盾拓宽了新途径,为监督政府行政提供了新平台,为引导网络问政增添了新空间。

二、某主流媒体:跟踪舆情信息,把握媒体舆论导向

媒体作为连接个体和社会的重要平台,在舆论监督、价值导向方面都有着不可或缺的作用。也只有通过媒体,公众才能在纷繁复杂的物质世界中轻松地了解周边的生活。某主流媒体深知自己的责任重大,自创办以来一直坚持正确的舆论导向,客观报道世界多极化、经济全球化、文明多样化,一直致力于促进中国新闻信息真实、准确、全面、客观传播,为中国的和谐发展和世界的和平共处起到了积极的推动作用。

网络媒体自觉承担应有的社会责任,所有违法行为都能依法受到惩处,是当代社会信息传播更加合法、理性、高效、有序的前提和基础。为了更好地跟踪社会舆情,准确把握网络舆论导向,及时如实地反映人民心声,播报国家政策,了解国内外相关动态,此主流媒体最终选择了中科汇联的及时渔舆情监测系统。

中科汇联及时渔网络舆情监测系统,是将智慧搜索技术应用在网络舆论情报服务的创新产品,采用云采集、极性判断、情感分析、结构分析、地域分析、环境分析等自动化深度分析技术,帮助此媒体及时发现国内外主流媒体、论坛、博客、新闻、微博等网站里的舆情信息,并对危机信息及时报警,可通过设定的权重体系,主动发现、跟踪热点及事件发展态势,及时反馈到系统,或通过邮件、短信、IM形式通知,充分满足了此媒体的舆情需要,让此媒体准确地了解了民意动向,坚持了正确的舆论导向,维护了网络空间的秩序和安全。

三、某集团公司:基于用户需求的互联网舆情分析系统

某集团公司一直致力于某产品的研发和创新,经过长期的发展,该公司的产品已经初步建立起了良好的营销口碑。随着公司的不断发展壮大和用户数量的不断增多,为了更加准确判断市场环境,更加准确分析用户需求信息,为用户提供更好的服务,开发出更好的产品,该集团公司与中科汇联建立了合作关系。

中科汇联为该集团公司搭建了基于用户需求的互联网舆情分析系统,准确全面地获取了用户的需求信息,为该企业第一时间发现危机信息、第一时间发布准确信息、第一时间维护企业形象,提高了网络舆情环境监测能力。另外此集团公司各部门也可以根据相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。

此系统搭配分钟级抓取能力,完美地实现简单配置即时使用。其独有的智能采集器,无需过多人工参与,只需简单配置,即可从复杂、无规则的HTML网页中自动分析文章内容、标题、发布时间、来源、作者等需要的结构化信息,自动去除掉版权、广告等无关信息,准确获取有效信息。通过给该集团公司建立舆情事件案例集、数据库、探索新媒体环境下企业舆情危机的特征和发展、演变规律,及时发现并挖掘用户的需求信息。

在此舆情监测系统的帮助之下,此集团公司研发出一系列更加优质的产品,大大改善了产品的质量和公司的业绩,赢得了更多的客户群。

第9篇:国内付费网络舆情监测系统简介

免费工具虽然不要使用费,且能够获取需要的信息,但费时费力,对于品牌型等网络舆情监测要求较高的企业并不可取。目前国内致力于网络舆情监测软件开发,如托尔思TRS、方正电子政务、邦富软件、线点科技、中科点击、本果信息技术、古尼软件、迅奥科技、蓝通百特、维思比科技、iri网络口碑、红麦软件、新联财通、易宝等等。 分析上述公司开发的舆情监测软件,主要包括以下功能:

1、自动采集功能

付费舆情监测软件把人工收集舆情的繁琐工作自动化了,其功能与搜索引擎的蜘蛛爬虫类似。当然,作为舆情管理系统,在自动采集页面后,还需要做自动分类、自动生成摘要,自动获取关键词,并建立索引。

2、分析处理功能

分析与处理功能主要表现在传播路径分析、话题演化分析以及观点倾向分析等。以TRS互联网舆情管理系统为例,具有话题发现与追踪、信息预警机制、倾向性分析、信息过滤、多维度关联舆情分析与舆情专题、舆情干预等功能。

3、统计报表功能

用符合用户习惯的可视化形式表现分析与处理的结果,也是付费舆情管理软件的一项重要功能。该项功能主要包括舆情简报、趋势图表、聚类图等,一些智能化的软件还会给出文字概述及舆情应对建议

等。

4、协同工作功能

部分舆情管理系统除了具备上述功能外,还有部分OA的功能,能够为后期企业各部门协同应对舆情提供OA环境。

总体来讲,在选择该类软件时,要考虑监测网站的数量、页面抓取获取数量、分析处理功能的能力和有效性、统计报表的易用性和表达方式等多方面因素,而不是仅仅比较价格。

上一篇:从此的造句下一篇:中国好声音解析