大数据论文

2022-03-21 版权声明 我要投稿

写论文没有思路的时候,经常查阅一些论文范文,小编为此精心准备了《大数据论文(精选5篇)》,欢迎大家借鉴与参考,希望对大家有所帮助!谁还能置身大数据之外?云计算、移动互联网和物联网等新一代信息技术快速发展,社会信息化水平大幅度提升,全球数据正在以前所未有的增长速度呼啸而来。如何布局大数据战略?如何利用大数据决策?是成为大数据的弄潮儿还是数据海啸的受害者?政府、企业广泛关注着。大数据被誉为企业决策的“智慧宝藏”。

第一篇:大数据论文

用大数据方法解决大数据安全难题

经济效益和安全怎么同时保障,如何在大数据的安全推动下支撑产业的发展?中国电子科技网络信息安全有限公司董事长李成刚认为,目前我国大数据处于发展初期,解决开放融合条件下的数据安全问题、建立安全监管机制、完善大数据安全配套措施成为了最核心、最迫切的发展需求。

李成刚说,目前发展大数据有四个方面的安全问题需要解决——在政府数据开放过程中,由于规范及保护措施缺乏,导致各委办局采用禁止敏感数据流通的保守方式进行数据保护,严重阻碍了数据的公开、共享与流通;在大众数据开放过程中,数据非法利用面临舆情监管的困难;在行业数据融合过程中,数据挖掘泄漏了敏感及隐私信息;在配套措施中,标准与法规欠缺,人才需求缺口较大。“国内外大数据安全标准化工作尚处于起步阶段,还未形成一套公认的,完整的大数据安全标准体系。”

李成刚说,我国已经从网络安全兼管、舆情监控与引导入手,利用大数据实施网络治理,开展网络空间内容监管和应急相应平台建设。“要立足智慧城市建设,推进大数据安全应用。建设对‘防御、监测、评估、治理、运营’五位一体网络安全治理能力。”

发展大数据

要同步构建安全体系

360公司创始人兼总裁、360企业安全集团董事长齐向东表示,大数据技术是一把双刃剑,在鼓励发展的同时,一定要同步构建大数据安全体系,要用大数据方法来解决大数据安全难题。

近来,大数据安全事件呈高发之势。日前,广东警方破获一起高科技经济犯罪案件,17岁的“黑客”攻破了多个商业银行网站,窃取了储户的身份证号、银行卡号、支付密码等数据,带领一批人在网上大肆盗刷别人的信用卡,涉案金额近15亿元,涉及银行49家。

类似的案例不胜枚举。齐向东表示,当前,接入互联网的设备越多,网络攻击的发生机率就越高,网络攻击首先瞄准大数据,攻击造成大数据丢失、情报泄密和破坏网络安全运行。大数据技术是一把双刃剑,既可以造福社会、造福人民,又可以被一些人用来损害社会公共利益和民众利益。如果不能很好地解决安全问题,就会影响发展。因此,各级政府在鼓励发展大数据的同时,要同步考虑构建大数据安全体系。

传统安全思路

无法保障大数据安全

2016年年初,在全球最大规模的企业信息安全领域的会议RSA大会上,与会人员有一个基本共识,传统的防护思路已经无法保障网络安全,用大数据的方法做安全是不争的事实。

传统网络安全的防护思路是划分边界,将内网外网分开、业务网和公众网分离,用终端设备将潜在风险隔离。通过在每个边界设立网关设备和网络流量设备,来守住“边界”,以期解决安全问题。

但随着移动互联网、云服务的出现,移动终端在4G信号、WiFi信号、电缆之间穿梭,网络边界实际上已经消亡了。

但网络攻击者以“分钟级”千变万化。齐向东说:“360安全中心每天发现木马样本近千万个,每天发现的各种软硬件漏洞、网站漏洞超过120个,每一个木马每一个漏洞,都可能攻破预先部署的安全设备和安全软件。”他认为,现在要保障大数据安全,最重要的是要“看得见、管得住”。通俗的说,就是要能在被攻击的时候,能够看见在被谁攻击、如何被攻击;还要能在被攻击的时候,管住核心数据资产的安全,黑客就算进得来,但是带不走。

数据驱动安全

齐向东表示,要用大数据技术解决大数据时代的安全问题。他介绍,360公司正是基于 “数据驱动安全”的思维,搭建了一套全新的互联网安全体系。这套新兴安全体系,包含漏洞挖掘技术、网络攻击技术、软件样行为分析技术以及由网络地址解析数据库、网络访问日志数据库、文件黑白名单数据库等组成大数据系统与分析技术,它是传统安全+互联网+大数据。

360公司目前的样本库总样本已经超过95亿,主动防御库总日志条数达到5万亿条,还有50亿条DNS解析记录,拥有全球最大的活网址库和海量的第三方数据库。

基于强大的大数据库、先进的大数据技术和超高的用户覆盖率,360打造了天眼、天擎、天机一系列产品,可以感知网络威胁态势,提供未知威胁的发现与回溯功能,并在终端进行有效防护。2015年,360的威胁情报感知系统已经截获了29个发动APT攻击的境外黑客组织,涉及服务器200余个,分布在26个不同的国家和地区。

作者:杨光

第二篇:大数据与大数据经济学

摘 要:本文分析了大数据对传统经济学的挑战,包括大数据给经济学带来的影响与冲击,改变了传统数据的分析方式。阐述了大数据经济学的定义与研究内容,重点对大数据经济学与传统经济学、信息经济学、信息技术等学科之间关系全面分析,大数据经济学将不同学科以及复杂现象模拟统一,结构化与非结构化数据统一,理论与实践相统一,发挥大数据的“智能经济学”特征。

关键词:大数据;大数据经济学;统计学引言

随着我国信息技术快速发展,近年来大数据已经渗透到各领域,改变了传统经济学特征。人们对大数据技术的依赖,帮助人们提高了结构化、非结构化、半结构化数据的处理效率,满足了经济学的多样化、量贩式信息数据获取与分析需求,提高了人们的决策力。1大数据给经济学带来的影响1.1数据研究对象变成了总体

经济学发展在大数据技术的推动下,可以从传统抽样计量研究改变为整体研究。由于传统抽样研究质量不高,难以满足信息需求者要求,大数据技术提高了研究对象的精准性,改变了数据来源方式,提高数据处理效率,对经济学领域带来积极影响。1.2大数据不需要基于假设检验的研究

通过数学模型的假设检验是不具备全部检验的能力前提下开展的,随着大数据时代发展,数据量日益繁多背景下,通过人工智能挖掘数据,较传统假设检验方法提高了检验效率,提高了检测的完整性和即时性。人们在大数据的影响下,应考虑企业资本结构、行业特点、管理水平等,提高变量因素的完整性,促使经济学分析决策更加精准。1.3大数据使得因果关系变得不太重要

经济学重点研究经济现象,阐明不同经济现象之间因果关系,随着社会经济发展,仅仅关注经济现象以及之间的因果关系难以满足人们需求,大数据可以通过事物之间的内在联系发现潜在规律和特點,便于决策者分析,具备一定的智能性。大数据弱化了传统因果关系。例如,分析房屋价格变化影响因素,应关注人均收入、所处区域、经济发展水平等,但大数据会通过系统搜索引擎内容预测,较传统预测方式更加精准。1.4传统的因果关系有时无法验证

传统经济学研究主要是为了深入探究事物之间的内在联系。例如,针对新产品上市这一经济学问题,传统研究会分析人们购买意愿、旧产品需求等变量因素,但部分客户会因旧产品价格低廉而购买,反而推动了旧产品销量。因此,传统经济学研究中,难以证实二者存在因果关系。大数据技术可以直接获取购买旧产品以及新产品数量,分析价格变化规律,很容易证实研究结果,因此,没有必要对因果关系深入探究。

1.5传统经济学研究具有滞后性

由于新生事物发展初期并未形成规律,当成长到一定规模,才能满足传统经济学相关研究。随着大数据技术推进,对新事物具有一定的敏感性和前瞻性,可以自动化智能捕捉事物的最新发展动态,经济学领域在开展相关问题研究过程中,可以快速获取相关专业数据内容,供经济学家展开系统性分析。1.6大数据改变了传统统计检验及建模技术与计量经济学之间关系

计量经济学基于回归和统计检验具备一定的逻辑性和严谨性,随着大数据发展,自变量与因变量之间关系采用回归系数检验,如果概率低于0.05,表明变量之间有一定关系,如果概率超过0.05,表明变量之间不相关。传统经济学,由于研究对象的直接和间接影响因素多,难以对变量全面研究,因此,存在一定的误差和漏洞,研究结果并不精准。随着大数据发展,自动挖掘技术可以对大量数据展开分析,遗漏变量几率较少,裂变式的数据对传统建模技术产生一定挑战,影响经济学发展。2大数据经济学2.1大数据经济学的定义与研究内容

大数据转变了人们发展观念,对传统经济学带来技术上的变革,整合了计算机技术与信息技术。大数据经济学除了在建模、管理中发挥作用,应在传统经济学基础上进行优化,需要各领域专家与经济学家及信息技术专家协作交流,对社会学、经济学、公共管理等带来一定技术变革。大数据计量经济学改变了传统经济学建模与分析方法,大数据更加注重变量之间的相关性,弱化了变量之间的因果关系。因此,以大数据为基础,经济学分析应借助信息技术建模专家,提高数据分析能力,帮助决策者提供精准数据信息。大数据经济学包括生态、环境、金融、农业等诸多领域,以大数据统计学为基础,提高对各领域经济学深入研究,探索各经济学领域之间的依存关系。2.2大数据经济学与传统经济学的联系

近年来大数据技术发展迅速,在各领域不断渗透,与其他学科建立了密切关系,虽然弥补了传统经济学不足,但经济学理论和技术发展尚不完善。有些经济学问题难以获取研究数据,没有数据为基础,大数据经济学很难发挥作用,只能采取传统经济学解决问题。因此,大数据经济学与传统经济学二者之间具有互补性。2.3大数据经济学与信息经济学的联系

随着信息化技术不断更新迭代,推动了传统信息经济学创新发展,目前包括宏观和微观两种。其中宏观包括信息产业以及情报经济学,作为新兴学科,应注重信息化技术与产业经济学的融合。微观信息经济学包括不对称的理论、商品价格、市场走势以及分析等,利用不完备的信息理论弥补和修正传统经济学研究的信息对称假设。大数据背景下的经济学推动了大量IT岗位就业,已经逐步转变为信息经济学范畴。2.4信息技术为基础,大数据经济学与及其它学科的联系

现代信息技术发展衍生了大数据经济学思想,并落实到具体工作实践中,大数据经济学的发展离不开信息技术,作为一个跨学科专业,应融合经济学、统计学、信息技术、公共管理等相关学科,实现了大规模计算和大容量存储,提高了各类数据信息整合效率和分析的精准性,为相关学科发展决策提供基本依据。3结束语

大数据在经济学领域发挥重要作用,在具体工作实践中,借助现代信息技术,大数据经济学发展日益成熟,可以即时性的获取和检验数据信息,从传统理论学科转向计算学科,将复杂现象通过计算机软件模拟、实验获得精准研究结果,并对自然科学以及社会科学等多个领域建立互融互通平台,将理论研究与具体实践应用密切结合,使传统经济学不断向大数据经济学、智能经济学转变。

参考文献

[1]洪永淼,汪寿阳.大数据如何改变经济学研究范式?[J].管理世界,2021,37(10):40-55+72+56.DOI:10.19744/j.cnki.11-1235/f.2021.0153.

[2]洪永淼,汪寿阳.大数据革命和经济学研究范式与研究方法[J].财经智库,2021,6(01):5-37+142-143.

[3]汪寿阳,洪永淼,霍红,方颖,陈海强.大数据时代下计量经济学若干重要发展方向[J].中国科学基金,2019,33(04):386-393.DOI:10.16262/j.cnki.1000-8217.2019.04.013.

[4]周林彬,马恩斯.大数据确权的法律经济学分析[J].东北师大学报(哲学社会科学版),2018(02):30-37.DOI:10.16164/j.cnki.22-1062/c.2018.02.004.

作者:郑咸剑

第三篇:大数据 大变革

谁还能置身大数据之外?云计算、移动互联网和物联网等新一代信息技术快速发展,社会信息化水平大幅度提升,全球数据正在以前所未有的增长速度呼啸而来。如何布局大数据战略?如何利用大数据决策?是成为大数据的弄潮儿还是数据海啸的受害者?政府、企业广泛关注着。

大数据被誉为企业决策的“智慧宝藏”。面对大数据带来的不确定性和不可预测性,企业决策和运营模式正在发生颠覆性变革,传统的自上而下、依赖少数精英经验和判断的战略决策日渐式微,一个自下而上、依托数据洞察的社会化决策模式日渐兴起。

大数据被誉为科研第四范式。继实验归纳、模型推演和计算机模拟等范式之后,以大数据为基础的数据密集型科研从计算机模拟范式中分离出来,成为一种新的科研范式。以全样本、模糊计算和重相关关系为特征的大数据范式,不仅推动了科研方式的变革,也推动了人类思维方式的巨大变革。

大数据被誉为“21世纪的新石油”。据美国研究机构统计,大数据能够为美国医疗服务业每年带来3000亿美元的价值,为欧洲的公共管理每年带来2500亿欧元的价值,帮助美国零售业提升60%的净利润,帮助美国制造业降低50%的产品开发、组装成本。

显而易见,大数据应用正在从企业领域扩展到社会领域,正在上升到国家战略层面,具有良好信息化基础的行业成为大数据应用的先行获益者。

在互联网行业,大数据成为精准营销的支持手段。淘宝OceanBase数据库满足高性能、高容量、高可靠性和低总体拥有成本(TCO)的需求,驱动海量结构化数据,助力淘宝成长为精准营销模式领路人。

在金融行业,大数据成为科学决策的有力支撑。中信银行信用卡中心通过部署大数据分析系统,实现了近似实时的商业智能(BI)和秒级营销,每次营销活动配置平均时间从2周缩短到2~3天,交易量增加65%。

在电信行业,大数据成为智能管道转型的有效途径。中国移动广东公司构建新一代详单账单查询系统,可为用户提供详单账单的实时查询,客户满意度大大提高。

在零售业,大数据成为实时掌控市场动态的必要手段。农夫山泉通过大数据分析技术使销售额提升了大约30%,并使库存周转从5天缩短到3天,同时其数据中心的能耗降低了约80%。

无论是国家大数据战略,还是科研的第四范式,亦或是企业决策新模式,大数据无疑正在从理论走向实践。正是基于对大数据商业价值和社会价值的判断,《中国计算机报》联合赛迪顾问启动大数据行业应用研究,并将陆续刊登优秀的大数据应用案例,以此为大数据学科、技术和应用的进步贡献专业媒体的力量。我们并不孤单,因为我们不仅得到了来自互联网、金融、电信等行业应用端的积极响应,也得到了英特尔等技术和解决方案供应商的广泛认同。我们看到,一个崭新的大数据生态系统已初具雏形。

作者:李树翀

第四篇:企业大数据分析挖掘及大数据BI工具应用实践

【关键词】 大数据; BI工具; 贷款风险预测; 大数据处理流程; 企业大数据应用

一、引言

大数据的发展与应用已经深入人心,大数据在企业中的应用实践也不断地落地开花。王秋菲等[1]利用网络爬虫技术获取了亚太实业自2009—2016年间的相关数据,对这些数据进行挖掘分析,提取出能揭示公司财务是否存在舞弊行为的重要审计证据。张志恒等[2]基于大数据文本挖掘技术构建了审计数据分析框架,利用文本挖掘模型挖掘出审计疑点,为大数据审计提供审计证据和线索,从而提高审计质量。

随着企业信息化的进一步高速发展,数据来源更加多样化、数据体量更加巨大化、数据格式更加复杂化,这为企业应用大数据进行日常经营管理、分析和预决策带来了挑战。张红英等[3]分析了大数据时代财务分析面临的机遇与挑战,指出大数据时代财务分析面临的机遇有财务数据与非财务数据混搭、结构化数据与非结构化数据混搭、宏观数据与微观数据混搭,这些“混搭”为财务分析带来了广阔的数据“蓝海”,大数据技术为提高基于数据总体的企业财务决策提供了支持,使传统财务的阶段性报告转向动态实时报告;而大数据时代财务分析面临的挑战有信息安全、获得信息的成本以及信息处理人才。路伟果等[4]指出数据挖掘技术将重新定位会计人员和会计部门的角色、扩大会计确认的要素范围、更多地采用可视化技术解释数据以及企业将面临更大的信息安全风险;进一步指出会计人员要逐步转型为数据分析师和算法工程师、增强会计人员的数字素养和提高可视化管理能力、构筑信息安全防护体系等。乌婷等[5]指出,大数据对管理会计的思维、范围、方式及效果创新产生了深远影响,提炼出大数据时代下管理会计应具备的职业能力:思维创新能力、数据分析挖掘能力、IT应用能力及业务综合处理能力,为管理会计人员胜任大数据时代下的管理会计工作提出相应的建议。

大数据时代,企业管理人员利用大数据BI(Business Intelligence,商业智能)工具进行企业经营分析和数据挖掘已是提高企业竞争力的重要措施。张超等[6]指出财务智能是商业智能的核心,是大数据、人工智能等新技术与财务的融合,其涉及ETL(Extraction、Transformation、Loading,数据抽取、转换、加载)、DW(Data Warehouse,数据仓库)、OLAP(Online Analytical Processing,联机分析处理)、Data Mining(数据挖掘)等技术,同时文章指出要进一步运用机器学习、深度学习等技术来构建财务决策模型,强化企业的智能化决策支持系统。王毅辉等[7]对国内外BI工具进行比较,针对烟草商业企业给出了选择BI工具进行财务分析的要求。王瑜等[8]在医疗设备多维数据分析中应用PowerBI工具进行跨库数据检索、分析与展示,说明PowerBI工具对医疗设备档案异构数据集成、转换、自动抽取等具有很好的支持能力,能满足多维数据高效检索的要求。王缘[9]针对小米BigBI工具提出了产品优化方案,使BI工具既满足企业大数据分析的需要,又能提升产品的易用性和易学性。

二、大数据BI工具简介

在企业中应用大数据技术进行数据分析和挖掘的最有效、最便捷的方法是使用大数据BI工具。大数据BI工具对大数据技术的底层实现细节进行了封装,使用大数据BI工具进行数据分析和挖掘不需要编写任何代码,非大数据技术人员利用大数据BI工具也能非常方便地进行企业经营数据分析和可视化。大数据BI工具使企业管理人员聚焦于数据本身的特点、数据之间的关系、数据分析的目标,而不必担心编程能力的高低。

市场上不同的BI工具有一定的共性,也各有其特性。一般的BI工具都具有数据汇集、数据清洗与转换、数据分析和可视化等功能,不过各BI工具在数据分析环节的差异较大。有的数据分析是基于传统关系型数据库进行SQL查询与统计的简单分析,有的数据分析在简单分析基础上还包括基于机器学习等智能算法实现的复杂分析[10]。目前常见的大数据BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆软FineBI、Microsoft Power BI、QlikView、openI、SpagoBI等。

三、大数据分析挖掘流程

大数据分析挖掘流程可以分为4个环节,如图1所示。

(一)數据获取

大数据的来源主要有物联网数据、互联网应用数据以及传统信息系统数据,不同来源的数据有不同的获取方式。物联网产生的数据主要是非结构化数据,这些数据多呈现为视频、音频和各类传感数据等,其数据价值密度较低,一般这类型数据可以从数据分析商处获取。互联网应用数据包括Web应用数据和移动APP应用数据,这些数据多呈现为半结构化形式的网络链接、文本、数据表及非结构化形式的图像、音视频等,其数据价值密度较高,一般这类型数据既可以从数据分析商处获取,也可以使用技术手段从网络中爬取。传统信息系统的数据多以结构化数据为主,这也是大数据中价值密度较高的一类数据,比如来自企业ERP系统、政务系统以及各类企业公司内部信息系统中的数据等,一般这类型数据多由对应的信息系统软件采集,对于政府开放平台上公布的诸如气象数据、交通数据等也可以通过技术手段进行网络爬取。

(二)数据预处理

在使用算法进行数据分析和挖掘之前,首先应该检查数据的完备性和数据质量,对不合要求的数据进行数据清洗;其次应该将数据进行标准化处理,使数据集符合机器学习的要求。

1.数据清洗

获取到的原始数据往往存在特征值缺失、异常值或重复数据等质量问题,在进一步进行数据建模挖掘之前,需要对这些数据进行清洗加工。

(1)缺失值处理

数据集中的缺失值会对机器学习的数据聚类、分组、预测造成影响。对于缺失数据,可以采用简单删除法进行删除或采用数据替换法和插值填充法进行替换和填充。简单删除法一般用于缺失值样本比例较少的情况,否则过多的删除包含缺失值的数据可能会丢弃大量隐藏信息,影响数据集的客观性和机器学习的正确性;数据替换法和插值填充法是一种补齐数据的方法,可用于缺失值适中或较少的情况下,补齐的方法可采用人工填写、平均值填充、特殊值填充、热卡填充、K-means填充、多重填补、回归等。但无论采用哪种方法处理缺失值,都一定要根据实际应用场景进行合理处理。

对于缺失值也可以不按上述方法进行处理,贝叶斯网络或人工神经网络等方法可直接在含有缺失值的数据集上进行分析和挖掘。

(2)异常值处理

异常值是数据集中的不合理值,比如用户输入的错误数据、传感器测量误差、实验误差、数据处理错误、抽样错误、故意异常值或者自然异常值等。处理异常值时可以采用与处理缺失值相同的方法,而且要尽量根据造成异常值的原因去修正异常值。

(3)重复数据处理

重复数据可能是多条数值完全相同的记录,也可能是同一主体的某个具有唯一特征的属性在数据集的不同记录中取值不同。对于前者,可直接做“去重”处理;而对于后者,就得根据实际业务情况来处理,可以合并这些重复数据,也可以不做任何处理。

2.数据标准化

大多数机器学习算法对数据集的特征值有特定的要求,在使用机器学习算法对数据集进行数据分析和挖掘之前,需要将数据集按照要求进行标准化处理。

数据标准化又称数据无量纲化或数据归一化,用于消除不同特征属性的单位量纲带来的数据不可比性,从而提高机器学习算法的准确性。常用的无量纲化技术主要包括以下四种:

(1)min-max归一化

min-max归一化也称min-max标准化、线性归一化或者离差标准化,按照公式1将特征值映射到[0,1]之间。

其中,min(x)和max(x)是特征x的最小值和最大值。

(2)平均归一化

也可按公式2對特征值进行归一化。

(3)非线性归一化

非线性归一化是通过一些数学函数,如对数函数、指数函数、正切函数等,将特征值进行映射,使用时需要根据特征值的分布选择非线性函数。例如:log10x、atan(x)×2/π。

(4)z-score标准化

z-score标准化也称标准差归一化或者零均值标准化,按照公式3将数据集转化为接近标准正态分布的形式。

其中,μ和σ是特征x的均值和标准差。

(三)分析与挖掘

在数据分析与挖掘中,应利用机器学习、深度学习等人工智能技术构建分析决策模型和智能化决策支持系统。机器学习在大数据分析中的重要性不言而喻,机器学习使得我们既可以更好地分析历史数据和当前数据,还可以更准确地预测未来数据。在商业智能中应用机器学习,可以帮助人们从海量数据中提取出有价值的信息,找到最佳市场策略,大幅度改进商业决策,提高生产率,从而促进企业利润最大化和经营风险最小化。

机器学习算法可分为监督学习和无监督学习,如图2所示。

其中,监督学习的训练数据必须带有分类信息,即包含特征数据和对应的目标变量类别,通过监督学习得到特征与分类目标之间的对应关系,预测时输入特征便可得到预测目标的类别。监督学习又可分为分类算法和回归算法,分类算法用于预测实例数据的分类结果,即预测目标是离散型的分类信息;回归算法用于预测数值型数据,即预测目标是连续型的值。K-近邻算法、线性回归、朴素贝叶斯算法、支持向量机、决策树等都是监督学习算法。

无监督学习不需要数据集包含明确的分类目标信息,因为无监督学习不需要根据训练结果去预测新数据。无监督学习包括聚类算法、密度估计算法。聚类算法会自动根据数据的相似度进行离散类别划分,若在聚类的同时还要估计数据与类别的相似度,则可使用密度估计算法;另外,无监督学习还可用于减少特征维度。K-均值、最大期望算法、DBSCAN等都是无监督学习算法。

(四)数据可视化

在进行数据探索、分析预测的过程中,可以利用数据可视化功能将数据以易于感知的图形方式进行展现,有效提高数据分析的效果和效率。许多BI工具都具有Dashboard(仪表盘)数据可视化模块,Dashboard既能给用户提供数据跟踪、钻取和多维度分析功能,还支持多数据源、实时数据更新和交互式仪表盘。在可视化图形类别支持方面,BI工具均能提供多种类别的图形,如区域图、热力图、流向图、点地图等。

四、企业大数据分析应用实践

下面给出基于大数据BI工具——“数猎云”实现的企业大数据分析应用实践案例。

(一)实践环境

数猎云是一种图形化大数据BI工具,用户基于数猎云客户端访问数猎云大数据服务器。基于数猎云进行大数据财务分析可以按照4个环节来实施:获取数据源、数据汇集与转换、分析和挖掘、数据可视化。如图3所示。

与其他很多BI工具不同的是,数猎云不仅能够汇集转换数据、分析数据、可视化数据,更重要的是,数猎云提供了上百种数据加工组件和数十种统计分析、数据挖掘及机器学习算法,操作人员不需要任何编程,只需通过鼠标简单地拖拽组合和进行相应的参数设计,即可进行复杂的企业大数据分析与预测。

(二)业务数据分析

案例数据是某金融企业的贷款申请与发放信息,基于监督学习算法——支持向量机对贷款风险进行预测。使用支持向量机进行贷款风险预测时,首先要训练预测模型,训练数据集中的属性Gender、Married、Dependents、Education、Self_Employed、ApplicantIncome、Coapp-

licantIncome、LoanAmount、Loan_Amount_Term、Credit_

History、Property_Area等作为特征变量,Loan_Status作为分类标签,训练后的支持向量机模型可以根据特征变量来预测是否应该为某个申请贷款的人发放贷款。

1.问题定义与数据探索

本次数据分析挖掘的目的是根据原始数据使用支持向量机对用户的贷款风险进行预测。支持向量机是一种二分类型監督学习算法,需要先训练模型再用模型去预测数据。本案例的数据源是由企业OA系统提供的CSV格式文件,数据源包含的特征属性和部分数据行如表1所示。

各特征属性的含义如表2所示。

样本数据记录共5万条,按70%■30%的比例分为两组,前一组3.5万条数据为训练数据,用来训练预测模型;后一组1.5万条数据为测试数据,用来测试模型的训练效果。

2.数据汇集

在数猎云中连接数据源,从中抽取贷款记录的CSV数据文件,将CSV格式的数据转换为结构化数据,再把结构化后的业务数据写入数据湖的对应数据表中,实现业务数据到大数据平台的汇集。

3.数据预处理

大数据分析用到的数据挖掘、统计分析、机器学习以及深度学习等算法,一般会对算法的输入数据有限制要求,在数据建模前,应根据模型的要求对输入数据进行转换和整理。

从表1展示的部分数据可以发现,Married、Dependents等列存在空值、数据类型表示不一致等情况,需要对数据进行清洗加工。在清洗加工之前,可以通过浏览数据或使用统计方法等手段对原始数据进行探索和画像,以帮助了解数据质量。例如:统计某列空值比例(存在空值的行数/总记录行数)、统计某列包含非法字符的比例(存在非法字符的行数/总记录行数)。

(1)缺失值处理

以对Married进行画像为例,在数猎云中,可对Married属性值(已婚/未婚/空值)进行分组统计,据此来发现到底有多少不合法的Married属性值。对Married的缺失值要尽量进行补充,补充时要参考关联业务数据的含义,比如Married婚姻状态和Dependents家庭中子女数有一定的关联关系。根据业务常识,如果子女数大于等于1,客户已婚的可能性很大,反之客户已婚的可能性比较低。因此可以根据此业务关联性,补齐Married的缺失值。

对数据集中的Gender、Dependents、Education、Self_Employed、ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term、Credit_History、Property_Area、Loan_Status等属性,由于缺失值比例并不高而且难以补全为有意义的信息,所以在此将有空值的记录进行删除。

(2)数据类型转换

贷款风险预测用到的输入数据包括除Loan_ID和Loan_Status外的所有特征属性,根据这些输入的特征属性预测分类目标Loan_Status的值,Loan_Status代表贷款状态。从表2可以看到,贷款风险预测用到的特征属性和分类目标的初始数据类型都是文本类型NVARCHAR,由于支持向量机要求输入的特征变量和分类目标均是数值类型,因此下面对这些属性进行数据类型转换。

ApplicantIncome、CoapplicantIncome、LoanAmount、

Loan_Amount_Term这四个属性在实际中均应为数值类型,可直接在数猎云中将这四个属性全部转换为数值类型。

Credit_History在原始数据集中取值为文本型的0/1,也可直接将其转换为数值类型。

Gender、Married、Education、Self_Employed、Property_Area、Loan_Status等属性都是取值为离散值的文本类型,这需要在数猎云中转换成对应的数值类型,以满足机器学习算法的要求。上述特征变量中,Gender、Married、Education、Self_Employed、Loan_Status均是2种取值,Property_Area是3种取值,在数猎云中将2种取值的特征变量均转换为0/1取值,将3种取值的特征变量转换为0/1/2取值。取值转换对应表如表3所示。

(3)非法数据处理

原始数据的Dependents属性值中出现了3+这样的值,表示家庭孩子多于3个的情况。因为Dependents要转换为数值类型以用作支持向量机的输入特征变量,因此需要对Dependents的值做去除+号的处理,并将Dependents转换为数值类型。在数猎云中,利用字符串替换功能将+替换为空,再将所有的Dependents取值由字符型转换为数值型。

(4)数据标准化

由于ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term四个特征变量的取值范围相差较大,需要在训练前进行量纲标准化处理。可以直接在数猎云中将这四个特征数据组装成CSN,再使用标准化工具(包括Standard、MinMaxScaler和MaxAbsScaler三种形式)对CSN数据进行标准化,形成标准化模型,以供后续训练、测试和预测时使用。

(三)数据分析与挖掘

支持向量机是一种监督学习算法,使用该算法建立预测模型时,需要训练预测模型,并对训练好的模型进行预测能力评估,通过评估的模型才能用于实际预测。模型使用过程中,不断根据预测与实际结果的对比反馈,进而调整修正模型。模型训练、评价、使用反馈环如图4所示。

1.训练模型

用训练数据集训练支持向量机以得到预测模型。在数猎云中,支持向量机的输入要求为CSN类型,因此,先用NumAssemable变换工具将训练集中的分类标签(Loan_Status)和多个数值类型的特征数据(Gender、Dependents、Education、Self_Employed、标准化后的CSN数据(ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term)、Credit_History、Property_Area)组装成CSN类型,再将此CSN数据作为支持向量机的输入,设置好模型的迭代次数、步长、正则化参数、分类阈值等参数后,开始模型训练。模型训练结束后,要注意观察模型训练结果,其中precision代表模型预测的精确率,取值均在0和1之间,数值越接近1,模型就越好。在precision不高时,要调整模型的训练参数重新进行模型训练。训练过程可以重复进行,直到precision的值达到合理的要求。

2.评价模型

评价模型是检验使用模型进行预测的precision。在数猎云中先将测试集中的多个数值类型的特征数据组装成CSN数据,再将此CSN数据作为预测模型的输入,运行模型以得到预测结果。将预测输出的贷款状态和测试数据集中的贷款状态进行比较,检查预测模型在预测数据时的准确度。

3.使用模型进行预测

模型训练成功后就可以在实际中使用模型对贷款风险进行预测了。对某个贷款申请人,模型可以根据此人的特征数据预测出是否应该给其发放贷款,从而辅助金融企业控制贷款风险。

至此,在数猎云中完成了贷款风险预测案例,在数猎云中创建的数据分析工作流如图5所示。

(四)数据可视化

数猎云提供了强大的数据可视化工具,支持多种类型的报表展现、多维分析和数据可视化。在数猎云平台的deepBI模块中,对贷款风险预测结果进行可视化仪表盘设计,设计结果如图6所示。

五、结语

围绕使用大数据BI工具实施企业大数据分析和挖掘的四个环节:获取数据源、数据汇集与转换、分析和挖掘、数据可视化进行了阐述。基于数猎云大数据BI工具完成了贷款风险预测,以此尝试为企业管理人员在日常管理工作中从事数据分析和挖掘工作提供思路和建议。

为更好地在企业经营管理中应用大数据BI工具进行数据分析和预测,企业管理人员可参照以下建议不断提高自身的大数据分析和挖掘能力:(1)熟悉待分析的数据,能针对分析目标提取数据特征。(2)熟悉数据清洗的方法,能对“脏数据”进行清洗使之成为有意义的、合理的数据。(3)熟悉数据标准化的方法,能将不同量纲的数据转换成符合数据分析和挖掘要求的数据。(4)熟悉各种机器学习算法,了解各类算法的特点、用途和参数的含义,能根据工作要求选择合适的机器学习算法进行数据预测。(5)熟悉各种可视化图形的特点,能依据数據特点选择合适的图形进行数据钻取、探索和分析。

【参考文献】

[1] 王秋菲,栾丹,张洛迪.网络爬虫技术获取审计证据的应用研究——以亚太实业审计为例[J].会计之友,2020(17):131-136.

[2] 张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017(16):117-120.

[3] 张红英,王翠森.大数据时代财务分析领域机遇与挑战[J].财会通讯,2016(5):84-85.

[4] 路伟果,刘光军,彭韶兵.数据挖掘技术对会计的影响及应对[J].财会月刊,2020(7):68-74.

[5] 乌婷,乔引花.大数据时代管理会计职业能力建设探讨[J].会计之友,2017(19):38-42.

[6] 张超,肖聪,朱卫东,等.财务智能可视化分析与文献综述[J].财会月刊,2019(3):24-32.

[7] 王毅辉,阎慧峰.财务BI工具选择和在烟草商业企业中的应用研究[J].现代经济信息,2018(24):120.

[8] 王瑜,鲍鲲,黄婷婷,等.基于Power BI工具的大数据分析在医疗设备多维数据分析中的应用研究[J].中国医学装备,2020,17(5):169-173.

[9] 王缘.小米BigBI商业智能工具用户体验优化设计与实践[D].长沙:湖南大学硕士学位论文,2019.

[10] 黄宜华.大数据机器学习系统研究进展[J].大数据,2015,1(1):35-54.

作者:乔冰琴 段全虎 高翠莲

第五篇:快递大数据:大价值、大机遇、大变革

大数据对快递行业的价值,不仅可以从海量的数据中发现新的知识,还可以创造新的价值,带来新的机遇

中国快递行业正在飞速发展,快递行业在货物流转、车辆追踪等过程中都会产生海量的数据,这些大数据对于快递企业无疑是一笔尚待挖掘的巨大财富。大数据对快递物流的影响越来越大,无论是托运商、零售商、社交网路、个性化网站、移动设备、供应商还是运营商,都期待从大数据中掘金。

大数据对快递行业的价值,不仅可以从海量的数据中发现新的知识,还可以创造新的价值,带来新的机遇。应用和挖掘好快递行业大数据,不仅可以提高配送的效率,改善服务质量,减少资源的浪费。更重要的是,物流企业可以以此作为依据,向消费者提供更为专业、更为精致和更为丰富的服务体验。大数据将给快递行业带来巨大的发展机遇,也会引起行业发展的大变革。

快递行业飞速发展造就“大数据”

电子商务的飞速发展,“网购”业务量比重逐年提高,促进了中国快递市场发展环境的优化,也使中国快递业连年保持快速发展的态势。

以2006年至2013年间的快递数据为例,在这7年中,中国快递业务量翻了三番多,年均增长36%。尤其是2010年以来,快递市场规模增势愈发迅猛,年均增长达57%。数据显示,2012年我国日均快件量2000万件,日均快递收入3.78亿元;2013年11月和12月的单月快件量已经超过了2006年全年水平。2013年,中国快递服务企业累计完成业务量92亿件,市场规模升至世界第二位,同比增速高达61.6%;全国日均快件处理量超过2500万件,最高日处理量突破6500万件;11月份首度实现当月业务量突破10亿件。

进入到2014年,随着“网购”业务量占我国消费品的比重逐进一步提高,快递行业的发展更加令人瞠目。前瞻产业研究院发布的《2014-2018年中国物流行业市场前瞻与投资战略规划分析报告》数据显示:我国的电子商务交易金额将在2014年超过13万亿元,其中网络零售将达到1.7万亿元,占全社会消费品零售比例的6.3%。同时网络购物用户人群也将在今年超过3.5亿。其中网络零售市场规模占社会消费品零售总额比例将由去年的6.3%提升到7.2%。目前申通、圆通、中通、韵达等大型快递公司近年的年增速超过100%。

快递行业在运转过程中涉及制造商、零售商、分销商、第三方物流供应商、第三方物流、货运代理、海运、汽车运输、铁路、航空货运、拖车、移动设备、物流枢纽(机场、海港、铁路码头),监管机构(海关)等。快递行业在货物流转、车辆追踪等过程中都会产生海量的数据,比如2013年中国包裹数量达到了92亿,而由此形成的是一个异常庞大的数据群。这样的“大数据”对于快递企业无疑是一笔尚待挖掘的巨大财富。

大数据可以创造哪些“大价值”

截至2014年10月底,我国快递服务营业网点达11万余处,重点快递企业在直辖市和省会城市网点覆盖率达99%以上。但是规模虽然庞大,利润很薄,我国的民营快递企业的利润一般只有在0.2元——0.6元/件之间。由于行业门槛较低,我国快递这个行业不得不说已经进入了红海。2014年10月国家邮政局审议发布《关于快递企业兼并重组的指导意见》显示,我国目前快递企业已经达到上万家,拥有从事快递业许可证的有8000多家,但规模上百亿的企业目前只有邮政EMS和顺丰两家,位于第二阵营的“三通一达”规模普遍在10亿元,众多第三、第四阵营小企业则在亿元以下。

行业内激烈的竞争让众多的快递企业如履薄冰。为了赢取行业的认可和发展机会,一部分企业寄希望于投资机构,希望得到包括IDG、联想、复星、鼎晖、华平、新天域等投资机构的资金支持,以此来收获市场的认可;但是越来越多的企业也意识到管理对于企业的重要性,尤其是大数据在管理中的应用价值。当快递企业走入民生的势头越来越猛,对每一个节点的信息化需求也越来越多,这就需要通过大数据把信息化对接起来。从企业自身角度来讲,由于信息化对快递企业管理者的重要性越来越突出,提高对大数据的加工能力,通过对大数据分析与挖掘实现大数据的‘增值’,则是企业向“品牌化”转型所必须经过的历程。

价值1:大数据环境下的顾客洞察与市场营销策略

通过分析大数据环境下顾客的行为特征、与快递企业的互动以及相应的价值产生机理,探索企业进行全方位的顾客体验管理、增加消费者福利和企业效益的策略。快递企业基于大数据可构建消费者行为与营销模型,更新快递行业的产品与服务管理,这就是大数据环境下企业的市场营销策略。

比如申通快递构建的“信息化智能平台”就是顾客洞察与市场营销策略的集成者。 “信息化智能平台”是通过对数据的归纳、分类和整合,可以清楚地查看申通网络任何一个网点的经营现状和业务构成等。全网辖区网点每天的进出件业务量、人员构成(年龄、户籍、从业年限、工种组成、流失率)、设备投入(巴枪、传送带、分拨场地)、业务统计(不同产品快件所占比例、流向与流量统计)等,全部以图表的形式表现出来,并根据每天的变化随时进行更新和分析。申通快递可以根据这些数据对快递资源进行动态分配,并实行不同的市场营销策略。

价值2:大数据环境下的运营策略优化与协调

研究大数据环境下新型运营要素及其度量的变化,可以分析企业间的竞争与合作、运营优化与协调策略;在大数据环境下,快递企业可以对定价策略进行优化,并能对企业运作的不确定性进行分析与风险控制等。

比如成立于2003年隶属于杭州百世网络技术有限公司的百世汇通,拥有“汇通快运”,是一家在国内率先运用信息化手段探索快递行业转型升级之路的大型快递公司。百世汇通通过对大数据进行分析、提炼,已经能够为企业战略规划、运营管理和日常运作提供重要支持和指导。百世汇通一方面运用大数据来管理、分析、判断加盟网点的运营行为,通过网点在系统内的足迹建立数据分析模型,成功地预测了几次网点的异动,使工作方式由被动式变为主动式、前置式,减少了大量客户投诉,把问题消灭在萌芽阶段。

价值3:基于大数据的商业模式创新

针对大数据分析,可以进行面向社会化协作的新型业态及企业成长模式创新,发现市场新机会与创业机会,特别是个性化新兴移动应用模式和固定式网点之间的协同创新,企业可以基于企业内外部数据资源进行整合,提出新的创新与扩散机理。

以顺丰为例。目前顺丰有31架全货机(12架自有19架租用)、5000多个营业网点、150余个一、二级中转场和一万多台营运车辆。大量的数据让顺丰开始寻觅其中的机会。顺丰不再固守中高端快递市场,在电商、合约物流、廉价快递等领域多线出击。顺丰根据目前的大数据创办了新型的“嘿客”店模式,“嘿客”店并不是便利店的概念,它是个虚拟的小区店的概念,目标是带动小区的最后一百米的需求,然后给每个小区打造线下的一种安全的高质量的服务环境。比如可以去试衣,你可以去退货,可以去做很多支付去线下购买产品,当然最基础邮寄快递也包括在内,所有这些业务模式都会在线下的”嘿客”店里实现。

快递和电商企业都寻找大机遇

我国电子商务的持续扩大和网络购物的兴起带动了快递业的高速发展。天猫、京东、一号店等电商企业平台的快速增长,对现代流通方式和物流业产生新的更大的要求。在网络购物井喷式发展的带动下,为了能够较好地满足新的社会需求,快递市场发展迅速,市场规模不断扩大。但是,在快递市场高速发展的背景下,近两年也不断曝出快递企业野蛮分拣、爆仓、延迟、丢件等问题,反映了快递企业总体服务质量跟不上行业发展的速度。这在一定层面上反映了快递企业在体制、操作和管理上仍然存在着诸多的不足。而更加深层次的原因,则是本土快递公司的现代化、标准化、数据化水平仍然有待提高。众多小型快递企业在企业发展之初,往往采用人情化管理,但当企业发展到一定阶段时却由于管理水平跟不上,导致企业管理混乱,甚至破产。

由于快递行业在运转过程中会形成“大数据”群,应用好这样的大数据,不仅在快递业务量预报系统,在快递配送路线和快递产品设计等领域都会获得高效的支撑。通过对各个物流环节的数据进行归纳、分类和整合,“大数据”还可以为企业战略规划、运营管理和日常运作提供重要支持和指导。正因为如此,快递企业开始重视大数据的利用。

2014年9月19日,搜索引擎百度公司与中国快递行业领先品牌圆通速递有限公司宣布,双方正式建立基于大数据和LBS平台的战略合作伙伴关系,携手推动快递信息系统智能化,共同发掘快递行业大数据价值。作为快递行业,圆通希望此次与百度的合作作为企业转型升级的一次积极尝试和探索。因为百度在今年4月推出的全球首个开放大数据引擎,包括数据工厂、开放云、百度大脑在内,将这样的数据处理能力开放给传统企业,将可能对传统企业的运作带来质的变革。2014年9月的百度世界大会,百度再次推出了聚焦传统服务业的划时代互联网产品“直达号”,一系列基于连接传统服务业的尝试和努力,几乎在一夜之间改写了传统服务业未来的商业图景。此次百度与圆通速递合作,就是希望借助百度在大数据和LBS平台方面的优势,与圆通一道挖掘传统快递业各个环节中的海量数据价值,以及这背后潜在的

不仅仅是快递企业,电商企业也越来越关注大数据。早在今年年初,京东商城就已启动云计算研发基地,并成立“京东商城——中国人民大学”电子商务实验室,着力电子商务大数据的分析与合作。

依托阿里巴巴的菜鸟网络自去年5月28日宣布成立后,开始在天网(物流数据)、地网(仓储物流中心)、人网(服务站、自提点)三网同时发力,并与阿里系电商业务全面打通。菜鸟网络首席运营官童文红表示,互联网的发展正从IT时代转向DT时代,信息化和大数据将成为推动行业发展的重要力量。菜鸟网络将利用自身拥有的技术和资源优势,将物流平台向全社会开放,帮助有需求的物流快递企业加强信息化和服务能力,减少行业信息系统的重复建设。双方合作的内容包括云计算、信息产品、信息安全等。

快递产业是融合信息交流、物品递送、资金流通等多种功能于一体的复合型新兴服务业,具有商品流通能力强、拉动居民消费作用大、吸纳就业人数多等特点。挖掘其中的大数据,可以创造更多的商业机遇,也更能,便利民众生活、服务社会生产和推动经济社会发展。电子商务与快递业,加上崛起的大数据,将撬动中国的经济版图。

大变革——

大数据牵动发展智慧物流

2013—2014年,以快递、快运、配送等为代表的物流业细分市场保持高速增长。人们的日常生活与快递物流的关系越来越密切。资料显示,2013年,农村物流、社区物流趋于活跃,冷链物流宅配市场受到关注。2013年,中国物流业运行总体仍处于平稳增长区间,中国物流业景气指数(LPI)全年保持在50%以上。2013年全年社会物流总额接近200万亿元。中国物流与采购联合会预计,2014年,中国物流业将继续稳中求进,实现产业升级。之所以要实现产业升级,是因为我国物流业发展总体水平还不高,发展方式比较粗放。

这种粗放的物流戏台,主要表现在以下几点:首先就是中国的物流成本过高。衡量一个城市生活成本的高低,物流业是杆标尺。据统计,2013年全社会物流总费用与国内生产总值的比率高达18%,高于发达国家水平1倍左右,也显著高于巴西、印度等发展中国家的水平。其次是条块分割严重,阻碍物流业发展的体制机制障碍仍未打破。企业自营物流比重高,物流企业规模小,先进技术难以推广,物流标准难以统一,迂回运输、资源浪费的问题突出。第三是基础设施相对滞后,不能满足现代物流发展的要求。现代化仓储、多式联运转运等设施仍显不足,布局合理、功能完善的物流园区体系尚未建立,高效、顺畅、便捷的综合交通运输网络尚不健全,物流基础设施之间不衔接、不配套问题比较突出。

中国物流与采购联合会副会长、中国物流学会常务副会长戴定一表示:“行政管理的不规范、不合理是当前物流发展的最大成本。数据作为一种新的资源,数据的拥有者将来会获得越来越大的话语权,整个社会的治理结构与规则将会发生非常深刻的变化,这是每个人都会面临的社会变迁。”戴定一认为,智慧物流是物流的发展目标,而大数据能够支撑智慧物流的发展,物流行业和企业要利用好大数据,才能够真正从变革中受益。

将大数据应用到智慧物流的管理中,不仅仅会为快递企业创造价值,同时由于大数据深深地渗透进入供应链管理中,更可通过仓储、运输等为客户实现价值。正如英国经济学家克里斯多夫那句名言:“真正的竞争不是企业与企业之间的竞争,而是供应链与供应链的竞争。”利用好快递供应链中的大数据,还能凭借“数据的力量”来促进政府部门的监管规范化,决策科学化,乃至改革的深化。

从这个角度上考虑,大数据的应用,实际上不是技术变革,而是一个思维变革。只有改变思维和改变模式才能促进价值量的增长。大数据的应用,将正在向促进快递物流行业向着经营全球化、系统网络化、供应链简约化、服务一体化的趋势发展。而在未来,我们有可能看到的是集成大数据智能的物流体系,将具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力。这一天迟早会到来。

作者:阮晓东

上一篇:当代大学生论文下一篇:诚信原则法律论文