基于大数据的数据分析平台建设研究

2022-05-11 版权声明 我要投稿

摘要:大数据中隐含了许多有价值的信息,能够辅助人们做出科学决策,但是大数据很难被充分利用起来,其根本原因在于数据量巨大。为此,为提高大数据利用率,构建一个基于大数据的数据分析平台。该平台首先利用多功能采集卡将采集的数据集中到一起,并转存到中心处理器当中,在中心处理器中根据数据类型和数据挖掘目的选择合适的大数据挖掘技术,进行大数据分析,最后将分析结果通过显示器反馈给用户,以供用户利用。结果表明:将所构建平台应用到电力设备异常检测中,其检测结果证实了该平台的应用效果,为大数据的利用提供了重要的辅助手段。

0引言

大数据是当代信息化、数字化社会中最有价值的部分。在大数据中隐藏了很多有价值的信息,这些信息对于辅助人们做出科学决策,精准施策具有重要的作用。然而,大数据的利用率并不是很高。造成大数据利用率低的根本原因在于无法有效地从海量的大数据中挖掘有价值的信息,因此,如何从海量的大数据中挖掘有价值的信息成为大数据分析中亟待解决的问题之一[1]。

大数据分析是一个检查、清理、转换和建模数据的过程,关于大数据分析的研究有很多。如梁少培将大数据分析应用到的电力设备监测领域,通过聚类分析算法向为大数据、web前端、信息化教学。实现电力设备状态的识别和判断,以防止电力设备出现故障,影响正常供电;张梦瑶将大数据分析应用到环境监测领域,通过收集到的海量大气颗粒物,利用聚类算法将具有相似性质的颗粒物聚集到一个分组中,以此来判断判断地区内主要大气污染物成分,并根据成分判断可能的来源,为大气污染防治提供参考依据;华圩将大数据分析商业领域,通过研究用户行为数据,从中提取有用信息,为其了解用户、抓住用户,为准确地进行市场定位和战略决策提供了重要的基础数据;徐蔓青将大数据分析应用到交通领域,通过获取到的海量交通数据来判断各个路段的交通运行状态,为交警疏通道路,改善交通运输状况提供了有效的帮助。以大数据作为对象,设计一种大数据分析系统。该系统设计分为四部分,即系统框架设计、系统硬件设计、系统软件设计和系统测试,使用户直接使用设计系统即可对海量数据进行大数据分析,并针对数据的类型和分析的需求细化选择适合的大数据分析技术,以期提高数据的利用率。设计的大数据挖掘分析模块,改善了普通数据中心的扩展性,利用采集卡连接各设备,解决了数据分析挖掘系统建设成本高的问题。

1基于大数据的数据分析平台设计

随着互联网技术和计算机信息技术的发展,人们正式迈入信息化时代。信息化时代的典型代表就是大数据的出现和增长。大数据中隐藏了很多有价值的信息,但是这些很难被挖掘出来,因此,如何从海量信息中提取出所需要的信息,即是基于大数据的数据分析平台设计目的[2]。

1.1平台框架设计

平台框架是平台后续搭建的思路和基础,因此,框架的设计至关重要。本系统在Hadoop分布式系统基础架构的基础上进行设计。Hadoop优点在于高容错性和高吞吐量,因此,更适用大数据集的应用程序的部署[3]。数据分析平台框架主要分为三层,数据采集层、业务逻辑层和客户端层[4]。数据采集层:平台的最底层,负责采集大数据,是后续大数据分析的基础数据。业务逻辑层:平台的中间层,由各种大数据分析算法组成,负责处理大数据中有价值数据的挖掘。客户端层:平台的最上层,负责大数据分析结果的显示以及用户指令的输出。

1.2平台硬件设计

系统硬件是指平台搭建中所需要的物理设备,是平台运行的实际载体。本平台中,硬件主要包括数据采集器、通信器、处理器和显示器[5]。下面进行具体分析。

1.2.1数据采集器

大数据采集是进行大数据分析的前提和基础,位于平台采集层中。本平台中数据采集器为一块采集卡,该采集卡与各种采集设备相连,如各种传感器、音频采集器和视频图像采集设备等。采集卡的作用是将下属现场采集设备捕捉到的数据转存到本平台的计算机中,以便进行大数据分析处理[6]。由于本平台下属设备采集到数据的类型多样,本平台中的采集卡为一块多功能采集卡,集图像采集、视频采集、音频采集、信号采集和数字采集于一体[7]。

1.2.2通信器

通信器在平台中起到信息传递的作用,是平台上各个硬件设备连接重要的媒介。本平台当中关键的通信器为一个光调制解调器。它通过光纤介质进行传输,该设备由发送、接收、控制、接口及电源等部分组成[8]。本平台中的光调制解调器优势如下:

(1)20km远距离高速传输。使用性能稳定的元器件组合保证信号以9600b/s的速率传输至20km远。

(2)三种串口混合使用。可以用RS232的设备去连接RS485/RS422的设备,可以代替RS232到RS485/422接口转换器或光电隔离器。

(3)瞬态电压保护。采用TVS瞬态电压抑制器,保护电路元器件不受高压冲击而损坏。同时可有效地抑制闪电(LIGHTN|NG)和ESD,提供每线600W的雷击浪涌保护功率[9]。

(4)传输模式任意切换。采用/O电路自动控制数据流方向,无需握手信号及跳线设置,即可实现半双式(RS-485)、全双工(RS-422)模式转换。

1.2.3处理器

处理器是平台硬件组成中最核心部分。大数据分析主要在该部分进行。本平台中处理器为一块拥有双CPU的微处理器,能够支持各种复杂的运算[10]。在该处理器上,搭载了很多功能模块,具体如下:

(1)板载两个芯片STM32F103ZE,144引脚,512KFLASH64KSRAM,容量大。

(2)板载USB-TL串口,下载,串口调试,通信三合该电路搭配专利一键下载电路,串口下载非常方便。

(3)提供十多种接口,方便连接各类模块开发测试。

1.2.4显示器

显示器是用户与平台之间接触的唯一窗口。显示器可以将处理器进行的大数据分析结果显示出来,而用户也可以通过显示器输入控制指令,监控平台运行。本平台中显示器为一块有机发光显示屏[11]。它与报警器相连,若大数据分析结果存在异常,就会触发报警器,提示用户及时进行处理。本平台上使用的显示器技术特征如下:

(1)1920×1080全高清分辨率。16∶9防眩光宽屏,轻松观看应用程序和电子表格等内容。

(2)176°广视角,在176°广视角中仍可保持色彩一致性让房间中的每个人都可以获得同样出色的观看体验。(3)内置2个10W扬声器,可以将声音全方位传递出去。

(4)配备DellDisplayManager软件,显示屏幕内容布局随您所想。

1.3平台软件设计

基于大数据的数据分析平台软件主程序从基于大数据的数据分析平台软件主程序中可知,大数据分析可以分为大数据采集、大数据预处理和大数据挖掘等三个功能模块[12]。下面针对这三个功能模块进行具体分析。

1.3.1大数据采集模块

利用采集卡采集大数据基本流程首先将采集卡与现场各个采集设备相连,然后设置采集频率。当现场采集设备完成一个频率的数据采集之后,就利用采集卡将数据捕捉到一起,并转存到计算机处理器当中,直至所有数据采集完毕[13]。

1.3.2大数据预处理模块

采集到大数据质量、形式和结构并不能满足处理器进行数据挖掘分析的标准,因此,需要进行预处理。根据数据类型的不同,针对于数字、信号、音频类型的大数据,预处理包括标准化、去噪、降维、离散;针对视频、图像类型的大数据,预处理包括灰度化、去噪、背景去除、锐化、增强、边缘提取、特征提取等[14]。预处理环节,需要根据大数据类型进行具体选择。

1.3.3大数据挖掘分析模块

大数据挖掘分析是本平台的核心模块,负责从大数据中挖掘出存在价值的有效信息[15]。该模块主要由各种挖掘算法组成,注:数据挖掘算法需要根据大数据分析目的和数据类型,选择合

适的挖掘算法。

2平台实现与测试

测试是平台设计中必不可少的一个环节,通过测试以发现平台设计中存在的漏洞,以便进行平台优化。电力设备运行的状态对电力企业供电质量有直接的影响,对电力设备进行日常实时监测,能够降低设备故障的风险。仿真实验中所设计的平台应用到电力设备大数据异常识别当中。

2.1数据采集

电力设备状态数据采集环境电力设备状态数据采集环境主要由现场运行计算机、多端口RS485串行服务器、RS485总线及现场端设备(AP表、西门子SJ63表、PLC、温控表)组成。

在上述电力设备状态数据采集环境下,采集大的数据类型有五种,即正常数据、短路故障数据、发热故障数据、绝缘故障数据、电源故障数据。

2.2参数设置

考虑电力设备大数据分析的特征,设计系统选择了神经网络算法进行数据挖掘。该神经网络参数设置其中,设置了期望误差为1‰,学习速率的调整系数为1.2,动量系数为0.7。

2.3神经网络训练

从采集到大数据集中选择80%的数据对神经网络算法进行训练,训练结果的参数,神经网络系统满足目标要求,具备较好的异常识别能力,可以用于后续实测当中。

2.4大数据分析性能

将剩余20%,即三组电力设备运行数据作为测试样本,进行平台异常识别测试。利用所设计平台对电力运行数据进行异常识别,识别结果如下:测试样本1发生绝缘故障;测试样本2发生发热故障;测试样本3发生电源故障。检测其对应的电力设备,测试结果与实际情况相同,证明了该所设计平台的应用效果。

3结束语

综上所述,大数据在诸多领域的发展中都起到了重要作用,但是大数据在我国的领用率并不高,主要原因在于数据量过大,从中寻找有价值的信息比较困难。为此,构建一种基于大数据的数据分析平台,以期通过该平台提高大数据分析效率和质量。经测试分析,该平台在异常识别领域发挥了有效作用,准确识别处理电力设备的异常状况,证明了其具有一定的应用性能。然而,在仿真实验中,仅将该平台应用在异常检测领域,而其他领域没有进行应用证明,因此,验证结果具有一定的局限性,在下一阶段中,需要进行其他领域的应用测试,扩展其应用范围。

参考文献

[1]于洋,艾秋竹,灯钧文,等.浅谈人脸识别的研究意义和背景[J].沈阳师范大学物理科学与技术学院,2017.

[22]邓智铭,陈帅帅.基于深度学习的人脸识别[J].信息与电脑(理论版),2018.[3]江洲,朱旭东.基于大数据和深度学习的人脸识别布控系统[J].电子世界,2018.

[4]吴倬旻,李铭.人脸识别应用的探讨[J].信息通信,2019.

[4]朱金奎.人脸识别算法的研究[J].东北立业大学硕士论文,2009.[12]齐怀峰.基于特征脸的人脸检测与识别[J].云南师范大学学报,2005.

[5]倪世贵,白宝钢.基于PCA的人脸识别研究[J].现代计算机,2011.[14]黎奎,宋宇.基于特征脸和BP神经网络的人脸识别[J].

计算机应用研究.

[6]高卓宇.人脸识别技术应用的侵权风险与控制策略[J].图书与情报,2019,(05).

上一篇:中国行政法比例原则的理论研究与实践发展下一篇:农村畜牧兽医公共服务体系现状及对策