科技创新导报2020 NO.23Science and Technology Innovation Herald信息科学
DOI:10.16660/j.cnki.1674-098X.2005-5254-5195
大数据下的在线机器学习算法研究与应用①
肖坚
(湖南外贸职业学院 湖南长沙 410000)
摘 要:近年来,随着我国经济的不断发展,信息技术的快速更新,使互联网社交、卫星导航、电子商务及交通运输等多个领域都取得了较快的发展,并产生了大量的数据信息。随着数据的不断积累,会逐渐形成大数据的同时也开始受到各个企业的关注。而数据在进行分析的过程中,机器学习是数据分析的常用方法之一,而本文则主要对大数据下的在线机器学习算法研究与应用进行详细分析和介绍。关键词:大数据 机器学习 数据分析 算法 研究中图分类号:TP181 文献标识码:A
文章编号:1674-098X(2020)08(b)-0134-03
Research and Application of Online Machine Learning
Algorithm under Big Data
XIAO Jian
(Hunan International Business Vocational College, Changsha, Hunan Province, 410000 China)Abstract: In recent years, with the continuous development of China's economy and the rapid update of information technology, Internet social networking, satellite navigation, e-commerce, transportation and other fields have achieved rapid development and generated a large amount of data information.As data continues to accumulate, it will gradually form big data and begin to attract the attention of various enterprises. In the process of data analysis, machine learning is one of the common methods of data analysis, and this article mainly analyzes and introduces the research and application of online machine learning algorithms under big data.
Key Words: Big data; Machine learning; Data analysis; Algorithm; Research
随着计算机的问世,人类开始进入信息化时代,而信息化产业得到空前发展的同时数据量也出现前所未有的增长,从而使大数据应运而生。实际上,大数据指的是一种利用传统IT技术及软硬件工具对数据进行有感知、获取、管理、处理及存储的收集,或指的是一种无法装载到计算机内存储器的数据集,机器学习算法初期相当于一架模式分类器,可将样本间的距离和分类面积进行有效扩大,降低判断失误的几率,从而使数据风险降到最低,而其中的支持向量是将一个数据空间转变为另一个高维度空间,并通过分类而得到更加精准的数据。
有一定优点,4V模式则具有各种不同的说法,如价值性、时效性、虚拟性、变化性及效率性等等。想要对于大数据的这些特性进行分析和理解,有关专家一般认为,应将计算机技术与智能化技术进行融合,使数据流的顺畅性得到保证。而对于大数据的知识分析和处理,则人类智能和机器智能起到了十分关键的作用。此外,随着人们对数据信息需求的不断增加,使大数据在收集、传递、处理及应用等有关技术得到不断改变,从而让一些半结构化、结构化及非结构化数据的自身价值得到有效发挥。1.2 大数据的分类
1.2.1 支持向量机分类
若对大数据应用传统机器学习方法进行分类的话,一方面计算机会存在密集现象,对信息的大规模收集和处理较为不利;另一方面非参数空间模拟形式
1 大数据的特点与分类
1.1 大数据的特点
大数据在发展过程中,已从最初的3V模式发展到4V模式。其中,3V模式在速度、容量及多样性方面具
①基金项目:湖南省教育厅资助科研项目(项目编号:19C1234)。
134
科技创新导报 Science and Technology Innovation Herald
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.信息科学
等方面会存在随机性问题。因此,想要避免以上问题的出现,就有了在线机器学习的方法。在线机器学习方法根据顺序原理对数据进行处理,使计算速度变得更快的同时也具有更加广泛的收集能力,但这种方法有可能会降低支持数据的处理数量,所以在对大数据进行大规模分类时,可以增量算法和最小二乘支持向量算法为基础,然后利用大数据分类算法对数据进行提取,以此减少内存需求量,同时也能使大数据得到更好分类。
1.2.2 神经网络和极端学习机
极限学习机(ELM ,Extreme Learning Machine),是由南洋理工大学黄广斌教授提出来的求解单隐层神经网络的算法。 ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),在保证学习精度的前提下比传统的学习算法速度更快。在传统的神经网络中,其通过梯度下降算法来对权值参数进行相应调整,但该算法具有泛化性差、效率低及计算速度慢等缺点。而想要对这些问题进行解决,可通过ELM算法,随机赋值神经网络中的偏差项及输入权值,从而在一定程度上计算出网络输出权值。因此,ELM算法与传统算法相比,计算效率可得到显著提高。
1.2.3 决策树分类
因传统决策树处理方法具有占用内存过大的缺点,所以在对大数据进行处理时,可通过新型大数据处理方式,对大数据构造决策树思路加以利用,使机器学习算法的性条件得到有效解决,同时计算速度与之前相比也有了一定的提升。另外,通过增量优化方法,也能使决策树算法的效率有效提高,并且这种方法具有一定的精确度,可确保数据精准性的同时还能对带有噪音的大数据加以处理。
1.2.4 应用领域分类
目前,应用领域层面的分类算法研究较为广泛,但在样本获取方面,却存在一定的困难。而想要获得相关知识,可通过半监督学习方法,对诊断样本进行估算,从而提高估算内容的精准度。因此,半监督学习方法,在基准数据集中,可获取到更好的结合基础数据,并且数据也符合实际。
1.2.5 非监督和监督学习分类
监督学习和非监督学习的差别有两点:一是有没有目标值的差别;二是学习过程有没有人工干预。正常情况下,非监督学习是聚类,常见算法有k-means、Apriori、FP-Growth等;监督学习主要是分
2020 NO.23Science and Technology Innovation Herald科技创新导报类(Classify)和回归(Regression),常见算法有:k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等。也就是说,非监督学习指的是对输入样本进行模型训练后,得到输出没有预期;而监督学习是对输入样本进行模型训练后,有非常明确的预期输出。
2 大数据下的在线机器学习算法的研究与应用
在2010年之前,机器学习主要作用一些特定领域,诸如车牌识别,互联网网络攻击防范,手势识别等等。伴随着大数据等新兴概念的涌现及流行,机器学习大量的应用已经与大数据高度耦合,我们可以这么认为,大数据是机器学习应用的最佳场景。2.1 整体同步计算
整体同步计算模型指的是由不同处理单元同步路障及局部内存部分形式组成,而大数据的更新流程为:首先,对多个处理单元的系统模型进行依次更新;其次,结合路障机制节点的处理要求进行同步等待;再次,各个线程信息会由主节点进行统一更新;最后,将更新到的数据信息传递到各处理单元中以后,再进行下一次的数据更新。还有根据数据划分原理,整体同步计算模型也可以解释为:数据模型中的各个节点可通过本地数据先进行更新,然后等计算机各个节点信息都获取完成后,主节点再对其进行汇总,并对新一轮全局模型的参数进行更新。2.2 共享存储模型
共享存储模型又叫做共享内存模型,其根据线程锁机制,可划分为异步形式和同步形式。其中,异步形式以部分参数的更新为主,待数据更新完以后,就可共享到内存参数值中,而且在对其他线程模型的参数进行读取时,也可直接获得更新完成后的参数;同步形式是指对各个线程的更新相关参数进行计算,然后将计算完成后的信息分享到内存中,之后进行聚合操作,并对读取的全局参数进行有效划分。目前,计算机基本采取的是4核或8核的CPU,所以多数分布较为系统的单一节点采用异步计算机模型,这种模型在学校机房中使用比较普遍,即老师操作终端进行子计算机控制,然后将计算机中的数据通过异步或同步共享信息方式进行更新,以此使老师顺利开展教学工作。2.3 异步并行计算
从概念上解读,并行计算就是在并行计算机上所做的计算。简单来说,它和常说的高性能计算、超级计算等是表达的同一个概念。并行计算的初衷是为了努
科技创新导报 Science and Technology Innovation Herald
135
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.科技创新导报2020 NO.23Science and Technology Innovation Herald信息科学
对在线机器学习算法理论和技术进行研究,并根据大数据的实际情况,提出不同的数据模型及分类方法,之后结合不同数据模型的优缺点,对数据进行有效研究、改良及应用,从而使数据获取和更新的效率得到有效提高。
力仿真自然世界中一个序列中含有众多同时发生的、复杂且相关事件的事务状态。异步和同步是相对的,同步就是顺序执行,按照规律依次执行,需要等待、协调运行。异步就是彼此,在等待某事件的过程中继续做自己的事,不需要等待这一事件完成后再工作。而异步并行计算模型主要由全局参数总结点以及处理器组成,指的是结合不同节点,采取不同步调,对主节点的模型参数进行更新,然后根据数据划分对更新后的数据进行处理。而且通过数据划分角度。异步并行计算模型也可以解释为:各节点应用本地参数,可对模型参数单独进行计算,然后当一轮计算完成后,再对模型参数进行更新,之后在主节点获得新一轮参数信息后,进行下一轮的数据计算与更新。另外,需要注意的是,异步并行计算模型对各个节点进行更新的过程中,最后结果有可能会出现一定的收敛性。
参考文献
[1] 张维,王玥,罗珅.基于分布式计算框架的大数据机器学习[J].数字技术与应用,2018,36(9):37-38.[2] 杨斌.基于人工智能技术的机器学习研究[J].数字通信世界,2020,185(5):140.
[3] 叶晨,王宏志,高宏,等.面向众包数据清洗的主动学习技术[J].软件学报,2020,31(4):258-268.
[4] 吴悦文,吴恒,任杰,等.面向大数据分析作业的启发式云资源供给方法[J].软件学报,2020,31(6):1860-1874.
[5] 成科扬,王宁,师文喜,等.深度学习可解释性研究进展[J].计算机研究与发展,2020,57(6):1208-1217.[6]顾润龙.大数据下的机器学习算法探讨[J].通讯世界,2019,26(5):279-280.
中的应用[J].中国科技投资,2018(32):96.
[2] 冯冀秦.水电站计算机监控系统的远程诊断及维护策略分析[J].中国科技纵横,2018(18):29-30.[3] 李万超.探究电厂自动化中的计算机监控[J].计算机产品与流通,2018(12):112.
[4] 徐爽.多个水电厂监控系统远方集中控制上的实现方式[J].科技创新导报,2018,15(17):19,21.
[5] 孟抒婷.智能技术在电力系统自动化中的应用分析[J].科技创新导报,2018,15(5):16,18.
[6] 崔骏亮. 机电自动化技术及其发展趋势[J]. 科技资讯, 2018, 16(1): 26-27.
[7] 司晓博.数据挖掘在水电厂监控系统中的研究与应用[J].云南水力发电,2018,34(3):126-127.
[8] 徐爽.多个水电厂监控系统远方集中控制上的实现方式[J].科技创新导报,2018,15(17):19,21.
[9] 刘明.自动化监控系统在拦河闸工程设计中的应用[J].水利建设与管理,2018(8):46-49.
[10] 蒋晶,唐容文.视频监控系统在水电站中的综合应用[J].四川水力发电,2018,37(2):39-41.
[11] 陈高明.浅析水电站综合自动化监控系统设计与应 用[J].自动化应用,2018(8):112-114.
3 结语
大数据时代下,想要使大数据的获取及更新效果得到有效提高,就需要对大数据的复杂性、高噪音性、变化性及数据漂移性等特征进行综合考虑,然后
(上接133页)
作的,那时候的成本或是资源损失,都会大大降低。当然,这些都只是臆想,不过越来越强大的计算机监控能力,或许有一天能够做到也说不定[4-5]。4.3 提前分析数据
根据计算机监控系统长久以来收集到的数据,分析设备的特性,做出科学的模型,对数据进一步分析归纳,甚至有可能模拟出某一个水电厂运行一个月、一年的工作状态,试想一下,现在就可以得到今后一月甚至一年水电厂的运行状态,尽管这只是模拟数据,但对故障的发现具有很高的参考价值,能防患于未然。
[6]
5 结语
传统人工检测已经无法满足当代水电厂运行值班的需求,而依托于计算机和互联网的自动化监控已经成为时代的主流,计算机监控的诸多优点可以有效减少故障的发现难度,让数据的收集、处理、收录更科学,当前已有不错应用。而随着时代的进步,在5G通信技术的加持下,势必能有更广泛的发展前景与应用面,值得期待。
参考文献
[1] 许松娜.计算机监控在水电厂运行值班自动化系统
136
科技创新导报 Science and Technology Innovation Herald
Copyright©博看网 www.bookan.com.cn. All Rights Reserved.