化学强化技能管理论文

【摘要】深度强化学习引发了人工智能领域的革命性突破，成为问题解决的通用框架。该学习模式将深层神经网络融入强化学习，不但在图像识别和自然语言处理等领域取得突破性的进展，更在围棋等复杂棋类游戏中具有超人的表现。总结归纳深度强化学习模式的优势在于其具有的6项重要学习机制。然而，这种模式也存在样本数据有效性低的痛点问题。下面是小编精心推荐的《化学强化技能管理论文 (精选3篇)》，仅供参考，希望能够帮助到大家。

化学强化技能管理论文篇1：

对提升职业教育技能教学水平的几点思考

摘要：本文阐述了强化技能教学、优化技能人才队伍素质结构在社会经济发展中的重要作用，并围绕提升职业教育技能教学水平、为社会经济发展培养更多的高素质技能人才进行了有益的探索。

关键词：职业教育；技能教学；高技能人才

技能特色的教学是职业教育的主要特征，职业教育要适应社会经济发展和企业对人才的需求，必须树立全新的办学理念：强化技能、突出特色、更新教学内容、加强校企合作，促进双师型教师队伍的建设，提高教师队伍的素质，完善学历证书与职业资格证书的衔接。加快发展职业教育,对我国经济健康、可持续发展具有重要的意义。

当前，我国职业技术教育仍存在较多的问题：社会对职业技术教育的认识存在偏差，大多数家长不认同职业教育，造成职业技术学校的生源素质普遍偏低；职业学校的师资队伍素质不高且结构不够合理，双师型教师不足；很多地方对职业教育的投入不足，造成职业教育的实训实操设备短缺，现代教育设施和手段贫乏；等等。随着我国市场经济体系的不断完善、国家对职业教育提出了更高的要求和希望，社会对专业技术人才，特别是对各类技术应用型人才的要求尤为迫切，全国职业教育工作会议也对加强技能人才特别是高技能人才队伍建设提出了明确要求。高技能人才技艺精湛、技术过硬、作风严谨，是技术工人队伍的核心力量；高技能人才具有创新意识、进取精神、攻坚能力，是推进技术创新的骨干力量；高技能人才身处生产前沿阵地、关键岗位、勤于思考、善于研究，是科技转化的中坚力量。因此，加强高技能人才队伍建设，是实施科技强国、人才强国战略，应对新一轮经济科技竞争、抢占国际竞争制高点的战略举措，也是全面提高劳动者技能素质，扩大就业、再就业的有效途径。

一、新的经济形势迫切需要强化职业教育中的技能教学

近一年来，由欧债危机引发的全球金融危机正逐渐蔓延到我国，影响到我国的实体经济，一些粗加工型，没有知识产权、技术含量低的中小加工企业纷纷倒闭，这就是因企业缺乏核心竞争力所致。这部分倒闭的中小加工企业的内部生产往往对技能要求低，这就使得企业员工的整体素质不高，从而缺乏企业竞争力，抵挡不住金融危机的冲击。我国要从制造大国成为制造强国，必须树立科学发展观，以市场需求为导向，以企业发展为目的，以提高劳动者专业技能和创新精神为重点，挖潜内部潜力，提高产品的质量和档次，这就要求我国必须大规模、高效率地培养高技能人才，使其占技能劳动者的30%以上，形成与社会经济发展相适应的、结构合理、知识完善、素质全面的高技能人才队伍。大力培养高技能人才队伍，是科技协调发展之策、构建和谐社会之基、建设创新型国家之举。因此，要充分发挥职业学校高技能人才培养的主渠道作用，通过转变观念、强化技能、提高层次、突出特色，使职业教育成为高技能人才培养的重要途径。

据统计，目前恩平市每年仍有近半数（3000多名）的初中毕业生，既未能进入普通高中继续学习，又不愿进入中等职业学校学习，这势必影响到社会新增劳动力的素质，在劳动力总量过剩的同时，存在严重结构性失衡问题。我校针对这种情况，通过长期实施产教结合、校企合作、工学结合等多种形式的培训，赢得了社会和企业的广泛赞誉和支持，开创了技能人才培养的崭新局面。学校坚持“强化技能，突出特色，服务就业”，树立职业教育为经济社会发展服务的思想，加快高技能人才培养，不断为社会经济发展输送适用人才。

二、社会经济发展迫切需要优化技能人才队伍素质结构

我国现有的各行各业的技能人才，特别是高级技能人才极度短缺，劳动者素质和技能水平都严重制约着企业的发展和科技进步。专业技能人才的培养，急切需要引起全社会的关注和重视。近年来，发生在珠三角、长三角等地的中小企业倒闭现象可看出，粗加工型、简单型劳动力密集型企业缺乏市场生存能力。如东莞一些中小型加工企业由于没有自己的专利、知识产权且技术含量低，倒闭很多。但在广东澄海的一些具有自己专利、知识产权，具备创新能力的企业受到的冲击就很小，正是由于他们的产品有相当的专利技术含量，能紧跟市场变化，企业员工整体素质较高，能适应外部环境的不断变化与冲击。但总体来看，我国高级技工的缺口仍相当大。不少城市和企业都面临严重“技工荒”的问题，如恩平市的很多电声企业都急需大量的技能型电子专业人才。究其原因，主要有如下两点：一方面很多学生初中毕业后就直接走上社会，这部分年青人难以达到企业的用人要求；另一方面恩平市的中职学校数量少、规模小，教学场地、教学设备的投入严重不足，这些都制约着恩平电声行业的发展。为此，我市要建立一支适应产业结构和劳动力结构需要的产业技术大军，以满足劳动力需求结构的急剧变化，这就要求我市必须大力发展职业教育，强化技能教学，培养企业所需要的专业人才，只有这样，行业、企业才能在国内、国际经济竞争中立于不败之地。目前，我国工人队伍中技术工人仅占25%左右，而发达国家却占75%。且在技术工人中，发达国家高级技工占35%，中级技工占50%，初级技工占15%，而我国上述比例严重失调，分别是5%、35%、60%，这也严重制约了企业的发展，限制了企业在国际舞台上的竞争力。

德国的职业教育是非常成功的，德国产业大军的高素质和产品的高质量，很大程度上得益于他们成功的职业教育。他们的主要做法是学校和企业共同为教学主体，校企合作非常成功，他们的成功经验值得我们借鉴。如果我们也让企业参与到学校的教学中来，使企业和学校共同为教学主体，学校、企业分工合作，学校负责文化基础理论、专业基础理论和基础实验实操，企业则负责专业技能培训，安排实习，让学生在最先进的机器设备房学习最新的技术、技能。就可以很好地解决教学与用工脱节的问题，大大提高学生的专业技能。

三、提升职业教育技能教学水平的对策建议

职业教育旨在培养技术应用型人才，满足社会和企业对技术人才的特殊要求，这是职业教育教学工作的立足点。现代社会的发展不仅需要从事科学研究、规划、设计的专家、学者，更大量需要在生产、建设、服务第一线工作的技术应用型人才。职业学校应抓住机遇、创新思路、强化措施，为学生构建与技能人才相适应的文化理论知识、技术技能和职业素质。学校的高技能人才培养必须面对市场，突出特色、服务就业、创新模式，以培养“应用型、实践型、操作型”的人才为目标，满足社会需求，这样，高技能人才的培养工作才能在把握质量的前提下高效推进。

1. 职业教育必须以就业为导向。

以就业为导向，要始终坚持以技能培养为主线，根据就业市场的需要，发挥专业特色，形成品牌专业，在教育和培训上，根据学校实际情况和市场需要，设置专业、制订和实施教学计划，组织教学，进行技能鉴定等。在教学计划上作必要的调整，要敢于打破传统，冲破专业限制，以社会需求为主，增加一些专业技能课及跨专业选修课，加强围绕市场需要的课程安排。既要注重学生的基本功训练，又要善于创新和不断探索，寻找技能型人才培养的最佳方案，把培养学生精湛的技能作为拓宽就业、满足人才市场需求、促进学校持续发展的根本措施。

一所职业学校办学水平的高低不仅在于是否有一流的师资和先进的设施，还在于培养出来的学生是否受用人单位欢迎。就业是职业教育教学活动的根本和导向，学校要把学生作为“全面的人”进行教育，使其具有可持续发展的潜力，在激烈的竞争中立于不败之地。这就要求职业学校在课程设置安排和教材内容上不断改革，针对学生实际和企业需要来授课，删去一些繁杂的理论计算等，增加实践操作方面的内容及训练，安排学生实习，积极开展有益学生身心健康的课外活动等，提高学生的专业知识技能水平及文化素养。

2. 职业教育必须坚持多种形式办学。

培养适应社会和企业需求的高技能人才，必须打破封闭式的办学模式，积极探索校企合作、产教结合、“订单式”培养之路，建立起较为紧密的校企合作平台，发挥企业的技术及装备优势和职业学校教育资源优势，合作办学，真正贴近生产。学校要积极与企业保持良好的关系，在职工培训、企业用工、学生实习等方面相互合作，共同发展。这样不仅有助于学生通过实习获得收入，减轻学业上的经济负担，还可以取长补短、优势互补、资源整合，有助学校改善办学条件，拓宽办学空间。职业教育要与职业生涯设计相结合，发挥自身优势，面向社会、企业积级开展各类培训，把职业教育拓宽到职业生涯的每个发展阶段，充分发挥职业教育的优势。

针对专业特点，组建专业指导委员会，学校可以聘任经验丰富的专业教师和有实际工作经验的企业专业人士共同组成专业指导委员会。因为企业专业人士对本行业人才应达到的技能要求及本行业的发展趋势更清楚，因而可以对学校的专业课程设置和实践训练等方面工作提出针对性强的建议，这对学校的发展及学生的培养都有非常积极的意义。

3. 高技能人才培养必须增加投入。

既有扎实的专业知识，又有较强的实际操作能力的技能型人才是企业的“基石”。这就要求职业教育必须加大实训基地、实验室设备设施与技术的投入，加快改善和改进实习条件与手段。给予实习训练以足够时间的投入，保证技能实习的课时，切实增加实际的操作训练，同时引入激励机制，开展各种技能竞赛，鼓励学生积级钻研技术，练就过硬的操作技能。加强在教学改革上的投入，重视对学生实际工作能力、合作能力和创新能力的培养，重视学生基础素质如吃苦精神、职业纪律、职业荣誉感的教育，以使毕业生适应就业岗位的需求。

4. 办好职业教育必须提高师资水平。

教师是教育工作的组织者和实践者，教师素质的高低是教育改革成效的关键。没有高素质的教师，就没有高质量的教育。加强师资队伍建设，努力造就一支政治素质高、师德好、专业理论水平高，特别是具备较强的专业操作技能、一定的生产现场管理能力和合作协调能力等。要提高教师素质，一是开展在职培训，实行终生教育；二是在教学中课堂练兵；三是加强教学研究活动，提高教学水平；四是建立激励机制，促进教师教学水平不断提高。学校要充分发挥高技能人才师资队伍的积极性，制订高技能人才师资培训计划，建立教师继续教育制度和企业实践制度，有计划安排教师到企业顶岗实践，提升教师的实践水平。职业教育能否获得发展，能否办得好，归根到底取决于师资队伍的素质，因此，提升师资队伍的素质是增强职业教育发展后劲的必须措施。

四、发展职业教育必须适时调整教学计划

适时调整教学计划是职业教育教学计划调整的重要原则。教学计划制订得好不好，将直接影响到整个教学过程的质量，也关系到人才培养目标的顺利实现。职业教育面对的是市场，而市场经济对人才的要求是不断变化的，这就要求我们的专业设置和课程安排也要紧跟市场经济、区域经济不断变化而适时调整。突出实践教学，高度重视实践和实训教学环节，加强学生实践能力和职业能力的培养，坚持以就业为导向，以培养出符合市场需求的人才。

课程设置是学校教学计划的重要内容，我校教务处每学期都会召开以科组为单位的课程设置专题研讨会，以确定每学期的课程安排、教材选择、实训方案等，以真正促进学生专业技能的提高。学校在课程设置过程中，要认真分析研究新开设或调整的课程，各门课程应达到的基本要求，教学时数怎样合理分配，课程的安排次序怎样更有利于学生的学习、提高，创造以综合素质和技术技能为主体的课程体系。学校可主要从以下几个方面来考虑课程的设置：（1）课程的删减与充实；（2）浓缩理论课，加大实操、实训课；（3）侧重职业知识传授和职业技能训练；（4）调整学制；（5）增设部分选修课，如毕业班开设《职业道德与职业指导》、应聘技能训练等；（6）开展第二课堂活动和各种讲座，使学生开拓视野、增广见闻、提高综合能力与素质。

五、完善学历证书与职业资格证书制度的衔接机制

职业资格反映了劳动者职业劳动需要而运用特定知识和技术的能力，与学历文凭不同；职业资格与职业劳动的具体要求密切结合，更直接、准确地反映特定职业实际工作标准和操作规范，反映了劳动者从事这种职业所达到的实际能力水平。

职业教育是以社会经济现实和未来发展需求为导向的人才培养教育模式，以某一特定的职业岗位或技术岗位所需要的知识和技能要求为依据，培养技术技能型人才，使他们成为从事技术应用与操作的高级技术和管理人员，不仅要求他们有扎实的专业知识，还必须具有经过严格训练的熟练专业技能。因此，职校毕业生在取得学历证书的同时，还应取得代表职业能力和技术水平的一个或多个职业资格证书或技术等级证书。因此，学校在课程结构、教学内容和教学进度安排上，要为学生获得职业资格证书提供方便，更紧密联系生产实践第一线需求，把实践性教学贯穿于技能型人才培养的全过程，把教学活动与生产实习、社会服务、技术开发紧密结合，为学生就业，更好地服务经济建设一线打下坚实的基础。

近年来，职业技术教育迅猛发展，职业教育的教学体系和教学模式也在不断创新，正确分析和准确把握职业技术教育发展所面临的形势和机遇，进一步解放思想，更新观念，科学定位，以教学为中心，强化学生的技能培养，全面提高教学管理质量和办学水平，是办好中职教育的根本。因此，各职校需要强化技能教学，提高中职教育教学质量，为社会和谐发展和经济建设培养更多的高素质技能人才。

（作者单位：恩平市广播电视大学）

参考文献：

[1]孙中范.对我国发展高等职业教育的几点思考[M].长沙：湖南大学出版社，2003.

[2]张建，彭腾，昌正兴.强化实践性教学，培养技能型人才[J].岳阳职业技术学院学报，2004，（4）.

责任编辑何丽华

作者：陈晓华

化学强化技能管理论文篇2：

人工智能深度强化学习的重要机制及改进技术

【摘要】深度强化学习引发了人工智能领域的革命性突破，成为问题解决的通用框架。该学习模式将深层神经网络融入强化学习，不但在图像识别和自然语言处理等领域取得突破性的进展，更在围棋等复杂棋类游戏中具有超人的表现。总结归纳深度强化学习模式的优势在于其具有的6项重要学习机制。然而，这种模式也存在样本数据有效性低的痛点问题。为此提出情景元深度强化学习的改进技术，力图解决困扰深度强化学习的慢速和收敛稳定问题。这对深度强化学习技术的实际应用起到有效的推动作用。

【关键词】深度强化学习;学习机制;情景深度强化学习;元学习;人工智能

引言

近几年人工智能（Artificial Intelligence， AI）的研究取得了革命性的进展。神经网络（Neural Network）或深度学习（Deep Learning，DL）方法的复兴推动了人工智能在图像识别、自然语言处理和许多其他领域的技术突破。

强化学习（Reinforcement learning，RL）与深度学习相结合，产生的深度强化学习（Deep Reinforcement Learning，DRL）近年也取得了令人惊叹的成就。特别是在围棋和象棋等复杂棋类游戏中的超人表现，使其迅速成为人工智能领域的研究热点。

1.深度强化学习的痛点问题及原因

深度强化学习不是从更明确的教学中学习，而是一套学习奖惩的方法，如图所示。表面看来，深度强化学习系统的学习方式与人类截然不同。然而深入探究深度强化学习机制的产生背景，则发现深度强化学习系统的学习机制最初来自动物条件的作用研究，并与以多巴胺为中心的基于奖励学习的神经机制密切相关。特别是深度强化学习系统利用神经网络学习支持环境的泛化和强大的迁移学习能力，这正是生物大脑的关键能力。

1.1深度强化学习存在的痛点问题

然而，由于现实存在的深度强化学习系统的样本数据有效性低这一痛点问题，使得大多数深度强化学习系统运行太慢。典型的实例是，为了在国际象棋及围棋之类的任务上，深度强化学习系统获得人类专家级的水平，DRL系统需要比人类专家本身多许多数量级的训练数据。若将样本效率定义为一个学习系统达到任何选定的目标性能水平所需的数据量，则在样本效率方面，人类学习与深度强化学习存在显著的差异。换言之，深度强化学习的样本效率极低，无法为人类的学习提供一个合理的模型。

1.2深度强化学习痛点问题的原因

深度强化学习中系统收敛速度慢、样本效率低是其痛点问题，归结其原因是：

首要原因是参数增量小步长调整的要求。在人工智能研究中广泛使用的深度强化学习系统都使用神经网络来连通从感知输入到动作输出，采用梯度下降法对参数进行迭代更新直到收敛。正如不仅在人工智能领域，而且在心理学领域广泛讨论的那样，在这种学习形式中所做的参数增量调整必须很小，以便最大限度地收敛和泛化。如果参数增量过大，导致覆盖早期学习的效果，出现灾难性干扰会导致神经网络无法收敛不稳定的情况。深度强化学习中对参数增量小步长调整的需求是DRL系统缓慢的原因。

第二个原因是弱偏置假设。学习理论阐明，任何学习过程都必然面临偏置假设与方差的权衡。学习过程中需要学习的模式的初始偏置假设越强，即模型的假设空间越小且与实际数据中的内容匹配，学习过程的初始模型正确度越高，完成学习所需的数据就越少。反之，如果学习过程中需要学习的模式的初始偏置假设较弱，即模型的假设空间越大，就能够适合更广泛的模式且允许更大的方差，但通常导致样本效率较低。重要的是，深度强化学习使用的泛型神经网络是一种极弱偏置假设的学习系统，即模型的假设空间极大，模型有许多表征连接权重的参数，且使用这些参数来拟合广泛的数据。正如偏置假设与方差权衡所决定的，这表明普通的深度强化学习模型中采用的一般形式的神经网络往往样本效率低下，需要大量的数据来学习。

2.深度强化学习重要机制

深度强化学习能够解决诸多人工智能领域的现实问题，成为通用的问题解决框架，是因为存在以下发挥重要作用的机制，包括注意和记忆、無监督学习、转移学习、多智能体强化学习、分层强化学习和习得学习等机制。

2.1注意力和存储机制

这是一种专注于突出部分的机制。存储器提供长时间的数据存储，而注意力聚焦则是存储器寻址的一种方法。

可微神经计算机（Differentiable Neural Computer， DNC）中的神经网络可以对外部存储器进行读写，因此DNC就可以解决复杂的结构化问题，而没有读写存储器的神经网络无法解决这些问题。DNC将内存分配干扰降至最低，并支持长期存储。与传统计算机类似，在DNC中，神经网络是控制器，外部存储器是随机存取存储器;DNC用存储器来表示和操作复杂的数据结构。不同的是，DNC以一种目标导向的方式，通过梯度下降从数据端到端地学习这种表示和操作。在有监督学习的训练下，DNC可以解决自然语言推理和推理中的综合问答问题;它可以解决交通网络中两站之间的最短路径发现问题和家谱中的关系推理问题。当使用强化学习训练时，DNC可以解决由符号序列指定的目标变化的移动块难题。在进行的小规模实验中，DNC的表现优于正常的神经网络，如长短时记忆网络（Long Short Term Memory networks， LSTM）或DNC的前体神经图灵机。可以预期DNC能得到进一步的改进和应用。

2.2无监督学习机制

无监督学习是一种利用海量数据的方法，是实现通用人工智能的关键机制。无监督学习分为非概率模型，如稀疏编码、自动编码器、k-Means等，以及概率（生成）模型，其中涉及密度函数（显式还是隐式）。在具有显式密度函数的概率（生成）模型中，有些具有可跟踪模型，如完全可观测的信念网和神经自回归分布估计器等;有些具有不可跟踪模型，如Botlzmann机、变分自编码器、Helmhotz机，对于具有隐式密度函数的概率（生成）模型，则有生成对抗网络（Generative Adversarial Networks， GANs）、矩匹配网络等。

Horde值函数：采用一般价值函数表示知识，其中策略、终止函数、奖励函数和终端奖励函数是参数。这是一种可扩展的实时体系结构，用于从无监督的感觉运动交互作用（即无向信号和观察）中学习独立智能体的一般值函数。Horde值函数可以学习预测许多传感器的值，并使用一般的值函数来最大化这些传感器值的策略，来回答预测性或目标导向的问题。Horde值函数是非策略的，即在遵循其他行为策略的同时进行实时学习，并采用基于梯度的时差学习方法进行学习，每一时间步的时间和内存复杂度都是恒定的。

辅助学习：环境可能包含丰富的可能训练信号，有助于加速实现累积奖励最大化的主要目标，例如像素变化可能暗示重要事件，辅助奖励任务有助于实现奖励状态的良好表示。当外在的奖励信号很少被观察到时，这有很大的帮助。无监督强化学习和辅助学习（UNsupervised REinforcement and Auxiliary Learning， UNREAL）可以提高学习效率，除了通常的累积奖励外，还通过最大化伪奖励函数来提高学习效率，同时共享一个共同的表征。UNREAL由RNN-LSTM基代理、像素控制、奖励预测和值函数反馈组成。基本智能体通过异步动作者-评判者算法（Asynchronous Actor Critic， A3C）策略训练，观察、奖励和行动的经验被储存在应答缓冲区中，供辅助任务使用。辅助策略使用基本的卷积神经网络（Convolutional Neural Network， CNN）和LSTM，加上一个反卷积网络，使输入图像不同区域的像素强度变化最大化。奖励预测模块通过观察后三帧预测下一帧的短期外部奖励，以解决奖励稀疏的问题。值函数反馈进一步训练了值函数。

生成对抗网络：同时训练两个模型，通过对抗过程估计生成模型，生成模型G用于捕获数据分布，判别模型D用于估计来自训练数据而非生成模型G的样本的概率。通过用多层感知器对G和D进行建模，当G和D的训练数据集有足够的容量时，生成对抗网可以恢复数据生成分布，并通过小批量随机梯度下降提供了一种带反向传播的G和D训练算法。

2.3迁移学习机制

传统的机器学习特别是深度学习只有在特定领域的训练集数据和测试集数据都来自同一个特征空间和统一分布的时候，学习和应用的效果比较好。因此当应用领域变化和数据集发生变化时，都要重新训练模型。

迁移学习是指将从不同领域学到的知识进行迁移，新的应用领域可能具有与原来学习和训练的数据集不同的特征空间和/或不同的数据分布。迁移学习包括归纳迁移学习、转化迁移学习及无监督迁移学习。归纳迁移学习包括自学学习和多任务学习;而转化迁移学习包括领域适应和样本选择偏置假设/协方差偏移。

目前提出的两个智能体学习多种技能的多技能问题，定义了用于映射状态和投射技能执行的公共表示，并设计了两个智能体最大限度地转移信息特征空间以转移新技能的算法，该算法采用相似性损失度量法，自动编码，强化学习。通过用两个模拟机器人操作任务已经验证了这种方法。

2.4多智能体强化学习机制

多智能体强化学习是多智能体系统（Multi-Agent）与强化学习系统的集成，因此处于博弈论与强化学习/人工智能社区的交叉点。除了强化学习中的收敛性和维数爆炸等问题外，还有诸如多重均衡的新问题，甚至还有诸如多智能体学习的问题是什么，收敛到均衡点是否是一个合适的目标等基本问题。因此，多智能体学习在技术和概念上都是一个挑战，需要清楚地理解待解决的问题、评估标准和连贯的研究过程。

2.5分层强化学习机制

分层强化学习是一种在多个层次上通过时空抽象来学习、规划和表示知识的方法。分层强化学习也是一种解决稀疏报酬和长期视野问题的方法。专注写入策略架构（STRategic Attentive Writer， STRAW）是一种深度递归神经网络架构，用于根据环境观察结果，以端到端的方式学习高层时间抽象宏观行为。宏动作是指发生的一系列动作。STRAW建立了一个多步骤的动作计划，根据观察到的奖励定期更新，并通过遵循计划而无需重新计划来学习执行计划的时间。STRAW学会了从数据中自动发现宏动作，这与以前工作中的手动方法不同。

分层DQN（hierarchical-DQN， h-DQN），通过分层组织目标驱动的内在激励深度强化学习模块在不同的时间尺度上工作。h-DQN集成了一个顶层的动作值函数和一个较低层次的动作值函数;前者学习一个超过内在子目标或选项的策略;后者学习一个超过原始动作的策略来满足给定的子目标。

使用带有信息论正则化器的随机神经网络对大跨度的技能进行预训练，然后在这些技能的基础上，为下阶段任务训练高级策略。预训练基于智能体的奖励信号，这是一种探索智能体自身能力的内在动机，其设计要求对下阶段任务领域知识最少。这种方法将层次分析法与内在动机相结合，并且预训练遵循无监督的方式。此外，还可以采用终身学习的分層深层RL网络架构，进行学习可重用的技能或子目标，将学习的知识迁移到新的任务中。

2.6习得学习机制

习得学习也被称为元学习，是学习如何快速适应新的任务。它涉及迁移学习、多任务学习、表征学习和一次/少量/零次（映射）学习。也可以将超参数学习和神经结构设计看作是习得学习，它是实现强人工智能的核心，也是深度强化学习的发展方向。

一次/少量/零次（映射）学习是指在深度学习的训练集中，每个类别都只有一个或几个的少量样本、或者没有某个类别的样本，但仍然可以通过习得学习及迁移学习等得到一个映射学习模型，实现对各个类别都有较好的泛化效果。

3.深度强化学习的改进技术

针对第一代深度强化学习模型收敛缓慢的痛点问题及归因，可以采用以下两种具体技术，即情景深度强化学习及元学习技术，更进一步，可以将这两种技术有机融合，构成情景元深度强化学习技术。

3.1情景深度强化学习

考虑到参数增量调整是深度强化学习中收敛速度慢的重要原因，那么一个更快学习的方法则是避免这种增量更新。根据以上的分析，如果单纯地提高梯度下降优化的参数增量会导致灾难性干扰致使神经网络无法收敛不稳定的问题。然而，实现此目标可以采用另一种方法，即明确记录过去的事件，并直接将其作为制定新决策的参考依据。这一概念被称为情景深度强化学习，与机器学习中的“非参数”方法相似，类似于心理学中的“实例学习”或“范例学习”理论，通过情景记忆快速学习。当遇到新情况时，必须决定采取什么行动，程序是将当前情况的内部表示与过去情况的存储表示进行比较。然后基于与现在最相似的过去情况的结果，选择与最大值函数相关联的行动。当用多层神经网络计算内部状态表示时，这种算法称为“情景深度强化学习”。

在情景深度强化学习中，与标准的增量方法不同，通过每个经验事件获得的信息可以立即用于指导行为。然而，尽管早期的深度强化学习方法显得很“慢”，但是情景性的深度强化学习能够“快”起来，但是这有一个转折点：情节性深度强化学习的快速学习严重依赖于缓慢的增量学习。这是对连接权重的逐渐学习，允许系统形成有用的内部表示或每个新观察的嵌入。这些表示的格式本身是通过经验学习的，使用与标准深度强化学习的主干相同的增量参数更新。最终，情景深度强化学习的速度还是由这种较慢的学习形式实现的。即情景深度强化学习的快速学习是通过缓慢的深度强化学习来实现的。

这种“快速学习对慢学习的依赖”并不是巧合。正如将在下面讨论的情况，这是一个基本原则，不但适用于心理学和神经科学，同样也适用人工智能领域。

3.2元学习：通过学习来加速深度强化学习

如前所述，除了增量更新之外，标准深度强化学习过程收敛缓慢的第二个主要原因是弱偏置假设。正如偏置假设与方差权衡的概念所规定的那样，快速学习要求学习者对其将要面对的模式结构提出一套合理规模的假设。偏置假设越强，学习的速度就越快。然而，正如前面所预示的问题：一个较强的假设集只有在包含正确假设的情况下才能加快学习速度。虽然强烈的归纳偏置假设可以加速学习，但只有当学习者采用的特定偏置假设恰好与要学习的材料相匹配时，才可以实现这种效果。因此，一个新的学习问题又出现了：学习者如何知道应该采用什么样的偏置假设呢？

对这个问题的很自然的回答就是借鉴过去的经验。诚然，在日常生活中也经常发生这种情形。例如，考虑学习使用新智能手机的日常任务。在这种情况下，人们过去使用智能手机和其他相关设备的经验将告诉他们关于新手机应该如何工作的假设，并将指导其对手机操作的探索。这些最初的假设与偏置假设-方差权衡中的“偏置假设”相对应，这有助于快速学习如何使用新手机。如果没有这些假设，就必须考虑更大范围的学习偏置假設。

利用过去的经验加速新的学习在机器学习中被称为习得学习。其实这一理念源于心理学，在心理学中它被称为“元学习”。元学习可以在深度强化学习中加速学习的过程。此时，用一系列相关的强化学习任务对一个递归神经网络RNN进行训练，RNN网络中的权重调整得非常慢，因此RNN网络可以吸收任务之间的共同点，但无法快速更改以支持任何单个任务的解决方案。RNN递归神经网络实现了各自独立的强化学习算法，该算法基于过去任务积累的知识，能够快速解决每个新任务。

与情景深度强化学习一样，元学习又涉及到快速和缓慢学习之间的密切联系。递归网络中的连接在任务间缓慢更新，允许跨任务的一般原则“嵌入”递归网络的动态。由此产生的RNN神经网络实现了一种新的学习算法，可以快速解决新问题，因为慢学习的潜在过程赋予了其有用的归纳偏置假设。这里再次看到，快速学习源于慢学习，并由缓慢学习促成。

3.3情景元深度强化学习

以上实现的两种技术并不相互排斥，这非常重要。事实上，可以整合元学习和情景控制的方法，充分利用它们的互补优势。在情景元深度强化学习模式中，在递归神经网络RNN中进行元学习。同时，在RNN之上叠加一个情景记忆系统，其作用是恢复重复网络中的活动模式。与在情景深度强化学习中一样，情景记忆对一组过去的事件进行编目，这些事件可以基于当前上下文进行查询。然而，不是将上下文与行动值估计联系起来，而是将上下文与递归网络内部或隐藏单元中存储的活动模式联系起来。这些模式很重要，因为通过元深度强化学习，总结了智能体从与单个任务的交互中学到的模式。在情景元深度强化学习中，当智能体遇到与过去遇到的情况相似的情况时，它将恢复先前遇到的内部设置，允许先前获得的信息立即影响当前策略。实际上，场景内存允许系统识别以前遇到的任务，检索存储的解决方案加以应用。

通过模拟工作和导航任务，显示出情景元深度强化学习，学会了强烈的归纳偏置假设，使其能够快速解决新任务。更重要的是，当遇到一个以前遇到的任务时，情景元深度强化学习会立即检索并重新测试以前发现的解决方案。当遇到新任务时，情景元深度强化学习系统受益于元深度强化学习的快速性;而在第二次及以后的遭遇中，系统又得益于情景控制所赋予的一次性学习能力。

4.结语

深度强化学习（DRL）方法的突破推动了人工智能领域令人可喜的进步。深度强化学习的6种重要的学习机制以及2项改进技术，克服了模型收敛速度慢和样本效率低下的痛点问题，使深度强化学习模式在众多的领域能够卓有成效的应用。在教育领域，深度强化学习在基于教育大数据的教学自动评估中发挥重要和不可替代的作用。

参考文献

[1] BOTVINICK M， RITTER S， WANG J X， et al. Reinforcement Learning， Fast and Slow [J]. Trends in Cognitive Sciences， 2019， 23（5）： 408-22.

[2]万里鹏，兰旭光，张翰博， et al. 深度强化学习理论及其应用综述 [J]. 模式识别与人工智能， 2019， 32（01）： 67-81.

[3] SILVER D， SCHRITTWIESER J， SIMONYAN K， et al. Mastering the game of Go without human knowledge [J]. Nature， 2017， 550（7676）： 354-+.

[4] SILVER D， HUBERT T， SCHRITTWIESER J， et al. A general reinforcement learning algorithm that masters chess， shogi， and Go through self-play [J]. Science， 2018， 362（6419）： 1140-+.

[5] ARULKUMARAN K， DEISENROTH M P， BRUNDAGE M， et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine， 2017， 34（6）： 26-38.

[6] 汪晨，曾凡玉，郭九霞.記忆增强型深度强化学习研究综述[J].小型微型计算机系统， 2021， 42（03）：454-461.

[7] 赵星宇，丁世飞. 深度强化学习研究综述 [J]. 计算机科学， 2018， 45（07）： 1-6.

[8] 秦智慧，李宁，刘晓彤等.无模型强化学习研究综述[J].计算机科学， 2021， 48（03）：180-187.

[9] 孙路明，张少敏，姬涛等. 人工智能赋能的数据管理技术研究 [J]. 软件学报， 2020， 31（03）： 600-19.

[10] 唐浪，李慧霞，颜晨倩，郑侠武，纪荣嵘.深度神经网络结构搜索综述[J].中国图象图形学报， 2021， 26（02）：245-264.

基金项目：①广东省教育厅2019年度普通高校特色创新类项目（2019GKTSCX152）; ②广东省教育厅2018年度重点平台及科研项目特色创新项目（2018GWTSCX030）;③广东省教育厅2018年度省高等职业教育教学质量与教学改革工程教育教学改革研究与实践项目（GDJG2019309）;④广州涉外经济职业技术学院2020科研项目重点项目（2020KY02）;5.广州涉外经济职业技术学院2020年校级质量工程重点项目（SWZL202001）。

作者简介：吴英萍（1982.10-），讲师，学士，广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术，人工智能;

*通讯作者：耿江涛（1965.12-），教授，高级工程师，华南师范大学博士生，广州涉外经济职业技术学院教育研究院教授。研究方向为大数据应用技术，人工智能，高职教育管理与国际化。

熊晓波（1970.06-），教授，硕士，广州涉外经济职业技术学院副校长兼信息工程学院院长。研究方向为计算机科学与技术，高职教育管理。

余雪莲（1993.06-），助教，学士，广州涉外经济职业技术学院计算机应用与软件技术教研室专任教师。研究方向为软件技术，人工智能。

1.广州涉外经济职业技术学院广东广州 510540

2. 华南师范大学广东广州 510631

作者：吴英萍耿江涛熊晓波余雪莲

化学强化技能管理论文篇3：

财会教学中要强化技能教学

加强实践教学环节,强化技能训练已成为职业教育的共识。作为一名职业学校的财会专业教师,我就财会教学中如何强化技能教学谈一些自己的见解和认识。

1明确技能教学的重要性财会专业的技能内容包括珠算、点钞、会计电算化、会计账务处理。中等职业学校财会专业的学生毕业时最起码达到的技能要求是:珠算达到普通四级、熟练掌握会计账务处理的流程。技能大赛中财会专业的技能比赛项目有:珠算、点钞、会计账务处理。对口单招考试中技能考试项目有:珠算、点钞、会计电算化、会计账务处理,总分300分,计入高考成绩,其中珠算应达到普通五级的水平,点钞在3分钟内完成2把的点数、扎把和记录,会计电算化在90分钟内完成新建账套、初始设置、日常账务处理、报表处理等任务,会计账务处理则在90分钟内完成从数字书写到编制报表的一系列账表凭证仿真式操作处理及审核。因此,对于财会专业的学生来说,不管是面临毕业后的就业,还是参加对口单招考试的继续深造,专业技能显的尤为重要!面对这种形势,不管是学生还是教师,都应该明确技能训练的重要性,注重各项技能的训练。

2合理安排各项技能教学根据各项技能在考试或比赛中的权重及各自的特点,应合理安排好珠算、点钞、会计电算化、会计实务等项目的训练进度,合理进行课时分配。如珠算的技术性较强,且须经过较长时间的训练才能达到良好效果,因此在高一第一学期就应按排珠算课,以每周2节课为宜,但必须配合以大量的课堂和课后练习。而像点钞、数字和汉字的书写,教师只需在课堂上给予必要的指导后,学生完全就可以在课后完成训练任务。会计电算化,我认为在高二第一学期开始开设较好,因经过高一一年的学习,学生对账务处理的流程有了系统学习,此时学会计电算化更能激起他们的学习兴趣!而像会计账务处理中凭证的填制、账簿的登记和报表的编制等,完全不必另设技能课,只需在平时《基础会计》、《财务会计》专业课程的教学中融入进去就行。这样,经过合理的课时安排后,学生在完成学习任务的同时,财会专业技能也能完全达到要求。

3优化技能教学的教学环境财会专业的技能训练在课堂就可以完成,会计模拟实习室就显得可有可无。一个良好的技能训练环境,对提高学生学习的兴趣、提高他们的动手能力更能起到事半功倍的效果。在教室中上技能课,总是存在着一些不足,而在专门的会计模拟实习室进行技能训练则效果不同。首先,走进财会模拟实习室,让学生在思想上有了一定的重视。学生会想今天我们不是像平时一样在教室学习理论知识,而是专门的技能训练。我今天一定要学到点技能,让自己有一技之长。其次,在财会模拟实习室中,增强了学生的感性认识。在实习室中,给学生发放原始凭证、记账凭证、账簿、报表等,让学生在老师的指导下以看、听、做来巩固和训练知识。如要练习账簿的登记时,可以先让学生观看订本式、活页式、卡片式等账簿外表形式的实物以及三栏式、数量金额式、多栏式等账页格式的实物,吸引学生的注意力。此时让学生听教师介绍不同类型的账应采用何种外表形式及其账页格式,初步形成对账簿登记的总括印象。接着让学生自己动手怎样登记账簿。最后,在实习室中更能有效的进行模拟教学。在教学过程中教师可有意识地选用类似于某一单位经营活动全过程的系列资料,把一个教学班分成若干个小组,每个小组指定一名小组长,类似于会计机构负责人的性质。每个人有不同的分工,让学生模拟扮演某一岗位的工作人员进行业务处理,以增加其真实感与新鲜感,共同协作完成一整套模拟业务。

4规范考试内容和考核评价体系考试是对人的知识、技能和能力以及其它某些心理特征的测量,具有评定、诊断和反馈、预测、激励、选拔等功能。因此在平时的技能教学中,配以一定的考试、测验是一种必须的手段!所以应从考试内容、形式、考核评价体系等方面进行系统规划,设计出一套相对完整、切实可行的能充分发挥考试功能和实现职业教育教学目的的考试制度。

4. 1改革考试内容,确立考试的能力导向考试命题严格按照教学大纲要求,根据技能课程所涉及的知识、能力、素质的要求,对课程的知识、能力、素质进行分析细化,然后根据这些特征确定教和学的方法,最后确定课程效果的评价方法和考核大纲。考试内容应该能够反映学生基本理论和基本技能的掌握情况以及分析与解决问题的综合运用能力,而不是课堂教学内容的简单重复;多给学生提供探索的机会,鼓励学生独立思考、标新立异,有意识地培养学生的创新意识和创新能力,使考试真正能够对学生知识、能力、素质进行全面测试评价。

4. 2构建多种形式的课程考试体系,突出职教特色考试方式要突出多样性、针对性、生动性,不能只限于笔试,还应采取口试、试验等多种多样的形式。课堂评价也是重要方式,教师应在教学活动中观察和记录学生的表现,还可以通过面谈、正式作业、小练习、讨论问题等方式考察和评价学生。平时上课提问的质量、组与组之间的比较均可作为分数评定的依据。这种考试形式在一定程度上提高了学生学习技能的积极性,使学生的学习个性能力得到极大发挥,真正形成“以学生为主体、教师为主导”的教学模式。

5提高财会专业教师的技能水平学生技能训练的效果怎样,一方面看学生的自身努力,另一方面还要看教师的技能水平。如果一位教师不会教,学生又如何学得好!目前,职业学校的师资大多数是从高校分配到学校的教师。这类教师由学校进入学校,缺乏对会计实务的全面了解,不熟悉社会所需的最新业务知识。对各项技能的掌握也不是很全面。针对这些问题,一方面财会专业教师应自主学习,通过考会计上岗证、会计师、注册会计师等提高自身的业务水平;另一方面财会专业教师应参加会计实践,通过会计实践,提高动手操作能力,从实践中改善和充实教学内容。这样,通过不断学习,把吸收到的新观点、新知识,及时传递给学生,使学生能更好地掌握技能。职业学校的学生只有凭借扎实的专业操作技能的优势才能在激烈的就业竞争和对口单招考试中脱颖而出,才能提高学生的就业竞争力或对口单招的录取率,因此,我们只有通过强化技能教学,才能培养出符合时代要求,具有高素质、较强综合职业能力的合格的财会专业毕业生.

6、学科与专业实践综合，强化学生实务操作能力。职业教育以服务为宗旨，就业为导向，培养社会所需要的技能型人才。实现学校与企业零距离衔接，是职业教育追求的效果。因此，学科教学必须加强与专业实践的综合。“你告诉我什么，我可能会忘记；你教给我什么，我可能会记住；你让我自己做，我会印象深刻。”加强学科与专业实践的综合主要有以下几个途径：首先，在课堂教学中，充分利用凭证、发票、算盘、计算机等实物学具，表现企业真实的经济业务，继而填制相应的会计憑证，进行业务处理。这其中综合了财会学科与开票、记账、计算等技能，综合了知识、能力与会计工作态度，是对财会专业单项技能的培养。其次，充分运用学校财会模拟实习室开展教学实习，运用项目教学法，对出纳业务、销售业务甚至会计工作全过程，开展拟真的教学，将理论与实践紧密结合在一起，将会计工作与职业道德联系在一起，将学科与同学间合作交流等情感综合了起来，锻炼学生操作财会实务的能力。再次，随着财会信息化的普及，运用财务软件，开展会计电算化实习，学生在教师的指导下，将手工记账内容输入电脑，体验计算机管理的快捷便利，体会会计电算化的安全管理，锻炼了学生会计及计算机的实务操作能力，促使学生综合能力的提高。

作者：李艳丽

化学强化技能管理论文

化学强化技能管理论文篇1：

化学强化技能管理论文篇2：

化学强化技能管理论文篇3：

热门文章

相关推荐

化学强化技能管理论文

化学强化技能管理论文 篇1：

化学强化技能管理论文 篇2：

化学强化技能管理论文 篇3：

热门文章

相关推荐

化学强化技能管理论文篇1：

化学强化技能管理论文篇2：

化学强化技能管理论文篇3：