阿里云云计算安全

第1篇：阿里云云计算安全

阿里云吴翰清：云计算的安全之道

中国互联网无线化峰会——暨阿里云开发者大会于今日在美丽的杭州隆重召开。本次大会由阿里巴巴集团、阿里云计算主办，云集全球互联网企业领袖、行业观察家与活动家、知名投资人、云计算技术达人等各路精英，共同探讨互联网无线化的新未来。在下午的云计算开发者专场中阿里云吴翰清为大家带来了主题为“云计算的安全之道”的精彩演讲。

阿里云吴翰清演讲实录

大家好!我叫吴翰清，非常高兴今天来到这里跟大家谈一谈我们关于云计算安全方面的看法。我们的题目是云计算的安全之道，首先介绍一下我们团队，我们团队在阿里有了6年，之前一直做传统的互联网安全，主要也就是在阿里集团旗下的安全，包括像淘宝网、支付宝、阿里巴巴、中国雅虎，这些年经验做下来，在这里可以稍微吹牛，大家可以看一下饼状图，我们的外部黑洞相对来说比较低。

我们这样一个底蕴的团队，最近在做什么?阿里云公司从第一天开始，就把安全放在最重要的位置，安全对于云计算来说是最重要的，所以我们在这边竭尽所能把云计算做好。云计算到底是什么?今天有很多关于云计算的定义，我在这里也不去想去纠结到底什么是云计算，讲讲云计算表现形式?主要是四个落实实处的东西，第一是云应用;第二是虚拟化技术;第三是APP Engine;第四是分布式计算。

云计算安全面临一些挑战，因为我们之前一直是在做传统互联网网站的安全，到今天出现云计算，是不是会不太一样?我们经过研究发现还真有点不太一样。主要从两个方面来看，第一是云的规模很大，大规模导致复杂的上升，我们知道一个城市里面小偷、骗子最多的地方是火车站，因为火车站人流最大，导致问题会非常复杂，这是复杂度上升的一个方面。在云里面设计里面有弹性，应该是没有上线，我们去使用这样一个设备，会达到什么效果?比如你可能会买一堆设备。我们在做云预测时候也会遇到一些挑战，我们需要考虑一些分布式安全的解决方案。

第二云是一个巨大的共享环境，比如公交车上，大家上上下下都会使用这样的设施，对于云来说，大家都会往里面输入业务，互相之间会干扰，一个系统会被攻击，可能就会影响使用。这两个挑战在传统互联网安全网站中，可能都是没有这么复杂。

具体到云计算需要解决的问题，我们怎么看呢?我们从用户的角度来看，需要四个方面：网络环境安全，比如网站会被攻击，网站打不开，用户数据可能会被丢失;运行环境安全，是不是会做一些坏的事情;应用程序安全，用户的网站出现漏洞，谁来买单;业务逻辑安全，包括一些反动政治的东西，国家也来看，可能这个网站需要关掉。如果用户网站被黑了，可能传统IDC是不复责任了，但是在我们会在想，云计算为用户更多带来什么?我们团队做安全的是，用户真正要去什么，我们会去做。

首先说的是云的DDOS的保护，我们平均每天要遭受到5次攻击，就是今天的Q3，我们最大的DDOS的攻击是16次，意味着5分钟之内攻击者上传了100部蓝光电影到我们网站上，这个流量非常可怕。而我们的处理数据在15分钟内解决，我们做的核心就是日志分析系统，综合通过一些智能分析，是不是一次攻击产生?我们会把攻击的流量导入到清洗设备中进行清洗。对于DDOS清洗设备来说，不会对用户数据进行厮杀。

在网络安全方面，我们还担心什么?我们最担心中间人攻击，伪造IP地址，经常搞网络，或者写程序的人，ARP是攻击之一。我们做的什么?在我们云的环境里面，在数主机绑定了云服务器的IP地址，在云服务器上无法伪造地址，所以ARP也跑不起来。除了网络环境安全之外，最重要一点就是云的安全，这是云计算里面核心，也最有技术环境的一部分，就是Cloud Engine，让用户上传脚本搭建一个网站。Sandbox设计原则：用户代码与系统之间需要隔离，用户代码与用户代码之间需要隔离，第一点是为第二点服务的。具体怎么做?就是从这张小图来做，对文件系统、内存、网络访问、进程间通信，从这些方面符合安全检测的标准，或者修改系统的ARP来完成Sandbox的原则。

前面两点是讲云计算本身要怎么做，在云上面的用户，如果自己出现问题怎么办?我们会对云服务器推出健康检查的服务，第一是服务器后门检测，第二周期性弱点扫描，我们现在的扫描是不计成本，现在的扫描占用的带宽就有15T，这个15T也是需要向运营商去购买带宽资源，但是这一点我们现在愿意免费给大家提供。

我们根据6年前的经验，很多爬虫会把互联网扫死，在云的环境里面，我们知道一个网站能承受的业务能力多少?所以我们会扫描Apps，为用户提供服务。这个健康检查，就像我们的健康体验一样，会周期性报告用户的网站弱点在什么地方。

光有健康检查还是不够的，当问题发生了怎么办?我们是提供安全预测和报警的服务。目前我们网页木马监控，提供10W站长的选择，78Per Day。同时这个平台搭建以后，可以对入侵检测与报警，还有业务异常行为报警，怎么理解?比如一些批量注册的行为。

最后我们想做的事情是，是在座其他云服务商没有做的，我们会为用户提供安全SDK，在每本密码学相关文章里面，都会提到这样一个原则，用户如果自己没有去理解原则，可能会存在一些缺陷。我们会根据历年来总结的一些经验，我们会为用户提供防火墙API、应用安全API、业务安全API。我们今天拥有电子商务最大的数据库，Google也要我们数据库，但是跟不跟他们合作我们还在考虑中。还有云验证码，让用户直接在云服务器环境里面构建一个安全的系统。

所以以上这些安全的方案最后总结出来就是我们想要做的事情，也就是我们想要打造的品牌，就是云盾，也是我们在云安全领域想要做的事情，看法总结为我们不光能保护自己，我们还能保护用户，我们的目标就是做到业内最好。

第2篇：阿里云计算参展2012中国计算机大会 final

阿里云参展2012中国计算机大会云计算实践获学界关注 10月18至20日，阿里云计算参展同期在大连举办的2012年中国计算机大会。中国计算机大会是中国计算机领域级别最高、规模最大的学术盛会，大会的特点是高端的学术性和专业性，面向学术界和产业界的专业人士，众多高校教师和学生参加了本次大会。会议主要通过大会特邀报告和技术专题论坛进行交流，还安排了科技成果展览和专业参观。

阿里云云计算、云OS和高校关系等多个部门分别参与了大会主论坛、系统软件分论坛、移动互联网和智能终端分论坛、科技成果展览等多个环节。阿里云计算资深总监张春晖在大会主论坛就云计算和移动互联网的结合做了主题演讲，介绍了阿里云在云计算落地实践上的成果云OS。阿里云的展位也备受关注，云计算平台和云OS获得了众多学术界人士的咨询和交流。

云计算带给移动互联网新的体验

阿里云作为国内云计算领域的领军企业，在云计算的应用实践上卓有成效，受邀参与本次大会主论坛的主题演讲。

张春晖重点介绍了阿里云在云计算和移动互联网结合方面的实践，认为随着技术和应用发展，云计算、大数据、移动互联网成为计算机领域的重心，而云计算将带给移动互联网新的体验。

张春晖介绍，云计算将使互联网的服务落地到终端上，像水电煤一样提供给所有人，这些服务将以数据为核心，比如在手机上通过云来备份各种信息和数据。为了保持数据的不丢失不中断，提供大规模的服务，需要强大的云计算平台和分布式系统来支撑，解决众多技术问题。

阿里云的飞天大规模分布式计算系统，以大规模计算机集群为基础，完成分布式文件系统和任务管理调度，支持弹性计算、开放结构化数据服务、开放存储等服务，进一步支持云服务引擎和各种前端应用，提供从底层到应用层面的不同服务。同时，阿里云结合云计算和终端的资源和服务，构建了完整的开发者平台，让开发者更便捷的将互联网服务接入移动终端。为了鼓励开发者参与，阿里云在近期举办了开发者大赛，还将在11月9日举行2012开发者大会。

阿里云展位获学界关注

云计算在中国正呈现百花齐放的迅猛发展势头，从学术界到产业界，都在以各种各样的方式尝试云计算的最新技术与业务的深度结合，阿里云在云计算的商业实践上取得了重要的成效。

计算机大会的科技成果展区上，阿里云与众多的高校科研项目一同展出。弹性计算ECS、开放存储服务OSS、关系型数据库RDS、开放数据处理ODPS、开放结构化数据服务OTS、云OS等众多云计算的实践应用赢得了关注。众多高校老师和学生驻足阿里云展位前，对云计算在实践领域的发展非常感兴趣，并且乐意参加阿里云的调研问卷。根据问卷的初步反馈，众多高校师生对阿里云的提供的云计算服务表现出了很大的兴趣，认为阿里云的云计算服务可以更好的将学习和科研成果应用到实践中。

阿里云致力于打造公共、开放的云计算服务平台，借助技术的创新，不断提升计算能力与规模效益，将云计算变成真正意义上的公共服务。阿里云希望更多的学术科研人士、开发者和中小企业加入阿里云平台，共同促进云生态系统的繁荣发展。

开发者大会将于11月举行

为了更全面的展示阿里云计算的在云计算领域，推动开发者参与阿里云云计算平台。阿里云将于11月

8、9日在杭州举办2012阿里云开发者大会，开发者大会以云计算为主题，包括弹性计算、大规模存储、大规模计算、云网络、“大数据”5个分论坛。大会将盘点阿里云一年来在弹性计算、存储、大数据处理、云平台建设等方面的技术革新、产品发展以及实践成果，并发布未来阿里云的发展战略及业务规划。

用友畅捷通、壹人壹本、福建电信、浙江水利厅、海尔、施耐德、阿里金融、万网等来自互联网、云计算、电信运营商、消费电子、移动终端等领域的业界领袖和技术专家将分享云计算在传统IDC、移动互联网、SaaS应用、PaaS平台等领域的变革力量，展示云计算在各行业落地实践的成果，与近3000名开发者共同探讨云计算在中国的机遇与挑战。

秉承阿里云开发者大会往届的特色，大会还将提供现场丰富的产品体验和互动，提供各种产品优惠体验机会。

第3篇：读乌塔有感何云云doc(1)

读《乌塔》有感

.何云云

今天我学习了课文《乌塔》，从中我深受感悟。乌塔是一个做事有条理的女孩，为了能够去她想要去的地方，老早就可是攒钱，阅读旅行所在地的相关信息，每每在旅行前就已经做好了旅途中所需的一切，甚至都安排好了旅行的路线及日程。

乌塔这么小的孩子，才十四岁就能单独出国旅行，她真是一个勇敢的孩子。但是相较于乌塔，在中国的孩子就不会有这样的经历了。在中国这个年纪的孩子还是父母的宝贝，在父母的眼中她们还是那么的小，根本不会允许她们独自出门。在中国有些孩子已经八九岁了还生活在父母的呵护下，生活琐事全权由父母负责，有些孩子甚至连自己的袜子都不会洗，就更不要提像乌塔一样独自出门旅行了。试想一下，长此以往中国的孩子会有怎样的一幅前景啊。

不说中国的儿童了，再来说说中国的青年吧。虽然她们中的有些人比乌塔年长不少，可论生活技能与生活经验还不如乌塔丰富呢!有些女孩子十几岁了还不会自己梳理头发，整理自己的用具，洗涤自己的衣物……每天仍旧过着衣来伸手，饭来张口的生活。这些都是父母的溺爱造就的。

我想说，乌塔是幸运的，她的父母在爱她的同时，给予了她充分的尊重与自由，让她一个人去玩，去旅行，让她去接触外面精彩的世界。这样的事如果放在中国，简直就是一个特大新闻，人们可能会毫不留情的谴责孩子的父母是不负责任的，是没有爱的。难道说孩子只有生活在父母为其造就的温室内，生活在父母宽大的羽翼下才是安全，幸福的吗?

乌塔，相较于我来说，我认为你是幸运的，你的勇敢与坚强是值得我去学习的，而你的父母对你的教育方式是值得我们中国的家长引以为思考的!

我希望中国的家长们，适当的放下你那颗过于关爱孩子的心，让孩子们也能像乌塔那样走出家门，走进大自然，走进社会，学会成坚强与勇敢，学会成长。

(指导老师：王艳云)

第4篇：阿里新一代流式计算引擎大数据培训Flink学习宝典奉上

5个月的好程序员大数据培训学习，只是冰山一角，对于大数据职业生涯，我们要走的路还很长。苦是真的，但是活着，身上的责任和梦想就应该去承担、去实现，要微笑的去面对磨砺。

马上就要上战场了，今年毕业生820万，想想都可怕。付出不一定有结果，但是，不付出一定什么都没有!大数据学习内容杂而多，要系统的掌握整体，需要很多的时间。包括Apache官网的各个框架的熟悉，更是需要时间的沉淀。好在遇到了好程序员的负责讲师，整体课程安排也十分科学，以下是我对大数据Flink部分学习的一些总结：

Flink是一个分布式流处理的开源框架，提供准确的结果，即使在无序或迟到数据的情况下也是如此，具有状态和容错能力，可以在保持一次性应用程序状态的同时无缝地从故障中恢复，大规模执行，在数千个节点上运行，具有非常好的吞吐量和延迟特性。

此前，我们讨论了将数据集的类型(有界还是无界)与执行模型的类型(批量与流媒体)进行对齐。下面列出的许多Flink功能对于在无界数据集上计算精确的结果非常重要，并且由Flink的流式执行模型来实现。

Flink保证有状态计算的exactly-once。“有状态的”意味着应用程序可以维护一段时间内已经处理的数据的汇总或汇总，并且Flink的检查点设置机制确保在发生故障时应用程序的状态exactly-once。 Flink支持流处理和窗口事件时间semantics。事件时间可以轻松计算事件到达顺序不正确，事件可能延迟到达的流的精确结果。

除了数据驱动的窗口，Flink还支持基于时间，计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制，以支持复杂的流模式。Flink的窗口可以模拟数据创建环境的实际情况。

Flink的容错功能是轻量级的，可以让系统保持高吞吐率，同时提供一次性一致性保证。Flink从零数据丢失的故障恢复，而可靠性和延迟之间的折衷可以忽略不计。

Flink能够提供高吞吐量和低延迟(快速处理大量数据)。下面的图表显示了Apache Flink和Apache Storm的性能，完成了需要流式数据混洗的分布式项目计数任务。

Flink的保存点提供了一个状态版本管理机制，可以更新应用程序或重新处理历史数据，而且不会丢失状态，停机时间最短。

Flink设计用于在数千个节点的大型集群上运行，除了独立集群模式之外，Flink还提供对YARN和Mesos的支持。

希望我们能用大数据人工智能去改变这个世界!

第5篇：阿里云大数据计算平台的自动化、精细化运维之路

本文章来自于阿里云云栖社区

摘要：作者简介：

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput 免费开通大数据服务：https:///product/odps 作者简介：

范伦挺

阿里巴巴基础架构事业群-技术专家

花名萧一，2010年加入阿里巴巴，现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamCompute等)的运维、架构优化及容量管理等

1、前言

本文主要会从以下四个方面来写，分别是：阿里大规模计算平台运维面临的一些挑战;

阿里自动化平台建设;

数据精细化运维;

我对运维转型的思考和理解;

2、在阿里我们面对的挑战

在讲挑战之前，我们可以简单看一下阿里大数据平台演进历史，我们的MaxCompute(原ODPS)平台是2011年4月上线的，2013年8月份单集群超过5K，2015年6月单集群超10K，目前在进行异地多活和离在线混布方面的事情。

首先是规模大、小概率事件常态化

对于小概率事件大家不能赌运气，基本每次都会踩中狗屎的。譬如各类硬件故障，规模小的时候觉得硬件故障概率比较低，即使坏了也比较彻底，但是规模大了后会有很多情况是将坏不坏，类似这种奇葩事件会越来越多。

还有网络链路不稳定，网络链路会有很多原因导致它不稳定。一方面是网络设备多了，网络设备出现故障的概率也大了，另一方面运营商日常割接、挖掘机施工等都会对我们带来挑战。

还有一部分是工具，机器的环境变得复杂以后，我们对工具稳定性就有更高要求，比如你要考虑到有些机器的 SSH 会 hang 住，还有某些机器yumdb是坏的，不能想当然的以为一条命令下去一定会执行成功。

其次是多机房多地域

几千公里距离会有几十毫秒的延时增加，大家在布置异地多机房应用的时候，要考虑到应用之间的超时设置是不是合理，需要重新 review 尤其针对多次往返的请求，累加效应是非常明显的。

还有一块是资源不均衡，可能那个集群早上忙一点，那边是下午忙一点，但是因为计算任务依赖下面大规模底层数据，所以你不可能利用长传带宽直接来进行直读直写的计算，因此要考虑应用的合理布局。

关于自动化平台建设，自动化的意义我想读者们应该是有共识的。

第一自动化能够提升稳定性，机器的操作比人要靠谱，固化的操作交给机器去做，可以减少人犯错机会，提高线上稳定性。

第二自动化能够提高效率，机器代替人做很多事情之后，把我们从日常繁琐运维操作中解放出来，解放出来以后我们可以做更有价值和意义的事情。

今天因为时间关系，我会从以下四个最常见自动化方向做简单举例介绍，变更、问题排查、硬件维修，交付检查。右边是我们内部用的运维平台架构简图，下面介绍的东西都是基于这个平台的功能模块。

3、四步走让平台自动跑起来

3.1 第一步：实现自动变更

说到变更，做运维的总是有很多共同语言要聊。变更在我们日常工作中占的时间还是比较多的，包括变更方案整理，变更跟进执行，都是比较耗时的，另外变更也是非常危险的。

原来有过统计，号称70%稳定性事件是跟变更相关的，有可能是运维工程师直接变更操作引起的，也有可能是上线代码有 bug 引入的，这两类都归结在一起，反正是“线上不作不死，一作就死”。

但是不能因为这个不发布，还有很多功能开发也是跟我们一样，天天加班熬夜，搞出来的代码不给他推上去也说不过去，还要满足业务需求，那这个问题得解。怎么解呢?

我们内部思路是首先会把最底层的一些操作进行原子抽象，比如像把一台机器从 VIP 里摘取出来，装一些包进行固化，固化之后抽象出来，称为工作流，然后把工作流进行组装把它称之为组合工作流。

一个组合工作流对应一种日常的固化变更类型，比如控制集群服务升级等等，这样固化的变更就可以由对应的组合工作流去做。

在组合工作流之上，还会有一层封装需求单。主要解决开发的自助申请，审批等环节。在工作流执行页面可以查看详情，包括对应的每个步骤具体命令，返回信息，执行超时时间，超时或者失败的通知方式和人等等。

通过这样一套平台，基本上能够解决日常固化的那一类变更请求，能够做到变更由开发自己申请发起，运维只需审核一些参数、测试报告等等。

3.2 第二步：高效稳定的解决问题

第二个例子是关于问题排查的，上图画的是我们当前用的实时日志分析系统的架构，阿里因为这块的产品自研的都有，所以用的都是自研的产品。

为了便于理解，我在边上备注了对应的开源产品，基本上的流程或者逻辑也是比较好理解的，首先在服务器上部署 Agent，Agent 会依据日志服务里配置的规则进行过滤以后，将对应的信息推送到日志服务。日志服务里数据可以实时进入到流计算平台进行实时分析计算，并且把结果存到 RDS 里面，然后 tesla 通过 RDS 进行调取和展现。

另外日志服务存的数据，也会通过实时建立索引，提供 WEB 级别日志查询，帮助用户做日志查询。同时也会导入 max compute 做永久存储和进一步分析。

基于这套系统，我们举一个例子：异常流量排查。流量打满是很常见的问题，通过这样的机制怎么帮忙我们排查和定位这些问题呢?

比如有N个机房，机房与机房之间有很多链路，每一条链路带宽都是有限的，有时一个突发流量尖峰过来会导致流量拥塞，假设平台上有一条链路，流量打满以后，呈现黄色预警状态，通过点击这条链路，就会进入流量分析实时界面。

这里可以看到从某个时间段到某个时间段，从某个机房到另外一个机房最近十分钟的情况，这里显示的是最近十分钟对应作业流量总的情况，点击流量最高的点可以在右侧看到每个作业对于流量贡献情况及其最近10分钟的变化趋势。

下面还可以列出来这些作业具体的项目归属，作业名称等等。通过这个机制就可以很快定位到问题的原因。这里收集的日志是阿里云飞天盘古 master audit log，盘古 master 有点类似Hadoop里的 name node 节点，它会记录所有集群发起的数据访问请求，包括来源 IP 是什么，获取数据大小是多少，发起的作业名称等。

把这些信息通过前面介绍的实时架构收集完之后，放到流计算平台算，然后再结合网络地域和 IP 归属，就可以画出整个网络拓扑和实时流量图。

基于这套平台还可以做很多其他的事情，比如说网络静默丢包，这个理论上来讲在网络层很难做到监控。但可以通过收集作业执行日志，分析长尾和失败的作业相应的源IP及目的IP分布情况，可以发现某些交换机的异常情况。做到先进行隔离，再让网工去排查解决。

3.3 第三步：更高效的硬件维护

第三步是硬件维修，我们内部有个硬件全生命周期管理工具称之为是 DAM，在日常工作中它能够涵盖整个硬件循环的生命周期，上线以后如果发现线上有硬件问题，它会调应用自定义的下线接口，把这台机器从具体应用里摘出来，从应用层面隔离完之后，再去调机房维修自动接口进行报修。

报修以后会监测这个维修单子状态，等维修结单后，自动做上线前硬件检查，检查通过以后会把这个工单关闭，同时调用应用自定义的上线接口，完成服务器上线。

所以这套东西基本上跟应用是属于松耦合的，只要应用提供满足条件的上下线 API 接口，基本上都可以转起来。

这是它的一个架构简图，主要有三大模块：Dam Worker 、Dam Client、Dam Center.

这里面主要难点还是在于硬件信息收集和分析，怎么判断这块磁盘坏了，怎么判断 CPU 是有问题的。这其中需要长期的数据和经验积累。

这里我可以简单介绍一下我们现在采集的信息源：

硬盘主要依赖于 kernel log/smartctl/tsar

内存是ipmitool/mcelog/stream，

CPU/风扇是mcelog/cpu频率/ipmitool，

网络/网卡/交换机端口是tsar/kernel log。

主板方面如果我们分析以后都不是以上信息，那可能就是主板的原因。

上面这个图是一个最终的效果，这个系统在规模化场景下还是非常有用的，以前没有这个的时候，值班人员是比较痛苦的，因为我们知道现在互联网用的机器都不是高可靠的，去 IOE 都差不多了，都是廉价的服务器，所以出现一些硬件问题还是比较常见的。

很可能一个电话过来，客户就开始抱怨作业又长尾了，你上去一看，这个机器硬盘有问题，加入黑名单，重跑一下，用户和我们自己都搞得很痛苦。

现在我们就不会因为单台机器的硬件问题而受到骚扰了。主要白天看看那些异常工单原因，不断优化逻辑即可。

对于这类自动处理我们肯定采取比较保守的策略，任何系统拿不准的或者不是完全精准匹配的就不动，先做隔离而不做进一步自动处理，放到异常工单池子里，由人工介入分析异常 case 什么原因，不断完善我们硬件检测判断的模型。

3.4 第四步：完善的交付检查

交付检查分为软件交付检查和硬件交付检查，软件交付检查就是用前面介绍过的工作流，硬件交付检查主要针对 CPU、内存和磁盘，对于 CPU 做法是绑定每个 CPU 算 π，算算它的消耗时间分布，最终把曲线画出来，标准就是看曲线的偏离程度。

其实大家可以看出，大部分还是很规矩的，会集中在一起，类似上面有几条偏离曲线的就是我们认为有问题的。那么这里大家可能会问，为什么你这里集中在两个区段，是不是有一半的机器都是有问题的，其实是因为这个集群机器是异构的，本来就有两种类型的cpu。

内存压测采用通用的 stream 方法，就是对内存做拷贝、读取相加，读取做乘法诸如此类的，对于性能指标明显偏离的机器也是有问题的。

磁盘主要用 Linux FIO 命令按照不同的读写比例和块大小，来看它的表现。

其实这里并没有用到什么高深的技术，我之所以拿来说是告诉大家这个极其重要，尤其是对于离线场景。离线计算在公司里一般给的是都是更廉价，更低成本的硬件设备，甚至很多时候在线应用退役的机器也会拿来用，即所谓的利旧。这种时候再加上机器是经过搬迁的话，那硬件的压测就必须做，否则线上会很长时间不得消停。

4、数据驱动精细化运维

下面我们讲讲数据驱动精细化运维，今天主要是讲一些点，举一些例子，以此来表达我的一些想法。

大家都知道数据是有很大价值的，我们通过历史数据分析，能够知道平台过去是发生过的事情，对于现在的数据分析，可以知道平台现在正在发生的事情，还可以通过建模预测未来可能会发生的事情，所以数据可以说是能够通晓过去未来之事。

我们运维的大数据平台上每天都在产生海量的各种运维日志、信息，我们手里拥有在线、离线，各种大数据平台，我们也想把运维做得更精细化一些，可以说是有数据，有需求，有平台，正可谓天时、地利、人和，所以一直在这方面做些尝试。

4.1 实时大屏背后的精细化运维实践

第一个例子是关于双十一大促的，这个屏相信大家不会太陌生，这是双十一大促在深圳晚会现场直播的一个媒体屏，上面有双十一大促最终定格的成交额 1207亿。

这是一个 GMV 翻牌器，它的作用就是实时汇总当前每一笔成交，并且把成交额显示在上面，在光鲜亮丽的媒体屏背后，其实我们还有很多保障用的技术屏，今天就带大家一起来看看其中的一块技术屏。

这上面的数字都抹掉了，简单介绍一下我想说的事情，左边部分是用于承载翻牌器成交额实时计算作业主备集群负载情况，在它的右边显示的就是几个关键的核心作业当前实时的延时情况，单位是毫秒。

这里最右边的这几个白色的数字，代表了每个作业对应的延时，有了这个之后我们才能知道当前算的成交额比真实的用户下单时间，它的延时有多大，超过一定的量，我们就要进行链路切换。

所以有了这个数字以后，可以更好地帮助我们判断现在哪条链路是好的，哪条链路不好的，不好到什么程度，好的话什么程度，不能盲目的去拍脑袋判断，需要有实时化的量化指标做评判。

这里还要强调说明一点，这里用不同的颜色深浅分成三段，这三段分别代表这个作业它的日志采集延时、消息队列读取延时和读到之后计算的延时，把三段延时进行了分开展现，这个有什么用呢?

当链路有问题之后，我们可以知道哪段出的问题，因为实时计算整个链路是非常长的，对于秒级应用来讲，每个环节消耗的时间都是需要被清晰度量的，也就是说，有了这个时间你才能准确判断现在是因为哪里出现的瓶颈导致整体延时不达标。

也就是说，不但能够知道哪条链路有问题，还可以知道链路具体问题点在哪，加快问题定位。

所以对于这个核心指标我建议大家做到三化

量化，这些压力值都可以清晰看到。

细化，每个指标再分细一点，可以更精准判断和定位问题。

持久化，这些实时屏不能看完就算了，还要把数据存起来，非常有用。

所以做到三化，量化、细化、持久化，在核心指标量化分析里是很重要的。

4.2 存储分析在精细化运维中的实践

下面讲一个存储分析的例子，这个例子起源是因为集群规模太大了，每年都被老板盯着能不能省出一点钱来，我们分析了下存储的数据，看看每个 byte 是被什么占用了，这是可以分析的。

我们通过分析之后得到右边的图，这个是真实的图。看了这个图之后，你会注意到，原来存储是这么被消耗的。其中我们可以找到一些应用层的优化。

譬如平台是分层的，每一层为了数据安全都会做自己的回收站(延迟删除)功能，站在每一层独立去看都是合理的，但各种回收站累加在一起就会发现回收站占用比例有些高(尤其是对于频繁删除类型应用)。可以从整体运维的角度去看，对于各层回收站策略做评估。

另外我们还发现一个优化点，就是inode。我们可以计算下看看我们要不要用到这么多inode，按照PPT公式计算可能只需要原来的1.75%就够了，万台集群可以因此省下6PB的存储。

当然这里面实际适用inode大小还是要根据自己应用场景去评估。大家经常做数据运营，数据分析，其实它在很多地方都在那儿等着大家，有很多点可以去做，包括我们日常忽略的，司空见惯的，觉得不值一提的地方，大家可以细究一下，会发现那里有另外一番天地。

4.3 精细化运维在资源优化上的成果

还有一个是资源优化例子，大家知道资源调度器里有一个用户资源申请的值，和申请之后真正跑起来的实际消耗值，我们建立了一个用户实际消耗和用户资源申请的比例，理想值我们希望接近100%，这个指标能够说明调度模型的资源使用状态，有了这样的衡量指标之后，我们做进一步细化分解，看看怎么优化这个指标。

这个是实时计算里面作业的情况，每个作业我们会去看它的资源使用趋势，这上面红色的两条直线是作业里设的申请值，下面蓝色波动比较大的是这一周来资源使用的尖峰值，大家可以看到即使按照这一周作业使用物理资源峰值来看，离申请值也是很远的。

所以这里面还是有不少优化的事情可以做，包括提醒用户自己做优化，也可以在平台层面自动做优化，来达到节省成本的目的。因为一旦调度器认为可以申请的资源都分配出去了，哪怕这时平台物理水位非常低，它也不会调度更多的作业了，所以这件事情也是我们可以深度去做的。

5、如何摆脱苦逼运维的魔咒

5.1 转向运营或许是破解之道

我个人对于运维转型的一些理解和思考。运维转型最近被谈的比较多，有一个论调就是运维向运营转。

这个问题我是这么看的，传统运维更多关注的是平台稳定、安全，也就是非常传统的两个领域，更多关心的是平台是不是活着，这个平台没有出问题，没有挂掉，这是传统运维关心的事情，重点关键词活着。

对于运营来说，除了活着，还要看平台质量怎么样，用户用得好不好，这个平台本身它的效益怎么样，它的成本是不是还能进一步优化，用户感受怎么样，用户满意度怎么样。

而对运维来讲，包括运营，我们大部分都是跟垂直的具体产品或者平台绑定的。不可能完全脱离他们，去谈运维的价值。

所以运营是以一种更积极开放的态度，去看待我们所运维的对象，多看一点，不光看它的活着，还想想怎么能够帮助它和自己一起去成长和发展。

5.2 自动化在转型过程中的四个阶段

然后讲到转型逃不开自动化，我个人认为自动化可以分为四个阶段：

第一个阶段人肉时代

这时候人就是一切，你说了算，你说什么命令就是什么命令，这时候没有任何校验标准机制，就像交警纯人肉指挥交通一样，什么时候让你走就走，什么时候让你停你就停。

第二阶段工具时代

好比交警手里的指挥棒和哨子，这些工具提升了他的个人能力，比如哨子可以让更远的车辆听到他的指令，棒子可以在天气不好的时候让汽车看到他的指令。

这个阶段还是以我们人为主体，工具在能力上做了一定延伸和拓展，但是始终还是人为主，器为辅。还是人在决定这个操作要不要做，什么时候做，参数应该是什么。只是人做完决定后，可以由工具搞定具体落地执行，提升了执行效率，节约下来了时间。

但是离开了人还是什么也不是。所以这个时代，单兵作战能力增强了，但是人逐渐成为整个运维的瓶颈点，因为工具的能力是远远大于人的能力的，更多需求就堆在你手里的，你怎么编排和控制。你成为瓶颈点了，工具越多，人的瓶颈点就会凸显。

第三个阶段平台时代

这个阶段过渡到器为主，人为辅的阶段，还是以交通举例，这里面大家可以看到由很多工具沉淀变成了完整的交通疏导指挥平台，包括红绿灯，包括限速和车道划分等等，这一系列规则和工具，最终不是零散的在那里放着，而是通过一个有序组织变成一个固化的平台，通过这个平台，能够完成交警日常工作中交通疏导的事情。

对于我们运维也一样，我们怎么把我们的经验、想法和技能放到平台里，最终变化自助或者自动化运维平台，这样的时代才能称之为平台时代，就像我刚才前面说的变更平台一样。

我不知道大家有没有经历过，其实很多公司经历过，变更平台可能有很多不同的人开发过很多拨，第一拨可能是开发写的，第二拨可能是工具团队写的，第三拨可能是运维团队自己写的。

这里做一个变更平台并不难，难的是怎么把运维的想法和思考沉淀到平台里面去，怎么让平台有和你相当的能力，这时候它才能代替你日常的职责，所以它这里面的灵魂和思想很重要。

同样是做开发变更平台，开发考虑的是怎么快速高效的执行变更，那运维做的时候会有些什么更多的思考呢?

你会考虑是否有灰度功能，是不是应该先灰度发布一部分，然后有自动冒烟机制，冒烟过了我再引流，然后有没有快速回滚机制，这就是区别，为什么我们要自己去做，自己转型，我觉得别人很难理解我们，也很难救我们，所以要自己转型做自己想要的运维平台。

这里面大家多想想你平常怎么工作的，重要的是把你的能力进行平台化，而不仅仅是简单开发一个系统。第四个阶段智慧时代

第一个时代是人解决问题，第二个时代是人借助工具更好的解决问题，第三个时代是让平台能像人一样解决问题，第四个时代是让平台超越人类能力去解决问题。这张图是阿里云栖大会上王博士发布城市大脑的照片。城市大脑是解决城市交通拥堵问题，这个问题已经突破人的能力极限，安排再多的交警到各路口执勤也搞不定这件事。

但城市大脑可以，它通过对每天的车流量预测数据，再加上其他的一些补充数据，包括实时红绿灯，每个探头采集到的实时流量等等，把这些数据进行综合判断，它就能够智慧的实时控制所有的交通信号灯，从而达到缓解城市拥堵的目标。

在这里其实一样的，当上升到一个智慧时代以后，平台能力就能够突破人的极限，做到一些人的能力以外的事情，譬如故障的预测、快速自恢复等等。这也是未来的方向——智能运维时代。

5.3 运维效率向运维价值转型

假如我们前面的自动化事情做得不错了，有时间了，该干点什么，原来有一句老话叫做“喝着咖啡干运维”，我个人认为这个观点从生活的角度来讲是不错的，但从工作和个人发展的角度来看还是太过于消极了。

当你达到这个阶段，如果你真这么去做的话，慢慢你可能有时间喝咖啡，但却没钱喝了，很有可能会被淘汰掉。我们应该转变思路，更多的去关注数据分析，可视化及运维平台的产品化。

当我们建立了前面说的自动化运维平台以后，可以更多去想一想如何通过数据分析，让我们运维平台更加智能，达到一个智慧运维的时代。利用计算机强大的计算能力，最终实现机器管理机器的目标。另一方面也可以借助数据分析和运营，帮助我们所运维的产品做改善，如性能、易用性、成本等等。

另外我们也要更多的去思考怎么把运维平台进一步产品化，使我们的运维能力可以输出，产生更大的价值。

这些目标都是可以实现的，当然有很多的事情需要去做，我们可以分阶段的，先从一些简单的事情做起，逐步深入。

6、最后的思考

最后用一张图来总结我对于运维转型的思考。运维应该始终以稳定性为基石，一旦脱离稳定性，其他一切都是扯淡，都是浮云。在稳定性基础之上，我们应该以更积极的运营思路来思考我们自身的发展和平台的发展，借助于数据分析和运维能力产品化这样两个翅膀，实现华丽的转型。运维的人生不止苟且，还有诗和远方!

文章转载自：http:///News/Industry/10052.html

第6篇：阿里巴巴幼儿园安全工作总结

《幼儿园教育指导纲要》明确指出：“幼儿园必须把保护幼儿的生命和促进幼儿的健康放在工作的首位。”“要为幼儿提供健康、丰富的学习和生活活动，满足幼儿各方面发展的需要;要让幼儿知道必要的安全保健知识，学习保护自己。”可见安全工作的重要性。为了使幼儿身心得到更好的发展，确保幼儿的安全，使幼儿形成初步的安全意识，依据本班幼儿的年龄特点和实际情况，在上学期伊始本班便制订了切实可行的安全工作计划，对幼儿实施系统的安全教育。现将一年来的工作总结如下：

一、为幼儿创设安全、健康的教育环境

(一)坚持每天晨检，保证幼儿不带危险物品入园，如发现情况及时处理，并教育幼儿，并与其家长沟通。

(二)平时注意预防烫伤幼儿。把开水、汤等晾温后再提供给幼儿，并提醒幼儿随时注意别烫着。

(三)坚持每天午检，防止幼儿带异物入寝室，防止异物进入耳、鼻、口的现象发生。中午值班，加倍照看好幼儿，不忽视午休的幼儿，尤其是服药幼儿和体弱幼儿。巡视幼儿是否有不良的睡眠习惯、是否生病等等，并及时给予妥善处理。

(四)把好幼儿离园关，孩子在幼儿园一天，下午离园时候组织幼儿安静的集体活动，如看书、听故事、玩桌面玩具等。看证放人，不认识的人即使有接送证，也要问清情况或者是与孩子父母取得联系确认无误后再放人。防止幼儿走失和拐骗幼儿现象发生。

(五)严格执行卫生安全消毒制度，保证教室每天开窗通风、保持干净;保证桌椅的安全、卫生;定期消毒玩具;保证幼儿的水杯和毛巾每天清洗消毒;保证寝室干净、并按时消毒，利用太阳无尽的能量，在天气好的时候晾晒被褥，及时预防传染病的发生。严格填写消毒记录，及时清点人数和物品。

(六)户外活动时，认真检查活动场地的安全性，及时排除不安全因素，确保幼儿安全，如发现大型玩具有松了的螺丝钉，报告主管领导，做到及时消灭不安全的隐患，保障幼儿安全。

(七)教师离园时在班内各处检查，如：水、电、门、窗;晚接的孩子和值班老师做好交接，并交代其幼儿情况。

二、加强安全教育、提高安全意识

注重安全教育在一日活动中的重要性，培养幼儿良好的活动常规、自身安全和自我保护，以避开危险、避免自身伤害。安全，就是要有良好的秩序，良好秩序的形成则来源于幼儿一日生活行为规范的培养，我们严格要求幼儿，从一点一滴开始努力，培养幼儿的自我保护能力，加强防范意识，让幼儿在有安全意识的基础上，时时提醒自己或他人注意安全。幼儿在园一天需要站队不少于十次，我们希望做到井然有序，对幼儿提出要求，并利用小红花奖励。

(一)教育幼儿自觉的排队洗手、喝水、小便等。

(二)为确保上下楼的安全，教育幼儿做到不推拉、不跳台阶。一级一级慢慢上下，不推不挤小朋友。

(三)教育幼儿不跟陌生人走，不吃陌生人给的东西。懂得不能随便离开成人或集体。

(四)教育幼儿不将手放在门缝间、桌子间、椅子间、以免挤伤。

(五)户外活动玩大型玩具时，做到不推不挤，一个一个跟着走，让幼儿互相监督，保证幼儿安全。

(六)教育幼儿不能碰电插座，不可以带小刀，在手工课剪纸时候注意安全，知道怎样正确的使用剪刀。

(七)教育幼儿不把纸团、扣子、拉链等塞到耳、鼻、嘴里。

(八)在教学活动中渗透有关的安全知识，让幼儿知道

110、120、119紧急呼叫电话的号码和用途，遇到紧急情况，能呼叫求救，最大限度地消除不安全因素。

另外对于班里个别特殊的孩子我们也能给予特殊的照顾。如邓凯元小朋友，由于体质不是很好，很容易生病，还特别容易出汗，每天中午午睡时，老师要给他隔上毛巾，起床后要定时提醒他换衣服。另一方面，我们鼓励他积极参加体育锻炼，加强饮食的兴趣和进食量，现在邓凯元变得更加健康，更加活泼了。

三、每月有重点地开展安全教育活动

《幼儿园教育指导纲要》提出：“密切结合幼儿的生活进行安全、营养和保健教育，提高幼儿的自我保护意识和能力”依据这一精神，根据我们班的实际情况，每月我们班都有重点地开展安全教育活动，如九月是进行幼儿入园和离园的安全教育和指导，同时进行常规培训。十月是进行户外活动和使用大型器械的安全教育。十一月是进行咳嗽、打喷嚏的卫生健康教育，同时培养幼儿饭前便后及手脏时洗手的良好卫生习惯。十二月开展“不跟生人走”“干净食物人人爱”活动;并结合季节变化，引导幼儿知道天气冷时要注意适量运动，冬季防寒的具体措施。一月是对幼儿进行幼儿健康和个人卫生教育。三月是安全教育月，开展了主题“我是健康小卫士”教育活动，四月开展了“可不可以吃”“大大的眼睛”教学活动。五月学习安全儿歌“上下楼梯”“红绿灯”。六月进行了“去游泳”“跟着妈妈去商场”教育活动。如此有计划地对幼儿进行安全教育，不仅提高了幼儿的安全意识和自我保护能力，还丰富了他们的安全知识。

安全工作是幼儿园工作的重中之重，只有在确保幼儿健康成长的条件下我们才可以顺利地开展教学活动，我们始终认真细致地开展安全工作，使我班幼儿在一年来未出任何一件安全事故。我们在今后的工作中也会做到时刻高度警，把安全放在首位，将在幼儿园一日生活、教育教学活动、游戏的各个环节中自然地进行，通过形式多样的活动帮助幼儿懂得自我保护的简单知识和方法，真正保证幼儿的安全。

阿里巴巴幼儿园 2011年12月20日

阿里云云计算安全

第1篇：阿里云云计算安全

第2篇：阿里云计算参展2012中国计算机大会 final

第3篇：读乌塔有感何云云doc(1)

第4篇：阿里新一代流式计算引擎大数据培训Flink学习宝典奉上

第5篇：阿里云大数据计算平台的自动化、精细化运维之路

第6篇：阿里巴巴幼儿园安全工作总结

热门文章

相关推荐

阿里云云计算安全

第1篇：阿里云云计算安全

第2篇：阿里云计算参展2012中国计算机大会 final

第3篇：读乌塔有感 何云云doc(1)

第4篇：阿里新一代流式计算引擎 大数据培训Flink学习宝典奉上

第5篇：阿里云大数据计算平台的自动化、精细化运维之路

第6篇：阿里巴巴幼儿园安全工作总结

热门文章

相关推荐

第3篇：读乌塔有感何云云doc(1)

第4篇：阿里新一代流式计算引擎大数据培训Flink学习宝典奉上