【华为技术】如何破局云遣返?


编辑导语:“云遣返”(Cloud Repatriation)指将部分或全部业务从公有云下线迁回并在本企业数据中心部署运行,以混合云或私有云作为公有云的替代解决方案的现象。

一、什么是云遣返?

毫无疑问,公有云能提高企业业务的敏捷性、灵活性和协同性,但也带来了上云费用持续增长、性能下降和安全风险上升等挑战。比如,上云策略不当会造成性能等指标持续下降,迫使很多企业从公有云迁回他们的应用,这种将部分或全部业务从公有云下线迁回并在本企业数据中心部署运行,以混合云或私有云作为公有云的替代解决方案的现象,被称为“云遣返”(Cloud Repatriation)。IDC 2021年8月发布的云遣返趋势显示:

  • 80%的受访者在过去一年中从公有云中遣返了业务(Workload);
  • 当公有云成本高于其他计算成本时,遣返率会提高;
  • 超过70%的企业使用了多云部署。

二、云遣返案例启示

Seagate CIO Ravi Naik的上云经历暴露了费用日益增长的问题。在规模迁移上AWS公有云后,弹性计算帮助Seagate实现了从“四个数据中心整合到一个数据中心”的全球DC整合和IT现代化计划。但上云后不久,Seagate发现,在AWS云上运行的一个Seagate大数据系统所生成的数据和高带宽费用越来越高,比在自己的数据中心运行的成本要高得多。

Naik带领Seagate团队重新评估自己的云战略,使用云原生架构和工具改进了他们的大数据分析解决方案。经过本地部署(On-Prem)测试发现,新系统可以在公有云之外运行一个更高效的生态系统。新运营环境是一个包括AWS、Azure和自己的数据中心的多云、混合云环境。因此,他们将数据湖应用系统迁回并部署在私有云中。

TCO是最终遣返其大数据系统的主要因素,TCO降低和流程优化可以减少25%的支出。Seagate每天要生成30 TB以上的数据,虽然只是将部分数据注入其数据湖,但每年在三大洲的七家工厂之间穿梭数据的费用高达数百万美元。回迁以后,Seagate仅以原来通过WAN传输数据的一小部分成本,就可以在全球范围传输大规模数据集,采集时间也从几周缩短到72小时。

三、云遣返原因分析

作者多年来研究运营商云转型实践,观察了众多云遣返案例,总结出云遣返的主要原因:

1、业务受到安全性及合规性的限制

公有云的安全性有待提升。常出现的情况包括云平台配置错误 (71%);敏感数据的泄露 (59%);不安全的API (54%)。

随着数据泄露和安全漏洞导致的云安全事件频繁出现,安全和监管问题迫使政企企业选择将其应用遣返到私有云或自己的数据中心。内部解决方案通常具有整体完善的管理,具有明确定义的安全边界,能更好实现数据控制。在此基础上,企业采用混合云(44%)和多云部署(43%)来实现备份和冗余。这一趋势将在未来几年内不断增长。

从技术角度来看,公有云的安全性并不低于私有数据中心。不过,问题一旦出现,造成的损失将无法挽回。考虑到远程访问的性质、公有云中的精细访问控制以及现代企业和法规遵从性的额外安全要求,一些关键应用的确不适合在公有云部署。

2、上云费用高居不下

在计算资源方面,公有云具有高度可扩展性和敏捷性,可以为激增的计算能力需求提供廉价扩容,但对于大规模、全年部署的应用来说,成本效益并不高。超大规模实例部署造成了计算资源的大规模占用,使得云成本日益见长的现实逐渐暴露了出来,尤其是对没有进行“重构(Refactoring)或重新架构(Rearchitecting)”的、而是通过“重新托管(Lift-and-Shift)”简单迁移上云的传统应用(Legacy Systems),大量的计算资源在应用闲置时不能得以及时释放;在计算资源扩容后,没有及时的缩容,导致资源的浪费。用户能看到的是费用的上升,然而,云解决方案提供商(CSP)和用户都束手无策,云遣返便成了无奈的选择。

在存储资源方面,一个应用的云成本可能涉及很多隐含的和动态变化的相关资源,随着业务的扩展,数据存储和云端到本地数据传输的需求不断增加,这些存储和传输的成本在初期规划公有云部署时并不明显。但随着时间的推移,当成本超出预算,应用或者数据源的回迁就成为必然。

在服务方面,厂家锁定也可能是客户云遣返的原因之一。由于过度依赖云单一CSP的工具和系统,当CSP开始对相同的服务收取更多费用时,切换CSP成为无奈之选。

3、上云路径不清晰,业务性能指标下滑

将应用程序迁移到云中需要全方位规划和大量测试。许多迁上云的业务本来就不是为云设计的,上云之前也没有为云做重构。尤其是企业自主内部(In-house) 开发的应用(In-house developed applications),由于对部署环境的需求与云架构之间的不匹配,一旦迁移到云上,时延问题就暴露出来了。所以,企业简单粗暴的解决方法就是遣返这些应用回归本地部署。

另外,公有云性能(比如,往返云的数据传输速率)变化很大,当可用的WAN带宽缺乏或CSP整体业务量非常重的情况发生时,很有可能造成其他应用在需要资源时却无法获取。

4、业务可用性不能满足SLA指标

公有云系统中断可能会持续数小时甚至更长时间,影响千千万万的客户。一旦发生,云客户只能依赖CSP分配备用资源和补救工作,SLA受到直接影响。

5、运营商自身缺乏技术创新能力

在新技术驱动下,企业需要对已经上云的应用进行现代化改造,包括微服务化,容器化等架构。以云原生举例,它是由应用和云支撑环境两方面组成,在CSP提供的云原生基础设施和平台工具基础上,要求企业应用(ISV或自研)提供微服务架构(模块化、可编排、可容器化部署等)。通常在IT现代化阶段,CIO面临的最大问题是Legacy应用的云原生问题。如何优化应用以经济高效的方式运行?当应用现代化改造遇到困难(资源整合、TCO、数据安全等)时,他们选择的是将这些应用回退到本地部署。

6、运营商不具备云上业务管理技能

企业应用上公有云遇到的另一个挑战是由云在管理、流程和员工技能上的变化带来的。许多人将云视为“另一个数据中心”把传统的思维和方法引入公有云,期待与公司数据中心类似的管理、流程和技能。然而,这具有严重的误导性,错过了云真正提供的机会。它给架构、流程、网络安全和运行稳定环境的许多其他方面带来了额外的挑战。面临这些挑战,企业会考虑将应用程序迁回公司数据中心。

四、做好六项工作,规避云遣返

造成云遣返的核心,是上云路径出现问题。做好以下几点工作,将有助于运营商降低云遣返率,提高服务水平。

1、正确合理的规划

很多公司遣返的根本原因是事前没有合理的规划:哪些应用适合上云,哪些不适合?上云之前应该做哪些准备?如何利用公有云技术的优势最大化业务效益?

CSP不懂客户的业务,但应协助客户在“战略制定-迁移规划-迁移实施-运营运维-新技术改造”整个生命周期中扮演核心主导角色,避免客户盲目上云。

2、数据主权的核心

云遣返的核心原因之一是数据安全合规。只有对电信网络数据有着深度的理解,才能从解决方案上更合理地支撑数据安全合规,实现数据主权与业务诉求的平衡。

3、云技术和运维的培训

很多上云的企业由于缺乏必要的云技术和云运营运维知识,导致不能最大化云给企业带来价值,当问题出现时,做出了云遣返的错误决定。所以,运营商在制定云战略时,需要将云技术培训和云运营运维培训计划列入规划,避免不必要的云遣返给企业带来的损失。

4、混合云模型

为了实现敏捷性,企业将公有云、私有云和内部资源结合起来,以获得竞争优势所需的敏捷性。同时,混合云还允许企业确保关键数据保持在内部提高性能效率,又满足企业所在国家/地区的监管、数据本地化和隐私规范。因此混合模式成为首选。运营商在与企业沟通和方案设计中,应帮助企业从业务实质和需求出发设计合理的多云混合云架构,提供业务上云的规划设计服务,帮助企业建立合适的上云方法,以及合适的应用的选择方法。

5、首选云原生

新建应用采用云原生架构,确保微服务架构可编排、可分布式部署、可容器化运行。这样的应用在云上会给客户带来价值,不会出现迁回现象。

对Legacy应用,运营商一定要帮助客户做好分析,给出正确的建议和切实可行的改造方案:是重新托管、平台更新、重新架构,还是替换。采用 TCO和ROI分析,明示迁上云给客户带来价值。

6、数字化优先战略

随着行业数字化转型不断深入,运营商开始利用AI、5G、大数据、云等新技术加速数字化转型。当Top运营商从云优先转变为数字化优先,更应该从商业场景出发,强调价值驱动的转型,让迁移上云的应用给企业带来实实在在的好处,为企业创造价值。


本文系转载,原文来源 https://www.huawei.com/cn/technology-insights/publications/huawei-tech/202203/carriers-breakthroughs-cloud-repatriation

文/华为云与数据中心集成业务首席架构师 宋红军博士 


最近更新于 2023-04-08 孜孜不倦2022-06-26 发布, 已阅 1135 次。