时间: 2024-06-22 04:25:18 | 作者: 开箱机
的IT架构,成为企业IT能力中最重要的组成部分。企业在利用云计算带来的便利、敏捷的同时,也慢慢变得多依靠云计算提供的持续服务能力,云计算已经当仁不让成为企业IT架构的核心。
起初企业选择云计算的一大动因是云厂商宣称云计算能带来IT成本的节约,但随企业深入使用云计算后,云计算到底能不能降低IT成本这一个话题,一直是多方争议的焦点。很多企业的实际经历,都反映了云计算无法实际降低企业IT成本。虽然在资源弹性、简化运维、以及服务共享上,云计算确实占据一些优势,但也会带来平均资源利用率不高、学习成本高、部署要求高等隐形的成本问题。孰是孰非,这样的一个问题该怎么样才能解决呢?
我最初进入IT行业就是从事云计算方面的工作,后续随着工作方向的变化,逐渐向企业架构、IT架构、数据治理、敏捷研发等方向转型。随着知识领域的扩展,以及从综合的视角来观察企业IT环境,我慢慢地认识到,云计算并不能完全代表企业IT,云计算是一种工具,工具的作用始终是帮助组织提升效率、降低风险、改善质量,工具本身无对错,关键是使用的人以及怎么样去使用。工欲善其事,必先利其器,有利器方可善益事,我们不应再纠结于云计算本身是否能减少相关成本,而应该看我们该如何利用好云计算这项技术。成本治理以及降本这件事情,不单单是云计算的事情,也不仅仅是企业IT的事情,而是一个综合了多方面人员、体系、流程、工具的协同工作。
本篇文章主题为成本治理,而非企业IT降本,其实就是希望我们大家对成本管理有一个清晰的认识,降本是成本治理的一个场景,做好成本管理和治理比单方面的降本更重要,成本治理的目标并不只是降本,而是将企业IT成本的发生与产生的现实价值真正的对应起来。
那么我们如何协同企业IT与云计算,能够在保证效率的同时,持续有效的管控成本呢?下面我将从成本治理的体系标准、方法和案例来逐一说明。
云计算并不是为企业而生的,云计算最初是面向所有的消费者的,但经过多年的发展后,企业的的确确成为了云计算最大的应用场景。为了可以厘清企业IT与云计算的关系,我们应该了解一下云计算和企业IT的发展趋势。
截至2024年,云计算慢慢的变成了企业和个人采用的关键IT技术之一,公司开始深度使用云计算,同时个人对云计算的应用明显地增长,云计算已不再具备高技术门槛,而成为普世型的企业及个人数字化能力平台。云计算产业和技术的成熟不代表云计算的发展已处于稳定期,AI大模型的突破以及与行业结合的瓜熟蒂落,给云计算带来了显著的、剧烈的变化。所有的一切因素都预示着未来几年云计算将继续演变和创新,其发展的新趋势体现在多个方面:
1)混合多云策略持续增长:当组织对于云计算的了解、实践以及对云计算底层技术逐渐掌握后,更多的组织更加意愿于采用多云混合策略,以利用不一样云服务提供商的特定优势,同时保持关键数据和应用程序的灵活性和控制力。当然这也依赖于组织和人员IT能力的持续提升,以及更高效的管理体系和便捷的工具能力。
2)容器、微服务架构持续普及:容器技术、微服务架构、DevOps已从创新技术慢慢的变成为开发和部署应用程序的标准方法。组织也基于此类技术构建了敏捷的应用架构、持续开发和全球交付的技术能力,这些技术提高了应用程序的可移植性、可伸缩性和效率,使得云原生应用普及,构建和管理灵活性更好。尽管云原生技术有一定的学习成本,但慢慢的变多的组织和人员已经逐渐掌握该部分核心能力,未来将主要的方向用于云原生服务治理和云原生安全能力提升。
3)边缘计算的兴起:物联网设备的增加和的部署,使边缘计算从窄算力向宽算力持续发展成为可能,端边传输带宽极大的提升,5G站点的密集分布降低了无线网络时延,云侧集中处理能力稳步增强。未来持续通过在数据产生地点(即“边缘”)进行业务和数据处理,逐步降低延迟,提高应用性能和客户感知,降低数据传输成本,最终形成哑铃型的未来架构。
4)云智能体:云平台变得更智能,通过集成神经网络、机器学习、领域大模型等功能,云平台提供兼具人类专家经验和人工智能模型的全方位云平台管理能力,包括成本管理、能耗管理、资源调度管理、应用运行管理到全自动运维等高阶服务。这些能力使公司能够进一步摆脱人工操作带来的风险,不断通过自动的数据洞察来优化管理操作,人类专家只需从伦理层对云智能体展开监督和治理。
5)可持续性和绿色计算:对环境友好是云计算能够继续发展的重要条件,云服务使用企业已采取一定的措施减少其数据中心的碳足迹。这包括使用可再次生产的能源、提高能效比和采用更环保的冷却技术。能耗的精细化可持续管理也成为云计算降本的重要手段。
6)安全和合规性的加强:随着云计算的普及,应用系统的构建效率迅速提升,数据产生的速度也极大的提升,数据安全和隐私保护成为了重要议题。组织在云计算实践中,形成了对云计算安全体系、安全能力的归纳总结,如加密、身份和访问管理以及定期安全审计。同时合规性也是一个重点,尤其是与云计算伴生的云数据库、大数据平台等,在处理敏感数据时,要求符合《数据安全法》、GDPR等法规的要求。
7)行业云解决方案:特定行业企业,已根据行业业务场景和需求开发并使用行业云服务能力和解决方案(如金融、医疗、制造、交通、能源、泛互联网)。这些解决方案旨在满足特定行业对云计算可靠性、合规性、安全性、集成能力和性能需求。
8)云计算降本:在大部分深入使用云计算的企业中,通过云计算降本成为了企业持续应用云计算的重要原因,未来一段时期的重点方向是通过深入挖掘企业IT与云计算的融合增益,使投资中占比最高的云计算持续降本增效,改善企业IT的投入回报率。
云计算的发展的新趋势指向灵活性更好、智能、安全、可持续和超高的性价比的方向。随技术的慢慢的提升和业务需求的不断演化,云计算将继续引领数字化转型的浪潮。
截至2024年,企业IT领域正经历着前所未有的变革,这些变革重新定义企业如何运用技术来推动业务增长、提高效率和增强竞争力。以下是企业IT发展的一些关键趋势:
1)数字化转型的加速和深化:企业正在加速其数字化转型进程,以适应迅速变化的市场需求和消费的人行为,同时部分企业已进入数字化转型深水区,亟待采用深度数据智能能力满足新的业务场景。数字技术包括云原生、人工智能、区块链、大数据和物联网已经大规模的应用,未来突破性技术如多模态大模型、WEB3、量子技术、类脑技术、数据编织等,用于优化运营、改善流程、提升客户体验和创新产品/服务。
2)云计算的深入应用:云计算已成为企业IT基础设施的核心,混合多云策略被广泛采用。企业利用云计算的灵活性、可扩展性和成本效益,来支持全球业务、经营分析、业务部署和业务连续性计划。
3)边缘计算:随着IoT设备的普及和5G技术的部署,边缘计算正成为企业IT的重要组成部分。企业在园区智能管理、生产制造环节、供应链全流程等领域充分的利用端边云的协同能力,实现信息感知、数据洞察、智能决策和分部执行。
4)安全的新挑战:技术的进步使安全攻击和安全防御的对抗愈发激烈,各类攻击形式日益复杂,企业信息和数据资产日益庞大,IT安全成为企业的首要关注点。人工介入安全防御已无法适应快速变化的安全态势,企业正在采用更先进的安全技术和实践,如零信任架构、企业全方位安全态势感知、应用安全和自动化威胁检测与响应来保护业务和数据免受威胁。
5)AI与业务结合:生成式和决策AI与业务结合已成为各家企业的首要关注点,部分企业已将自动化和AI集成到其IT操作和业务流程中,以提高效率和减少人为错误,包括使用机器学习优化生产管理,工业质检,自动化常规IT作业、智能客服等。未来生成式AI将进一步与企业业务结合,与决策AI结合,共同辅助企业业务发展。
6)可持续性IT实践:随着对环境影响关注的日益增加,公司开始采用可持续性IT实践,如优化数据中心的能效、采用绿色计算技术和实施电子废物回收计划。这不仅有助于减少企业的环境影响,也成为企业社会责任的一部分。
7)数据治理和合规性:随着数据量的激增和隐私法规的加强(如GDPR和CCPA),企业一定加强数据治理和合规性。这包括实施严格的数据管理政策、加强数据加密和确保数据处理活动符合有关法律和标准。
8)持续降本增效:全球地理政治学、疫情等问题导致企业经营压力增大,IT部分一定要通过精细化管理,提质增效,一方面快速响应业务,一方面持续降低成本。
企业IT的发展的新趋势反映了技术的快速进步和企业对于提高竞争力、效率和创造新兴事物的能力的不断追求。随着新技术的出现和业务需求的变化,企业要不断适应和更新其IT策略和解决方案。
我们站在企业的角度看云计算还是站在云计算的角度看企业,仿佛是一个镜子的两面,虽然实质是同一个,但不同的视角看上去,呈现的是不同的观点和意见。
近年来云计算产业高质量发展迅猛,据权威咨询机构统计,截止2024年中国云计算产值已到8000亿,预计2025年将达到10000亿,从增长趋势上看,复合增长率从2020年的50%到2024年的33%,增长趋势已趋于平稳。
同样,云计算在企业IT的占比也稳步上升,预计至2025年,云计算将占据企业IT投入的50%,企业将大范围的应用云计算带来的快速、弹性、高可用等能力,企业IT将以云计算为最主要的工具能力。
从云计算和企业IT的发展的新趋势上看,二者有很多重合之处,但又不是完全相同。企业IT应用了很多云计算的技术,但云计算又不能够满足企业IT的所有诉求。有一段时期,云计算试图能够代替企业IT,承担企业IT的全部职能,但在发展过程中,不同企业的个性化需求,以及传统IT的发展,最终没有让云计算一家独大。事实上,无论企业IT还是云计算,都是为企业未来的发展服务的工具,真正决定方向的是企业自身,掌握好二者的关系,让企业IT和云计算能够越来越好的融合,发挥最大的效力,即是成功的发展路径。因此,企业IT成本治理也即主要是云计算的成本治理。
大部分人对成本治理的第一感知就是如何省钱,降成本,实际上成本治理工作并不是单一维度的去省钱,而是通过多维度的观测度量、改进优化来使IT成本的发生更加合理,提供面向价值的服务。企业IT成本治理该怎么进行,该如何实施呢,我们从成本治理的组织体系、标准体系和执行体系三个维度来分析。
尽管IT成本管理是降本增效的重要路径,但IT成本管理活动却未在大多数企业组织形成明确职责,虽然涉及部门众多,但未有责任主体,因此也未形成标准的方法体系。很多IT行业标准都涉及了成本相关的内容,我们对这一系列行业标准做探索,最终确定企业IT成本应从三个方向来管理,即面向资源的成本治理、面向服务的成本治理,面向企业经营可持续性的成本治理。
通常,企业IT成本治理属于企业IT管理或企业治理的范畴,应由企业技术委员会下设的IT治理委员会或成本治理委员会联合有关部门及业务部门发起,企业IT治理委员会由企业IT管理部门联合干系部门形成的虚拟团队组成。如企业未设置技术管理体系,则可由信息中心或IT架构管理部门负责发起成本治理专项工作,由各干系部门执行。目前也有部分企业采用了轮转方案,各业务部门轮流承担成本治理专项的发起工作。
ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范,企业的IT部门和最终用户都能够根据自己的能力和需求定义自己所要求的不同IT服务水平,参考ITIL来规划和制定其IT基础架构及服务管理,从而确保IT服务管理能为企业的业务运作提供更好的支持。对企业来说,实施ITIL的最大意义在于把IT与业务紧密地结合起来了,即IT架构与业务架构保持紧密的联系,从而让企业的IT投资回报最大化。
ITIL框架最核心的部分被称为服务生命周期,包括服务战略、服务设计、服务过渡、服务运营和持续服务改进等五个阶段。每个阶段都具有特定的目标和最佳实践,以支持组织实现卓越的IT服务管理。从服务消费者的角度来看,服务关系涉及两种类型的成本:
消费服务的总成本包括服务提供商收取的价格(如果适用),以及其他成本,如员工培训,网络利用成本,采购等。一些消费者将此描述为他们必须“投资”消费服务。
当消费者评估他们期望服务创建的价值时,会考虑这两种类型的成本。为了确保对服务关系做出正确的决定,重要的是要充分理解这两种类型的成本。我们从成本治理的角度,主要是优化服务对消费者造成的成本,这类成本不一定对客户可见,但可以为客户创造更多的价值。
另外企业在设置IT预算时,需要设定预算和持续监测当前预算,为实现这一目标,需侧重于捕获预测和实际服务需求。它将这一需求转化为用于设定预算和费率的预期运营和项目成本,以确保为产品和服务提供充足的资金。基于服务的预算编制旨在了解预算并根据提供或使用服务的全部成本。
ITIL还包括资产管理(ITAM),专门用于管理IT设备和基础架构的生命周期和总成本。了解资产的成本和价值对于理解产品和服务的成本和价值至关重要,因此是服务提供商所做的一切的重要基础因素。IT资产管理有助于提高资产及其价值的可见性,以及成本的可测量,这是成功的服务管理以及对其他实践有用的关键因素。
COBIT作为国际公认的IT管理与控制框架,已在世界一百多个国家的重要组织与企业中运用,指导这些组织有效地利用信息资源,有效地管理与信息相关的风险。作为目前IT治理的核心模型,COBIT包含四个主要的控制域:IT规划和组织(Planning andOrganization)、系统获得和实施(Acquisition and Implementation)、交付与支持(Delivery and Support)以及信息系统运行性能监控(Monitoring)。治理工作被列入评估、指导和监控 (EDM) 领域,向下监督管理领域,成本管理归属在EDM02和EDM04中。
EDM02 确保实现效益 保证从IT促成的举措、服务及资产中获得最佳价值;以经济高效的方式提供解决方案和服务;可靠准确地维护成本和效益信息,从而有效和高效地支持业务需求。
EDM04 确保资源优化 确保以最优的方式满足企业的资源需求,优化IT成本,提高效益实现的可能性,并为未来的改变做好准备。
COBIT体系要求IT成本与业务架构、IT架构关联,在高效支持业务需求的前提下,保障成本最优。IT成本治理需要围绕业务架构进行设计,通过架构层面分解形成成本治理方案,确保成本治理的有效性。
ESG是环境、社会和公司治理三个名词的缩写,是从环境、社会和公司治理三个维度评估企业经营的可持续性与对社会价值观念的影响。ESG强调企业要注重生态环境保护、履行社会责任、提高治理水平,目前国内很多ESG评级使用MSCI ESG评级标准。
企业在IT技术上大量采用云计算或使用公有云服务,带动了数据中心的能耗增长,增加了碳排放。因此通过云计算的降本可以节约能耗,可直观完成企业的ESG中对环境的承诺:
云计算通过资源共享集约的方式,大幅降低企业IT资源采购,降低电能使用和制造相应IT设备所产生的碳排放;
云计算结合智能调度的方式,提升云资源的利用率,并通过调度业务削峰填谷的方式,充分利用电能的波峰波谷,节约企业成本;
云计算技术大大提升了企业的经营效率,降低了全社会整体供应链的成本,降低了企业风险;
企业IT成本治理可以作为ESG中环境和企业治理的重点工作内容,也可以借助ESG形成企业IT成本治理的行业标准。在企业行使ESG责任的同时,把IT成本治理作为协调环境,完成企业治理的主要工作,从企业治理的角度和ESG的角度同时推进以云计算为主的IT成本管控。
FinOps是由隶属于Linux基金会的FinOps基金会发起并向全球推广的,最早是从公有云应用的维度,而并未站在企业的视角,因此并非能够完全考虑企业IT方面的全部诉求。
FinOps是一种团队管理云成本的方式,可以由企业中形成一个中心化的最佳实践团队驱动,通过跨团队协同工作,在组织内部传递一种自我管理、培养成本意识的文化,强调通信和协作,也被称为“云财务管理”、“云财务工程”、“云成本管理”等。FinOps的核心是纪律、实践、文化和价值,参与人员包括工程师、采购人员、财务人员、产品人员和FinOps实践者。
通知:通知是 FinOps 框架的第一阶段。这一阶段旨在为所有利益相关者提供所需的信息,以便于他们了解情况,从而做出有关云计算使用的经济高效的明智决策。
运营:运营是 FinOps 框架的最后一个阶段。在这一阶段,组织会根据业务目标持续评估绩效,然后想方设法改进 FinOps 实践。优化工作到位后,组织可以借助自动化来实施策略,在不影响性能的情况下不断调整云资源来控制成本。
FinOps实践的重要阶段是单位经济支出的管理。单位经济是FinOps最重要的概念之一,它将云支出与业务指标(总收入、出货量、付费用户、客户订单等)作比较,从而计算云资源投入产出比。结合业务经营特征,我们可以选取每购物订单云支出、每物流派送云支出、每市民服务云支出、每车辆制造云支出等作为业务指标。另外,FinOps强调的问责制,形成了云计算成本管理的闭环机制,成本管理职责的确定,形成了成本优化的强大动力。
FinOps在一定程度上给出了占据企业IT最大比例的云计算的成本治理办法,并且在成本管理过程中沉淀了单位经济指标、团队协作实践、文化与价值等方法,也可以作为非云计算环境下IT成本治理的标准方案。
通常,企业IT成本治理属于企业IT治理的专项活动,有技术委员会联合业务部门发起,企业IT治理委员会由企业IT管理部门联合干系部门形成虚拟团队执行。也可纳入企业治理范畴,由董事会指定审计及合规部门联合执行。重要的干系部门通常包括企业战略、企业IT、财务、计划采购、PMO质量部门、业务部门等,治理过程主要依赖企业IT的IT架构、组织、流程、工具体系等。IT成本治理体系及流程固化后,后续转移至PMO组织作为定期工作任务发起专项工作。
IT成本治理执行成果,需要定制指标来衡量,可参照FinOps中的单位经济支出变化来衡量成果。治理成果需在企业高层决策会议或投资委员会会议上汇报。
IT成本治理执行周期,可以跟随预算、审计、内控等专项工作后,成立成本治理专项工作,也可以按年度,每年定期启动成本治理工作。
目前也有企业通过托管方式来帮助企业管理云计算等IT成本。Antimetal是一款为企业用户实现云成本管理的自动化和优化的工具,目前主要帮助使用AWS的企业用户进行云资源成本治理,帮助客户节省AWS资源,未来会延伸到更多的云平台。
目前Antimetal提供云成本治理方案主要来源于两个能力,一个是AI预测模型,通过分析市场数据和用户历史云资源用量来预测用户云资源利用,最大化节约资源购买。模型可以扫描企业数千个不同的数据点,动态扩展覆盖范围,最高可以为客户节省75%的云服务账单。另一个是成为云资源的做市商,可以在用户池中最大化RI转化,平衡买卖需求。
同时Antimetal提供Autopilot能力,用户授权后,AI引擎可以托管用户账户,代理企业执行操作,购买和卖出AWS用量。
托管公司进行的企业IT成本管理的问题是,托管公司并不一定能够全面了解企业IT业务场景,只能基于AI模型对成本进行管理,因此可能遇到模型不匹配或者企业个性化需求无法满足的问题。
云计算平台已成为企业IT核心基础设施,虽然这两年有部分声音即云计算成本较高,部分企业为了成本的管控开始下云,但也有些企业为了节约成本裁撤了企业IT团队,将应用全部搬迁到公有云,这些结果恰恰说明要想真正治理好以云计算为主的企业IT成本,还是要应用好云计算这件工具,云计算仍然是那个高效、稳定、集约的数字化生产力。
如何做成本治理以及降本,方法很多,但真正有效果的方法还是需要企业结合自身的战略、业务场景和文化,通过组合和协作的方式来构建体系。下面有一些方法和实践,能够应对企业复杂的场景,目前主要是三个维度,战略上采用与企业架构结合做成本治理,战术上以技术能力降本、管理实践管控成本为主。
大家知道每一家企业都有诸如组织结构、流程体系、支撑系统等,那么如何通过一种形象的方式的来描述这些呢,这就是企业架构的目标。企业架构(Enterprise Architecture)最早的思想雏形来自企业建模领域。20世纪80年代中期之前,几乎只有学术界对企业再造或企业建模的思想感兴趣,但使用的理论和模型通常被限于某个信息系统的设计和开发。企业架构的目的是,在贯穿整个企业范围内,将通常碎片化的已有流程(手动和自动)优化为一个对变化做出响应并支持业务战略达成的综合环境。
企业架构包括:业务架构,定义业务战略、治理、组织和关键业务流程;数据架构,描述组织的逻辑与物理数据资产及数据管理资源的结构;应用架构,提供包含待部署的独立应用及其之间交互作用和与组织的核心业务流程间的关系的蓝图;技术架构,描述支持业务、数据和应用服务部署所需的逻辑的软件与硬件能力。
企业架构清晰的展现了企业的运行状况,也为我们寻找成本治理的路径提供了极大的帮助。我们可以通过对企业架构的改进和优化来实现成本治理的目标。
企业架构一个重要目标就是形成可复用的架构资产,供后续的架构设计应用,这样既可以保证后续的架构设计遵循最佳实践,同时也无需重复完成架构设计。无论是业务架构、应用架构、数据架构还是技术架构,都可以从架构参考库中提取已有的架构信息。
复用机制同时是一套系统化的过程,这包括识别可复用的架构资产、评估其适用性、适配到新的上下文中,以及维护架构资产库。复用机制需要进行管控,以便架构信息能够安全、快捷的传递到应用方,同时防止架构资产的滥用和泄密。这种机制的实施可以显著提高效率,减少重复工作,并加速企业架构的交付。
例如,一个金融机构在拓展业务中,在中国境内和东南亚拓展,需要遵守不同的数据管理标准和统一的云基础设施标准。通过建立数据模型、数据标准、云计算架构标准,以及相对应的表、图、矩阵,可以确保这些拓展机构应用的所有数据相关的、云计算相关的构建块,会被存储到架构库内并做版本控制,后续可供国内和东南亚的其他业务方、应用方查找和应用。复用机制也可帮助企业在欧洲的机构组织,开发的一套数据质量最佳实践,同时经过必要的调整后迅速传递到美洲分支机构投入使用。
架构复用可以使企业架构实践保持一致性、高效性和适应性(个性化)的策略。通过精心设计的架构复用机制,企业架构师能够在快速变化的商业环境中,确保架构的可持续性和长期价值。据统计,一些优秀企业在数字化和全球化的进程中,企业架构的复用率可以达到60%-70%,同时不同部门和团队能够共享视野、资源和专长。单从成本治理的角度来看,架构复用可以降低20%-25%的整体成本,同时确保架构体系的低风险。
前面讲到了企业架构是分层的形式,把企业的业务和技术支撑体系进行了分离,便于梳理清楚各领域的职责和边界。但随着业务与技术分工的明确,业务部门也和技术部门形成了天然的鸿沟,最终的结果是业务不懂技术,技术部门也远离业务。业务技术一体化最初的想法是希望业务和技术再次紧密结合,以适配当今快速多变的商业环境,实践中发现业务技术一体化更大的优势是很好的优化了业务应用的成本,成为当今非常流行的架构体系。
Ø 帮助企业高效构建业务共享服务中心或应用技术平台,降低架构管理复杂度。
Ø 助力企业核心架构的持续优化、持续沉淀可复用、可扩展的业务架构能力和技术架构能力,加速企业创新,消除数据孤岛,帮助企业实现数字化跨越式的发展。
Ø 引入架构开发管理机制,所有架构开发在主平台上扩展,始终保持架构体系透明,架构能力最优。
Ø 引入云原生微服务等技术,支持一体化平台建设,从而减少业务系统的重复建设,节约成本。
通过DDD领域驱动的思想梳理、识别各垂直业务的需求,在一体化平台上沉淀业务矩阵与共享服务能力,并将能力以扩展点的方式进行外放,最终形成企业业务资产,通过不断累积业务资产进行复用创造价值。同时业务架构和技术架构体系遵从平台沉淀的架构,并根据自身要求向平台提出改进需求,平台根据需求及最佳实践完成相应能力升级。
通过一套平台解决架构开发、架构管理、架构沉淀的问题,可以大幅降低原有支撑业务系统所需的云计算等IT基础设施,同时通过云原生调度优化业务使用方式,统一技术中台、微服务化、单元化应用,整体可带来40%的成本优化空间。当然,这套体系的应用还有赖于企业对应用架构、技术架构的强管控能力,以及较高的产研运人员综合水平,会带来部分人力成本的增加。
技术架构是企业IT核心,广义的技术架构包括应用架构、数据架构、安全架构、基础设施架构、中间层架构、边缘架构、集成架构等,狭义的技术架构主要指基础设施和技术平台架构。随着云计算的发展,很多企业以云计算为核心构建企业技术架构,包括私有云、公有云、混合云以及配套的IaaS、PaaS形成了支撑企业业务的核心技术体系。企业可以以成本管理视角维度,驱动技术架构优化,保持架构平稳的基础上寻找可以优化的成本空间。
现在主流的场景是,很多企业的业务场景都遍布全国甚至全球,因此规划了多云多地域的技术架构,不同云厂商基础设施的差异增加了管理复杂度,同时技术绑定造成成本绑定,服务质量不同也对业务造成影响。云原生、IOT等新技术的应用,也给混合多云的资源使用优化与降本带来了难题。目前遇到的挑战包括:
上述问题核心是:如何能够在多云环境下,快速、智能的调度资源,提升资源利用率,降低被厂商绑定的风险。应用统一的技术平台,消除不同技术平台带来的差异。
多云统一:通过一套平台控管多云环境,通过云原生技术实现IT资源与云平台的解耦,保障资源能够快速在多云之间切换,从而使云成本保持相对稳定,不会因为云供应商的原因突增突降。使用统一的技术平台,屏蔽不同技术平台的差异,降低业务切换成本。
智能调度:依托云计算领域大模型能力,结合应用资源消耗预测,形成云资源调度模型,将各类应用合理的进行混合调度部署。在资源限定的条件下,通过分级调度应对流量突发的场景,可有效管控成本。
资源填充和整理:资源填充与碎片整理,由于不同的云资源或硬件规格性能不同,通过资源调度任务进行统一填充式调度,以达到资源的填充利用和资源的时空复用效果。
随着PaaS服务在企业IT所占成本占比逐年攀升,PaaS平台的资源调度也越来越重要。PaaS服务可以通过容器化,基于容器平台的智能调度,应对各种复杂场景。自动监控、智能调度,可同时支持阈值、定时、自定义等多种伸缩模式。
混合云场景下的统一PaaS服务,相对每朵云各自的PaaS服务,从容灾、运维、资源利用、成本等维度上有较大的优势;通过大数据、人工智能、物联网、区块链等领域层级PaaS平台的逐步容器化,可实现相对于物理机、云主机等更好的弹性调度能力。
根据Flexera 2022年调查数据,企业用云费用平均被浪费了32%,虽然企业从IT采购管理、成本洞察优化运营、多云架构、FinOps多部门联合云计算成本治理等方面深入践行成本治理文化理念,但能够达到的效果已接近天花板。因此企业不能仅从传统的方式,而需要对云计算底层结构和原理层面进行深入分析,从而找到更好更优的方案。
云计算底层应用了很多技术,是技术密集型的产品。目前从云平台层面看降本的手段并不是很丰富,近些年底层技术并没有突破性的进展,当然个别云计算大厂拥有核心技术但未公开,此类场景目前还属于黑盒状态。我们就现有云计算体系技术架构,分析一下可能提升成本效率的路径。
资源超分是云计算成熟的应用场景,包括CPUGPU、存储池都可以通过该功能实现“资源放大”(内存通常不超分),实际上企业在购买云计算,尤其是公有云的时候,使用的大都是云计算厂商超分过的资源,但通过良好的资源管理,是不影响企业用户使用的。在私有云场景和混合云场景,企业也可以通过这种方式,放大逻辑上的资源配额,在不增加资源投入的基础上满足业务应用的资源需求,前提是对应用系统运行状况实时监控,并能够根据业务需求动态调动资源。以下示例为CPU不超分场景和1:2超分场景下的对比:
我们可以看到方案二相对方案一增加了一倍的CPU资源,但实际物理核心CPU并没有增加。通过虚拟化技术为虚拟机操作系统通过时分复用实现了多线程占用,虚拟机不与实际的线程绑定,而通过虚拟化平台进行时分调度。方案二的问题是当多个虚拟机同时使用的线程都达到计算主频的高峰时,各个虚拟机之间会争抢CPU运算能力,造成互相影响,因此需要上层针对应用负载有更好的调度能力,避免资源争抢的问题。
据统计,目前国内大部分企业的云计算虚拟机的负载在15-20%,超分可以应对云计算平台上利用率低的问题,对负载较低的应用,可以集中部署到超分资源池,在虚拟化基础上进一步实现资源的共享,可显著降低云计算建设成本。
前面讲到的超分场景,会遇到部署了不同业务应用虚拟机资源争抢问题,混合部署方式可以在一定程度上避免这些问题。
混合部署,也有说法叫潮汐调度,京东内部叫离在线混合部署。混合部署是一种降低成本的方法,将众多应用通过一定规则定义后,再按不同的策略部署到相同的资源组上(一个容器集群或一个虚拟机组)。例如可以将日活型应用和夜活型应用部署到一起,日间优先日活型应用,夜间提供更多资源给夜活型应用,可以大幅节约资源。
从集群维度来看,混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务在资源使用上的错峰填谷,以达到提升集群资源利用率的效果。
从节点维度来看,混部就是将多个容器或虚拟机部署在同一个节点上,这些资源里的应用既包括在线(流式处理)类型,也包括离线(批处理)类型;
总的来说,将在线业务和离线任务混部到相同物理资源上,通过资源隔离、调度等控制手段,充分使用资源,同时保证服务的稳定性。
由于混合部署方式比较复杂,需要自动化的部署工具,支持滚动部署发布、增量部署发布、灰度部署发布,以及资源自动化回收。混合部署还可以提升发布效率,例如静态资源混部可以达到分钟级的发布时间。
装箱是一个很有趣的数学问题,是一个组合优化问题。装箱问题也叫背包问题,以一维经典装箱问题为例,其数学模型可描述如下:S=(S1,S2,..Sn),其中0
如下图所示,单台服务器具备2颗24核心的CPU,超线颗vCPU,剔除虚拟化平台的管理开销,分配不同的虚拟机机型,那么能够得到的虚拟机数量是不同的。现实情况是如果没有一个很好的算法,那么服务器会产生非常多的“碎片”,很多几U几G的资源会被浪费掉,极大影响服务器的分配率,因此应根据承载的业务类型适时调整资源规格,避免过多的浪费。
同时,虚拟机部署涉及多个维度,如虚拟机的物理核数、内存大小、硬盘大小、带宽等,按哪个维度进行排序,就需要针对具体的场景进行分析比较。如按物理核数来排序,可以分配10台虚拟机;按内存排序,可能只有8台;按带宽排序,可能只能分配6台等等,因此需要综合考虑应用对资源的需求,平衡好各项性能要求,在保障资源供应的基础上提升资源分配效率,减少资源浪费。
在部署过程中还需考虑NUMA、DPDK、亲和性、带宽等约束条件,需要确保虚拟机均衡分配。而且为了方便调整也支持手工部署,资源分配算法需要具备普适性。
解决好装箱问题,根据业务类型特征规划好资源类型,并进行动态的优化,可以大幅降低云计算的成本,是很多云厂商的核心竞争力。我先前也听到过自定义规格来匹配计算机型这类技术理念,如3U7G,11U30G等,但后期没有跟踪到这类的实践。在国产化领域使用ARM架构带来的跨片和跨DIE性能下降,也会带来碎片问题,同样需要大家重视。
云原生已成为企业数字化转型的重要基础设施,Gartner曾经预测,云原生平台将在五年时间内成为95%以上新数字化项目的基础,而2021年这一比例还不到40%。
云原生为企业带来便利的同时,也引入了降本难题。云原生是以容器、微服务、DevOps等技术为基础建立的一套云技术产品体系,容器动态调度、集群等技术特征带来了资源规划难,分账难,管理难的问题。
云原生K8S容器集群中,多数应用采用共享集群方式,应用负载对计算、存储和网络资源的消耗不同且经常变化,需要对于不同的POD进行业务标记,并进行成本评估模型建设,以完成成本计量和分摊。国内云厂商中,阿里云在云原生成本管理有非常多的业务实践,包括容器FinOps,多云成本治理等方面有非常好的方案。
京东在云原生、虚拟化和物理服务器混合场景下,有更多的成本治理实践,尤其是在大规模的业务场景中,以及使用云原生技术降低PaaS类服务成本方面有显著的成果。如使用HPA弹性伸缩技术,VPA垂直扩容技术弹性快速完成扩缩容,如降低PaaS服务副本数,冷数据治理、集群串联等,另外需要重点讲一下以阿基米德调度系统为核心的智能资源体系。
智能资源管理体系包括基于机器学习的阿基米德智能调度器、基于K8S的资源使用率提升策略以及应用离在线混部方案,非常适合大规模业务调度场景。
利用机器学习算法,应用画像等进行资源使用预测,基于实际使用率调度,保护节点负载;
通过以上结合资源管理的成本治理方案,可建立起云原生体系成本管理模型,与云基础设施成本运营方案充分融合,实现整体成本可控。
补充说明一下,Severless技术可以在一定程度上节省应用使用服务器的资源,但调度方式比较复杂,我本人也未能深入研究,因此就不在这里讨论了。
云计算和云原生技术的推广,改变了企业的研发方式,以敏捷+DevOps的研发模式,越来越多的出现在企业的研发组织中,但相对传统研发模式,企业采用敏捷DevOps研发模式的成本是增加了还是减少了,研发成本如何管理和优化,也引发了广泛的讨论。
我在参加敏捷大师课的时候,我的老师一直拿敏捷研发对研发成本影响这个示例教导我们,敏捷研发模式并不能降低成本,如果把精益和敏捷作为降本手段的话那只能是降本增“笑”。实际上成本的衡量是个多维的辩证问题,工作环节增多了不一定就低效,工时增加了也可能带来其他方面的改进,应用全生命周期是分开管理还是一站式管理也要看企业研发具体的场景、研发人员能力以及工具情况,总之一句话,我们在改进研发的道路上持续关注成本的合理性。
研发体系中可以通过研发货币化,工时管理,效能度量等方式量化成本,并以此基础改进成本构成。除此之外,我理解激发人员自身的改进意愿和关注点,能够起到更为显著的效果。同时关注精益方法和敏捷工程实践中,需要摒弃的八种浪费,可以帮助我们在研发过程中,找到改进的方向。
以研发数据为基础构建一体化研发流程体系,可以在一定程度上减少研发领域的浪费;
通过导入先进的研发文化,在架构、质量、协同上提升能力,同样可以改善成本,提升效率。
运维工作占到企业IT部门工作内容的相当大一部分,OPEX的持续投入也让企业IT部门被冠以“成本中心”而非“价值中心”。如何摘掉成本大户这个帽子,让运维工作变得“丝滑”,让IT部门能够体现直观的价值,我们通过引入先进的技术体系来实现这个目标。
AIOPS智能运维通过使用人工智能(AI)、机器学习(ML)和其他高级数据分析技术,自动化识别和解决企业IT和云计算平台的运行故障。AIOPS依赖企业IT系统中的CMDB、ITSM等基础信息系统,通过各类IT服务(机房、物理机、网络设备、虚拟化、云平台、公有云等)生成的大量监控数据、事件信息、系统日志、运维操作等信息来监控所有企业IT资产,且对所有应用程序和系统之间的拓扑关系清晰可见。通过监测网络、平台和应用的运行数据,结合AI推荐的运维模型,运维系统进行非人工干预,例如主动剔除潜在故障磁盘、网络路径优化等运维操作,快速实时的进行故障和事件处置,极大缩短了故障时长。
某运营商在该公司云网体系整体应用AIOPS模型的成效比较显著,它减少了人力成本的投入,也降低了故障带来损失。该运营商经过测算,每年人力成本减少上千万,告警处理时间下降了75%,故障平均发现时长缩短了50%,IT投诉处理时长缩短了93.5%,工单的流转效率提升了66.7%,智能问答降单率达29.1%。
当然AIOPS 需要大量对模型的调优、演进甚至改进优化的过程,成本是非常高的。但模型相对固化后,成本保持恒定甚至下降,而且可以通过推广进一步降低边际成本。
数据中心能耗占据企业IT成本开销的重头,尤其是AI大模型等密集算力应用越来越多应用到企业IT领域。企业数据中心需要采用先进的技术和管理方案,通过节能改造不断降低运营成本,同时更多采用环保的可再生能源。
数据中心节能改造包括需求收集、需求分解、需求评估、需求确认以及改造实施几个阶段。以下是数据中心在节能改造中的具体场景:
数据中心在设计阶段即应充分考虑节能并减少碳排放,包括数据中心制冷方式选择、供电方式优化,结合地理环境的布局,能源回收等,主要是提升节能效率,采用绿电等再生能源减少碳排放。
绿色建筑评价指标体系由节地与室外环境、节能与能源利用、节水与水资源利用、节材与材料资源利用、室内环境质量和运营管理(住宅建筑)或全生命周期综合性能(公共建筑)六类指标组成。每类指标包括控制项、一般项与优选项。企业数据中心可与绿色建筑设施认证标准进行对标,按其星级评估企业数据中心绿色建筑等级,并制定建筑节能改造规划。
BIM建筑信息建模是通过建立虚拟的建筑工程三维模型,利用数字化技术,为这个模型提供完整的、与实际情况一致的建筑工程信息库。热流体CFD利用计算机仿真流体的流动和热传递,充分利用虚拟仿真分析数据中心热能流动结果设计。
以上两类工具可以帮助企业IT部门更好的监控数据中心的发热和散热效率,通过人为干预或自动控制系统,改善数据中心运行环境,精细化能耗管理。
评估体系包括能源数据统计、能耗数据分析、能耗审计、节能改造评估、改造报告和改进措施建议。数据中心的节能改造成果需要专业的评估机制,该评估机制需要作为企业IT成本治理的构建物进行管理,评估结果需要经治理组织评审。
根据国家安可要求和整体安排,政府、金融以及央国企等都需要按计划完成企业核心业务系统的国产化改造。目前国产化基础设施由于芯片工艺水平和软件能力等原因,在性能上与国际上成熟的WINTEL体系仍有差距,为了弥补性能上的差距,需要企业在国产化改造过程中使用更多的基础设施来弥补差距,因此带来的成本的上升。
通过系统性的方法进行企业国产化成本治理规划,帮助企业从成本可视、成本运营、成本优化三个角度建立可持续的国产化成本管控标准和治理体系,提升国产化投资性价比。
国产化改造中成本治理的核心是集中能力做好性能优化,用最少的资源实现最大的效果,这样才能大幅降低改造成本和使用成本,同时也能带动国内国产化软硬件的持续进步。
前面我们介绍了很多成本治理的技术方案,技术方案如果没有好的管理体系来支撑,也无法发挥出最好的效果。除了技术方案外,我们也总结了一些通过管理协同方式来进行成本治理的方法,这些方法围绕着成本规划、成本计算、成本运营等环节,用以作为技术方案的有益补充。
成本精细化管理是成本可视化的关键步骤,其基础是能够对企业IT成本的精确计量。对于云计算来讲就需要能够对云资源的消耗形成统一的计量标准,对于使用了公有云服务的企业客户来讲,需要将计费账单,包括包年包月、预留实例等计费方式逆向成云资源的计量,并且需要在一定程度上了解云服务商的计费方式。
通用的云服务商定价模式包括两类,一种是竞争定价,一种是成本+毛利定价。从云资源维度上看,就是资源费用 + 软件费用 + 运维费用,举例来说RDS服务,是包含了RDS软件(数据库软件)费用 + 承载RDS服务的虚拟机或物理机资源费用 + 运维服务费用。明确成本构成后,即能够准确的通过企业实际情况确定改进的方向。
结合计量数据,再定向抓取云服务商的计费数据,就可以建立起企业IT成本运营分析中心,实现成本账单数据按部门、产品、应用等维度的分摊能力,促使各团队提升成本意识,改善成本构成。存量数据经过分析后,可当作项目管理团队、研发团队、运维团队等的预算规划依据,同时可以提供成本变化趋势,优化资源计费方案等。
当我第一次看到戴明博士的管理十四条原则时,我觉得七十年前戴明博士的管理理念就非常先进了,尤其是在企业员工的角度。据我观察,任何管理手段都是有上限的,如果想突破这个上限,有两个方式比较有效,一种是激励,一种是文化。
企业IT成本治理,离不开文化对人的影响,需要员工真正理解成本意识和方法对企业和个人能够带来的价值。在成本治理文化中,我们大家可以参考FinOps框架中对成本文化的普及和推动:
首先,寻找热衷于FinOps、成本优化、效率或数据驱动的技术使用的人,以加速实现业务目标;
组织成本优化是个非常有挑战的课题,涉及到人的调整都是非常复杂和难以评价的。随着数字化、智能化能力越来越多被应用的到企业的业务场景中,IT组织势必要随之发展进化。组织优化更多是以价值为导向的变革和以人员能力持续发展为目标的实践,是提升回报而并不是简单的降低成本。
1、 IT组织应聚焦价值体现,将非核心价值工作进行外包(如重复性运维、机房管理、非核心安全岗位);
企业IT中的资产组成包括组织人员及办公场所、机房、边缘站点、硬件设备、软件及无形资产、公有云服务、线路带宽等,其中机房、硬件设备、自有研发组织等都属于重资产。我们大家知道,重资产的特征是高投入,回报周期长,风险较大等,尽管此类资产对于企业长期的收益是重要的、不可替代的,但随着市场环境的急剧变化,企业IT服务能力不得不跟随业务脚步快速的调整,IT类重资产投入已成为企业审慎考虑的决策点。
如何对资产类型进行优化,仍需要企业结合自身场景,借鉴先进的实践,不断探索,不断优化:
1、 减少服务器等硬件的采购,通过软件平台+硬件服务器租赁的方式,灵活管理资源池。由于是企业自有的软件平台,可以在硬件资源池的基础上灵活的使用超分、装箱、智能调度、混部等技术,具备极强的自主性,也可以进行快速迁移,降低了一次性资金投入的压力;
2、 对于企业自研场景,通过合作联合开发的方式,将一部分研发成本转移给合作方,知识产权共享,可有效分解成本压力,降低研发投入的风险,也可融合外部能力;
某企业是一家全球知名的大型零售品牌商,其产品共分四大类,产品全生命周期包含上游原材料生产及采购、产品研发、工业生产制造、下游渠道营销、端到端供应链、客户服务体系、零售门店等,年销售额千亿规模。
该企业IT主要为采购供应商模式并结合少部分自研能力,在长期的发展过程中,企业内部构建了数百套应用系统用以支撑业务发展。2022年该企业数字化部门通过变革最终确定了IT项目技术评审机制,由数字化部门技术委员会负责评审工作,对数字化项目拥有一票否决权。在项目评审中,专家发现很多数字化项目中的应用系统,有至少50%的功能是重复的,而且用户或周边系统访问这些功能的频率不高,这样就形成了大量的重复建设。专家们希望能够把一些核心业务能力进行复用,后续数字化项目无需重复建设,于是启动了业务技术一体化项目。
通过对企业核心价值链条中的核心业务场景进行梳理,形成了可以复用的业务领域,确定业务身份、领域服务、扩展点等,建设业务编排能力,形成业务技术一体化体系。
协同:业务系统资产化,核心数字资产实现累积与复用,提升系统研发效率,减少重复建设和采购成本。
治理:基于一体化平台,实现前台业务或ISV研发团队间有机协同,降低研发门槛、快速交付高质量产品。
效率:通过高质量可复用的资产,低技术门槛的业务可视化与流程编排大幅提升研发效率。
我认为该企业在成本治理方面最为成功的方面并不是采用了业务技术一体化这个体系,而是技术专家团队能够在保持传统的IT建设模式的情况下,还能够发现成本可以优化的方向,这取决于团队的技术能力和项目经验,目前并不是每家企业都能够拥有这样的团队。
某企业是一家央企的子公司,该企业的数字化能力是集团众多企业中最先进的,因此该企业作为集团落实数字化转型“十四五”总体目标的试点企业。该企业的数字技术服务平台项目于2021年启动,经过6个月的时间平台上线发布,后续承载了该企业80%的业务系统的运行。平台基于多云统一技术中台体系,提供云原生容器、数据库、中间件等基础组件、微服务平台、DevOps平台及诸多通用接口服务,同时配合运营、安全、集成、开发等体系和规范,在降本、统一、增效、合规等方面充分发挥价值。
1、通过统一的技术服务平台,将原有各业务部门提报的IT应用项目的技术栈进行了统一,统一使用云原生技术体系,以及应用数据库和中间件等通用服务。这样不仅大大降低了异构技术栈的维护成本,同时也将供应商软件套件销售方式,改为标品+定制开发+通用中间件方式,对应用软件采购进行解构,细化了成本支出,便于比价和考核。
2、通过统一的技术服务平台,纳管了集团的云计算基础设施,将原有虚拟机资源供给方式为容器与虚拟机结合的资源供给方式。通过容器超分技术,增加了资源供给,间接提升了CPU利用率。改造后,月均资源消耗下降了20%。
3、通过多云DevOps流水线CD能力,优化应用制品发布流程,提升了应用管理效率。
4、构建运维运营体系,为数字平台的运营及使用提供指导,以便管理团队更好为业务部门提供高可用、高可靠的技术服务。
中心化团队驱动FinOps是FinOps实践的核心原则之一,京东某业态FinOps实践探索也是由一个中心化的最佳实践团队来驱动的。首先结合业务现状,确定由平台技术部门做为中心化的最佳实践团队牵头开展FinOps实践探索。平台技术部门自2021年初从解决服务器成本管理面临的主要问题出发,借鉴FinOps官方主推的成本洞察(Inform)、成本优化(Optimize)、成本运营(Operate)的理念层层递进,按循环迭代的方式开展了集成本洞察、优化和运营为一体的成本管理链路能力建设,打造了基于多云环境的资源管理与成本运营的平台。在技术能力建设的同时,注重数据能力沉淀,平台逐步积累了近三年的服务器使用相关数据。在技术与数据能力迭代升级的同时,平台部门于2021年初牵头在业态内部成立了一个成本运营虚拟组织,依托平台已有的成本管理链路能力和资源使用相关的数据,按技术驱动、数据驱动、运营驱动三个方面来推动跨团队协作的成本管理和资源优化,实施各类更精细化的成本运营措施,经过持续了近3年的成本运营,累计节省资源成本上千万元,并形成了可推广的成本优化方法论。
该业态成本治理组织深入领会了FinOps在企业IT成本治理的方法体系,并有效运用,在集团内部打造了成本治理的标杆。
企业IT的成本治理并非一蹴而就,既要站在高处,用宏观的视角统揽全局,又要扎到深处,通过细节的改变积少成多。本文希望能够让大家更全面的思考云计算、企业IT、成本三者之间的关系,有机结合这三个方面,帮企业良性的发展。
在获客时,首先要深入了解市场需求。通过市场调研,确定目标客户群体,如农村居民、环保意识强的城市居民等。同时,精准
又能保证高性能的网络解决方案。传统组网方式虽然稳定可靠,但昂贵的硬件投入和升级
带来越来越多的重要价值。 在过去,工厂的数据往往分散在各个车间,设备协议多样、数据格式不一,难以实现有效整合。数据中台通过数据采集、
云基础设施支出预计将超过1.3万亿美元,比五年前增长了68%。这种增长的驱动力来自于云
排行 /
全链路需求 /
选择轻量应用云服务器为何推荐华为云? /
更加安全、更加高效的使用开源软件。 开源软件的使用在当前软件开发过程中已经成为不可或缺的一部分,根据最近的一项调查报告显示,全球超过 90%的
服务,开源使用更安心 /
方法介绍 /
:传统上,核心服务器集群是部署在远程数据中心还是云中获得所需带宽的代价很高,可以实现快速甚至实时
开始加装光伏发电系统以满足部分或全部用电需求。然而,在进行光伏发电系统安装的过程中,
AMD Kria™ KR 260套件+ROS 2快速开发机器人解决方案