日前,第二十六届中国北京国际科技产业博览会在北京国家会议中心成功举办。IBM 副总裁、大中华区首席技术官谢东先生应邀出席,并针对“企业人工智能的基础设施”的重要性、以及企业如何规划、建立人工智能时代的基础设施,提出了切实可行的观点和建议。以下是他的演讲内容节选:
IBM 全球副总裁、IBM 大中华区首席技术官 谢东(图片来源:第二十六届中国北京国际科技产业博览会)
大家好,我今天给大家分享的题目跟人工智能相关,就是“企业人工智能的基础设施”。谈到人工智能的时候,经常会听到谈大模型、谈应用,我想从另外一个切入点来谈,就是基础设施。
人类历史上,每一次工业革命的背后,基础设施都起着极大的促进作用。蒸汽时代铁路连接起来,电力时代电网把社会、家庭联系起来,互联网更不用说,数字化以后人与人之间互联互通起来。互联网时代基础设施是什么?是数据中心、是互联网、是各种移动互联等等。
对于 IT、对于整个人工智能,基础设施也是非常重要的。谈到 AI 的基础设施,第一个想到的是算力,其实还有更多方面。当企业建立自己的人工智能时,会依托很多基础的大模型,把生成式人工智能能力跟企业自身数据紧紧绑定,创造出新的洞察,并且把这些生成式人工智能的能力跟企业流程紧密结合,从而转化为更大的生产力,企业才能在竞争中,处于有利的先导地位。
企业建立人工智能基础设施时,会涉及到哪些需求和挑战?
这个挑战来自于大模型参数,至少这两年大模型参数是以前百倍的增长,数据量也更多了,至少 10倍以上。不仅驱动这些人工智能应用时要有很多数据,并且过程中产生生成式人工智能,生成了很多数据,这些数据都是需要来处理的。再有,由于现在人工智能特别是生成式人工智能带来很多交互上的应用,对吞吐量有极大需求,至少有 7倍接近 10倍的增长。有了这么多性能上的需求,由于模型大、数据多,甚至很多时候数据是分布式的,导致在应用中,很多情况下直接造成了技能急剧下降,再一个是能耗太大,还有安全威胁,都是企业部署人工智能时需要考虑的因素。
企业知道基础设施很重要,如何来规划?
首先考虑 GPU 资源到底怎么来分配,算力如何。我们知道它很大,是自己构建算力资源还是利用公有云或者算力服务来服务,这是需要考虑的。
第二,企业实施肯定是分步的,一开始一两个应用,后面可能很多应用,不止需要一个大模型,还需要很多小模型配合应用,应用时需要很灵活、更有弹性的部署。
第三,存储。对于企业来说有很多不同节点、不同形式的数据,并且使用过程中也生成了很多数据,这时候数据需要一个动态存储方案,需要使用灵活,具有经济效益。
第四,安全考虑,使用过程中关键数据需要保护,也需要跟其他应用隔离,甚至还需要一些安全加密等等。这些都是资源上的考虑。
通常构建强大的 AI 基础设施需要六个步骤:
一是定义预算和目标。企业运用人工智能是有目标的,这个目标简单说是为业务增长服务,不是用的时候要建一个多大模型,而是直接把 AI 能力更好地用到企业业务中去,解决企业的问题,定直接目标,根据预算进行基础设施规划。
二是选择合适的硬件和软件。比如整个硬件加速平台怎么选择,数据平台、AI 平台如何部署等等。
三是寻找合适的网络解决方案。这是在企业部署中容易被忽视的问题,光考虑到算力、考虑到数据,没有及时的部署合适的网络,有的甚至出现了由于网络脱节导致整个系统性能跟不上要求。
四是决定使用云端还是本地解决方案部署。两种方案各有利弊。云上有更好的伸缩性,需要的时候获得很大算力和很大存储,弹性管理。很多企业需要本地方案是什么原因?是出于安全考虑和研发过程中灵活应用的考虑。
五是建立合规措施。不管是数据、模型选择还是部署,要符合合规监管要求。
六是实施和维护你的解决方案,需要蛮大运维工作支持,才能更好地支持企业人工智能的应用,以及长期可持续的应用发展。
这是 IBM 设计企业人工智能基础架构时的一些理念(下图)。第一是混合环境。所谓混合环境是和混合云技术相结合,使得你在部署的时候,既可以跟本地处理方案整合,也可以跟云端方案相整合,灵活的部署资源。二是可扩展,IBM 跟红帽技术相结合,建立在 OpenShift 上,使得这些方案、这些应用在本地也好、私有云也好、公有云也好,可以灵活地迁移。三是高性能,这些是企业的应用,无论是面向个人消费者,还有面向企业客户,对响应和可靠性,都有着严格的、更高的要求,我们这里有更多的设计。四是可信,更强调可靠性,保证整个设施的可靠性以及维护管理上的安全可靠。
建设基础设施绝不是一刀切,要根据企业不同任务和需求来进行部署。举例而言,我们在主机也好、Power 服务器也好,它们服务的很多都是企业的核心应用,这些核心应用都是处理一些高频交易、高性能计算等,对 AI 的应用具有很高的要求。第一是吞吐量极其大,要实时响应,同时要数据安全,很多场合是不允许数据脱离开主机运行环境的,这时候把我们嵌入式的加速器换入到服务器中,使得它能够更好地适应这样的需求。再有是存储,存储在 AI 环境下也有不同需求,其中最典型的一点是如何把数据最快、最及时的推到 GPU 上,我们知道 GPU 是很贵的,一定不能让它闲置,就要制定很快、很节能、很有效的方案。现在很多互联网大厂用 IBM 这些高效存储方案,来支持它的大模型应用。
光有硬件平台也不全够,IBM 还提供 watsonx 平台,跟整个基础架构互相配合。watsonx 是 IBM 在整个企业方案里面的基础平台,有三个部分:全面支持企业打造 AI 平台,包括 watsonx.ai,进行模型训练、验证、调优和部署等等,整个 AI 模型全周期管理。再有是数据,watsonx.data 就是来负责整个企业中数据的管理、部署、优化等;很多治理方面的工作,由 watsonx.governance 来保证,有了这样一个平台的支持,就使得在 AI 模型也好,数据也好,治理方面也好,都可以在我们基础架构的支持下互相紧密的配合,支持企业在人工智能方面有一个长期健康发展的依托。
IBM 通过技术、产品和方案全方位为企业用户打造 AI 基础设施和方案。在人工智能时代,一定需要好的基础设施进行支持,IBM 在这里有很多技术战略服务,愿意和很多客户一起深度合作,共同推动人工智能长期健康发展,谢谢大家。
(来源:IBM中国)