3月29日,中国电子首席科学家、中国电子云总工程师朱国平在2024北京AI(人工智能)原生产业创新大会暨北京数据基础制度先行区成果发布会后接受了新京报贝壳财经专访。他对贝壳财经表示,为AI服务的算力基础设施,不是在传统基础上增加GPU(图形处理器),让GPU“跑起来”那么简单。GPU技术迭代速度非常快,现在仍以GPU+CPU(中央处理器)形式为主,未来还将加快发展。
“人工智能发展是一个配套的过程。模型数据愈发变得海量,如果算力能够支撑复杂模型的计算需求,模型应用也将得到深入发展。”朱国平说。
华金证券研报显示,人工智能从训练走向推理,对于算力的需求将会巨大,而且这种需求仅仅刚开始。据IDC预测,全球AI计算市场规模到2026年将达到346.6亿美元。
中国电子首席科学家、中国电子云总工程师朱国平。图/受访者供图
国产GPU芯片需要在实际应用中迭代
AI给算力提出哪些新需求?朱国平表示,传统计算以CPU为主,AI出现后计算以GPU为主,这导致算力基础设施在网络带宽、组网、存储、算力调度模式等方面都发生了变化。
以存储为例,朱国平解释称,存储以前是CPU访问存储,现在变成GPU直接访问存储。他将原因解释为:AI训练要求更快的计算速度,从而降低训练时间,这要求数据访问加速存储和输入。他表示,算力调度与数据关系变得密切也是为了满足AI训练效率要求。
他提出,AI还带来更多的安全领域的变化,“以往更多集中在平台安全以及数据安全层面,如今也要关注大模型本身的安全及其内容的合规性。”他认为,基于云原生和AI原生打造的新质算力基础设施相对安全,审查数据访问也能给内容安全提供一定保证。
“国产算力归根结底还是芯片生产和制造能力问题。”朱国平说。他认为,芯片制造产业链得到发展,大部分问题都将迎刃而解。
他表示,GPU芯片并非刚生产出来就是成熟稳定的,需要在实际使用过程中发现和解决问题,例如应用到国产大模型中去发现需要优化的指标,不断迭代,才能够继续大批量生产和使用。“英伟达的成熟芯片也是一代代发展过来的,国产芯片也需要经历这样的过程。”
此外,他认为,国产GPU的软件生态对国产算力发展也有所限制。
“国产GPU芯片还处于初期阶段,大多数机构芯片的实际使用规模有限。”朱国平说。同时他表示,国内芯片生产制造能力总体来看仍有所突破,例如华为的手机、GPU芯片,“生产突破也需要时间积累”。
算力解决能耗问题将降低成本
3月29日,北京亦庄宣布点亮3000P规模的人工智能公共算力平台,中国电子云是该项目总集成方。据《北京市促进通用人工智能创新发展的若干措施》,北京还将加快推动海淀区、朝阳区建设北京人工智能公共算力中心、北京数字经济算力中心。
“算力设施3分靠建设,7分靠运营”,如何更好运营上述算力设施?朱国平认为,首先需要找到本地算力需求方。其次需要算力设施提供良好的软件生态,让应用很快“跑起来”,模型能够快速投入工作。
“第三需要提升算力内部利用率。”朱国平表示,不同应用使用同一GPU时,会进行统一分割,剩下部分一旦没有利用起来就会出现浪费,“例如按照每个应用1/10来分割,最后可能剩下1/10,此时出现另一个需要1/5的新应用,这1/10就无法使用。”
此外,他认为提高算力基础设施运营效率还需要降低算力能源消耗。如何促进算力能源消耗问题解决?朱国平表示,首先需要更多清洁能源,其次是通过技术途径提升能源利用率,例如液冷这一冷却技术。
“解决算力能源消耗问题,同时也能降低AI或算力成本。”朱国平说。他认为,发展京津冀等区域算力集群的原因之一也是解决算力能源消耗问题。
2023年5月,北京市发布《促进通用人工智能创新发展的若干措施》,从组织商业算力、新增算力基础设施建设、建设统一的多云算力调度平台三个方面对北京算力资源统筹供给能力提出要求。
同年10月,北京经信局印发《人工智能算力券实施方案(2023—2025年)》,为北京大模型企业提供算力补贴支持。2024年3月29日,北京亦庄发布《北京经济技术开发区关于加快打造AI原生产业创新高地的若干政策》,表示每年发放1亿元算力券,为人工智能企业大模型应用研发提供充足算力支持。另外还将每年发放1亿元模型券,对购买技术自主可控基座大模型的企业予以补贴。
对于政策支持,朱国平表示,它们让AI创业公司能够以相对普惠的方式获得算力资源,促进AI企业研发出促进行业发展的杀手级应用。“不是每个AI创业公司,都有能力维护算力这一复杂的基础设施。”
他认为,AI的应用价值更多在于改造传统行业,提升传统行业效率,促进传统行业整体发展,“就像互联网一样,只是生成图片或视频的技术没有完全解放人的生产力”。
据朱国平观察,AI与医疗、教育、军事等垂直领域的结合刚起步,成熟发展仍需要一个过程。“智能算力产业最终还是需要先把产业发展起来。”