Top
首页 > 正文

智谱AI CEO张鹏:大模型技术演进速度不会下降

在经历了一段时间的“野蛮生长”后,业内人士普遍认为,2024年,国内大模型市场将逐渐回归理性。谁将从“百模大战”中脱颖而出成为业界最关注的话题,被称作“最像OpenAI的中国公司”的智谱AI,吸引了不少人的关注。
发布时间:2024-01-31 09:07 来源:电子信息产业网 作者:宋婧

在经历了一段时间的“野蛮生长”后,业内人士普遍认为,2024年,国内大模型市场将逐渐回归理性。谁将从“百模大战”中脱颖而出成为业界最关注的话题,被称作“最像OpenAI的中国公司”的智谱AI,吸引了不少人的关注。

1月16日,智谱AI发布新一代基座大模型GLM-4,性能较一代全面提升,综合能力逼近GPT-4。智谱AI CEO张鹏在接受《中国电子报》记者采访时表示,大模型技术继续演进的空间巨大,还远未到达行业发展的天花板。

要“学习”但不是“成为”OpenAI

作为一家成立于2019年的创业公司,智谱AI由清华大学计算机系知识工程实验室转化而来,在人工智能领域已经拥有十多年的技术研究积淀。早在2020年,OpenAI已经推出GPT-3大模型,在国内大模型市场还没“热”起来的时候,智谱AI便把OpenAI当作对标对象,启动自己的大模型项目,可以说是第一批“吃螃蟹”的人。

与其他商业化公司不同,智谱AI更像是一群学术研究者共同打造的一个“理想岛”。“我们当时的想法就是要发掘科技创新的原动力,希望提前掌握一些技术发展规律去引领科研、应用的方向,甚至引领产业的发展。大模型就是在这样一个时间点、这样一个环境下,我们找到的一个阶段性的重要原动力。”张鹏坦言。

不同于比较主流的GPT,智谱AI采用的是全自研的GLM(通用语言模型)预训练框架。“中国没有自己的预训练模型框架。无论是GPT、BERT,还是T5,都是西方的科学家提出的底层技术,我们希望打破垄断,所以没有完全复刻OpenAI的路径。”张鹏说道。

他表示,从2020年开始,国外的一些顶尖的公司不再选择开源路线,学术界关于大模型的研究和技术上的细节也不再公开,国内研发团队相当于走进了“无人区”,前方没有可供参照的道路。而一个千亿参数规模大模型的研发成本动辄上千万元,试错成本巨大。

“现在回过头去看,当初选择做大模型虽然有点儿‘孤注一掷’的感觉,但我们对自己是有信心的。”张鹏说道。官方信息显示,智谱AI在2023年已累计获得超25亿元融资,主要参与方不乏美团、蚂蚁、阿里、腾讯、小米等明星企业的身影。

要认识“差距”更要看清方向

在谈及国内外大模型发展的差距时,张鹏坦言:“从技术发展方面来看,国内外已经没有太大差距了,但在对于通用人工智能的认知方面,国际顶尖团队的认知水平更高,创新氛围更活跃,这让其思考问题的层次更深入,眼光也更长远。”

中国科学院院士、清华大学计算机系教授、清华大学人工智能研究院名誉院长张钹曾分享过这样一个观点:通用人工智能的三要素(数据、算力和算法),应该升级为四个要素,第四个要素是知识。正是由于我们从大量的数据中获取了知识,建立了可解释的、鲁棒的人工智能理论,这才掀起了第三代人工智能浪潮。

张鹏对此观点表示赞同。他指出,国内外社会发展阶段不同、文化氛围不同、技术发展水平不同,人工智能的投资决策逻辑、发展路径也存在很大差异,因此不能完全照搬国外人工智能产业的发展经验。“可以借鉴的是他们对通用人工智能的深刻认知、活跃的创新思想和氛围,虽然我们必须要承认差距的存在,但也要保持‘不服输’的心态,虚心学习、奋力赶超。”张鹏说道。

大模型的发展方向是“越来越像人”。张鹏表示:“以前我们解决的是简单的自然语言交互问题,以后要解决的是‘大脑’的问题,要让它拥有人的大脑,能感知、能理解、能推理、能交互,还能自我学习。这种能力的拓展不应该是简单的线性叠加,而应该是一种几何关系,甚至是指数关系,这将会产生爆炸式的增长。”

在他看来,未来大模型的泛用性将进一步提升。随着技术的进步和资源的投入,未来的大模型将具有更高的精度、更强的理解能力和更广泛的适用性。这不仅意味着它们能够更好地理解自然语言,还能够处理更多的复杂任务,如翻译、推理、创作等。

多模态也是一个重要的发展方向。除了传统的文本处理之外,大模型将在语音识别、图像生成、视频再加工和推荐系统等领域发挥更大的作用。此外,未来大模型的定制化水平也将不断提升,用户未来能够更加灵活地使用大模型解决更具体的问题。

要注重“模型能力”更要寻求应用落地

商业化落地是验证一项新技术价值的最直接的方式。从现阶段来看,国内大模型百花齐放,但大部分仍处于讲技术、讲发展的阶段,属于商业化进程的探索阶段。

“当模型能力提升到一定水平以上后,模型的应用才能变得顺理成章。”张鹏坦言,“现在大家感觉模型没那么‘好用’,归根到底还是在于模型能力有限,在走向实际应用场景的过程中还需要攻克许多难题。”

比如“模型幻觉”,现在人们普遍的认知是——不能把所有工作交给人工智能来做,尤其是在一些关键性的、安全性要求高的场景中,幻觉问题不仅影响了模型的准确性和稳定性,还降低了大模型在真实场景中的广泛应用的可靠性。

从行业应用角度来看,大模型在工业制造领域的应用存在巨大的想象空间。“坦白地讲,传统工业企业大多还是以人力为主,相对于互联网行业、金融行业等来说,数字化基础比较薄弱,在大模型应用过程中需要花费更多力气。”张鹏说道。

据他分析,科技水平要求高且数据密集型的场景将会成为大模型率先实现规模化落地的领域。“大模型实际上就是在模拟人的大脑,它更适合用在具有高技术需求,且需要根据大量数据和知识去做出判断决策的场景中,而不是那些操作需求强的场景。”

“IT基础设施成熟度、人才基础、技术基础、资金基础等,这些条件共同决定了哪些行业能够率先实现大模型落地。实际上,很多工业企业已经在探索大模型应用了。”张鹏对《中国电子报》记者表示。比如在安全生产方面,上一代人工智能技术主要是通过布设大量的摄像头来进行图像识别,以此实现安全生产。然而,由于样本数据标注周期长,照片、视频等数据的识别与处理需要耗费大量人力和物力,这样做的效率其实并不高。

如果引入一个学习过大量图像数据的通用大模型,其模型本身已在若干任务处理能力上达到了基准水平,只需在其基础上稍做微调,增加一些定制化的需求能力,就能轻松实现原本需要花费大量人力、物力才能达到的监测效果。张鹏向记者透露:“我们已经和一些工业领域的厂家推进大模型应用的前期测试。一些原本技术能力就不错的工业企业,也在开源版本的大模型上做了一些应用端的尝试,效果非常不错。”

在张鹏看来,只有一定规模的通用大模型,才能达到类人的认知能力。训练一个通用大模型的成本很高,但在通用大模型基座上做微调可以大大降低整体成本,这对企业而言,十分具有吸引力。未来,随着技术的进一步演进,使用者会越来越多,大模型的进化也将会越来越快。

“从全局视角来看,没必要重复‘造轮子’,我们真正要做的事情是集中力量投入到最好的几个通用大模型上,持续推动它的技术演进,加快智能涌现的到来。”张鹏坦言。至于未来什么样的模型值得被留下,他表示应该回归市场,让实践和应用来检验。

“2024年,大模型市场将从野蛮生长回归冷静,行业焦点将从模型本身转向寻找应用。”张鹏表示,“不过这并不代表大模型的技术演进速度会下降,向上探索的天花板还远远未到。”

合作站点
stat
Baidu
map