港媒：DeepSeek下一代大模型引等待

据香港《南华早报》网站4月6日报导，跟着大众等待中国人工智能草创公司深度求索()发布其下一代模型，该公司推出了一种进步大型言语模型(LLM)推理才能的新办法。

近来宣布的一篇论文显现，深度求索与清华大学的研究人员协作，开发了一种将“生成式奖赏建模”(GRM)和“自我准则点评调优”相结合的技能。这种两层办法旨在使LLM可以越来越好、更快地答复一般查询问题。

研究人员写道，由此发生的DeepSeek-GRM模型优于现有办法，凭仗强壮的公共奖赏模型“取得了存在竞争力的体现”。奖赏建模是一个引导大型言语模型向人类偏好挨近的进程。

与此同时，因为DeepSeek的V3根底模型和R1推理模型遭到全球重视，人们对深度求索的下一步举动有着许多猜想。路透社此前报导说，DeepSeek-R2将很快发布。DeepSeek-R1的发布以其极具本钱效益的功能震动了全球科技界，其功能可与抢先的模型相媲美。

总部坐落杭州的深度求索上月晋级了其V3模型(名为DeepSeek-V3-0324)，称其供给了更强的推理才能、优化的前端网页开发，以及晋级的中文写作才能。（编译/朱捷）