据香港《南华早报》网站4月6日报导,跟着大众等待中国人工智能草创公司深度求索()发布其下一代模型,该公司推出了一种进步大型言语模型(LLM)推理才能的新办法。
近来宣布的一篇论文显现,深度求索与清华大学的研究人员协作,开发了一种将“生成式奖赏建模”(GRM)和“自我准则点评调优”相结合的技能。这种两层办法旨在使LLM可以越来越好、更快地答复一般查询问题。
研究人员写道,由此发生的DeepSeek-GRM模型优于现有办法,凭仗强壮的公共奖赏模型“取得了存在竞争力的体现”。奖赏建模是一个引导大型言语模型向人类偏好挨近的进程。
与此同时,因为DeepSeek的V3根底模型和R1推理模型遭到全球重视,人们对深度求索的下一步举动有着许多猜想。路透社此前报导说,DeepSeek-R2将很快发布。DeepSeek-R1的发布以其极具本钱效益的功能震动了全球科技界,其功能可与抢先的模型相媲美。
总部坐落杭州的深度求索上月晋级了其V3模型(名为DeepSeek-V3-0324),称其供给了更强的推理才能、优化的前端网页开发,以及晋级的中文写作才能。(编译/朱捷)
联系人:翟经理
电话:15838167033
联系地址:河南省洛阳市洛龙区太康东路369号恒生科技园A-23栋