【资料图】
凤凰网科技讯 6月16日消息,凤凰网科技《浪潮》对话智源研究院黄铁军,谈到对中英文大模型算法分析的看法,黄铁军表示,ChatGPT训练时用的英文数据多,中文数据只有百分之几,所以英文表现得比中文好。
凤凰网科技《浪潮》:我们刚才也提到了一个上下游,因为要进入到这个生态里边,要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解,它们的算法,都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易,或者是哪个更困难一些?
黄铁军: ChatGPT当初训练的时候用的确实是英文数据多,中文数据少,而且据我们了解,他们也用了智源中文的数据集,但他们用的中文数据只有百分之几,所以它英文表现得比中文好,这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据,那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设,确实对于未来大模型发展来说是特别重要的一项工作。
(责任编辑:王治强 HF013)X 关闭
Copyright © 2015-2023 京津冀建筑网版权所有 备案号:京ICP备2022022245号-12 联系邮箱:434 922 62 @qq.com