黄铁军：ChatGPT训练只用了百分之几的中文数据

来源 : 凤凰网时间：2023-06-17 13:46:47

【资料图】

凤凰网科技讯 6月16日消息，凤凰网科技《浪潮》对话智源研究院黄铁军，谈到对中英文大模型算法分析的看法，黄铁军表示，ChatGPT训练时用的英文数据多，中文数据只有百分之几，所以英文表现得比中文好。

凤凰网科技《浪潮》：我们刚才也提到了一个上下游，因为要进入到这个生态里边，要投入很多的技术和内容。我们在刚接触ChatGPT的时候发现用英文比用中文更好沟通。它们的理解，它们的算法，都是以英文为基础。您觉得中文的这个大模型的算法分析和英文的这些哪一个更加容易，或者是哪个更困难一些？

黄铁军： ChatGPT当初训练的时候用的确实是英文数据多，中文数据少，而且据我们了解，他们也用了智源中文的数据集，但他们用的中文数据只有百分之几，所以它英文表现得比中文好，这也是自然而然的。因为我们刚才说大模型的智能主要是来源于数据，那数据的分布也就决定了它的智能输出特性的不同。中文的这个数据的建设，确实对于未来大模型发展来说是特别重要的一项工作。

（责任编辑：王治强 HF013）

黄铁军：ChatGPT训练只用了百分之几的中文数据

精心推荐