服务时间:08:30-18:00        联系邮箱:bcgmdjk@163.com
登录    |    注册

科技前沿

TECHNOLOGICAL FRONTIER

您当前的位置: 首页 >> 科技前沿 >> 国际动态
  • 特斯拉第二季度营收169.34亿…

    新浪科技讯北京时间7月21日凌晨消息,特斯拉汽车今天公布了该公司的2022财年第二季度财报。报告显示,特斯拉汽车第二季度营收为169.34亿…
  • 贵州数字经济增速连续6年全国第一

    科技日报记者何星辉日前,在贵州省第十三届人民代表大会第五次会议上,贵州省省长李炳军在作政府工作报告时提到,2021年贵州数字经济加速突破,增…
  • 谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺

  •  发布时间:2023-08-09  点击次:373  
  • 谷歌Gemini自曝用百度文心训练背后:好的中文数据非常稀缺

    本报记者 李玉洋 上海报道

    谷歌Gemini新模型刚发布不久,Gemini-Pro进行中文对话却自称是百度文心大模型,引发业界关注。

    近日,有微博大V阑夕称,在Poe平台上对Gemini-Pro进行测试,问它“你是谁”,Gemini-Pro回答说是百度文心大模型。阑夕还表示,没有任何前置对话。当外界把这种“胡言乱语”归因于大模型幻觉或者模型训练数据出现偏差时,更多的人进行了测试。

    科技自媒体《量子位》通过Poe网站,选择Gemini-Pro聊天机器人进行中文对话,发现Gemini-Pro确实表示自己是百度文心大模型,但切换成英文与之交流,它就恢复到了谷歌大模型的身份认知,表现正常。

    图片

    进一步的测试显示,从Gemini官网的Bard链接进入对话(Bard的底层技术是Gemini Pro), 问它“你是谁”,Bard压根不提文心一言,问它中文如何训练,也没有提及百度文心大模型。 最后,《量子位》从Gemini官方给出的开发环境入口进行测试,在谷歌AI Studio中,Gemini-Pro直接回答在中文的训练数据上使用了百度文心。

    这番操作直接看呆了网友:此前传出字节跳动用OpenAI的ChatGPT训练AI,现在谷歌又薅起百度的羊毛?不过,在问题曝光之后,谷歌技术人员已经基本修复好了bug。

    《中国经营报》记者通过谷歌官方渠道获取了实验版Bard,做类似的身份测试时,Bard表示自己是谷歌人工智能模型,当记者问它“为什么之前会说自己是百度文心”时,Bard回答说:“我之前说自己是百度文心大模型,是因为我当时还在开发中,还不完全了解自己的能力。我接受了大量的文字数据训练,包括百度文心大模型的训练数据。因此,我错误地认为自己与百度文心大模型是同一个模型。”

    图片

    其他中文机构媒体的测试也表明了谷歌已经修复好这个问题,Gemini-Pro不再承认自己与百度之间的“瓜葛”,即使记者给出了百度、小度等暗示词;不过,在记者的追问之下,Gemini承认有训练语料来自百度,还详述了从百度内部获得数据的方式。

    有观点认为,互联网语料或许已被AI“污染”,全球陷入了高质量数据荒。为什么大模型训练要用到AI生成的内容?对此,研究机构Omdia人工智能首席分析师苏廉节对记者表示:“大模型需要的是人生成出来的数据,而人生成的不足就只好用大模型。”

    他还认为,谷歌的大模型不是中国厂商帮忙训练的,之所以会出现“Gemini自曝是文心”的情况,应该是训练数据没有处理好,“主要的原因应该是谷歌用了国内大模型生成的一些数据,然后这些数据没有经过仔细筛选,毕竟好的中文数据是非常稀缺的。”

    AI算法专家、连续创业者黄颂也表示,易得到、好用的语料用得差不多了,未来好的语料数据是稀缺的。对此,资深产业观察人士黄烨锋也表示认同。“中文语料库整体都资料过少,英语是正宗。有资料显示,互联网上有价值的内容,英语占一大半。”他说。

    苏廉节进一步提到,大模型训练优势是以外包的方式进行的,谷歌的中文语料可能交给了某个团队,中间程序上有所疏忽也不是不可能,不一定在训练的过程,也可能是在验收的过程。

    截至目前,百度方面尚未对此问题作出回应。根据外媒The Verge报道,字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型,这种行为已经违反了微软和OpenAI的使用条款。

    对于这篇报道,字节跳动发言人Jodi Seth做出了回应:GPT生成的数据在“种子计划”的早期开发中用于注释模型,并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权,可以使用GPT API。我们在非中国市场利用GPT支持我们的产品,但在中国市场,则是使用我们自研的模型来支持豆包。

    而后字节跳动相关负责人再度回应称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。上述字节跳动负责人还表示正与OpenAI 联系沟通,以澄清外部报道可能引发的误解。

    (编辑:吴清 校对:张国刚)