内蒙古科技服务网

您当前的位置：首页 >> 科技前沿 >> 国际动态

今日热点

特斯拉第二季度营收169.34亿…
新浪科技讯北京时间7月21日凌晨消息，特斯拉汽车今天公布了该公司的2022财年第二季度财报。报告显示，特斯拉汽车第二季度营收为169.34亿…
贵州数字经济增速连续6年全国第一
科技日报记者何星辉日前，在贵州省第十三届人民代表大会第五次会议上，贵州省省长李炳军在作政府工作报告时提到，2021年贵州数字经济加速突破，增…

推荐资讯

谷歌Gemini自曝用百度文心训练背后：好的中文数据非常稀缺
　发布时间：2023-08-09 　点击次：694 　
谷歌Gemini自曝用百度文心训练背后：好的中文数据非常稀缺
本报记者李玉洋上海报道
谷歌Gemini新模型刚发布不久，Gemini-Pro进行中文对话却自称是百度文心大模型，引发业界关注。
近日，有微博大V阑夕称，在Poe平台上对Gemini-Pro进行测试，问它“你是谁”，Gemini-Pro回答说是百度文心大模型。阑夕还表示，没有任何前置对话。当外界把这种“胡言乱语”归因于大模型幻觉或者模型训练数据出现偏差时，更多的人进行了测试。
科技自媒体《量子位》通过Poe网站，选择Gemini-Pro聊天机器人进行中文对话，发现Gemini-Pro确实表示自己是百度文心大模型，但切换成英文与之交流，它就恢复到了谷歌大模型的身份认知，表现正常。
进一步的测试显示，从Gemini官网的Bard链接进入对话（Bard的底层技术是Gemini Pro），问它“你是谁”，Bard压根不提文心一言，问它中文如何训练，也没有提及百度文心大模型。最后，《量子位》从Gemini官方给出的开发环境入口进行测试，在谷歌AI Studio中，Gemini-Pro直接回答在中文的训练数据上使用了百度文心。
这番操作直接看呆了网友：此前传出字节跳动用OpenAI的ChatGPT训练AI，现在谷歌又薅起百度的羊毛？不过，在问题曝光之后，谷歌技术人员已经基本修复好了bug。
《中国经营报》记者通过谷歌官方渠道获取了实验版Bard，做类似的身份测试时，Bard表示自己是谷歌人工智能模型，当记者问它“为什么之前会说自己是百度文心”时，Bard回答说：“我之前说自己是百度文心大模型，是因为我当时还在开发中，还不完全了解自己的能力。我接受了大量的文字数据训练，包括百度文心大模型的训练数据。因此，我错误地认为自己与百度文心大模型是同一个模型。”
其他中文机构媒体的测试也表明了谷歌已经修复好这个问题，Gemini-Pro不再承认自己与百度之间的“瓜葛”，即使记者给出了百度、小度等暗示词；不过，在记者的追问之下，Gemini承认有训练语料来自百度，还详述了从百度内部获得数据的方式。
有观点认为，互联网语料或许已被AI“污染”，全球陷入了高质量数据荒。为什么大模型训练要用到AI生成的内容？对此，研究机构Omdia人工智能首席分析师苏廉节对记者表示：“大模型需要的是人生成出来的数据，而人生成的不足就只好用大模型。”
他还认为，谷歌的大模型不是中国厂商帮忙训练的，之所以会出现“Gemini自曝是文心”的情况，应该是训练数据没有处理好，“主要的原因应该是谷歌用了国内大模型生成的一些数据，然后这些数据没有经过仔细筛选，毕竟好的中文数据是非常稀缺的。”
AI算法专家、连续创业者黄颂也表示，易得到、好用的语料用得差不多了，未来好的语料数据是稀缺的。对此，资深产业观察人士黄烨锋也表示认同。“中文语料库整体都资料过少，英语是正宗。有资料显示，互联网上有价值的内容，英语占一大半。”他说。
苏廉节进一步提到，大模型训练优势是以外包的方式进行的，谷歌的中文语料可能交给了某个团队，中间程序上有所疏忽也不是不可能，不一定在训练的过程，也可能是在验收的过程。
截至目前，百度方面尚未对此问题作出回应。根据外媒The Verge报道，字节跳动利用微软的OpenAI API账户生成数据来训练自己的人工智能模型，这种行为已经违反了微软和OpenAI的使用条款。
对于这篇报道，字节跳动发言人Jodi Seth做出了回应：GPT生成的数据在“种子计划”的早期开发中用于注释模型，并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权，可以使用GPT API。我们在非中国市场利用GPT支持我们的产品，但在中国市场，则是使用我们自研的模型来支持豆包。
而后字节跳动相关负责人再度回应称，公司在使用OpenAI相关服务时，强调要遵守其使用条款。上述字节跳动负责人还表示正与OpenAI 联系沟通，以澄清外部报道可能引发的误解。
（编辑：吴清校对：张国刚）

科技前沿

特斯拉第二季度营收169.34亿…

贵州数字经济增速连续6年全国第一

谷歌Gemini自曝用百度文心训练背后：好的中文数据非常稀缺

谷歌Gemini自曝用百度文心训练背后：好的中文数据非常稀缺

预约服务