脸都不要了，字节用GPT4训练自家大模型~

作者: 塔哥玩AI分类: 计算机技术发布时间: 2023-12-16 20:43:00 浏览:61852 次

账号已注销:
知道的大部分不说，说出来给不知道的人它们也不会看也看不懂[doge] 兄弟们又要到饭了民以食为天[笑哭]

【回复】openai这次也算是杀鸡儆猴吧
【回复】错了，是you are very very 🐶叫s
【回复】你的才华让我怀疑你是小号
--Olive--:
反而感觉这波是openai理亏，因为字节的操作并没有被认定为违规，使用gpt生成训练数据或者评估自己的模型完全是主流做法，红线是不商用或者商用但是不构成竞品。如果openai没有证据表明字节用于商用模型或者用于竞品模型，那封禁的依据又是什么呢？如果没有依据，是否会导致其他使用api做各种插件或者应用的组织或企业引发担忧呢？对于开源社区也是很大的隐患了。

【回复】反过来，如果这两个公司位置调换，还会这么说吗
【回复】确实违规了，使用条例说了不允许使用接口训练其他公司的ai [吃瓜]
【回复】只有立场没有对错是这样的，就是不要B连你能拿我怎么样？
心无闸念八夕八:
美国又打压国内产业了，抵制ChatGPT从我做起！

【回复】要不明天给文心一言充个60？
【回复】不用你动手，GPT已经和国区双向远离了[doge]
【回复】现在还是让国内用的，之后再喊制裁封锁[doge]
借雨梦云:
国内是这样的。AI刚火那会一堆科学家跳出来说不过如此，国内有更牛逼的。结果过了这么久，国内大公司的AI产品全是抄的OpenAI

【回复】回复 @visionshao :据网易科技，百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜对媒体称：新版本文心一言的能力已经超出ChatGPT 3.5，这也是在我们国内开展相关技术工作重要的里程碑。她介绍，IDC 最新发布的《AI 大模型技术能力评估报告，2023》显示，百度文心大模型 3.5 拿下 12 项指标的 7 个满分，综合评分第一，算法模型第一，行业覆盖第一。
【回复】回复 @visionshao :百度文心一言公测的时候就说自己超越GPT4了
【回复】回复 @visionshao :好奇不会自己查？难不成我上网冲个浪还得把年前吹逼的专家名字背下来？[辣眼睛]
38-104:
哈哈哈，用GPT训练自己的模型🤓 拿着别人的充电宝给自己的充电宝充电🤓

dliting:
这叫RLAIF，是主流大模型训练技术之一。

【回复】神TM reinforce learning with Artificial intelligence feedback[笑哭]
lx199666:
你以为现在这些语言模型（包括ChatGPT)都是自己“想”出来的答案？本来就是喂出来的，只要不违法，拿什么喂都可以。当然现在法律纠纷一大堆。跟搜索网站社交平台没有明确授权转发别人内容一样

【回复】靠喂能喂出来还要openai干嘛，你懂不懂数据和模型是两回事
【回复】回复 @AT黑幕 : OpenAI具体怎么训练的我没有一手信息。但年初刚火的时候彭博有文章介绍OpenAI在美国当地以30万美元年薪招聘Prompt Engineer和在非洲以1-2美元时薪大量招聘小时工进行相对低端的内容标注。这么看肯定是有用到输入信息的。能靠用户的反馈调整参数本来也是机器学习模型一个特点
【回复】回复 @冬夜燃烧的火堆 : 语言模型和预测性机模型根本上区别不大，还是靠找出已有样本中的规律来预测输出的内容。模型好或者说效率高代表能用更少的样本找到规律。但如果你给它的样本质量差，它也只能更有效率的找出错误的规律。高质量、低成本的样本来源和模型好不好确实是两回事。所以谈不上字节跳动抄袭OpenAI的模型，或者根据这个判断两个的模型的优劣。
量子Bug:
借口罢了，全球哪家没有用 openai api 数据给自己做研究、训练或微调，很多公司和机构都公开在技术博文里写了的，斯坦福的 alpaca 直接在 GitHub 上开源了自己用来从 API 生成 5.2 万个类 RLHF 训练示例的脚本，也没见用这个的人有反应说被封的。无非就是不想让你用，总能找到理由封号。

【回复】需要借口吗？？？别人完全可以和国内互联网厂商一样，直接给你封账号，然后一句话你违反了规定，规定是啥，不说给你听
【回复】那就是直接承认自己偷了！
【回复】alpaca是非商用模型……性质不一样
子麻:
我的看法是不要用那些尴尬的背景笑声

cgoxopx:
哪个做ai的公司没做这个？而且一般不止一个openai账号

【回复】国内一堆人喊国产AI遥遥领先[吃瓜]
【回复】回复 @sloughrogge :没吧，独树一帜倒是真的，松鼠撅鱼的图我能笑一年。
【回复】回复 @sloughrogge : 国内不都是看乐子的，你是我见第一个说遥遥领先的一大群人
小kup:
全球大哥们不都是这么干嘛 Google也是一样的呀～

【回复】我看Google的说法是他们用了很多网络上的内容来训练ai，然后那些内容有小部分是cgpt生成的，这是无法避免的。
【回复】回复 @一猫挠挠挠 :Gemini中文语料库薅的文心一言
【回复】回复 @王动丶 :我就在它那个很牛的视频发布以后去找它试了试，然后感觉是个人工智障……
芝麻凛的月亮椅:
越早抛弃良知就能越早拥抱成功[星星眼]

不服输的小李同学:
五十步笑百步😹，当代大模型的预料库咋来的，还不都是爬来的，哪能自己造啊，因为数据问题，吃官司吃的不少了，现在大家已经越来越重视数据了

CMC_Na:
谷歌最新推出了自己的Gemini模型，而且在谷歌AI Studio中的Gemini-Pro问答部分，谷歌直接挑明了其中文训练资料建立在百度文心一言上。对此字节、谷歌等其他类似的行为，我的评价是：乐

【回复】回复 @z海森堡 :大模型不是软件，而且单纯谈论软件时，软件代码也是有开源协议等规范进行约束，不是简单的复制就可以的。一视同仁地对所有违规行为进行批判。
【回复】软件不就是复制来复制去正常操作而已
與郎:
我想知道字节是不是翻墙使用，如果它不受罚，前两天那个被罚的程序员算什么

【回复】回复 @五元二次一 :虚拟信道≠翻墙哦，这些单位都是接入的国际出口专线
【回复】啊？公司可以合法使用vpn。。不会这都不知道吧？有的大学就有自己vpn，

人工智能大语言模型 GPT4 ai 字节跳动字节 LLM openai

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！