前几天OpenAI的老板说,目前还没有在未来半年训练GPT-5的计划。
所以年内不大可能会有新版本的ChatGPT了。
这对国内其他语言大模型(LLM)来说是个好消息:指不定可以利用这个时间窗口,弯道超车。
但我还是没那么乐观。
前几天跟我以前的技术合伙人聊了聊,他说他挺认同 「中文语料质量比较差」的观点。
英文有句谚语叫「We are what we read」(我们是我们读的书的总和)。
而AI这东西跟人一样,输入AI的语料库的质量决定了它输出的质量。
如果输入的数据都是*,那输出的也都是*(Garbage in, garbage out)。
所以从这个角度,在LLM方面,中文语境为主的国内厂商要弯道超车可能还是比较难。
So, 中文互联网真的没有好内容吗?
很多人之所以这么论断,主要还是因为中英的内容数量本身就不在一个量级——

Anyway,我觉得说「中文语料库不行」的人,更多还是想发泄情绪上的不满吧。
毕竟AI的学习,也不是囫囵吞枣,还是会做数据清洗的。
另外,虽然互联网普及率上来了,但算法也造成了信息茧房。
你要完全屏蔽非知识类内容也不是没有办法。
还有就是,追求认知提升的人们总会想到自己的新去处。
比如我身边有很多朋友都很喜欢用Podcast/播客——浮躁的多数人是没法静下心来收听严肃内容的。