海外市场并没有这样的产品。

    维基百科实在是太强大了。

    好在两年前周不器曾批准了一笔交易,紫微星国际收购了一家内容产品平台Quora,也就是传说中的“美版知乎”。

    做内容,始终是紫微星在国内外市场都在努力发展的一个方向。

    未来的互联网市场,归根结底是内容为王。

    谁有内容谁就有制霸权。

    包括未来的人工智能大语言模型也是。

    就比如ChatGPT、文心一言这类的AI产品,想要有令人惊人的智能表现,就一定得经过无数数据内容的训练才行。

    可是,数据是不能乱用的,只有公开数据或者开源数据,才能免费地供全球的开发者使用。

    全球有一个超大型的免费的数据库。

    什么语言都有,90%以上都是英文的语料库,中文语料数据也就是2%左右。

    全球几乎所有的AI模型,想要训练都要依靠着这些公开的数据内容才行。因为都是英文数据,所以这些AI模型,一定都是以英文为核心。

    所以当百度的文心一言推出之后,就会出现很多令人难以理解的事……其实原因很简单,文心一言使用的是英文数据,中文语料的数据实在是太少了。

    别看国内人多,但网络上真正有价值的内容实在不多,稍微出格一点,这些有价值的语料就要按法律法规给删除了。

    就剩下了一堆没法训练AI的垃圾内容。

    就比如,《大时代之巅》到底是一本怎样的书?

    如果有人说好,有人说不好,这些内容就都是有价值的内容,AI模型经过一番的训练和评估,从而给出比较客观公正的评价。

    如果作者想要维护评论区的和谐,把所有说好的内容都留下了,说差的内容都删除了,最后只剩下了一片赞歌,那么即便这些赞歌都是对的,这也是垃圾信息。

    因为对AI模型来说缺少了多元化的评判。

    从出发点到终点,有一万条路,AI模型的训练就是把这一万条路都走一遍,然后选出最合适的那条路,这才是AI的价值。

    就像生物制药,有一万种选择,AI帮忙给出最好的那几个选择,就会大大地缩减研发经费、提高研发成功率。

    要是一开始就只提供一条路,那还训练个屁啊,不给AI选择、评判、思考和分析的机会,就只告诉他一个标准答案,AI就会毫无意义。

    德文、法文、日文、韩文的数据量太少,中文的数据量很大,可是因为环境的限制有价值的数据也很少。

    所以,想训练出世界级的AI模型,就只能用英文语料来训练。

    这就需要一些弱势语言的AI模型,要有语言转换能力,去转换成英文。