总之无论是大大小小的事情,还是日常生活里鸡皮蒜皮的事情或新闻时事,
再或者常识性问题我们都要编撰文章。
我们要建立一个最详细的百科全书,详细到几十或几百年前,国內国外工人工资多少,物价多少等都要编撰记录下来。
因此,我的目標是两年內让极客百科拥有至少1亿篇百科文章!”
“嘶!”
听到高年的话语,现场的人们瞬间倒吸一口凉气,没有想到高年竟然搞得这么大。
因为真按照极客科技这样搞,未来两年里砸出个几亿美元都丝毫不夸张啊。
两年內烧掉几亿美元就为了搞出一个拥有一亿篇文章的百科全书,这代价是否太大了?
然而高年的话语並没有停止,只见高年在人们吃惊然的时候接著说道:
“此外我们还要收购天涯、猫扑等国內国外的知名论坛。
然后將他们统统改版,变成一个类似贴吧一样的网际网路產品,然后用户在上面的发帖与回覆信息等统统要保存起来。
至於不能收购的,我们就直接採取搜寻引擎爬虫的形式爬取保存好他们的数据资料。
此外国內国外的网际网路新闻网站、论文网站,包括数字图书馆的数据我们也要收集保存。
总之一切网际网路的文字信息,我们都要想办法保存起来,形成一个无比庞大的数字资料库。”
想了一下,隨后高年接著说道:
“光是直接爬取资料可能会引起媒体爭议,所以我们要建立一个搜寻引擎业务,开发极客搜寻引擎。
如此不仅可以通过搜寻引擎的gg盈利来维持自身运营,也可以减轻存储数据的经济压力。
这开发搜寻引擎方面的事情就交给李俊与倪光海你们两人负责了,该挖人才就挖人才,该买技术专利就买技术专利。”
听闻到高年的话语,现场的人们深深皱起眉头。
因为他们並没有理解到费这么大代价,收集存储这些文字与语音数据有什么用。
毕竟千度搜索与骨歌搜索都不会这样疯狂的存储数据啊,他们就算存储数据也是有条件的存储。
像极客科技公司这样连游戏里的聊天数据都要保存,简直有些太过夸张了。
虽然高年之前已经讲解过这些数据是人工智慧强大的关键,但这些数据確定有用,確实投入这么大,未来能收得回本吗?
“高年,我们费这么大代价存储这些数据真的有用?真的能回本?”
雷布斯也是忍不住皱眉问起了高年。
毕竟他也是公司的大股东,对於这种浪费公司大量钱財的行为,必须过问一下。
“自然有用,而且用处还相当之大,因为这些可都是无形的財富啊。
我们未来推出的人工智慧究竟强大不强大,聪明不聪明,那就得靠这些看起来相当垃圾的数据了。
1
生成式人工智慧的最大特点就是需要大量的数据,这数据量越多他就会越聪明。
就比如极客聊天软体的聊天数据,虽然其中肯定会存在大量的垃圾数据。
但他们的聊天话题,实际就是生活的方方面面或者新闻时事。
在这其中,人工智慧看得多了,学习得多了,就会越来越了解这个世界。
最终生成式人工智慧回答问题的时候,不仅回答会更加精准,不会出现胡编乱造的现象,更可以变得更加聪明。
这就是为什么一定要保存这些本该刪除掉的“垃圾数据”的原因。