穿越黑龙江1940_第259章疯狂的数据

　　第259章疯狂的数据

　　举这样一个例子：

　　在图象识别里面，经常我们可能需要上百万的人工标注的数据，

　　在语音识别里面，我们可能需要成千上万小时的人工标注的数据。

　　涉及到机器翻译更是需要数千万语句标注数据。

　　说实话作为一个来自前世往后几年的技术人员。

　　此前涉及到人工标注数据的价值林灰还真没太当回事。

　　但现在看来，这玩意的价值此前明显被林灰忽视了。

　　林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

　　一个单词的费用差不多是5—10美分之间，一个句子平均长度差不多是30个单词。

　　如果需要标注一千万个双语句对，也就是我们需要找专家翻译一千万句话，这个标注的费用差不多是2200万美元。

　　可以看到数据标注的费用是非常非常高的。

　　而这仅仅是2017年的数据标注成本。

　　在现在的话标注成本岂不是意味着更高的数据标注费用？

　　要知道现在几乎不怎么注重无监督学习。

　　在无监督学习方面更是几乎没啥可堪一用的模型。

　　在主流的机器学习依旧是靠监督学习和半监督学习。

　　而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

　　以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富？

　　如果说在前世2017年，1000万条双语数据标注就要耗资两千多万美元。

　　那么在机器学习整体比较滞后的这个时空的2014年。

　　同样的1000万条双语数据标注需要多少钱呢？

　　林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

　　“两三亿美元”这个数据似乎有点吓人。

　　但其实也不夸张。

　　之所以说不夸张有两方面的原因：

　　一、即便是在前世，数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

　　而在此之前，涉及到数据标注从来就跟“便宜”两个字不沾边。

　　同样拿此前林灰所列出的例子作为援引：

　　在前世2017年1000万条双语互译标注的成本约为2200万美元；

　　注意这仅仅是双语互译的标注。

　　“双语互译”只是某两种语言之间的互译标注。

　　只是两种语言之间的互译标注就需要两千多万美元？

　　那涉及到上百种语言的互译需要多少钱呢？

　　这个问题并不复杂，简单的排列组合问题：

　　C(100，2)==4950*亿美元==1089亿美元

　　不难看出若需支持上百种语言的互译，人工标注训练集的成本将达到上千亿美元。

　　而这仅仅是理想情况下的估算，如果真要按部就班进行这样的标注实际成本远不止于此。

　　毕竟很多小语种之间的互译

　　请收藏：https://m.ruguo.cc