穿越黑龙江1940_第82章领先一代半的算法

　　而此时处在舆论漩涡之中的林灰在干什么呢？

　　当然是在废寝忘食地查阅那些跨越时空的“参考资料”。

　　这里面有价值的信息太多了。

　　很多在后世平平无奇的东西放到眼下这个时空中都是乱杀的存在。

　　但林灰没有被激动的情绪所左右。

　　因为林灰始终清楚领先半步是先驱，领先一步是先烈。

　　技术真领先个一年半载还好说，冷不丁一下子领先别人四五年就出大问题了。

　　只有能够契合14年这个时代背景的技术才是林灰寻找的有价值的东西。

　　在前世那部ThinkPad里几乎没翻找多长时间。

　　林灰就找到了他的猎物：

　　——生成/抽取复合式新闻摘要算法。

　　这种算法在前世并不算特别新鲜的玩意。

　　林灰之所以看中它是因为这个算法成熟。

　　某种程度上成熟就意味着稳定、性能可靠。

　　林灰几乎可以不再经过额外的调教就直接拿这种算法开发之前他构想的那个新闻摘要软件。

　　当然了，这个算法也只是在前世那个时空不算新鲜而已。

　　放到14这个时空里，依旧是领先一年的技术。

　　虽然只领先一年，也完全够用了。

　　就算是只领先半年，也照样让你绝望！

　　你没打破我垄断之前，我各种高价讹诈赚取巨额利润。

　　你打破我垄断了，我直接白菜价跟着你一块摆烂。

　　气不气？

　　别人气不气不知道。

　　反正兔子已经气得想咬人了。

　　更何况算法这种东西迭代本来就快！

　　领先一年时间几乎等同于技术方面领先一代了。

　　而生成/抽取复合式新闻摘要算法更是领先14年这个时空主流新闻摘要算法一代半。

　　这可不是林灰夸张。

　　事实上，现在的新闻摘要自动生成的方式还是抽取式新闻摘要。

　　抽取式顾名思义就是按照一定的权重从新闻原文中寻找跟中心思想最接近的一条或几条句子。

　　抽取式摘要还在用着“古老”的Textrank排序算法。

　　这种算法大体思想是先去除文章中的一些停用词，之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于。

　　之后再对上述得到的关键语句进行排序，以期能得到想要的摘要。

　　客观来说，这种算法虽然也挺高效。

　　但问题在于抽取式摘要主要考虑单词词频，并没有考虑过多的语义信息。

　　也正因为如此，这种抽取式摘要很难获取复杂新闻的核心内容。

　　而且这种摘要方式的一个极其明显的弊端在于。

　　抽取式摘要对英文新闻还算能凑合着用。

　　但对于中文新闻完全是无所适从的状态。

　　总而言之，抽取式的摘要目前虽然已经比较成熟。

　　但是抽取质量及内容流畅度均差强人意。

　　正因为抽取式摘要的种种不足。

　　之后又出现了生成

　　请收藏：https://m.ruguo.cc