穿越黑龙江1940_第173章纳税千万＆社会责任

　　第173章纳税千万＆社会责任

　　……

　　上午无事可做，林灰又去找了伊芙·卡莉。

　　将要出国，林灰觉得和一些歪果仁接触一下有助于口语上的进步。

　　另外昨天林灰和伊芙·卡莉也只是聊了一个基本的框架。

　　还有很多东西需要进一步深入聊聊。

　　刚好伊芙·卡莉也有和林灰交流的意愿，于是两人又一次在状元学府那见面了。

　　不过这次黄静和米娜·卡莉都不在。

　　尽管是孤男寡女共处一室，但换谁和一个异性聊一上午处理高维数据这种东西估计也兴不起什么异样的想法。

　　这次和伊芙·卡莉沟通，依旧是伊芙·卡莉说得多。

　　林灰更多是扮演一个倾听者的角色，从伊芙·卡莉介绍的情况来看。

　　伊芙·卡莉领悟的很快，她已经大致了解了先前林灰给他说的应用分布式词向量处理原始数据。

　　并且初步按照林灰先前所介绍的理论弄了一个分布式词向量的模型。

　　这个模型虽然效率还不是很高，但已经有雏形了。

　　伊芙·卡莉也意识到这个模型效率不是很高了，她不明白怎样做到林灰描述的那般高效率。

　　林灰看了伊芙·卡莉搞得那个模型，一下子就明白了为什么伊芙·卡莉这个模型效率不够高了。

　　因为伊芙·卡莉搞得是静态分布式词向量模型，当年最早诞生的分布式词向量的模型就是静态模型。

　　可静态模型终究不是动态分布式词向量模型。

　　静态模型效率上多多少少比动态分布式词向量模型要差一些。

　　不过伊芙·卡莉没能想到构建动态分布式词向量模型这不怪她。

　　很大程度这是因为一个时空或者说特定一个时代人们思维的局限性了。

　　林灰可以提点一下伊芙·卡莉的。

　　但伊芙·卡莉却倔强地表示她要先想想。

　　还真是个倔强的女人，不过林灰尊重她的想法。

　　伊芙·卡莉比较好奇林灰先前搞得生成式文本摘要算法的语言模型究竟是用何种方式训练的。

　　这就涉及到监督学习和非监督学习之辨了。

　　一般来说，涉及到自然语言处理这个方向基于监督学习的方法首先需要使用人工或半人工方式构建一批所研究领域内的文档的语料，然后选取适当特征训练相应的分类器或序列标注器，再用训练好的分类器或序列标注器对新的文档的每个句子进行标注，将标为候选的句子取出后拼接成摘要。

　　而基于非监督学习的方法则完全反其道而行之，非监督学习不需要人工或半人工标记的语料库。

　　如此，基于非监督学习工作量往往要比基于监督学习的工作量要小很多。

　　而以上只是监督学习和非监督学习一点区别而已，涉及到此二者更深层次的区别一句话两句话根本说不清。

　　事实如此，一直给伊芙·卡莉聊到下午三点左右林灰才

　　请收藏：https://m.ruguo.cc