穿越黑龙江1940_第252章另类的学术习惯

　　准之上的科研人员则普遍有着稳定的学术风格。

　　学术风格的稳定尽管不能意味着一切。

　　但起码也意味着该研究者对学术路线有着比较明确的规划。

　　或许林灰本人也没注意到他的学术风格。

　　但伊芙·卡莉觉得林灰是有属于其自己的学术风格的。

　　而且这风格很明显。

　　林灰拥有学术风格这件事也能侧面反映出其学术路线的稳定。

　　故而伊芙·卡莉是很相信林灰能够按部就班实现其野心的。

　　而林灰是什么样的学术风格呢？

　　太具体的伊芙·卡莉暂时也无法精准描述。

　　但就学术习惯方面而言，伊芙·卡莉觉得林灰有一极其鲜明的特征。

　　那就是林灰总是致力于赢在起跑线上。

　　当然赢在起跑线上只是比喻说法，确切地表述应该是

　　——在解决学术问题以及实际上的工程问题的时候林灰很倾向于将可能出现的问题扼杀在萌芽状态。

　　得出这一判断，伊芙·卡莉自然有相应的依据。

　　就拿前不久林灰在论文补充内容中所提到的预训练来说吧。

　　此前涉及到“训练”的时候人们往往想到是对训练生成的模型由机器学习方面的专家进行调整。

　　很少有像林灰这样的对训练过程就有想法的。

　　毕竟涉及到语料训练这已经是一个语言模型构建很靠前的问题了。

　　除了这个例子之外，还有此次来到中國和林灰的第一次谈话。

　　当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。

　　原本伊芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。

　　而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。

　　要知道在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。

　　毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。

　　伊芙·卡莉觉得这些都可以佐证她先前的判断。

　　依据她先前的判断的话，还可以在此基础上进一步推断。

　　如果一个科研项目涉及到多个环节，每个环节都有可施为的空间。

　　那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。

　　知道这个有什么用呢？

　　当然有用，甚至是有大用。

　　此前伊芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。

　　在林灰提出了生成式文本摘要算法之后。

　　现在的自动文摘实现方法主要分为抽取式方法和生成式方法：

　　这两种摘要方法有很多原理和实际效能的区别。

　　但此二者本质上都是自动文本摘要。

　　举凡是自动文本摘要，其技术框架就都可以概括为：

　　内容表示→权重计算→内容选择→内容组织。

　　内容表示是将原始文本划分为文本单元的过程，主要是分字、词、句等预处理工作；

　　内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。

　　权重计算则是要对文本单元（即预处理后原始文本）计算相应的权重评分，权重的计算方式多样，如基于特征评分、序列标注、分类模型等提取内容特征计算权重。

　　请收藏：https://m.ruguo.cc