机器之心原创作者:思、Racoon
网易有道词典新增AI作文批改,词汇、语法、结构面面俱到,我觉得我的英文论文有救了。
在当前疫情下,我们已经离不开居家学习了,各种备考也得提到日程上。机器之心的读者大多数都是理科生,数学、计算机都还是有一些「天赋」。然而对于英语,貌似这些天赋帮不到我们什么,缺乏「语感」的我们在写作文时经常会犯一些拼写、语法错误。英语阅读或听力等其它部分还好,有比较标准的对错判断标准。但是对于作文,很可能写了错误句子,我们还真以为它完全没问题。也许小伙伴们正在备考四六级或托福雅思,也许正在写机器学习论文,这篇文章将介绍有道词典中的AI作文批改,将我们写的英文传到APP上,它将自动批改打分,并且纠正我们的语法、拼写等错误。AI作文批改功能已经放到了最新版本的有道词典APP中,我们先试用了一下雅思作文与arXiv上的论文。如下左边是雅思作文,它会给作文整体打一个分数,并通过点评告诉你哪些地方需要加强,例如词汇的丰富度、逻辑的连贯性等等。对于我们比较关心的语法,AI作文批改也会给出修改意见,例如「environment」就推荐改成「environmental」。
此外,很多研究者都需要做实验写论文,然而机器学习领域的论文基本都是英文,按我们的思路写完论文后,中间会存在很多细节问题。如上机器之心在上传一段arXiv论文后,AI作文批改确实能给出一些很好的修改建议。例如它让我们将「Ontheotherhand」子句独立出来,确实在结构上有更好的可读性。这么好的应用已经做出来了,而且还是免费的,有英文作文修改需求的小伙伴还不赶快打开有道词典,体验白嫖的快乐~那么问题来了,要实现AI作文批改,它的思路、原理又是什么样的?看思路,自动批改怎么解?有道词典AI作文批改的使用效果已经展示在这边了,从机器学习及从整体过程上来说,AI作文批改可以分为评分、评语和纠错三大模块。其中评分会从词汇、语法等角度打分;评语也会从词汇、语法、结构等维度去考虑,但同时还会提供同义词汇、高级词汇推荐以及佳文推荐等;纠错则需要识别并提供修改意见。评分与评语生成都可以归为评分框架,在此过程中,年级或作文作者的学习阶段需要充当条件。整个评分框架可以结合传统方法与深度学习方法,充分发挥它们各自的优势。例如传统线性模型,我们可以在词、句、篇章维度上给出评分。作文的词数、词汇丰富度、高级词汇是不是足够?拼写、语法、句式掌握是不是没问题?篇章的逻辑性、主题是不是都连贯?
这三个维度并不能概括整体的作文质量,我们还需要一个深度神经网络来从「作文整体」给出一个分数。如下是有道打分模型的主要框架,其中w_i都是某个句子的「单词」,每一条句子会通过卷积神经网络编码为一个「句子语义向量」。这些语义向量最终会通过循环神经网络与注意力机制编码为一个作文的整体分数。
总体上,作文打分与评语生成的解决思路比较容易理解,但是要想模型能自动修改语法错误,这似乎就比较难解决了。难道还用端到端的模型训练?我们真不能确定深度神经网络能自己完成「纠错」这一功能,毕竟,在我们的印象中,语法错误的种类非常多,「语感」这一说法又比较缥缈。有道的解决方案也非常有意思,首先对于简单一些的拼写纠错,我们可以根据命名实体识别(基于BERT)及统计模型给出一个得分,依据词典、编辑距离等众多特征判断拼写是不是有问题。后面对于重头戏语法纠错,有道尝试将其定义成序列到序列的生成问题,利用Transformer的强大拟合能力与有道累积的数据量直接学习。
看起来语法纠错模型的思路并不难,但重点在于Transformer的数据量需求非常大。难道我们真的能像机器翻译领域那样找到海量有语法错误的句子,及修正语法后的对应句子?这里有道采用的是一种迁移与对抗学习的方式,既然我们没有海量标注数据,那么基于真实用户错误分布生成海量「伪语料」,用它先训练Transformer模型。后面因为语法纠错的真实标注数据很珍贵,我们可以在训练完Transformer后再用真实数据微调一番。采用这种训练模式,我们才有可能令Transformer学到怎样改错句。上面就是有道自动改错的主要思路了,如果将其应用到有道词典这个APP上,还有很多需要克服的挑战。有道也做了一系列优化,例如利用知识蒸馏压缩模型、利用预训练BERT快速判断标点与句子对错等等。真正要做成好用的产品,实际挑战远比我们想象中的多。看效果,举个栗子后面可以具体看看有道AI作文批改的功能与效果,我们也可以同时试试Grammarly等类似的工具。先不说效果,吐槽一下使用,其它工具不是要下载Chrome插件就是需要注册与登录,有道词典的AI作文批改的确要方便很多。在考试作文方面,AI作文批改能根据不同的知识水平与考试类别进行专业打分,它会从词、句、篇章的层面上进行点评,语法纠错也会给出更清晰的解析。下图为AI作文批改给一篇高中作文打的分,它同时会生成对应的报告。
除了整体的报告与评分,AI作文批改会详细分析具体哪些地方出现了问题,每一处错误都能查看原因及修改意见。尤其是咱们中国人易犯的冠词使用错误,使用这个批改软件能够较好地帮我们找出这些语法问题,十分方便。
虽然使用类似Grammarly这样的应用也能自动纠错,但相对而言,它们并没有打分功能,也无法判断用户的学习阶段和考试类型,更不会生成专业的点评报告。无法做到网易词典AI作文批改这样的细化处理,针对不同用户群体提供针对性的建议。还能直接OCR除了常规的复制粘贴或手动输入,有道词典上的AI作文批改还支持OCR,只需要拍张照就能转化为文本。可以看到,有道词典对手写单词的识别还是比较准的,甚至连标点符号以及段落的位置都能准确识别出来。即使识别有些小错误,手动改一改也就没问题了。
确认提交后就能进行分析,只不过OCR大大简化了手写作文的自动批改过程,省去了我们自行手敲的烦恼。尤其是身边没有电脑时,这项功能给我们提供了极大的便利。核心功能:语法纠错AI作文批改的核心功能,还是在于语法纠错,这是我们最容易提升写作技能的地方。语法纠错并不是一个新能力,目前有挺多产品都在做这样的事情。但是用Transformer、BERT等模型来做语法纠错,并结合传统方法的优势,这样的思路听上去效果就不会差。我们可以先通过一条相同的错句试试不同语法纠错产品的效果:「Onacoldmorning,whileIwaswatchingagirlbuybreadandmilkinthefiontforme.」。首先有道词典可以检测出三个错误,分别是拼写、冠词和介词错误。我们放到微软爱写作平台后,它只能发现「fiont」存在拼写错误,并且推荐将「buy」换成「purchase」等更高级的词。Grammarly免费版一样,它也只能识别出「fiont」存在拼写错误。
图左为有道词典AI作文批改结果,图右为Grammarly纠错结果。从总体体验上来说,有道词典挑出来的错误更全一些,尤其是当一句话中出现多种错误时。而且因为AI作文批改采用了前沿的DL模型,它对上下文的感知会更强一些,对于较复杂语法问题、或者语篇尺度上的时态问题,它都更有优势。可能你会觉得单个例子不能说明什么,有道词典也做了详细的人工测评。对于脱敏后的批改服务请求,测试人员从海外词典请求、考验用户请求、行业数据集随机采样一部分作为测试集,并评估不同纠错服务的效果。整个测评过程算法同学都没有参与,基本能做到公平测评。
不同产品的纠错效果对比。其中,Precision是语法检测与修正的精确率,Recall表示语法检测与修正的召回率。而F0.5为精度与召回率的调和平均,其值越高,通常表示算法性能越好。从上表我们可以明显的看到,有道词典AI作文批改的三项指标均高出同类先进自动批改软件5%~7%。目前大家已经都可以使用了,有道也表示,AI作文批改还会有其它一些提升,未来将持续优化润色、范文推荐、书面与口语风格转化等功能。有了这些新能力,作文备考、论文写作等更多的体验都会更顺滑一些