【学长学长,你的复试结束了么?】
苏飞刚从企鹅会议上下线,vx就收到了林依曼的消息。
这小学妹还附着一个哇库哇库.jpg。
【嗯嗯,刚结束。】
【感觉如何?】
对面秒回。
【应该没什么问题。】
【不愧是学长!】
小学妹发来了一个棒棒的表情包。
额,苏飞觉得,在表情包上,这小学妹和老赵应该会很有话题。
【你呢?昨天国竞应该就结束了吧?感觉如何?】
【还是蛮难的,但学长押对了作文题,而且听力考的专业范围也和学长预料的差不多,我感觉有机会前三!】
小学妹又发了个颜文字的表情包。
苏飞看到这句话和附带的表情包,都能想象到这小学妹那激动的样子。
看来这次竞赛,她还蛮有把握的。
不过苏飞随即就想起,林依曼对她自己的厨艺和象棋好像也蛮有把握的……算了算了,还是听天由命吧。
苏飞也不强求林依曼的这个任务能成功,毕竟这小学妹是差点没进国赛的水平,让她在一个月内突击到国赛前三,这难度属实是地狱级,当然,如果能完成任务拿到奖励那是最好不过了。
苏飞这边发了个很棒的表情包过去,结束了和小学妹的对话。
接下来的几分钟,他又分别收到了老赵、舍友们甚至他老爸老妈的询问,苏飞一一回复。
在搞定所有事情后,他便离开了为了参加面试而订的钟点房。
在宿舍面试的话,苏飞怕楼道间吵闹的声音影响到教授们,而校园里的一些会议室他又没权使用,也不想因为这点小事就去麻烦老赵,所以在外边订了个钟点房。
事实证明,隔音效果还真不错,怪不得每次周末这个时间段钟点房都是满满的。
…
…
接下来了半周,苏飞沉迷于图书馆,一直在机器学习这本书和深度学习的一些教材上打转。
而在周三这一天,他的transformer模型终于再次跑完了机器翻译任务。
在苏飞再次更改和微调参数后,transformer的机器翻译任务评价提升到了28.4分,但是所花的时间比上次也多了一天。
这个分数苏飞是很满意了,在如今机器翻译的国际评价普遍只有26分上下的时代,28.4分已经远远超越了如今的所有主流模型,速度上虽然不如上次的结果,但也比主流模型快了百分之十。
苏飞想了想,决定把上次的模型参数和这次的模型参数一起上传,上次的实验结果在速度上比这次快,但分数只有27.3,而这次的实验结果虽然速度慢了点,但分数又涨了1分。
这归根结底,其实是第一次实验时参数比较少,所以计算量小,速度快,精度低。
但无论哪次实验结果,无论速度还是精度,都大大优于目前的主流模型。
既然如此,就把第一次的模型命名为transformer(base),意为基础版本的transformer,而把第二次添加参数后的模型命名为transformer(big),意为加强版本的transformer。
额,我算不算自己给自己打补丁?
苏飞突然感觉自己的做法有些奇怪,搞得像是游戏代码的维修老师傅一样。
因为论文的框架之前就已经打好了,这次苏飞直接做好图和数据,添加进论文里,《attention is all you need》这篇论文就完稿了。
苏飞登录acl的收稿网站,直接把论文和代码库一起传了上去。
acl这个顶会的审稿效率比aaai要高得多。
acl采用滚动审稿机制,这个审稿机制能保证投稿人的论文在一个月内被审稿,这也就保证了不会出现一篇论文因为迟迟不审稿而错过截止日期的尴尬情况。
也正是有这种滚动审稿机制,原本许多想投aaai的论文转投到了acl这边,就是因为这边有保障啊。
投到aaai那边,审稿时间就是看审稿人心情,质量好的论文还好说,只要能一轮完成审稿,几乎都赶得上时间,但问题是投这种顶会的很多论文都是不上不下,卡在及格线边缘的,这些论文赶不赶得上截止日期纯凭运气。
随着苏飞提交成功,论文状态被修改为“已分配ac”,意思是苏飞的论文被提交给了领域主席,acl的领域主席和aaai的技术编辑很像,就是先初筛一遍这篇论文,如果是垃圾论文,那就没必要转交给审稿人了,顺便再查下实验内容有没有违反道德或者论文表述过不过关之类的。
‘系统,使用插队卡。’
上次苏飞买了一张插队卡还没用,这次直接就用上了。
由于acl的独特机制,他倒不担心会因为审稿问题而错过截止日期,但如果能尽快出结果他也是十分乐意的。
差不多十几分钟,苏飞的邮箱就收到了提示,他的论文状态被修改为“正在审稿”。
不过,这个过程估计得蛮久的,审稿的流程上,acl和aaai有些类似,也是采用完全的盲审制度,但与aaai不同的是,acl只会聘请三位审稿人,一轮审完,然后最神奇的来了,最后把审稿意见还得返还给领域主席,由审稿人和领域主席一起讨论,决定录不录用这篇论文,这个讨论的过程可能会耗点时间。
前前后后搞了差不多一个多月的transformer终于被投了出去,苏飞也是伸了个懒腰。
这篇论文他倾注的心血不可谓不多啊,系统的两张灵感激发卡,又死皮赖脸地向老赵借了一个月的服务器使用权限,而且还把这服务器给霸权了。
为了让模型的性能达到最佳,他两次调参实验,因为他不想让transformer像elmo一样,在实验任务和一些细节上显得粗糙,他想尽量让这个模型达到完美。
近十年来,有多少深度学习和机器学习的专家们都在尝试用注意力机制做文章,每个人都知道注意力机制有大用,但又都无法将它的功效发挥的淋漓尽致。
注意力机制就像是深度学习这颗大树上的诱人的粉嫩果实,每个人都想踮起脚尖去采摘这水嫩嫩的嫣红,然而从没人真正品尝到它的魅力。
而今天,苏飞算是把这果实连枝带叶一起带走了。