只有达到 state of the art 精度的方法才能发文章吗？

每天给你送来NLP技术干货！

来自：知乎

链接：https://www.zhihu.com/question/40910316

zenRRan进行排版和整理，重点观点已标出。

本人小硕一枚，最近在研究方向上和导师出了点分歧。

导师的大致意思是只有达到 state of the art 精度才能发论文，风险大，我竞争不过别人。所以导师要我引入别的数据。（就像做菜，厨艺拼不过别人，就加入新的食材。。。）

我想请教大家，情况真是这样吗？如果精度不是最高，但是有创新点或其他优势，并且精度比较高，有可能发论文吗？

作者：孔涛

写paper的必要条件从来都不是刷一个state-of-the-art;
刷个state-of-the-art只是说明方法work的手段之一。

大家熟知的在计算机视觉领域比较知名的Li FeiFei教授曾经给学生发过关于什么才是好的research以及如何写好的paper的建议。其中两点非常重要：

Every research project and every paper should be conducted and written with one singular purpose:to genuinely advance the field of computer vision.每个研究的课题/每一篇公开的论文都应该是为了一个目的：推动计算机视觉领域的进步。
A good research project is not about the past (i.e. obtaining a higher performance than the previous N papers). It’s about the future (i.e. inspiring N future papers to follow and cite you, N->\inf).好的研究课题不应该是关于过去的（比如比过去所有的结果都高），而是关于未来的（别人可以从你的paper里受到启发，从而去做更多的工作）。

作者：纳米酱

我说点我理解的现状，可能是种短视和偏激。

现在即便达到sota的精度，一样很难发表文章了，淘金热的时间点过了，除非做工业届不一定落地或者压根就不感兴趣的问题，诸如符号表征和推理，dl新理论，运筹学和强化学习，融合知识和推理的推荐系统，巨大规模的图卷积方案，还有和其它学科交叉，刷没太有人刷的数据，比如医疗。

我从一些朋友嘴里得知，不少地方为了pr自己的AI竞争力，都是不择手段刷出sota，团队的积累和辛苦产出是有的，但是算法未必有重大创新。刷榜博士硕士活的也特别苦逼，俨然伪生化行业。一些非常小的细节没注意，就会导致一周的运算都白费。不是啥地方都有工程团队打造15分钟imagenet，提供让人无脑高速调参的底层，就算有，这些方案也不适用任意问题。

开脑洞的算法能赛过sota，真的是可遇不可求，而且国内很多地方不给开脑洞，因为没法阶段性衡量产出，而脑洞通常是一个人业余自娱自乐做出来的居多，脑袋后面顶着枪口绝对做不出来非线性思维的算法，不论是学术界还是工业届。

哪怕我有刷榜或者研究任务，团队看得起我这种渣渣，让我去接，我通常都会认怂弃坑，老老实实跑去做业务，业余时间开脑洞自娱自乐研究我认为的true AI，比发文章过的舒坦多了。

人呀，重要是要活的开心，别在一个点上硬怼。保持远大理想，也要学会放弃眼前苟且，才能有新生。

作者：魏浩然

以nlp来说，neural machine translation刚出来的时候，并没有展现出对SMT在BLEU值上的优势，但是大家都知道神经网络这东西，只要证明在某个方向可行，效率的提升是迟早的事，自然这种工作会收到欢迎；相反最近word embedding方面的工作，即便去把传统的similarity，word analogy刷高，这样的工作已经不会令人兴奋。

简单粗暴地说，paper最大的卖点还是创新。paper出来挖出许多大坑，这是给别人饭碗；单纯刷新soa，这是砸别人饭碗。哪种受欢迎，不言自明。(后一句纯属玩笑...)

作者：LawrenceLauu

performance不好容易被challenge。

做Machine Learning我不是很了解，但是如果题主是做Data Mining的，那么你的model只要能beat其他同类型的model即可，不需要beat掉所有解决相同问题的model。所以如果你的model在理论上有很大创新，没有同类型的model做相关问题，那么就不存在打不赢baseline的问题了，那么你的model就变成了baseline，你的工作就变成了开坑的工作，这是很好的。

举个例子，做如果你用Random Walk的方法做recommendation，那么你的model只要比其他用Random Work做recommendation的工作要好就行了，至于其他什么matrix/tensor factorization有多好你都可以不用管。当然，如果你能beat所有其他model当然是最好了。

作者：sherwood

1.要是你说的发文章仅仅是一个动作，发出文章来，那没啥必要，文章写的很make sense，并且有insight，那就很OK了。

2.假设说的是中顶会，那很有必要，现在投的文章那么多，而且审稿人大部分都是学生（大部分导师会把审稿任务丢给学生），学生很注重performance，并且审稿任务又重，performance又是比较容易argue的点，所以极为重要。

作者：ninghaoo

大道理其实都懂：发掘新的研究问题的角度，打开新的解决问题的思路，提供扎实可靠的理论分析，比beat SOTA重要。

说白了这个问题就是diss审稿人的。本人先不站在圣贤视角，斗胆猜测之所以reviewer还是关注SOTA，可能有几种情况。

（1）真正提供启发思想的work本来就少，但是每年投的论文那么多（要不考虑一下明年顶会的录取率都降到1%？），也就是说大部分工作是达不到讨论思想启发性的级别的，能在increamental的基础上提高performance就不错了。所以文章本身关注点就是在能不能beat SOTA上。

（2）很多情况下作者是会强调自己work的effectiveness的（无论是否真的有哈）。既然强调了，那么reviewer自然会去看。

（3）毕竟现在深度学习大潮。很多模型都是看上去“好像”合理。但是是否真的有效，很难讲清。故事自然好讲，模型组合搭配自然好搭，但是是否真的直切要害，恐怕只能靠performance来衡量了。

（4）有些文章实验设计不合理。照理说文章的实验应该为文章的贡献服务。也就是说claim自己有啥贡献，实验就来验证，这就与SOTA冲突不大。但有些实验偏要画蛇添足，想十全十美，做一些明明自己模型无法涵盖的task，容易在与SOTA比较时出现问题。

上述（2）（4）两点，很难讲跟reviewer关注SOTA是蛋生鸡还是鸡生蛋的问题，暂且先放这吧。

作者：Arya

根据target avenue不同而不同。有些期刊或会议偏向创新，有些则偏向应用，拿医学图像领域举个例子，TMI(Transaction on medical imaging) 比起MIA(medical image analysis)相对更看重实验结果，而非方法创新。如果更医学一点的刊，比如最近我有研究的MRM(Magnetic Resonance in Medicine)，他们会有针对negative result的录取：

Magnetic Resonance Medicine is generally supportive of publishing papers that report negative results, provided the reviewers and editors think that they will be of value to our readership. While negative results that merely confirm generally-accepted principles are of little interest to this journal, negative results that can help resolve an ongoing scientific debate or potentially avoid substantial efforts to replicate a previously-reported positive result will be of considerable interest.

——即，有价值的负面结果会被录取，比如证明深度学习在肺癌检测上没用。

另外，系统地说，我们发文章，讲究对比实验结果，更讲究实验结果能够证明你的hypothesis 和 motivation 和 contribution，可比baseline，也可以比state-of-the-art。你的idea够有创新，能自圆其说，再有理论支撑，我相信比过baseline就可以发表；倘若方法本身创新性不够高，还比不过baseline就说不过去，往往比过state-of-the-art才有价值，毕竟这种情况大多是沿用他人方法——炒冷饭。

最后，reviewer其实是很主观的因素，reviewer确实可能会因为不喜欢这个idea或者不熟悉这个领域而拒掉一篇「结果不太strong，但idea还不错」的文章，但是如果实验够solid，ablation study、多个metric，多个数据集、理论支撑、等方面都有阐述自己的创新性，被拒的可能性则会大大减小。

所以说，你的观点呢？留言上见！

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型，刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！后台回复【五件套】

下载二：南大模式识别PPT后台回复【南大模式识别】

整理不易，还望给个在看！

继续阅读

阅读原文