来源:学术志
最离谱的论文长什么样?
有一个博主创建了一个博客,欢迎大家投稿各种长的像论文的论文。有个网友投稿,用时序模型分析女友的情绪,从数据收集到结论分析一应俱全,而他做的这一切竟然都是为了能安心打游戏
女朋友的情绪和股票市场同样都是风雨难测,不同的是股票市场有大量从业人员使用各种各样的时序模型来研究,但女朋友的情绪却没有得到多少学者的关注。
最近Reddit上一个帖子火了,有一篇论文发表在Journal of Astrological Big Data Ecology(占星大数据生态学杂志)上,主要是用时序模型研究女朋友的情绪变化。
文章的作者是Chad Broman博士,来自蔓越莓柠檬大学(Cranberry-Lemon University)应用心理机器学习系。
https://jabde.com/2021/05/23/girlfriends-mood-time-series-analysis/
《占星大数据生态学杂志》是一个期刊博客,专门发布一些人们「模仿」学术文章、STEM新闻或者clickbait的地方。
期刊的创办人表示,如果你看到我们的论文,一定要嘲笑我们的「科学」,但绝对不要相信它。请欣赏每一篇文章,我们的目标是在作品中尽可能多地增加幽默感。
Reddit 网友们看到这篇论文后纷纷表示这篇论文给A+评分,他的创意、努力和执行力真是太赞了!
还有网友为论文的后续进行预测:作者的女朋友不同意分析的结果,所以作者对论文标题进行了一次编辑修改,修改后的标题为《前女友的情绪波动时序分析》
还有网友对论文的分析结果有意见,认为LSTM模型就是垃圾,一起看看论文中的Figure 4的画风,逐渐离谱。
也有网友认为,你观测到的女朋友情绪不一定是真实的,所以可能是假数据。
文章的Reference列表也是一大特色,包括情人节为什么重要,如何在长远关系下的生存,甚至还有游玩赛博朋克2077的最好时机。
那这篇长达4页的论文到底写了什么?
这篇fake paper的摘要写道,尽管最近在积极倾听、约会之夜和长时间的枕边谈话方面取得了进展,但预测蒂芙尼(作者的女友)的心情变得越来越困难。并且随着 Playstation 5 独家游戏越来越多,在购买新游戏并连续一周每天晚上与男孩们在线合作之前确定蒂芙尼的心情变得越来越重要。
本文旨在通过比较简单的移动平均线、六倍指数平滑甚至过于复杂的机器学习模型来确定我女朋友急剧增长的情绪波动的最佳预测模型。尽管最初的时间序列分析显示非平稳性和高度季节性的情绪波动,但在马特离婚后,更简单的模型提供了风险更低的预测。
有内味了!
随后在Background 中又详细介绍了她们相识的过程以及互相的矛盾。
十年前,我和蒂芙尼在蔓越莓柠檬大学认识,当时我是理论体育(Theoretical Physical Education)的本科二年级学生。
她们在量子粒子躲避球(quantum particle dodgeball)比赛中荣膺最后两名,随后就开始进行约会,直到大三秋季学期变得太冷而无法出门。那也是我最初开始我的时间序列分析的时候。她和我现在是两个年轻的专业人士,住在我们自己的家中,我们用三年不吃鳄梨吐司(avocado toast)的首付款资助了我完成博士学位课程。
Tiffany 现在是一名免费增值(freemium)游戏营销顾问,但她并不想让我管它叫免费增值服务。她非常喜欢迪斯尼,更喜欢海滩度假而不是山区,并且一直沉迷于权力的游戏直到上一季结束。当她没有工作时,你会发现她无休止地在 Reddit 上滚动查看表情包、Facebook 或 Instagram 上的照片,以及上twitter 来了解她最讨厌的所有名人。
并介绍了时序分析的目的。
自从她最好的朋友开始生孩子并且她被提升到一个她没有接受过培训的压力大的公司职位以来,围绕蒂芙尼的情绪高潮和低谷进行计划变得成倍困难。这不仅是一个问题,而且是一个需要立即解决的问题!
最重要的是,最终幻想 7 重制版也要发布了!(论文发表于2021年5月)
论文的第二章介绍了数据收集和清洗的过程。
Tiffany的情绪波动的严重程度按照类别被记录下来,并带有该主观情绪的时间戳,以及这次情绪波动给作者的钱包带来了多少金钱损失。
时间序列分析和建模只是开发最佳 TMFM 工作的 15%。在 Tiffany 的历史情绪数据能够在中进行分析并在本文中进行预测之前,必须对其进行收集和清理。当然,她的情绪可能是季节性的,并在即兴的网上购物中表现出来,与情绪无关的购物似乎根据假期和特殊场合具有季节性。
但这并不意味着这些特殊的季节性影响和 24 小时新闻周期对蒂芙尼的情绪波动没有影响。由于季节-假期-心情因果关系的问题,建立了心情度量等效测量 (MMEM),以获取季节性数据以准确评估以下等式中的蒂芙尼心情变量 (Tiffany Mood Variability, TMV),其中 SACM 是 季节性自相关矩阵通过平均购买量和社交媒体趋势分析计算得出,并根据她的工作周负担进行标准化。然后通过确保矩阵对称性将 SACM 转换为 TMV。
应用于蒂芙尼情绪波动数据的最简单模型是 7 天移动平均线。虽然这种极其基本的方法可能不是实现更高维度预测器的最佳方法,但与更复杂的替代方案相比,它创建的预测噪声更小。
虽然她的数据在 24 小时周期内似乎是自相关的,但非直观预测的最有效平均窗口优化为 7 天移动平均线,以防她只是感觉周一的情况不好。在极端多变的日子里,情况并非如此,在 2018 年快艇和怀孕恐慌事件期间,蒂芙尼的情绪按小时移动平均模型实施。
当然了,捉摸不透的女朋友当然也得用上捉摸不透的模型!
没有什么比 Tiffany 的情绪波动更像是一个无法解释的机器学习黑匣子的黑匣子了。作用使用长短期记忆 (LSTM) 结构。
作者表示,即使经过十年的稳定关系和许多起起落落,关于那个「美妙的女人」,仍然有很多困惑。尽管经过多年的约会和广泛的时间序列分析,我认为我对她的了解程度很高,但当最终幻想7在不到三周内问世时,黑盒机器学习算法方法可能是最佳方法。
当然了,最后就是激动人心的实验结果环节,如上面那张图所述,实验结果图的画风十分诡异,也表明了再牛的模型也无法预测女朋友的情绪轨迹。
七日移动平均线能够最好地预测Tiffany情绪的总体趋势,但没有预测到其他模型预测的较低逼真度变化。六元组指数平滑函数能够实现更高的保真度预测,但错过了许多局部趋势。虽然ARMA能够捕捉到更大的趋势和更多的本地趋势,但它产生了危险的不准确预测,如果采取行动,至少会开始一、两个晚上关于「这种关系到底会走向何方」的讨论。
文章的结论部分作者依然对他心心念念游戏进行展望。
距离在我的PS5上下载Final Fantasy 7重置版还有18天,这些算法都在积极监控Tiffany的购买行为、情绪变化,以及关于她的下属的工作对话,而这些下属并不知道他们在做什么。
一旦所有预测模型(LSTM除外)达成一致,我相信我能在6月10日至7月4日假期期间安排足够的晚间视频游戏时间,去她父母位于肯塔基州路易斯维尔的家玩游戏,这样我的朋友就不会叫我被鞭打了。
关于未来工作,作者表示通过正确的建模和一些常识性的风险管理,这些技术可用于确定从杰弗里那里购买快艇的最佳时间。我知道匹兹堡附近没有很多适合快艇的好地方,但这更多的是对记忆的投资,并且有了足够准确的预测模型,它可以与蒂芙尼以非对抗的方式重新解决。
不过好像少了点什么,这篇论文没有「致谢」女朋友!
-END-
继续阅读
阅读原文