作者|James
本周有一篇文章提到,现在你很难使用百度这样的搜索引擎,搜到历史上有关“马云”的网页。比如说在百度上指定1998-2005年的时间段搜索“马云”这个关键词,只有一个结果,而点开后发现也不是这个时间段内的。类似的,马云、雷军、任正非甚至周杰伦和李宇春也都一样。
对于结论,他悲观的感慨是中文互联网的源头性问题,这不禁让人联想到这个AI时代,ChatGPT的中文语料数据占比仅为0.09905%,加上目前国内的AI工具确实落后于美国,于是本文小小的刷屏了一把。
这篇文章讲的东西或许太商业,太直男,那么谈到近些年豆瓣消失的瓜组、鹅组,A站NGA论坛消失的各种爆料贴,知乎上各种极具思辨价值的老帖,大家是不是忽然心有戚戚焉?
事实真的如此吗?
如果有一部分事实真的如此,那这种“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?
“崩塌”,不只是中文互联网
作为一个不以观点先行的媒体,视智未来的编辑部第一步想想法是验证他的结论是否成立。
结果嘛,好像还是能搜出一些内容的,甚至不需要用谷歌,只用百度就行。因为我们使用了一个搜索引擎的常见语法。打 site: 加上网址,可以限定搜索结果仅限于某个网站。
同样,我们还能找到历史悠久的官方媒体上的一些老内容,权威媒体的上网时间也更早。比如说,当时央视诸位名嘴还很年轻,很真诚,认真给网友写日记,编读往来还会放在网上。这简直就是80年代春节联欢晚会期间,北京观众可以打电话点歌的赛博版本。
所以,如果限定结果来自这些网站,那么它们仍然保留在服务器上的存档内容,就有可能因为你的搜索而重见天日。
看来,那些“美好的旧时光”在互联网上并不是全都消失了。
但确实,要找到马云那几年的新闻,是需要一些运气和技术。
另外,“加速崩塌”是否只是如文中所说,是“中文互联网”特有的现象?
简单的答案是:哪有,全世界都这个熊样。
就在这篇爆款文章发出来的前两天,美国的皮尤研究中心做了一项调查,显示2013-2023年间存在的网页中,有1/4已无法访问。
这个消息在中国得到的反应就不说了,我们来看看日本网友的反应
首先,他们祭奠的是雅虎的个人主页服务地球村(GeoCities)。   
日本家庭用PC和互联网的时间大概跟美国同步,这使得在世纪之交时的一些最初的网络服务,日本人也在积极使用。因此,日语成为了互联网最早被广泛支持的东亚语言。一些西方开发的常用软件,会在多语言版本选择中列举一堆欧洲语言,然后孤零零地提供一个日语。
接下来就是一些常见的博客托管服务。其实,“博客”(Blog)这个词已经有年头了,现在的人根本不了解。由于服务是本土化的,不同地方都有自己的博客网站,例如在台湾是无名小站,国内最著名的是新浪博客——韩寒、徐静蕾等人曾把那里当作主阵地。
现在我们还在用的微博,全称是“微博客”,也就是字数较少的博客。另一方面,有些人听小宇宙。“播客”(Podcast)这个词,在被译介入国内时,也是借助了博客的概念。如果现在想要向一个新人解释什么是播客,恐怕得说:播客是一种声音公众号。
是的,时代变迁就是这么无情,就好像我们会说Word那个保存的图标3D打印出来,就是“3.5寸软盘”。
说道这里,欢迎关注我们的播客节目,近期恰好遇到了一个综艺营销公司的负责人,刚刚更新了一期关于《歌手2024》的节目。

不“崩塌”,在技术上无法实现

在美国,零几年的时候正经历一个叫Web 2.0的奇怪时代。意思是,网络1.0是少数编辑、记者或作家提供有限的内容,2.0时代是每个人都可以自己写内容、自己发布,让其他人看到和分享。奇怪的时代出现了很多奇怪的网站。
比如说,既然所有人都在写自己的专栏,谁的内容能脱颖而出呢?就需要有勤劳的推荐小能手不断挖掘相关信息,这就造就了一个叫“挖掘”(Digg)的网站。Digg和StumbleUpon这两个推荐引擎负责将世界各地有趣的文章,以投票方式决定谁显示在最上层。
在国内也有或大或小的网站,选用同样的推荐机制,其中坚持时间最长的一个叫做“抽屉”。抽屉新热榜是一个非常长寿的网站,一直坚持到这几天(!)才发出关站的消息。
早在此之前,它的海外祖师爷都已在很早的时候被贱卖掉,其中的数据也没有了。如果有人能够按月备份每一阶段在网站上被顶到最前面的信息,那将是非常有趣的事情。
国内这方面,最被众人皆知的是互联网档案馆(Internet Archive),这是一个历史地位几乎与维基百科同等重要的非营利组织。它存在的唯一目的是备份那些因自然或人为灾害而可能丢失的内容。
虽然在国内访问有点困难,但它同样可以备份大多数国内的网站。只不过,如果要有备份行为,可能需要你在看到这个网页时,随手用一个浏览器插件点一点,通知网站可以抓取这个页面了。
互联网档案馆一直在发起行动,备份那些随时可能会消失、拥有大量珍贵数据的站点。之前比较著名的有:
  • 2018 年,备份和保存来自流行的照片共享平台 Flickr 的图像。Flickr 决定将免费帐户限制在 1,000 张照片,这可能导致数百万张图像被删除。
  • 2018 年,存档“轻博客”平台 Tumblr 的内容。Tumblr 禁止成人内容的决定,可能导致该平台的大部分内容和创意作品丢失。
  • 2020年以来,存档与新冠疫情大流行相关的全球各地在线内容。
这点努力相对于Web 2.0时代实际损失的其它海量内容简直是杯水车薪,至少还有共享网络收藏夹Delicious,谷歌旗下众多用户依赖的阅读器Google Reader……都一点痕迹也没有了。
即使是那些一直坚持下来的,有着20年以上历史的长寿服务,在运营过程中也会反复更改政策。典型的比如谷歌Blogger服务,清除了一波超过10年没有登录过的账号。但是,很多此类账号的停用,并不意味着作者或读者放弃了这个内容,或许只是已离开人世。
像谷歌、微软、雅虎这些拥有大量陈年老用户的账号系统,处理此类信息时都面临两难境地。它们不可能直截了当地告诉用户,你的东西放在我这里只是临时存储,总有一天要删除掉。但当这些信息的主人也“不再在意”它们时,唯一现实的处置办法就是丢弃,因为任何形式的保管都需要费用。
说个残忍的事实,在国内连实体的墓地也是如此,在公墓落葬或存放的骨灰,需要每隔20年左右,由继承人或亲属缴纳墓穴的管理费。这种行为本身也是供奉的“香火”仍然存在的证明,如果断了,那这个墓穴就会被空出来,留给新的逝者。
前几年,国内的很多门户网站,也丢弃了它们之前长期存放的内容。包括网易博客、微博、QQ空间、人人网等——一大批内容在这个时候被丢弃。其中很多内容,因为存储技术已经过时,所以无法再对外展示。
零几年,网页上经常使用的Flash技术,现状是已经被彻底抛弃,就算变通支持读取,也可能因为无人开发,为你的浏览器带来安全风险,没有任何网站官方支持继续读取Flash内容。然而,QQ空间的某个版本大量运用了Flash技术。
我们需要知道的一点是,互联网内容随时会被丢弃,这并不是所谓“中文互联网”的过错,而是自然规律的一部分。
互联网是一个人为建造的生态系统,但在大多数情况下,人类依靠自然的本能反应来使用它。所以这个人造生态系统的表现,就跟自然界中的热带雨林,那种自循环的生物圈一样。
总有生老病死。死亡的下一步就是腐烂。就像《寻梦环游记》里说人类一样,内容也会死两次,一次是停止更新,另一次是被所有人忘记。
大量自然消失的东西,最终会归于泥土。现在人们想的是,找一些侥幸保存得很好的内容片段,再把它们做成标本。少量东西可以这么做,但妄想所有内容都能维持原来的状态,那是“逆天改命”,违背自然规律。平台方第一个不答应——毕竟是他们在付费。

相信后人的智慧:互联网时代的大搬运 

看上去,中文互联网确实在大规模的消退,这甚至是不可逆的一种现象。更可怜的,即使是晚近的内容——哪怕是知乎、豆瓣或小红书上,最近三四年的内容,也可能正在快速地消失。
但我们应该对由00后10后掌管的这一代互联网保持足够的信心。视智未来发现,现在的小孩子们,也自有一套保存、传播和分享这些信息的方法:
最典型的是搬运。搬运是一种口耳相传,当然会有信息失真,但因为有截图,这种失真现在其实较少。
很多引起共鸣的个人经历和故事,以这种方式得到传承。比如AcFun的管理权一直很混乱,被接手后一些原内容不慎丢失,文字区内容几次搬家,搬到“A岛匿名版”去,也是关了又开。但现在有不少内容先是被微博抢救出来,然后官微挂了,又被搬去知乎。
虎扑的步行街也有一个官方运营的号,它上面也会备份很多帖子。
NGA则是志愿者在B站转贴——是,用B站视频转贴。把长帖子滚动截屏后发出,这样的话你看人家帮你往下滚动,你不用动鼠标,还可以欣赏新挂上去的弹幕。
及时备份这些内容非常有必要,这些地方近两年引发人们议论的帖子,都是跟“性别战争”相关的,这很敏感,所以原帖基本上都不存在了。但它们的尸体碎片、网页快照等,被搬运工传递了下来。
还有一些是跨越私密墙或付费墙。财新的文章就不用说了,特别是在涉及到公众利益的报道出来之后,很多地方都有人转。
更经典的是豆瓣有几个小组只存在于传说中,比如瓜组、鹅组、尸组。但在微信公众号等地方,有不止一个账号会专门总结和转载热门“瓜”。这些内容大多“看起来”比较保真,确实也有可能作假,但是……如果传的本来就是流言,为什么需要“原版的”流言呢?
更有名的则是小红书的截图,它正以一种奇怪的方式流传出去:你在知乎或微博等地方,能看到大量来自小红书的截图,但如果按照截图上的文字去搜索原帖,则一般会搜不到。
有些人不断开新账号,在小红书上只发一条帖子,火了之后截图转到营销号上,然后注销账号走人。
小红书目前的流量分配机制是,每个新用户都有平等的前几条帖子,可以获得10万以上阅读量的曝光。这对新用户冷启动非常有效,因为很多时候没人能想到自己也有机会出名,一下子就被平台粘住了。本来就应该这样,“每个人都有15分钟成名的机会”。
然而,小红书的大多数账号在前两三条帖子火爆之后,通常会后继乏力,平台给予的流量会迅速下降。所以实际上,在小红书自然达到1000粉丝是非常困难的,这也是开通广告后台的门槛。
对于搜索引擎来说,小红书是无数个流量黑洞之一。它不仅设置了对任何搜索爬虫静止的状态,而且如果找到证据证明有人使用内容,恐怕还会走法律途径。
现在,大模型方面使用这些网站内容作为语料库,都得支付动辄几千万的费用。搜索引擎作为准公共服务,本应与各个社区达成默契,即他们开放内容让人们可以便捷搜索。但这也只是一种默契,而非法律规定。所以现在,任何地方的搜索引擎,都是不完整的。
一个外国人想要观察中国互联网的流行动态,必须熟练使用几种到十几种流行的中国网络服务。这确实造成了一定的障碍。当他们不在中国,只能离岸观察时,得出的结论往往更离谱,离谱到像ChatGPT最近一次更新使用的分词器,排在前面的都是一些不堪入目的关键词。
但是在这里,视智未来必须说一句反常识的话:这种“围墙花园”的状态,长远来看,说不定反而更有利于信息的长期保存。
那些中小型网站,如果开放搜索和访问,意味着大多数情况下人们会信任它。但它不一定值得信任。像天涯那样曾经名噪一时的网站都有可能最终关闭,而且不给人们信息备份和补偿的机会。
所以,如果所有东西都存在像微信公众号这样的超大平台上,这也意味着它们跟微信这个平台一起坚持到海枯石烂的可能性很高。
如果你2005年选择把一段自拍视频放到优酷上,你现在还能看,但如果放在六间房上,那就不行了。我现在要看《一个馒头引发的血案》——那是多么无与伦比地作品啊!——我只能去B站找。去搜“万恶之源”,很多怀旧的东西都能看。
人们有理由担心微信公众号上的信息搜索不到,有朝一日平台发生变化,上面的东西都会消失。当然是个风险。但是自2005年以来,非中文互联网上90%以上的视频都存在YouTube一个地方,所以他们也应该担心这个问题。说实在的,当这俩地方出故障的时候,你可能更需要担心自己的人身安全等更基本的命题。
与拜托平台长命百岁相比,更有效的信息备份,应该是有一个人类来负责维护。
例如一个资源,最早可能是bt种子,后来放在115网盘上,后来可能迁移到迅雷,再到百度网盘,然后是阿里或夸克。只要负责维护这个资源的人还在世,这份资源就不会“丢失”。如果真的找不到,那也可以去外面的各种个人站或互联网档案室找到。
人们总是抱怨,现在不管找什么资源都得掏钱。有些东西以前是可以免费下载的,现在需要花十多块钱买一个不知名地方的会员,其实就是便宜了站长个人。
这其实是理所应当的。之前使用那些服务,完全仰赖他们的良心。但让这件事有利可图,最终会让信息保存更长久。求人办事最好的方法,就是掏钱。

互联网的新陈代谢,只能接受它

如果还有一些并没有被搬运,我们也找不到这些考据的来源网址,对大多数人,会有多大影响吗?其实并没有。
更重要的是,我们有了平替。
哪怕是当时被认为是不可替代的“第四权”,作为社会良心、以身犯险的调查记者,现在也勉强有了点儿“平替”。比如以一己之力带动淄博烧烤热潮的B太,他出道以来进行的舆论监督,节目放到央视的《经济半小时》和《焦点访谈》播也并不违和。
真正的电视端则显现出青黄不接,之前的几个调查栏目虽然名称还在,但用途已经更换了。总台新开了一个名不见经传的《财经调查》栏目,用来承接之前那些针砭时弊的作用——其实或许能多几个B太也是可以的。
现在,人们交换生活经验,或者为自己争取公道的地方,也变换了场地,他们从电视台、报纸转移到了短视频、公众号
回到本文开头的马云,如果你搜索马云在历史上的痕迹,你可能会发现在不同的营销号中,流传着他做过的一次公开访谈:“他们所说的那些风险一个也没成真,而他们没有预料到的问题却全都出现了。作为专家来说,他们说的全对,做的全错。”  
“速朽”的互联网现状,一定是一场再糟糕不过的悲剧吗?
不是的。它是一种自然规律的体现。
在互联网这个人造的生态系统中,一棵参天大树也有倒下、死亡、归于尘土的时刻。想要把这棵树和上面的每一片叶子做成标本,保存起来,想法很唯美,但可能不是人力能做到的,而且也需要考虑这是否有必要。
那些过去就不再回来的时光,总是提醒我们应该活在当下。而大浪淘沙之后,有些真正重要的事情,也确实会以更永久的方式留存下来,成为人类文明的一部分。
从历史的眼光来看,在中国普及了30年的国际互联网,还处于其生命周期的早期。将时间拉长一点,未来一二百年,可能仍然需要我们在2024年生产的内容的备份。
如果你认为这一点对你很重要,那么从现在开始,由你自己来留下一些你感兴趣的内容,传给后来人,一点也不晚。备份内容最好的时间点是20年前,其次就是现在。
继续阅读
阅读原文