新智元报道  

编辑:Aeneas 好困
【新智元导读】操作人员一手抖,数百万美元瞬间蒸发,这件魔幻的事,最近发生在了美国。
1月11日,美国民航史上发生了可以载入史册的一幕:因为NOTAM系统故障,全美航班遭遇大规模停飞。
据ABC采访的知情人士称,这次中断所造成的损失可能会高达数百万美元
但谁能想到,背后原因,竟然是因为外包程序员手抖了一下。
系统「故障」,全美航班停飞
1月11日周三,美国东部时间凌晨2点左右,飞行任务通知系统NOTAM(Notice to Air Mission Systems)突然下线。
美国联邦航空管理局(FAA)不得发出声明,要求航空公司「停飞全美所有航班」。
与此同时,敦促相关工作人员尽快恢复系统并使其重新上线。
经过通宵排查,FAA在美东时间上午8点50表示,目前美国各地的航班正在逐步恢复,停飞已被解除。
虽然系统故障的时间相对较短,期间正在飞行或降落的航班也没有受到影响。
但是,航班全部停飞所引发的,是一场全国性的空中交通拥堵,而且至少需要一天时间才能疏通。
根据航班跟踪网站FlightAware的数据,由于系统崩溃,到傍晚时分,东海岸有超过1,300架航班被取消,9,000架航班延误,数千名旅客被迫滞留在机场。
毫不夸张地说,这是美国自2001年9月11日以来,首次全国范围内的航班停飞。
然而,经过FAA长达一周的调查之后所发现的原因,却让人有些哭笑不得——
有人不小心删除了一些重要文件。
这个人是谁呢?
注意看报告中对于主语的描述——「contract personnel」。
这……看来全世界出事,都是临时工背锅呀。
官方通告:https://www.faa.gov/newsroom/faa-notam-statement
美国联邦航空管理局(FAA)对上周飞行任务通知(NOTAM)系统中断的初步审查确定,合同工在纠正实时主数据库和备份数据库之间的同步工作时无意中删除了文件。到目前为止,并没有发现网络攻击或恶意的证据。FAA将继续调查与此次故障有关的情况。现在,FAA已经对系统进行了必要的修复,并采取了措施使NOTAM系统更稳健。
总之,这事儿是闹大了。现在这次由NOTAM崩溃导致的大型停飞事故,已经永远记录在了NOTAM的维基百科里。
不是蓄意的,只是手抖了
但是仔细看上面那份声明,我们能发现不少「华点」——
系统中的哪些文件被删除了?是否造成了某些数据永久的丢失?对于运行系统如此重要的文件,为何可以这么轻易地被删除?涉事合同工是如何处理的?
The Register已经向美国联邦航空局提出了上述问题,但美国联邦航空局只以官方声明回应了提问,并没有回答任何具体的问题。
出了这么大事,相关部门却语焉不详,当然引发了极大的舆论风波。
系统故障后,美国的立法者对美国联邦航空局发表了严厉的言论,120名国会代表联名写信,要求航空局给出明确解释。
联名信:https://transportation.house.gov/uploadedfiles/2023-01-13_-_letter_to_dot_on_notam_system_outage_final.pdf
这些代表们向交通部长Pete Buttigieg告状说,过去一年内,航班延误和大规模取消的情况一直有增无减,并且很多问题明明就在美国联邦航空局的控制范围内。
他们列出了满满两页的问题清单(共14个),要求Pete Buttigieg及其团队必须在1月25日前给出答复。
1. NOTAM系统中断的主要原因是什么?这个主要原因是什么?
2. 系统故障是什么时候发现的?系统错误持续了多长时间?
3. 在发生此类故障的情况下,FAA是否采取了任何预防措施,为NOTAM系统提供弹性和冗余?
4. 如果是这样,为什么这些努力失败了?如果不是,请解释您的系统为什么缺乏冗余,以及为何没有进行必要的分析,以确定此类冗余。
5. 在发现故障之前,系统是否提供了不可靠的信息?如果是这样,请提供不可靠或不正确数据输出实例的列表。
6. 在获悉系统中断后,美国联邦航空局是否进行了安全评估以确定潜在的安全影响,以帮助在主要和次要系统中断期间为决策提供信息?如果有,请提供此类活动的结果评估。如果没有,请提供FAA决策的依据。
7. 在得知NOTAM系统中断后,FAA采取了哪些行动来通知所有受影响的航空业利益相关者?这些流程是否有效且高效地运作?
8. FAA在过去两年中是否对NOTAM系统进行过安全评估?如果是,请提供每次安全评估的日期和结果。
9. 据报道,美国联邦航空局在东部时间上午9点左右开始恢复地面运营。此时,美国联邦航空局是否制定了临时解决方案,或者根本原因是否已完全解决?如果FAA实施了临时解决方案,请提供该计划的副本。
10. 影响范围有多大?有多少商业航班和乘客直接受到航班延误和取消的影响,有多少航班和乘客因连锁反应相关的间接问题而延误?此外,请提供因中断造成的延误给商业航空公司和乘客带来的成本损失。
NOTAM又是个啥?
1947年,负责协调国际航空旅行的联合国机构「国际民用航空公约」同意开始通过电信手段发布NOTAM,以协助保证飞机安全。
最初,系统被称为「飞行员通知」(Notices to Airmen),仿照的是提醒船长注意海上危险的海员通知(Notice to  Mariners)。
目的也是为了提醒飞机驾驶员在航线上或特定地点的任何危险,比如大雪、火山灰或机场附近的鸟类等,并且还会提供关于关闭的跑道和临时空中管制的信息。
2021年,系统更名为「飞行任务通知」(Notices to Air Missions, NOTAM)。
总的来说,NOTAM的发布有多种原因,例如:
- 危险,包括航空表演、跳伞、放风筝、激光、火箭发射等
- 国家元首等重要人物的航班(有时涉及临时航班管制,TFR)
- 跑道关闭
- 军事演习导致的空域管制
- 高大障碍物上的灯不亮
- 在机场附近临时放置的障碍物(例如起重机)
- 成群的鸟类通过空域(BIRDTAM)
- 有关雪、冰和积水的跑道/停机坪状态的通知(SNOWTAM)
- 火山灰或其他粉尘污染的操作上的重大变化通知(ASHTAM)
此外,为了使沟通更有效率,NOTAM采用一种「缩写」的形式进行记录,通常使用大写字母发布。
下图就是伦敦希思罗机场的一份NOTAM报告。
在起飞之前,飞行员需要在纸上或iPad上查看NOTAM的信息。
而对于那些长途国际航班, NOTAM所提供的信息,甚至可以多达到200页。
看得出来,如此冗杂的信息,很容易会成为事故的潜在因素。
2017年7月,一架加拿大航空公司的飞机在旧金山机场的错误跑道上降落,在几秒钟内与其他四架飞机相撞。
该机场两条跑道中的一条跑道关闭的通知,已经在飞行前的NOTAM中被标记了出来——在27页的简报中的第8页——但被飞行员忽略了。
对此,美国国家运输安全委员会主席Robert Sumwalt在2018年的事故听证会上怒斥道:「NOTAM就是一堆垃圾,没有人注意到。」
的确,关键信息写在27页简报中的第8页上,确实有些难为飞行员了。
以至于三年后,一项全球运动被发起,旨在通过对具有百年历史的NOTAM系统进行改革,通过减少信息过载来提高航空安全。
以不可预知的顺序显示,并以几十年前构思的电报代码书写,大写的通知充满了拜占庭式的缩写……面对这份文件,即使是经验丰富的飞行员,也难免在过度劳累时出问题,尤其是对于母语非英语的人。
这份警告里说,香港国际机场在5月下旬将有不到两个小时的导航设备不可用,你能看出来吗
在美国,调查人员多年来一直警告说,数据的洪流可能会让飞行员不知所措,或者忽视重要信息。
飞行运营咨询公司OPSGROUP的创始人Mark Zee表示,你可以想象这对机组人员来说是多么令人沮丧:
「这里有200页垃圾。其中一份NOTAM可能会结束你的职业生涯,或者将整个飞机和所有乘客置于危险之中,而且你必须在200页中主动找到它。」
参考资料:
https://www.theregister.com/2023/01/21/faa_outage_reasons/
https://www.cnbc.com/2023/01/11/faa-orders-airlines-to-pause-departures-until-9-am-et-after-system-outage.html
https://www.reuters.com/world/us/why-us-flights-were-grounded-by-faa-system-outage-2023-01-11/
https://www.mysuncoast.com/2023/01/11/abc-news-ground-stoppage-caused-by-engineering-failure/
继续阅读
阅读原文