作者:陈文贤,编辑:谈数据
全文共6416个字,阅读需12分钟

数据是信息社会的基础,本文以隐喻(Metaphor)的方式聊聊数据,旁征博引,四通八达,希望可以彻底解决一些关于数据的概念性、关联性问题。

01 数据科学
信息(information)的原料(原始材料/料理食材)是资料(data)或称数据。数据科学(data science)需要有三个领域的知识:统计学、计算机科学、产业专业。产业专业知识是领域知识(domain knowledge)。机器学习是要有统计学知识和计算机科学知识。危险区域是包括黑客、电商等变动很快的知识,会有判断错误的危险。数据科学虽然是这三个领域的交集,实际上是要包括这三个领域的知识。
02 数据江湖
金庸《笑傲江湖》说:只要有人的地方就有恩怨,有恩怨就会有江湖,人就是江湖。
恩怨改为数据:只要有人的地方就有数据,有数据就会有江湖,人在江湖。
武侠小说是在写江湖传奇,通常的故事是:主角经过奇遇如灵丹怪兽,遇到师父传授功力招式,得到武功秘籍,学成武功,然后快意恩仇,行侠仗义,消灭恶徒,称霸江湖。
大数据(big data)的江湖故事是:企业得到珍贵数据,机器学习数据挖掘方法,获得信息、知识、智能,创造市场份额和优势,打败竞争对手。
《笑傲江湖》将华山派武功分为剑宗和气宗,剑宗是注重剑法招式,气宗是注重气功内功。大数据分析、数据挖掘、机器学习就是大数据的剑宗。
数据江湖 (《大话数据科学》 图1.23)
以下是大数据的江湖门派:
1. 华山派剑宗 --- 大数据分析的招式,数据挖掘十大算法是独孤九式。大数据分析的    分类、回归、聚类、关联规则等是数据挖掘机器学习。
2. 华山派气宗 --- 大数据技术,处理程序,计算框架,存储文件系统,分布式并行处理,Hadoop, MapReduce,Spark等。大数据的计算能力,就是内功。
3. 铸剑师 --- 大数据分析的函数与程序包(package),以R语言和Python语言为工具。   R语言的程序套件的开发者,Python应用在神经网络、深度学习等平台的开发商。
4. 武馆 --- 大数据分析平台。Google的Tensorflow,FB的 PyTorch,Alibaba PAI机器学习平台。铸剑师和武术馆有要付费的和免费的分享平台开发者。
现代大数据平台不只是武术馆,而好像是武器馆,只要会:选择武器如手枪(模型),会装子弹(数据),会瞄准(调参),会扣板机(指令),检查命中率(验证),就可以杀敌(应用)。于是:手枪原理(模型理论),弹道理论(算法过程),装拆手枪(程序设计处理),是黑箱可交给专家或学术机构(铸剑师/武术馆)处理。
5. 少林武当派 --- 中国BAT:百度、阿里巴巴、腾讯;美国 FAANG:Facebook、Amazon、Apple、Netflix、Google,这些可以说是大数据的少林武当派。
6. 丐帮 --- 数据和程序共享平台。R 语言是开源免费共享平台,R 提供2万个以上的套件,这些套件就像是丐帮的大小分舵,有数据有算法函数。而 Python 语言的框架,一样是免费共享平台,例如Tensorflow有谷歌的支持,就像是少林武当的大寺庙。
7. 概帮 --- 大数据概念帮,介绍大数据应用在医学、保险、零售、会计、工业、制造、农业、金融、电商、地理、运动等各行业。多数是概念,纸上谈兵。
对于概帮,我们要问:大数据的问题种类,数据来源,数据类型,分析方法,模型和算法,信息结果,验证评价,应用价值,这是CRISP-DM 跨行业数据挖掘标准过程。如果无法回答上述问题,就是概帮。当然,有些概帮是因为商业机密,无法提供这些说明。
8. 盖帮 --- 在台湾 “盖” 是骗人、唬弄人的意思。盖帮的分析结果是常识,不用计算就已经知道的结果,或者是编造诈骗的结果。数据科学的计算结果应该是未知的、潜在的、可理解的、有价值的、和有用的信息。
9. 藏经阁 --- 大数据相关书籍和出版社,大数据案例探讨。
10. 媒楼 --- 大数据的宣传机构,帮助盖帮宣传、炒作(如虚拟货币或NFT)的媒体。
11. 魔教(邪派) --- 制造假数据,窃盗数据。
12. 修真玄幻(穿越) --- 虚拟货币,区块链。
13. 镖局 --- 大数据保护,数据安全。
14. 武林联盟 --- 电子商务,共享平台。
15. 钱庄 --- 大数据存储,云计算。
16. 刑部神捕司 --- 大数据执法的政府机构,维护国家和个人隐私安全,个资保护。
17. 护法 --- 门派内大数据的安全保护,大数据平台运行安全,企业的法务部门。
大数据目前没有倚天剑、屠龙刀 (武林至尊,宝刀屠龙,号令天下,莫敢不从!倚天不出,谁与争锋?)。没有一个天下无敌的招式,没有一个招数可以打败所有的武功。天下没有一个药方疫苗可以治百病防千毒。大数据没有一个模型(或算法)可以解决所有的数据分析。所以,应用数据挖掘,每个方法都有优点缺点,有适用环境和范围,实战需要经验和商业知识。
大数据和武侠世界有一点不同的是,武侠的内功(气宗)是基本功比较不会变,剑招(剑宗)是会改变的,要讲 “无招胜有招”是有些过分。相对来说,大数据的气宗(计算机技术)比剑宗(数据挖掘技术)容易创新改变的,因为计算机科学的技术(量子计算机计算,不只是武侠而是仙侠),可以说是日新月异。数据挖掘已经有二三十年的历史,是因为网络和计算机技术才有大数据。
三四十年前的算法求解,因为计算机的速度和储存能力,所以斤斤计较于计算的复杂性(Computational complexity)。现在用分布式并行处理,就可以解决很多计算的问题。所以,因为计算机的快速能力,使得以前统计学、数据挖掘、人工智能(记得有AI之冬),无法处理的模型,现在可以用训练和验证数据解决。这就说明了武侠小说的一句话:
天下武功,无坚不摧(数据),唯快不败(气宗),唯准能胜(剑宗),唯狠无敌(无友),唯义称王(共享)。
03 斜杠老人
陈博士求学从数学系到工业工程所,直到退休,经历下列学院:
理/工/法/商/管理/信息/医
教过下列课程:
管理数学/生产管理/统计学/作业研究(运筹学)/信息管理/电子商务/网络营销/电子化企业等。
出版下列书本:
《资讯管理》(2002年)  / 《管理科学》(2010年)  / 《统计学》(2012年) /
《大话数据科学 : R语言》(清华大学出版社2020年) /
《大话统计学 : R语言 + 中文统计》溢彩实训版(清华大学出版社2022年4月) /
《运筹学 :R + Python + 运筹学2.0》(预计2023年出版) /
《人工智能: Python》(预计2024年出版)。
04 数据模型
数据科学除了数据的取得很重要,求解的方法也很重要,求解方法就是模型(model),模型不是唯一的。利用数据科学模型,要注意是否符合假定条件(assumption),不要削足适履非穿不可,不要因为“这个”方法比较熟悉、比较容易用,就要用它来找答案,结果找到的答案根本不对。统计学通常是抽样数据的模型选择,数据科学有训练和验证数据的模型评价。
 图2  数据分析的类型 (《大话统计学》 图1.8)
Wonnacott说:“He uses statistics as a drunkenman uses lampposts --- for support rather than for illumination.”  (人们利用统计,就好像醉汉利用路灯,是为了支撑,而不是照明。)
一个醉汉在夜晚的路灯下找钱包。有路人帮他找,找了很久。
路人问:你确定是掉在“这里”吗?
醉汉说:我不知道掉在“哪里”。
路人问:为什么要在“这里”找?
醉汉说:因为“这里”有路灯比较亮。
George Box说:“Statisticians, like artists,have the bad habit of falling in love with their models.”(统计学者像艺术家,有坏习惯:会爱上他们的模型(模特儿))。
Box又说:“All models are wrong, but someare useful.”(所有的模型都是错误的,但是  有些是有用的。)
斜杠的苏轼是:(苏东坡才是真正的斜杠,元Meta的境界,我只是在数据打转)
文学家/诗人/词人/画家/书法家/哲学家/政治家/犯官/农夫/建筑师/工程师/美食家/厨师。
苏东坡说:“横看成岭侧成峰,远近高低各不同。不识庐山真面目,只缘身在此山中。”
上述是模型的隐喻。
基于“关系和因果”的统计学元模型 (提升高度的模型),请参考《大话统计学》,见下图: 
图3  基于“关系和因果”的 统计学 元模型 (《大话统计学》 图1.6)
商业模式或商业模型(business model)分三大部分:价值主张(顾客价值与获利公式)、关键资源(设备技术伙伴顾客关系)、关键流程(因果与活动)。
人的三观:价值观、人生观、世界观。
商业模式的 三观 :价值主张(价值观、政绩观)、关键资源(人生观、事业观)、关键流程(世界观、工作观)。所谓,羊毛(价值主张) 出在狗身上(关键资源),猪来买单(关键流程)。
05 数据料理
民以食为天,以食物来比喻,数据是食材,数据模型就是食谱,不同的食材(例如数据尺度:比率、区间、顺序、分类,或正态分配),有不同的调味(参数选择)和烹煮(算法步骤)。
《中文统计》《运筹学2.0》(基于 Excel 2019, 2021的加载项)是 有菜单料理,有菜单料理是亲切友善的选择画面输入数据。R和Python是无菜单料理,以函数/指令操作,无菜单料理有丰富多样的自助加料(程序),但是要熟悉 厨师 (铸剑师、R或Python的包或库)。
《中文统计》、《运筹学2.0》、R语言和Python都是免费的软件,天下有白吃的午餐。R 好像是丐帮有许多分舵(package),Python 像是免费的少林/武当/大饭店师傅。那么,高价的统计数据分析 商业软件怎么经营?大概要走向摆饰漂亮的米其林餐厅。你可以做气宗、武馆或钱庄,如:厨师技巧烹饪教室、厨房的设备或食材的供货商;也可以做武术分享平台,如大众点评、外送平台;还有自动化
烹饪机器人——这就是商业模式。
06  元宇宙
2021年10月底Facebook脸书集团名字要改名为Meta,造成“元宇宙” (Metaverse)的热火朝天。
以下引用:陈文贤《大话数据科学》,清华大学出版社2020年,第30页。
希腊语:μετά(metá),意思是“之后”、“之上”、“超越”、“关于”、“整合”、“变化”、“再转换”、“再诠释”,翻译为“元”或“后设”。meta是 关于什么的什么 。
元模型/后设模型(metamodel)是模型之上,超越模型的模型、关于模型的模型。
元分析/后设分析(meta-analysis)是指将多个研究结果加以整合、再诠释的分析方法。
形而上学(Metaphysics):超越自然之上,易经:“形而上者谓之道,形而下者谓之器”。
元数据(Metadata):关于数据的数据、超越数据的数据。
元知识(Metaknowledge):关于知识的知识、超越知识的知识。
元语言(Metalanguage):描述语言的语言。
元文法(Metagrammar):描述文法的文法。
后设理论(Metatheory):解释理论的理论。
后设认知(Metacognitive):认知自己的认知。
后设学习(Metalearning):整合学习的学习,数据科学的 集成学习(ensemble learning)。
生物学的世代交替(Metagenesis), 蜕变(Metamorphosis)。
后设大数据MetaBig data ? 后设人工智能Meta AI ? 后设元宇宙 ?
百度或谷歌地图右下角的 “+”号,是使地图更 “加” 详细,但是高度降低,范围更小,像钻地机,这就是通常的学术研究,把简单的变复杂,在数据科学/机器学习,这是 过拟合(overfitting)。百度地图右下角的 “-”号,是 “减”去无关因素,提升高度,范围变大,视野更广,像空拍机,把复杂的变简单。减法的人生,会提升人的高度。因为 无欲则刚。
因为verse是诗,universe是宇宙。Meta verse应该是 元诗:超越诗的诗,圣经的诗篇。翻译为“元宇宙”,有点抬举:整合宇宙的宇宙?脸书新名Meta Platforms(整合平台的平台)。
元宇宙希望要整合 区块链Blockchain, 虚拟现实VR, 增强现实AR, 混合现实MR, 人工智能AI, 5G与人的互动等平台。请见 表 1元宇宙价值链(Metaverse Value Chain)。
表 1  元宇宙价值链 (Metaverse Value Chain)
Metaverse源自科幻小说《Snow Crash》(1992年),讲的是虚拟网络和现实世界的互动。
现实与虚拟的关键技术、交易机制、规范准则、经济社交、互通互补、商业模式、价值伦理等,需要有新的定义、普世公认、不断修改。艺术品的非同质化代币(Non-fungible token, NFT) 也许是元宇宙的一个规范准则。但是在股票市场,小型股(小盘股)比较容易炒作(控盘容易),NFT是独一无二的不可互换,又没有公开的市场如股市,不是更容易炒作吗?
宋真宗赵恒:“富家不用买良田,书中自有千钟粟。安居不用架高堂,书中自有黄金屋。出门莫恨无人随,书中车马多如簇。娶妻莫恨无良媒,书中自有颜如玉。”
从前,虚拟世界(书) 中的 千钟粟、黄金屋、车如簇、颜如玉,转换成为现实世界的良田(食)、高堂(住)、出门(行)、娶妻(育乐/成家),其 规范准则 是 科举考试。通过科举制度,可以当官取得功名和俸禄。
现在或未来,虚实之间的规范准则与商业模式,在食衣住行育乐名利哪部分的元宇宙是可行?
在元宇宙的爆火中,现实的食衣住行育乐 都往元宇宙里装,问题是其 商业模式 是什么?元宇宙的 虚拟食品和饮料有何 价值?画饼充饥、望梅止渴、想象美味、气氛环境、欢乐共享、品牌虚荣?可以吃的NFT食物?吃饭要戴虚拟现实VR眼镜 ;虚拟衣服设计可能有NFT的价值 ; 虚拟住房有 地点(Location) 物以稀为贵的价值 ; 旅行、教育、会议和娱乐有 虚拟现实或增强现实VR/AR的效果价值。
元宇宙在虚拟生活的 食衣住行育乐 之上,还有 安全、名、利、情感和成就 (人生追求的需求层次),后两者是 网络游戏 和 虚拟小说(fiction)的世界。因为,在网络游戏里可以满足  刺激性和成就感,在虚拟小说中可以找到 爱恨情仇。
元宇宙是否会成为 暴发户的丐帮?中实户的概帮?还是 诈骗户的盖帮?
四十多年来,信息管理在产业界、学术界、顾问界的推波助澜,不断的创造新名词,有的名词可以风行很久,有的名词只是昙花一现,有的名词是流行、负面、沉寂、再爆发。
元宇宙会如何?我不知道,让子弹飞一会儿吧!
这篇文章作者是台大资讯(信息)管理系系主任 陈文贤,他自诩“斜杠老人”我觉得是太谦虚了,如果你看了陈老师的新书《大话统计学》,你就会知道这哪里是“斜杠老人”,这观点比很多90后、00后还超前,明明是“斜杠小伙儿”思密达~~~
为什么要推荐大家学习统计学?因为统计学是数字化时代每个人都需要掌握的思维和技能。为什么推荐陈文贤老师的这本《大话统计学》,因为这本书我能看懂,哈哈~

数字化时代,你需要恶补统计学!

我们都知道,21世纪是数据科学的时代,而统计学则是数据科学的基础,任正非在一档访谈节目中也着重谈到了统计学在大数据时代的重要性。大数据不能被直接拿来使用,统计学依然是数据分析的灵魂。
其实,数据分析就是从数据中挖宝,小到成本统计,大到人工智能,数据量越大,对数据分析师的技能要求越高。很多人认为,会EXCEL就够了。我只能说,你对数据分析这个工作存在一定误解,看轻了数据分析师这个职位。
往大里说,只要存在数据,就需要统计,需要用统计学思维和方法去处理问题,当然,很多时候你并没有意识到,是因为类似EXCEL、SPSS等工具已经将统计学思路固化到具体功能中。
但是即便用工具进行统计分析(基础岗位)也需要基本的统计学知识,比如SPSS菜单里的词汇,很多就是统计学概念,菜单都看不懂,怎么进行统计分析。
所以,不管你是初级岗还是高级岗,统计学必须掌握,而且应用统计学的熟练程度,一定程度的决定着你的职业生涯天花板的高度。
统计学出身于数学,但是在应用统计学的时候,很多非理工科专业也要学习,尤其是文科生,学习统计学知识时会⽆⽐头疼,主要原因有几条:
首先,统计学教材⾥⼏乎都是复杂的推理公式,让⼈难以理解,对数学基础薄弱的非工科学生,跟天书无异。
其次,统计学概念众多,新鲜词汇量可以说多如牛毛,学着学着就迷路了。
最后,也是最重要的一点,统计学其实是非常强调实践的,很多统计学概念需要用实践来加深学习效果,目前可以找到的系统学习资料,概念和实践大都是脱节的,学起来如同嚼蜡。
其实,在学习实践中,捋清楚关于统计学的概念,以及这些概念之间错综复杂的关系,搞清楚这些,可以极大的帮助你们在遇到问题时,应用准确的统计方法去实施。
在此推荐给大家陈老师编写的这本非常完备的统计学入门书籍《大话统计学 : 溢彩实训版 : 基于R语言+中文统计工具》
文末赠书!
内容涵盖:描述统计,概率理论,随机变量,概率分布,抽样理论,参数推断(估计、检验),因果关系(两总体差异、方差分析、回归相关、分类数据),非参数统计,时间序列和统计指数。
统计学的航拍机(深入浅出、居高临下、一目了然)。
统计学的学习地图(图形表达、思维导图、概念流程)。
统计学的交通工具(R语言与中文统计,互补加强学习效果)。
宏观视角把握学习所在位置
万无一失的知识路径
合理合法的学习路线
趣味化解读
无处不在的词汇导航
应用方法解析
R语言工业级实践
中文统计是有菜单料理,R语言是无菜单料理,两者都是免费的软件。中文统计有亲切友善的选择画面,R语言有丰富多样的自助加料(程序),每章提供R语言应用食谱,读完本书,不但可以成为统计学的吃货,也会是统计学的厨师。

是的,90%的大咖都关注了谈数据!
赠书规则:老规矩,文末留言。我会挑选留言最用心转发最积极留言点赞最多的前5位读者,送出5本纸质正版书。免费包邮!截止时间本周日(2022年6月12日)晚24点。
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
网页版:https://cosx.org/
统计之都论坛:https://d.cosx.org/
继续阅读
阅读原文