本文首发微信公众号:飞总聊IT
最近流行预测,我也不能免俗吧。那我就瞎预测一下2023年大数据领域会发生点什么事情。排名不分前后左右忠奸。
第一,Confluent拿着王炸,做不出实质的东西来。
现在Confluent开年收购了一把,一下子就成了在streaming领域拿王炸的公司了。简直就是秦始皇吃花椒,赢麻了。
但是,问题来了。德国人毕竟不是美国人。而创始人的基因,早就注定了。一个公司既然一开始就决定把自己卖给阿里巴巴,而不是自己奋斗,那么这些人大概率是没什么奋斗精神的。
一个公司既然可以卖一次,又卖一次,而且还是在创业如此早期就卖掉了。这和第一次卖的性质也没什么区别,没什么奋斗精神的人,遇到一个拿着王炸,但是极需要奋斗精神环境。2023年,Confluent能不能够理出点什么,真不好说。
总之我预言2023年,应该做不出实质的东西来。这就给了很多公司机会了,能不能把握住,就看哪个公司更拼命三郎了。
第二,很多公司在大数据领域的收购,会谨慎。
说实在的Flink团队开了一个坏头。如果开源项目可以卖一遍,再卖一遍,那么开源项目卖的到底是什么东西,这确实值得质疑。怎么样去买开源项目背后的团队,才算买的有意义,我觉得Flink团队给大家展示了一个极好的反面材料。
这个问题当然不会短期内有好的解。但不管怎么样,很多公司在大数据领域的收购,对开源项目的收购,都会变得非常的谨慎。这是不是什么好事情呢?显然不是什么好事情。
第三,Databricks和Snowflake的斗争会更猛烈

Databricks对Snowflake的进攻,在这之前,已经通过一系列的博文展现出来了。Databricks当然是很希望自己的Lakehouse一统江湖,成为数据仓库这个领域的一把抓手。
但是不好搞啊不好搞。Snowflake这个对手虽然说不声不响的,但是也在憋大招,比如说,Snowflake强化对Iceberg的支持, 就是对Databricks的反击。
可能大家还不知道,这两家公司,2023年已经做了一件很牛逼的事情。往年Snowflake的annual conference通常都是比较早一点的,Databricks的Data+AI summit都是比较晚一点的。当然晚的其实很有限。
今年很有意思,Snowflake和Databricks两家公司的年会都在完全相同的时间召开,所以各大小弟们,你们只能做二选一了。要么去Databricks要么去Snowflake。各位会怎么选呢?
第四,Iceberg会得到快速发展,Delta Lake会自娱自乐
有关Iceber和Delta Lake这两个不同的数据湖底座的文件格式的讨论已经很多了。我也有过一篇很详细的文章,讨论过这个问题。
我觉得2023年Iceberg的发展会顺利,有足够多的公司会去采用Iceberg构建自己的Lakehouse,也有足够多的公司会基于Iceberg构建自己的产品卖给其他人。
相对来说,Delta Lake的发展很大程度上取决于Databricks自己的SaaS服务的发展怎么样。相对而言,别人在Iceberg和Delta Lake二选一的时候,大概率选Iceberg。
第五,各种数据库/数据仓库/Lakehouse产品的斗争会白日化,公开化。
这两年来,各种各样的数据库,数据仓库,大数据产品层出不穷,还有HTAP的数据库等等。
这些产品既有创业公司的产品,也有大公司的产品,也有大公司出去创业公司的产品。很多都基于了某些开源项目进行了不同程度的改动。
这些产品的竞争会越来越白日化越来越难看。这种乱象,已经开始表露出来了,比如说OceanBase公众号文章:客户觉得OceanBase比TiDB牛,所以选了我们
2023年,可能是这类产品互相拼刺刀,越来越需要客户,需要盈利,需要证明自己牛逼的时候,所以各种竞争会白日化,公开化。
第六,Trino的向量化引擎可能会难产。
2022年的Trino Summit上曾经说过2023年Trino的核心工作是一个新的列式存储的向量化引擎。我并不是太看好这个项目。
我其实不知道怎么样在Java里面去实现一个向量化引擎,而且还能保持高效率。
如果说Java不行需要改用C++的话,那么Starburst是不是有足够多的C++人才储备来完成这个事情。要知道C++的人才可真的不好说。
总之怎么看都觉得这个事情,有点难产的味道。
继续阅读
阅读原文