预测2023年大数据领域会发生的事情

本文首发微信公众号：飞总聊IT

最近流行预测，我也不能免俗吧。那我就瞎预测一下2023年大数据领域会发生点什么事情。排名不分前后左右忠奸。

第一，Confluent拿着王炸，做不出实质的东西来。

现在Confluent开年收购了一把，一下子就成了在streaming领域拿王炸的公司了。简直就是秦始皇吃花椒，赢麻了。

但是，问题来了。德国人毕竟不是美国人。而创始人的基因，早就注定了。一个公司既然一开始就决定把自己卖给阿里巴巴，而不是自己奋斗，那么这些人大概率是没什么奋斗精神的。

一个公司既然可以卖一次，又卖一次，而且还是在创业如此早期就卖掉了。这和第一次卖的性质也没什么区别，没什么奋斗精神的人，遇到一个拿着王炸，但是极需要奋斗精神环境。2023年，Confluent能不能够理出点什么，真不好说。

总之我预言2023年，应该做不出实质的东西来。这就给了很多公司机会了，能不能把握住，就看哪个公司更拼命三郎了。

第二，很多公司在大数据领域的收购，会谨慎。

说实在的Flink团队开了一个坏头。如果开源项目可以卖一遍，再卖一遍，那么开源项目卖的到底是什么东西，这确实值得质疑。怎么样去买开源项目背后的团队，才算买的有意义，我觉得Flink团队给大家展示了一个极好的反面材料。

这个问题当然不会短期内有好的解。但不管怎么样，很多公司在大数据领域的收购，对开源项目的收购，都会变得非常的谨慎。这是不是什么好事情呢？显然不是什么好事情。

第三，Databricks和Snowflake的斗争会更猛烈

Databricks对Snowflake的进攻，在这之前，已经通过一系列的博文展现出来了。Databricks当然是很希望自己的Lakehouse一统江湖，成为数据仓库这个领域的一把抓手。

但是不好搞啊不好搞。Snowflake这个对手虽然说不声不响的，但是也在憋大招，比如说，Snowflake强化对Iceberg的支持，就是对Databricks的反击。

可能大家还不知道，这两家公司，2023年已经做了一件很牛逼的事情。往年Snowflake的annual conference通常都是比较早一点的，Databricks的Data+AI summit都是比较晚一点的。当然晚的其实很有限。

今年很有意思，Snowflake和Databricks两家公司的年会都在完全相同的时间召开，所以各大小弟们，你们只能做二选一了。要么去Databricks要么去Snowflake。各位会怎么选呢？

第四，Iceberg会得到快速发展，Delta Lake会自娱自乐

有关Iceber和Delta Lake这两个不同的数据湖底座的文件格式的讨论已经很多了。我也有过一篇很详细的文章，讨论过这个问题。

我觉得2023年Iceberg的发展会顺利，有足够多的公司会去采用Iceberg构建自己的Lakehouse，也有足够多的公司会基于Iceberg构建自己的产品卖给其他人。

相对来说，Delta Lake的发展很大程度上取决于Databricks自己的SaaS服务的发展怎么样。相对而言，别人在Iceberg和Delta Lake二选一的时候，大概率选Iceberg。

第五，各种数据库/数据仓库/Lakehouse产品的斗争会白日化，公开化。

这两年来，各种各样的数据库，数据仓库，大数据产品层出不穷，还有HTAP的数据库等等。

这些产品既有创业公司的产品，也有大公司的产品，也有大公司出去创业公司的产品。很多都基于了某些开源项目进行了不同程度的改动。

这些产品的竞争会越来越白日化越来越难看。这种乱象，已经开始表露出来了，比如说OceanBase公众号文章：客户觉得OceanBase比TiDB牛，所以选了我们。

2023年，可能是这类产品互相拼刺刀，越来越需要客户，需要盈利，需要证明自己牛逼的时候，所以各种竞争会白日化，公开化。

第六，Trino的向量化引擎可能会难产。

2022年的Trino Summit上曾经说过2023年Trino的核心工作是一个新的列式存储的向量化引擎。我并不是太看好这个项目。

我其实不知道怎么样在Java里面去实现一个向量化引擎，而且还能保持高效率。

如果说Java不行需要改用C++的话，那么Starburst是不是有足够多的C++人才储备来完成这个事情。要知道C++的人才可真的不好说。

总之怎么看都觉得这个事情，有点难产的味道。

继续阅读