大家好,今天继续聊聊科技圈发生的那些事。

一、FollowYourClick

点一下,玩一年,装备不花一分钱
这样一张简单的小鸟图片,只需要鼠标轻轻点一下,我们就可以让它动起来。
Tune the head
是不是很有意思呢?
FollowYourClick,腾讯开发的动态化图像工具。基于短提示,将图片转化为局部运动的图像动画。通过简单的点击,指定要移动的内容,再给出简短的提示指示如何运动,让我们看到了动起来的图片。
基于传统的图像到视频 (I2V) 模型,作者团队进行了许多改进:
  1. 使用第一帧掩蔽策略,显著提高视频生成质量。
  2. 提出运动增强模块。传统的I2V方法需要用户提供大量的帧内容描述。而FollowYourClick配备短运动提示数据集,只需要给出简短的提示即可。
  3. 提出基于流量的运动幅度控制,更加精确的控制动图的运动速度,使其更加真实。
项目地址:
https://github.com/mayuelala/followyourclick
作者团队在主页上展示了很多有意思的演示视频。不仅有点一下就开怀大笑的皮卡丘,还有油画上发射的火箭等等。效果都还不错。
主页的演示demo
这个项目目前还没有完全开源。大家可以持续关注一下,期待后续的更新。

二、clarity-upscaler

一款开源的写实超分辨率重建工具。
clarity-upscaler就像拿着一把放大镜对着图片扫,扫过之处图像更为清晰,分辨率更高。
修复前(左) 修复后(右)
类似Stable Diffusion和Midjourney这些软件,都是我们比较熟悉的AI绘画软件了。这些软件各有所长,比如Stable Diffusion可控性高,绘画结果比较精细;Midjourney上手门槛低而且更随机化,可能会给出意想不到的惊喜。
而借助clarity-upscaler,我们就可以解决这些绘画软件制作出的图像,纹理不够真实的问题。
更加真实的纹理细节
同时,作者团队也有自己的体验网站。在网站上就可以直接感受到clarity-upscaler的功能了。
网站地址:
https://clarityai.cc/dashboard
上传图片,调整参数,就可以拖动查看效果了。目前可调整的参数主要是以下几个:
  1. 控制AI自由度的参数Hallucination,过高会产生“幻觉”,即不真实的效果;过低会使图像没有什么变化。
  2. 控制与原图相似度的参数Resemblance,使图像不要过于失真。
  3. 控制细节强度的参数Dynamic,过高会导致像素化。
还有可供选择的风格Style、upscaling倍数、控制细节的Fractality几项。可以在团队的网址自行体验。
在项目主页,作者也给出了本地和云的cog部署方案。
项目地址:
https://github.com/philz1337x/clarity-upscaler
项目已经开源,有兴趣的小伙伴可以自己感受看看。

三、Open-Sora-Plan

北大的OpenSora来了!
看到这个项目前面挂着 PKU,后面挂着 Sora,我想没有人能忍住不点进来。可以看到项目 Github主页的 News 和 Todo 上,几乎每一天都有新的问题被解决。
废话少说,我们直接来看看模型。
模型的框架主要由三部分组成:
  • Video VQ-VAE
  • Denoising Diffusion Transformer 去噪扩散Transformer
  • Condition Encoder 条件编码器
模型框架图
这个框架中的很多东西,在Sora的技术报告中都是有迹可循。
团队对实现的细节有以下几点说明。

可变长宽比

参考FiT(Flexible Vision Transformer for Diffusion Model),团队实施了一种动态掩码策略,并行批量训练的同时保持灵活的长宽比。
将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。
动态训练策略

可变分辨率

团队在固定的256x256分辨率上训练,通过使用位置插值,实现可变分辨率的采样。
我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。

可变时长

通过使用VedioGPT将视频压缩至潜在空间,从而支持可变时长生成。同时扩展空间插值至时空维度,实现对变时长视频的处理。
项目地址:
https://github.com/PKU-YuanGroup/Open-Sora-Plan
模型开源了。而开源的目的更是开发团队希望通过社区的力量,在有限的资源条件下尽可能的为这个复现项目添砖加瓦。
希望小伙伴们在持续关注咱自家的Open-Sora的同时,有能力的,也献上一份绵薄之力。

四、955.WLB

一个拥有 33.8k star 数的项目,点进去一看,居然没有任何代码,这个 955.WLB 项目究竟拥有什么魔力?
955.WLB 中 的 955 指的是工作制度,与我们熟知的 996 类似,955 即早九晚五,每周工作五天;而 WLB 呢?其实是英文 Work Life Balance 的缩写,也就是工作和生活的平衡。
这是一份由全国各地大小公司的程序员们合力贡献的名单,上面罗列了全国 955 工作制不加班公司的名单。而作者也提示到,并不是所有在榜的公司都是绝对的 955,可能有些许偏差,但基本都不属 996。而作者本人身处上海,对本地的情况更了解,所以在榜的公司,居上海的占很大一部分。
Afterpay - 上海

Airbnb - 北京

Amazon - 北京/上海

AMD - 上海

Apple - 北京/上海

ArcSoft - 杭州

ARM - 上海

Autodesk - 北京/上海

Booking - 上海

Calix - 南京

Canva - 北京/武汉

Cisco - 北京/上海/杭州/苏州

Citrix - 南京

Coolapk (酷安) - 北京/深圳

Coupang - 北京/上海

CSTC (花旗金融) - 上海

Dell - 上海

Douban (豆瓣) - 北京

Duolingo - 北京

eBay - 上海

eHealth - 厦门

Electronic Arts - 上海

EMC - 上海

EPAM Systems - 上海/深圳/苏州/成都

Ericsson - 上海

Flexport - 上海/深圳

FreeWheel - 北京

GE - 上海

Google - 北京/上海

Grab - 北京

Honeywell - 上海

HP - 上海

HSBC - 上海/广州/西安

Hulu - 北京

IBM (GBS除外) - 北京/上海

iHerb - 上海

Intel - 北京/上海/深圳

LeetCode - 上海

LEGO Group - 上海

Linkedin - 北京

Micro Focus - 上海

Microsoft - 北京/上海/苏州

MicroStrategy - 杭州

Morgan Stanley (IT) - 上海

National Instruments - 上海

Nike - 上海

Nokia - 上海/南京/杭州

Nomura - 上海

NVIDIA - 北京/上海

Optiver - 上海

Oracle - 上海

PayPal - 上海

Philips - 上海/苏州

Pivotal - 北京/上海

Qualcomm - 北京/上海

Rakuten - 上海/大连

Red Hat - 北京/上海/深圳/西安/remote

RingCentral - 厦门/杭州/香港

Rippling - 北京/上海

SanDisk - 上海

SAP - 上海

SmartNews - 北京/上海

Snap - 北京/深圳

State Street - 杭州

SUSE - 北京/上海/深圳

The Trade Desk - 上海/深圳

ThoughtWorks - 西安/北京/深圳/成都/武汉/上海/香港

Trend Micro - 南京

Tubi - 北京

TuSimple - 北京/上海

Two Sigma - 上海

Ubisoft - 上海

Unity - 上海

Vipshop (唯品会) - 上海

VMware - 北京/上海

WeWork - 上海

Wish - 上海

Works Applications - 上海

XMind - 深圳

Zhihu (知乎) - 北京

Zoom - 合肥/杭州/苏州

这只是名单的一部分,不难找到许多熟悉的公司名字。
项目主页readme上很醒目的一句话:
旨在让更多的人逃离 996,加入 955 的行列。
或许,这份项目如此高的 star 数,就是程序员们试图逃离 996 工作制,对美好的 955 生活的期盼吧。
项目地址:
https://github.com/formulahendry/955.WLB
好了,今天的内容就是这么多,我们下期见!
·················END·················
继续阅读
阅读原文