博雯 发自 凹非寺

量子位 报道 | 公众号 QbitAI
你是否也有过这样的时候。
厨具清洁正水声大作,手机突然响了起来。这时你满手泡沫水渍,大脑瞬间空白:
sad。
那,语音控制?
Siri表示周围水声太大我好像不明白你在说什么。
至于手势控制……我手要空着还会有这个问题吗!
那有没有更nice的一种方式呢?
这个可以有——牙齿控制了解一下。
通过牙齿动作*(teeth gestures)*来代替常规输入方式。
这就是来自康奈尔大学SciFi实验室的一项新研究——TeethTap

效果展示

TeethTap是一种可穿戴系统,主要由耳后佩戴的IMU和接触式麦克风组成。
已经可以通过捕捉并识别耳朵周围不同的牙齿动作来实现一些简单功能。
而在最终的用户测试阶段里,TeethTap成功识别了11位参与者的1382个牙齿动作中的1256个,平均准确度达90.9%。
如果能将这套系统集成到相关设备,那么既不用动手,也不用顾忌环境噪音的设备控制方式,或许就真的未来可期了。
那么,它到底是怎么实现的呢?

13种基础牙齿动作

好,现在,先咬个牙。
注意到了吗,你在活动牙齿时,你的舌头、下颌骨,以及口腔肌肉都会随之运动。
而研究人员在设计基本牙齿动作时,便是受此启发。
对于牙齿接触的范围,以舌头朝向(引申到下颌方向)为y轴,以侧面运动方向为x轴,这里x-y平面的四个极限点就可以描述为现实动作里的前、后、左、右。
对于牙齿接触的方式,则类比鼠标动作:单击(快速咬合并释放)、双击(两次快速咬合并释放)、长按(保持咬合,延迟释放)
通过以上两个维度,共设计了13种基础的“牙齿动作”(teeth gestures)
就像26个英语字母可以组成无数单词一样,这13个“基本动作”也可以组合成为各种生活中的常用指令。

“动声结合”的硬件设备

在动作(语音)与指令交互时,现有手段大多通过人体特定部位的复杂传感器(如眼动仪)来识别手势,主要有运动感测(如IMU)和声音感测(如麦克风)两个方向。
而TeethTap则采用运动感测与声音感测相结合的硬件设备,来探索面部手势识别的可能性。
TeethTap主要由两个接触式麦克风(BU-30179-000)和两个惯性测量单元(IMU)组成。看外形有点像造型奇怪,设备繁多的运动耳机。
自然弯曲的PLA灯丝将IMU传感器压在耳朵下方的下颌骨处,并将麦克风固定到耳后的颞骨上,而麦克风则连接到可以放大和过滤声音信号的定制PCB板上。
在运动时,来自麦克风(声传感器)的滤波数据和来自IMU的陀螺仪数据,分别通过板载12位的ADC和I2C通信发送到微控制器(HUZZAH32)
最后,HUZZAH32将数据发送到计算机以使用WiFi进行处理。

从去躁到识别

那么上述的数据分析及传输算法具体是怎么实现的呢?
流程图是这样:
首先从连续数据流中划分一个以2s为单位的滑动窗口,随着数据不断流入流出,滑动窗口也进行20次/s的移动。
当检查到音频数据出现足够的尖峰时,再检查陀螺仪的y轴绝对最大值是否超过预定的能量阈值,以此来判定是否有动作发生。
而对于咀嚼或说话等可行为能产生的噪声干扰,研究人员也实现了带有线性核的SVM模型分类器,对接收数据里的噪声段和动作段进行了区分。
在对数据进行分割并过滤掉噪声之后,再使用K近邻算法(k = 1)对手势进行分类。
再使用DTW距离函数在每次迭代中输出一个值,最终将具有最小距离值的手势确定为预测动作。

团队介绍

SciFi是位于康奈尔大学计算机与信息科学系的跨学科实验室。
目前已在活动识别,健康感测和自然用户界面等多个领域上进行了新应用的开发。
而对于现在的这款TeethTap,作者也坦然承认只是概念性的展示,所以不管是在外表美观程度还是功能性上都还有所欠缺。
而未来的整体思路是以足够小的电子元件,将整个系统集成在耳机、听筒,甚至是一副眼镜框架上。
等等?
参考链接:
[1]https://spectrum.ieee.org/tech-talk/biomedical/bionics/the-next-frontier-for-gesture-control-is-teeth
[2]https://arxiv.org/pdf/2102.12548.pdf
[3]https://youtu.be/HdmoSGWE2vo
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点这里👇关注我,记得标星哦~
英伟达CV公开课免费报名!
6月2日/下周三第2期直播中,英伟达专家将实战演示如何快速搭建面部情感识别系统,带大家低门槛、高效率学习AI模型的搭建、训练与部署。欢迎扫码报名~
p.s. 报名后还可入群获取其他课程回放课程PPT源代码哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
继续阅读
阅读原文