手表显示你深睡了47分钟，这数据能信吗？

上周二，我的Garmin显示深睡52分钟。周三：1小时43分钟。同样的入睡时间，同样的室温，同样的睡前习惯。我的大脑真的在24小时内多产生了三倍的慢波活动？

大概率不是。

我花了一周时间研究可穿戴设备睡眠分期的相关文献，发现的结果彻底改变了我看待每天早上那些彩色睡眠图表的方式。简单说：你的追踪器没骗你，但它也没告诉你全部真相。

睡眠实验室到底怎么测睡眠分期

多导睡眠监测（PSG）——公认的金标准——需要在你身上贴大约22个传感器。头皮上的电极测脑电波，眼睛附近的传感器追踪快速眼动，其他的监测肌肉张力、呼吸、心律和腿部活动。

然后由专业技师以30秒为单位逐段审核数据，把每个"时段"分类为清醒、N1（浅睡）、N2（浅睡）、N3（深睡）或REM。一晚上大约产生960个这样的30秒片段，技师要做960次独立判断。

你手腕上的可穿戴设备呢？一个光学心率传感器，一个加速度计。就这些。它试图用两条数据流，逆向推导出22个传感器加人工专家才能确定的结果。

70-80%准确率：这个数字到底在测什么

2024年发表在《Sleep》期刊上的一项验证研究，对比了七款主流消费级可穿戴设备与108名成年人的多导睡眠监测结果。这些设备在30秒时段级别的睡眠分期判断中，正确率为70-80%。

听起来还不错，但换个角度想想。如果你睡7.5小时，追踪器大约要做900次分期判断。按75%准确率算，大约有225次是错的。

但有意思的是：这些错误并不是随机分布的。

可穿戴设备哪里准，哪里不准

研究揭示了一个稳定的规律。可穿戴设备最擅长检测REM睡眠——准确率通常能达到85%甚至更高。REM期间的心率变异性有独特的特征，光学传感器能可靠地捕捉到。

深睡检测呢？就差很多了。《Journal of Clinical Sleep Medicine》2025年发表的一项分析显示，消费级设备平均每晚高估深睡时长18分钟。有些晚上，高估幅度超过40分钟。

浅睡的处理最粗糙。N1和N2阶段在可穿戴算法里基本混在一起。大多数设备根本不尝试区分它们，统统扔进一个笼统的"浅睡"分类——本质上就是"不是深睡、不是REM、不是清醒"的兜底项。

清醒检测的问题尤其让人头疼。3分钟以内的短暂觉醒往往完全检测不到。你可能夜里醒了六次，但追踪器显示的是一整块连续睡眠。

为什么光靠心率讲不了完整的故事

你的大脑以大约90分钟为周期循环经历各个睡眠阶段。深睡期间，心率降到最低点，心率变异性升高。REM期间，心率变得更不规律，略微升高。

可穿戴设备利用这些心脏特征，结合运动数据，来猜测你当前处于哪个阶段。问题是：其他因素也会影响心率。

晚餐喝了杯红酒？心率会升高好几个小时，可能掩盖深睡的心脏特征。压力很大的一天？你的神经系统可能无法平静到产生算法期待的清晰心脏模式。有睡眠呼吸暂停？每次呼吸中断都会产生心率波动，干扰分期判断。

有研究发现，在未经治疗的睡眠呼吸暂停患者中，可穿戴设备的准确率降到了61%。设备持续把他们碎片化的睡眠误判为正常的阶段转换。

趋势线比任何单晚数据都重要

这是改变我与睡眠数据关系的关键认知：我不再关注单个晚上的数据了。

当研究人员把可穿戴设备的30天平均值与30天多导睡眠监测平均值进行对比时（是的，有些勇士在实验室睡了整整一个月），相关性大幅提升。单晚可能偏差20分钟的深睡估计，在月度平均后误差缩小到5分钟以内。

噪声会相互抵消。随机的高估和低估会趋于平衡。最终呈现出的是你实际睡眠结构的合理近似。

所以当我的追踪器显示深睡比例连续一周下降时，这个信号很可能有意义。但如果只是某一晚REM异常偏低，我耸耸肩就过去了。

实用解读框架：怎么看睡眠数据才靠谱

综合研究后，我总结了一套简单的心智模型来解读睡眠数据。

完全可信： 总睡眠时长。对大多数人来说，可穿戴设备的误差在15分钟以内。如果显示你睡了6小时12分钟，实际大概在6到6.5小时之间。

方向可信： 任何阶段的周环比趋势。如果深睡连续两周持续下降，很可能反映了真实变化，即使绝对数字不够精确。

谨慎参考： 单晚的REM睡眠时长。准确率足够高，大幅波动（比基线多或少30分钟以上）可能反映真实变化。

保持怀疑： 任何单晚的深睡时长。测量误差实在太大。我开头提到的47分钟vs103分钟的波动？几乎可以肯定是噪声。

直接忽略： 夜间睡眠阶段的具体时间点。"你在晚上11:47进入深睡"只是基于概率模型的猜测。可能对，也可能差20分钟。

下一代可穿戴设备可能改进什么

一些新款设备正在增加传感器，可能提升准确率。Oura Ring第三代加入了血氧传感器和皮肤温度追踪。三星最新的手表可以测量生物电阻抗。

早期研究显示这些额外数据流确实有帮助。2024年的一份预印本显示，结合心率、运动、血氧和温度数据，在小样本中把分期准确率提升到了83%。

更大的改进可能来自个性化算法。目前的设备使用的是人群平均模型——假设你的深睡心脏特征和其他人一样。未来的设备可能会在数周内学习你的特定模式，根据你的生理特点校准分类。

有家公司正在测试一个功能：用户可以标记那些感觉特别精神或特别疲惫的早晨，算法再据此调整分期判断，以更好地预测主观感受。不够科学，但可能更实用。

消费级睡眠追踪的真实边界

任何腕戴设备都无法达到多导睡眠监测的准确度。物理原理决定了这一点。脑电波传不到手腕，眼动在加速度计上没有反应。根本性的数据就是采集不到。

但这不意味着睡眠追踪器没用。体温计无法告诉你为什么发烧，但追踪体温升降仍然有价值。睡眠追踪器的作用类似：对原本不可见的东西进行不完美的测量。

关键是校准你的预期。追踪器提供的是睡眠结构的粗略素描，不是精确照片。按这个标准来看数据就对了。

与不完美的数据和平共处

我每天早上还是会看睡眠数据。习惯难改。但我看的东西变了。

我不再纠结昨晚的深睡数字，而是扫一眼7天和30天趋势。我不再担心阶段时间点，而是关注总睡眠时长——这是追踪器唯一测得准的指标。

当手表告诉我某晚深睡只有47分钟、但我感觉很棒，或者深睡90分钟、但我感觉很糟时？我会记得：这设备已经在用有限的信息尽力了。就像我们每个人一样。

指标	准确度等级	最佳用途	主要局限
总睡眠时长	高（±15分钟）	每日追踪	可能漏掉短暂觉醒
REM睡眠时长	中高（约85%）	周趋势观察	受酒精、压力影响
深睡时长	中等（约70%）	仅看30天平均	常见18分钟以上高估
浅睡时长	低	忽略具体数字	兜底分类
睡眠阶段时间点	低	仅看大致规律	可能偏差20分钟以上
觉醒次数	低	不可靠	漏检3分钟以内的觉醒

智能手表的睡眠分期追踪：70-80%准确率到底意味着什么？