穿戴裝置的睡眠階段追蹤:70-80% 準確度對你的數據到底代表什麼
穿戴裝置偵測睡眠階段的準確度約 70-80%——看長期趨勢夠用,但單一晚上的數據別太認真。
本文僅供一般資訊參考,不能替代專業醫療建議、診斷或治療。如有任何健康相關問題,請務必諮詢合格的醫療專業人員。
手錶說你深睡了 47 分鐘,該相信嗎?
上週二,我的 Garmin 顯示深睡 52 分鐘。週三:1 小時 43 分鐘。同樣的就寢時間、同樣的室溫、同樣的睡前習慣。我的大腦真的在 24 小時內多產生了三倍的慢波活動?
大概沒有。
我花了一週研究穿戴裝置睡眠分期的相關文獻,發現的結果徹底改變了我看待那些彩色睡眠圖表的方式。簡單說:你的追蹤器沒有騙你,但它也沒告訴你全部的真相。
睡眠實驗室到底怎麼測量睡眠階段
多頻道睡眠生理檢查(Polysomnography)是黃金標準,需要在身上貼大約 22 個感測器。頭皮上的電極測量腦波,眼睛附近的感測器追蹤快速動眼期,其他的則監測肌肉張力、呼吸、心律和腿部動作。
受過訓練的技術人員會以 30 秒為單位審閱數據,將每個「時段」分類為清醒、N1(淺睡)、N2(淺睡)、N3(深睡)或 REM。一個晚上大約產生 960 個 30 秒區段,技術人員要做出 960 次獨立判斷。
你的手腕穿戴裝置只有一個光學心率感測器和一個加速度計。就這樣。它試圖用僅僅兩種數據流,逆向推算出 22 個感測器加上人類專家才能判定的結果。
70-80% 準確度這個數字:實際測量的是什麼
2024 年發表在《Sleep》期刊的驗證研究,比較了七款熱門消費級穿戴裝置與 108 位成人的多頻道睡眠生理檢查結果。這些裝置在那些 30 秒區段中,正確識別睡眠階段的比例是 70-80%。
聽起來還不錯,但換個角度想想。如果你睡 7.5 小時,追蹤器大約做出 900 次階段分類。以 75% 準確度計算,大約有 225 次是錯的。
但有趣的是:這些錯誤並不是隨機的。
穿戴裝置哪裡準、哪裡超不準
研究揭示了一個一致的模式。穿戴裝置在偵測 REM 睡眠方面表現出色——準確度通常達到 85% 以上。REM 期間的心率變異有獨特的特徵,光學感測器能可靠地捕捉到。
深睡偵測呢?差很多。《Journal of Clinical Sleep Medicine》在 2025 年發表的分析顯示,消費級裝置平均每晚高估深睡時間 18 分鐘。有些晚上,高估幅度甚至超過 40 分鐘。
淺睡的處理最糟糕。N1 和 N2 階段在穿戴裝置的演算法中混在一起。大多數裝置根本不嘗試區分它們,全部歸入一個籠統的「淺睡」類別,基本上就是「不是深睡、不是 REM、不是清醒」的萬用分類。
清醒偵測的問題特別令人沮喪。短於 3 分鐘的短暫覺醒往往完全沒被記錄到。你可能整晚醒來六次,但追蹤器顯示的是一整塊連續睡眠。
為什麼光靠心率無法說明全貌
你的大腦以大約 90 分鐘為週期循環經過各個睡眠階段。深睡期間,心率降到最低點,心率變異度增加。REM 期間,心率變得更不規則且略微升高。
穿戴裝置利用這些心臟特徵,結合動作數據,來推測你目前的階段。問題是:其他因素也會影響心率。
晚餐喝了一杯酒?心率會升高好幾個小時,可能掩蓋深睡的特徵。壓力很大的一天?你的神經系統可能無法充分平靜下來,產生演算法預期的清晰心臟模式。睡眠呼吸中止症?每次呼吸中斷都會造成心率飆升,混淆階段分類。
有一項研究發現,在未治療的睡眠呼吸中止症患者中,穿戴裝置的準確度降到 61%。這些裝置持續將他們破碎的睡眠誤判為正常的階段轉換。
趨勢線比任何單一晚上都重要
這是改變我與睡眠數據關係的關鍵:我不再在意個別晚上的數據了。
當研究人員比較穿戴裝置的 30 天平均值與 30 天多頻道睡眠生理檢查平均值時(是的,有些勇者在實驗室睡了一個月),相關性大幅提升。個別晚上可能差 20 分鐘的深睡估計,在月平均後誤差縮小到 5 分鐘以內。
雜訊會互相抵消。隨機的高估會平衡隨機的低估。最後呈現的是你實際睡眠結構的合理近似值。
所以當我的追蹤器顯示一週以來深睡百分比持續下降,這個訊號可能真的代表某些事情。當它顯示某一晚 REM 異常偏低,我聳聳肩就過去了。
實用的解讀框架
在研讀相關研究後,我發展出一套簡單的心智模型來解讀睡眠數據。
完全信任: 總睡眠時間。穿戴裝置對大多數人來說誤差在 15 分鐘以內。如果顯示你睡了 6 小時 12 分鐘,你大概睡了 6 到 6.5 小時之間。
方向性信任: 任何階段的週對週趨勢。連續兩週深睡持續下降,可能反映了某些真實狀況,即使絕對數字有些模糊。
謹慎信任: 個別晚上的 REM 睡眠時間。準確度夠高,大幅波動(與你的基準相差 30 分鐘以上)可能反映實際變化。
持懷疑態度: 任何單一晚上的深睡時間。測量誤差實在太大。我前面提到的 47 分鐘對 103 分鐘的波動?幾乎可以肯定是雜訊。
完全忽略: 夜間睡眠階段的具體時間點。「你在晚上 11:47 進入深睡」是基於機率模型的猜測。可能對,也可能差 20 分鐘。
下一代穿戴裝置可能改善什麼
一些較新的裝置正在增加可能提升準確度的感測器。Oura Ring 第三代包含血氧感測器和皮膚溫度追蹤。三星最新的手錶測量生物電阻抗。
早期研究顯示這些額外的數據流確實有幫助。2024 年的一篇預印本顯示,結合心率、動作、血氧和溫度數據,在小樣本中將階段準確度推升到 83%。
更大的改進可能來自個人化演算法。目前的裝置使用群體平均模型——它們假設你的深睡心臟特徵和其他人一樣。未來的裝置可能會在數週內學習你的特定模式,根據你的生理狀況校準分類。
有一家公司正在測試一項功能,讓使用者標記感覺特別有精神或疲倦的早晨。演算法會據此調整階段分類,以更好地預測這些主觀感受。這不算科學,但可能更實用。
消費級睡眠追蹤的真實極限
沒有任何手腕穿戴裝置能達到多頻道睡眠生理檢查的準確度。物理限制不允許。腦波不會傳到你的手腕。眼球運動不會在加速度計上顯示。基本數據根本不存在。
但這不代表睡眠追蹤器沒用。體溫計無法告訴你為什麼發燒,但追蹤體溫是升還是降仍然很有價值。睡眠追蹤器的功能類似:對原本看不見的東西進行不完美的測量。
關鍵是校準你的期望。你的追蹤器提供的是睡眠結構的粗略素描,不是照片。請據此對待這些數據。
與不完美的數據和平共處
我每天早上還是會看睡眠數據。老習慣改不掉。但我改變了關注的重點。
我不再執著於昨晚的深睡數字,而是瞄一眼 7 天和 30 天趨勢。我不再擔心階段時間點,而是專注於總睡眠時間——這是我的追蹤器唯一真正測得準的指標。
當我的手錶顯示某晚深睡只有 47 分鐘但我感覺很棒,或者顯示 90 分鐘但我感覺很糟?我會記得這個裝置正在用有限的資訊盡力而為。就像我們所有人一樣。
📊 關鍵統計
穿戴裝置睡眠指標:各數據類型的可信度
| 指標 | 準確度等級 | 最佳用途 | 主要限制 |
|---|---|---|---|
| 總睡眠時間 | 高(±15 分鐘) | 每日追蹤 | 可能漏掉短暫覺醒 |
| REM 睡眠時間 | 中高(約 85%) | 每週趨勢 | 受酒精、壓力影響 |
| 深睡時間 | 中等(約 70%) | 僅限 30 天平均 | 常見 18 分鐘以上高估 |
| 淺睡時間 | 低 | 忽略具體數字 | 萬用分類 |
| 睡眠階段時間點 | 低 | 僅看大致模式 | 可能差 20 分鐘以上 |
| 清醒次數 | 低 | 不可靠 | 漏掉 3 分鐘以下的覺醒 |
根據 2024-2025 年多頻道睡眠生理檢查驗證研究,比較消費級穿戴裝置與臨床睡眠分期
❓ 常見問題
為什麼我的睡眠追蹤器在類似的夜晚顯示不同的深睡時間?
我的睡眠追蹤器準確度足以偵測睡眠障礙嗎?
我應該比深睡數據更信任 REM 睡眠數據嗎?
我需要追蹤多久才能信任睡眠階段平均值?
比較貴的睡眠追蹤器階段數據會比較準嗎?
為什麼我的追蹤器有時顯示我在睡覺,但我知道自己是醒著的?
未來的穿戴裝置在睡眠分期方面會更準確嗎?
參考資料
- Validation of Consumer Wearable Sleep Trackers Against Polysomnography — Sleep, 2024
- Accuracy of Sleep Stage Classification in Consumer Wearable Devices — Journal of Clinical Sleep Medicine, 2025
- Multi-Sensor Approaches to Improving Wearable Sleep Detection — Sleep Medicine Reviews, 2024
- Performance of Wearable Sleep Trackers in Patients with Sleep Apnea — Journal of Clinical Sleep Medicine, 2025
