← ブログに戻る
😴Sleep & Recovery·10 分で読める

スマートウォッチの睡眠ステージ測定「精度70-80%」の本当の意味とは

要約

ウェアラブルの睡眠ステージ検出精度は70-80%。長期トレンドの把握には十分だが、一晩ごとの数値を鵜呑みにするのは危険。

🕓 更新: 2026-05-23

本記事は一般的な情報提供のみを目的としており、専門医による診療・診断・治療の代わりとはなりません。健康に関する判断は必ず医療従事者にご相談ください。

「深い睡眠47分」という表示、信じていいの?

先週の火曜日、私のGarminは深い睡眠が52分だと表示した。水曜日は1時間43分。就寝時刻も室温も寝る前のルーティンも同じなのに、たった24時間で脳の徐波活動が3倍になったのだろうか?

おそらく、そんなことはない。

ウェアラブルの睡眠ステージ測定について1週間かけて論文を読み漁った結果、毎朝見ているカラフルな睡眠チャートへの見方が完全に変わった。結論を先に言うと、トラッカーは嘘をついているわけではないが、すべてを正確に伝えているわけでもない。

睡眠検査機関はどうやって睡眠段階を測定しているのか

睡眠医学のゴールドスタンダードであるポリソムノグラフィー(PSG)では、約22個のセンサーを体に装着する。頭皮の電極で脳波を測定し、目の近くのセンサーで急速眼球運動を追跡。さらに筋緊張、呼吸、心拍リズム、脚の動きもモニタリングする。

訓練を受けた技師がデータを30秒ごとのチャンクに分けてレビューし、各「エポック」を覚醒、N1(浅い睡眠)、N2(浅い睡眠)、N3(深い睡眠)、REMのいずれかに分類する。一晩で約960個の30秒セグメントが生成され、技師は960回の個別判断を下すことになる。

一方、手首のウェアラブルにあるのは光学式心拍センサーと加速度計の2つだけ。22個のセンサーと専門家が判定する内容を、たった2つのデータストリームから逆算しようとしているわけだ。

「精度70-80%」という数字が実際に意味すること

2024年にSleep誌に掲載された検証研究では、108人の成人を対象に7種類の人気ウェアラブルとポリソムノグラフィーを比較した。デバイスは30秒エポックの70-80%で正しい睡眠段階を特定できた。

一見まずまずに聞こえるが、別の角度から考えてみよう。7.5時間眠ると、トラッカーは約900回の睡眠段階分類を行う。精度75%なら、そのうち約225回は間違っている計算になる。

しかも興味深いことに、エラーはランダムに発生するわけではない。

ウェアラブルが得意な測定と苦手な測定

研究から一貫したパターンが見えてくる。ウェアラブルはREM睡眠の検出が得意で、精度は85%以上に達することも多い。REM中の心拍変動には光学センサーが確実に捉えられる特徴的なシグネチャーがあるからだ。

深い睡眠の検出はどうか?かなり不安定だ。Journal of Clinical Sleep Medicineに2025年に掲載された分析によると、消費者向けデバイスは深い睡眠の持続時間を平均で1晩あたり18分過大評価していた。40分以上の過大評価になる夜もあった。

浅い睡眠の扱いはさらにひどい。N1とN2のステージはウェアラブルのアルゴリズムでは区別がつかない。ほとんどのデバイスは両者を区別しようともせず、「深くない、REMでもない、起きてもいない」すべてを「浅い睡眠」という汎用カテゴリに放り込んでいる。

覚醒検出の問題は特にフラストレーションが溜まる。3分未満の短い覚醒はまったく記録されないことが多い。夜中に6回目が覚めても、トラッカーには途切れのない睡眠ブロックが表示されるかもしれない。

心拍数だけでは全体像がわからない理由

脳は約90分周期で睡眠段階を循環する。深い睡眠中は心拍数が最低点まで下がり、心拍変動が増加する。REM中は心拍数がより変動的になり、やや上昇する。

ウェアラブルはこれらの心臓のシグネチャーと動きデータを組み合わせて、現在の睡眠段階を推測している。問題は、心拍数に影響を与える要因が他にもあることだ。

夕食時のワイン1杯?心拍数が数時間上昇し、深い睡眠のシグネチャーが隠れてしまう可能性がある。ストレスの多い日?神経系がアルゴリズムが期待する明確な心臓パターンを生成できるほど落ち着かないかもしれない。睡眠時無呼吸?呼吸の乱れごとに心拍スパイクが発生し、睡眠段階の分類を混乱させる。

ある研究では、未治療の睡眠時無呼吸がある参加者では、ウェアラブルの精度が61%まで低下することがわかった。デバイスは断片化した睡眠を正常な段階遷移として一貫して誤分類していた。

一晩の数値より長期トレンドが重要

睡眠データとの付き合い方を変えたのは、この気づきだった。個々の夜を気にするのをやめたのだ。

研究者がウェアラブルの30日平均とポリソムノグラフィーの30日平均を比較したところ(そう、1ヶ月間検査室で眠った勇敢な被験者がいた)、相関は劇的に改善した。個々の夜で20分ずれていた深い睡眠の推定値が、1ヶ月の平均では5分以内に収まった。

ノイズが相殺されるのだ。ランダムな過大評価とランダムな過小評価がバランスを取り、実際の睡眠構造の妥当な近似値が浮かび上がる。

だから、トラッカーが1週間にわたる深い睡眠の割合の低下を示したら、そのシグナルにはおそらく意味がある。一晩だけ異常にREMが少なかったら、肩をすくめて先に進む。

実践的な解釈フレームワーク

研究をレビューした結果、睡眠データを読むためのシンプルなメンタルモデルを構築した。

完全に信頼できる: 総睡眠時間。ウェアラブルはほとんどの人で15分以内の誤差に収まる。6時間12分眠ったと表示されたら、実際には6時間から6時間半の間だろう。

方向性として信頼できる: どの睡眠段階でも週単位のトレンド。2週間にわたる深い睡眠の一貫した減少は、絶対値があいまいでも、おそらく何か実際の変化を反映している。

慎重に信頼する: 個々の夜のREM睡眠時間。精度は十分高いので、大きな変動(ベースラインから30分以上の差)は実際の変化を反映している可能性が高い。

懐疑的に扱う: 個々の夜の深い睡眠時間。測定誤差が大きすぎる。冒頭で触れた47分対103分の変動?ほぼ確実にノイズだ。

完全に無視する: 夜間の睡眠段階のタイミング。「23時47分に深い睡眠に入りました」は確率モデルに基づく推測。正しいかもしれないし、20分ずれているかもしれない。

次世代ウェアラブルで改善される可能性

一部の新しいデバイスは、精度を向上させる可能性のあるセンサーを追加している。Oura Ring Gen 3には血中酸素センサーと皮膚温度トラッキングが搭載されている。Samsungの最新ウォッチは生体電気インピーダンスを測定する。

初期の研究では、これらの追加データストリームが役立つことが示唆されている。2024年のプレプリントでは、心拍数、動き、血中酸素、温度データを組み合わせることで、小規模サンプルで睡眠段階の精度が83%に向上した。

より大きな改善はパーソナライズされたアルゴリズムから来るかもしれない。現在のデバイスは集団平均モデルを使用している—あなたの深い睡眠の心臓シグネチャーが他の全員と同じように見えると仮定している。将来のデバイスは数週間かけてあなた特有のパターンを学習し、あなたの生理機能に合わせて分類を調整するかもしれない。

ある企業は、ユーザーが特に休息感があった朝や疲労感があった朝をマークできる機能をテストしている。アルゴリズムはそれらの主観的な結果をより良く予測するために睡眠段階の分類を調整する。科学的ではないが、より実用的かもしれない。

消費者向け睡眠トラッキングの正直な限界

手首装着型デバイスがポリソムノグラフィーの精度に匹敵することはない。物理的に不可能だ。脳波は手首まで伝わらない。眼球運動は加速度計に記録されない。根本的なデータが利用できないのだ。

しかし、それで睡眠トラッカーが無意味になるわけではない。体温計は発熱の原因を教えてくれないが、体温が上がっているか下がっているかを追跡するには依然として価値がある。睡眠トラッカーも同様の機能を果たす:そうでなければ見えないものの不完全な測定だ。

重要なのは期待値を調整すること。トラッカーは睡眠構造の写真ではなく、ラフなスケッチを提供する。データもそのように扱おう。

不完全なデータとの付き合い方

私は今でも毎朝睡眠データをチェックしている。古い習慣はなかなか抜けない。でも、何を見るかは変わった。

昨夜の深い睡眠の数値に固執する代わりに、7日間と30日間のトレンドをざっと見る。睡眠段階のタイミングを気にする代わりに、総睡眠時間に注目する—トラッカーが実際にうまく測定できる唯一の指標だ。

そして、気分が良かった夜に深い睡眠47分と表示されたり、ひどい気分だった夜に90分と表示されたりしたら?デバイスは限られた情報で最善を尽くしているのだと思い出す。私たちと同じように。

アプリで続きを読む

あなたのデータでパーソナライズ

📊 主要統計

70-80%
エポック単位の精度
Sleep 2024 消費者向けウェアラブル検証研究
平均18分/晩
深い睡眠の過大評価
Journal of Clinical Sleep Medicine 2025
約85%
REM検出精度
Sleep 2024 検証研究
61%
睡眠時無呼吸患者での精度
Journal of Clinical Sleep Medicine 2025
15分以内
総睡眠時間の精度
Sleep 2024 消費者向けウェアラブル検証

ウェアラブル睡眠指標:データタイプ別の信頼度

指標精度レベル最適な活用法主な制限
総睡眠時間高い(±15分)日々のトラッキング短い覚醒を見逃す可能性
REM睡眠時間中〜高(約85%)週単位のトレンドアルコール、ストレスの影響を受ける
深い睡眠時間中程度(約70%)30日平均のみ18分以上の過大評価が一般的
浅い睡眠時間低い具体的な数値は無視その他すべてを含む汎用カテゴリ
睡眠段階のタイミング低い大まかなパターンのみ20分以上ずれる可能性
覚醒回数低い信頼性なし3分未満の覚醒を見逃す

消費者向けウェアラブルと臨床睡眠段階判定を比較した2024-2025年のポリソムノグラフィー検証研究に基づく

よくある質問

同じような夜なのに深い睡眠の時間が違うのはなぜ?
ウェアラブルの深い睡眠検出精度は約70%であり、夜ごとの大きな変動は実際の変化というより測定ノイズであることが多いです。アルコール摂取、ストレス、室温なども、デバイスが睡眠段階を推定するために使用する心臓のシグネチャーに影響を与えます。
睡眠トラッカーで睡眠障害を検出できる?
消費者向けウェアラブルでは睡眠障害を確実に検出することはできません。研究によると、未治療の睡眠時無呼吸がある人では精度が約61%まで低下します。睡眠障害が疑われる場合は、適切な評価のために臨床的なポリソムノグラフィーが必要です。
深い睡眠よりREMのデータの方が信頼できる?
はい。研究によると、REM検出精度は約85%に達し、深い睡眠検出よりも大幅に高くなっています。REM睡眠は、光学センサーが深い睡眠の徐波シグネチャーよりも確実に捉えられる特徴的な心拍変動パターンを生成します。
睡眠段階の平均値を信頼するにはどのくらいの期間トラッキングすべき?
少なくとも30日間です。検証研究によると、ウェアラブルの月間平均はポリソムノグラフィーの平均と5分以内に収まりますが、個々の夜は20分以上ずれることがあります。トラッキング期間が長いほど、ランダムな誤差が相殺されます。
高価な睡眠トラッカーほど睡眠段階データは正確?
劇的な差はありません。2024年のSleep検証研究では、テストされたすべての消費者向けデバイスが価格に関係なく70-80%の精度範囲内でした。追加センサー(血中酸素、温度)を備えたデバイスはわずかな改善を示しますが、根本的な精度の限界は残ります。
起きていたはずなのに睡眠中と表示されることがあるのはなぜ?
ウェアラブルは3分未満の短い覚醒や、じっと横になっている静かな覚醒を検出するのが苦手です。デバイスは動き検出に大きく依存しているため、動きのない覚醒状態は浅い睡眠として分類されることが多いです。
将来のウェアラブルは睡眠段階測定がより正確になる?
おそらく緩やかな改善が見込まれます。血中酸素、皮膚温度、生体電気インピーダンスのセンサーを追加することで、初期研究では精度が83%に向上しています。あなた特有の心臓パターンを学習するパーソナライズされたアルゴリズムもさらに役立つかもしれませんが、脳波を直接測定しない限り、手首装着型デバイスがポリソムノグラフィーに匹敵することはないでしょう。

参考資料