← ブログに戻る
📊Tracking & Insights·12 分で読める

スマートウォッチのVO2 Max推定は本当に正確?ラボ検証で判明した真実

要約

スマートウォッチのVO2 Max推定は多くのユーザーで±10〜15%の精度ですが、ランニングフォームや標高などの要因によって大きくずれることがあります。

🕓 更新: 2026-05-23

本記事は一般的な情報提供のみを目的としており、専門医による診療・診断・治療の代わりとはなりません。健康に関する判断は必ず医療従事者にご相談ください。

ウォッチは45、ラボは52。この差は何?

4万円以上する高機能フィットネスウォッチを購入し、6ヶ月間トレーニングを続けました。VO2 Maxは42から47へと順調に上昇。「なかなか頑張ってるじゃないか」と自分に満足していました。

そして、マスクを装着してトレッドミルで走り、運動生理学の専門家が測定する本格的なラボテストを受けてみたのです。

結果は53.2 ml/kg/min。

私のウォッチは、ずっと12%近くも過小評価していたことになります。そして最近の検証研究によると、この経験は珍しいことではなく、むしろ「よくあること」なのです。

VO2 Maxが実際に測定しているもの(そしてウォッチが推測する理由)

VO2 Maxとは、激しい運動中に体が使用できる酸素の最大量を表します。単位は「体重1kgあたり、1分間に何mlの酸素を消費できるか」。数値が高いほど心肺機能が優れていることを意味します。

ゴールドスタンダードの測定方法は、限界まで走りながら代謝分析装置に呼気を吹き込むというもの。酸素消費量を直接測定するため、アルゴリズムも推定も必要ありません。

スマートウォッチにはこれができません。代わりに心拍数データ、ペース、独自のアルゴリズムを使って、VO2 Maxがどのくらいかを推定しています。例えるなら、乗っている車と住んでいる地域から年収を推測するようなもの。だいたい当たることもあれば、大きく外れることもあるわけです。

2025年の検証データ:ウォッチの精度はどの程度?

ザルツブルク大学の研究チームが、今年初めにMedicine & Science in Sports & Exerciseで包括的な検証データを発表しました。127名のレクリエーションアスリートを対象に、主要5ブランドのスマートウォッチとラボでの代謝測定を比較したのです。

結果は示唆に富むものでした。全デバイスの平均誤差は4.2 ml/kg/min。小さく聞こえるかもしれませんが、これはフィットネスカテゴリーで「良好」と「優秀」の差に相当します。個人レベルでは、ほぼ完璧(1 ml/kg/min以内)な人もいれば、大きくずれている(9 ml/kg/min以上の誤差)人もいました。

Garminデバイスは最も精度が高く、68%の推定値がラボ値の3.5 ml/kg/min以内に収まりました。Apple Watchは推定値のばらつきが大きく、同じ精度範囲に入ったのは54%のみ。PolarとCOROSはその中間でした。

しかし、ブランドよりも重要なのは、誤差の方向がランダムではなかったという点です。

特定の人が一貫して過小評価される理由

European Journal of Applied Physiologyは2024年後半に、なぜ推定誤差が予測可能なパターンでクラスター化するのかを分析した興味深い論文を発表しました。

効率の良いランナーは過小評価される。長年かけてスムーズなランニングエコノミーを身につけた人は、どのペースでも心拍数が低く抑えられます。アルゴリズムは「中程度のペースで低心拍」を見て、フィットネスレベルが低いと判断してしまいます。実際には単に効率が良いだけなのに。この研究では、エリートレベルのエコノミー(酸素コストが200 ml/kg/km未満)を持つランナーは、平均5.8 ml/kg/min過小評価されていました。

暑さと湿度も過小評価の原因に。暑い環境では、体を冷やすためだけに心拍数が5〜10拍/分上昇します。より激しく運動しているわけではありません。同じペースで夏と秋に走ると、ウォッチは実際のフィットネス変化を反映していない2〜3ポイントのVO2 Max低下を示すことがあります。

カフェインも影響する。ラン前のエスプレッソは、ほとんどの人で心拍数を3〜8 BPM上昇させます。アルゴリズムはこれをフィットネス低下と解釈してしまいます。ザルツブルク研究の被験者の一人は、カフェイン摂取時と非摂取時のテストランで4.1 ml/kg/minの差が出ました。

過大評価の問題:ウォッチがお世辞を言うとき

逆の誤差が出る人もいます。ラボテストで確認された実力よりも高いフィットネスレベルをウォッチが示すケースです。

下り坂のランニングは推定値を膨らませる。心拍数は中程度のままペースが上がるため、アルゴリズムは優れたフィットネスと判断します。累積標高がマイナスになるトレイルを走るランナーは、人工的に高い数値を見ることがよくあります。

ベータ遮断薬や心拍数を下げる特定の心臓病治療薬は、系統的な過大評価を引き起こします。ウォッチは適度なペースでの低心拍を見て、心肺機能が優れていると判断するのです。アテノロール服用中の研究参加者の一人は、実際のラボ値よりも8.3 ml/kg/min高いウォッチ推定値を示しました。

GPS精度の問題も影響。実際は1km 5分10秒で走ったのに、ウォッチが4分42秒と認識すれば、より高いVO2 Maxが計算されます。都市部のビル街、密集した樹木、GPS初期ロックの問題などが原因となります。

あまり語られない「標高」という変数

高地に住んでいますか?おそらくウォッチはかなり過小評価しています。

標高1,500m(約5,000フィート)では、酸素が薄いため、どのペースでも心臓はより激しく働かなければなりません。ウォッチは心拍数の上昇と遅いペースを見て、フィットネスが低いと結論づけます。しかし海抜ゼロに降りてラボで測定すれば、実際のVO2 Maxはウォッチが示す値よりもかなり高いはずです。

ザルツブルクの研究者たちは、高地居住者(1,500m以上)が海抜ゼロの居住者と比較して平均6.1 ml/kg/min過小評価されていることを発見しました。これは非常に大きな差です。例えば長野県の高原地帯に住む人がウォッチで「42」と表示されていても、ラボでは「48」とテストされる可能性があるのです。

一部の新しいウォッチは標高補正を試みていますが、アルゴリズムはまだ完璧ではありません。2024年後半に導入されたGarminの標高調整は、高地居住者の誤差を約40%削減しました。改善にはなりましたが、完全ではありません。

どのアクティビティが最も正確な推定を得られる?

すべてのワークアウトがVO2 Max推定精度に等しく貢献するわけではありません。

平坦な地形での屋外ランニングで、GPS信号が良好な場合が最も信頼性の高いデータを生成します。アルゴリズムは主にこのアクティビティタイプでトレーニングされています。最大心拍数の70〜85%での安定したランニングが、ウォッチに最もクリーンな信号を提供します。

インターバルトレーニングはノイズを生む。心拍数は運動強度の変化に遅れて反応するため、アルゴリズムは混在した信号の解釈に苦労します。2024年の分析では、インターバルセッションからのVO2 Max推定は、安定したランニングよりも40%高い分散を示しました。

サイクリングの推定は、ほとんどのブランドでランニングよりも精度が低い。パワーメーターがあると大幅に改善されます。ペアリングされたパワーデータを持つウォッチは、心拍数のみのサイクリング推定よりも35%高い精度を示しました。

水泳は最も弱いカテゴリーのまま。水泳中の手首での心拍検出は信頼性が低く、ペース計算はプール長の精度に大きく依存します。ほとんどのメーカーは、水泳由来のVO2 Maxはより広い誤差範囲を持つことを認めています。

数値よりもトレンドが重要

研究者たちが実際に推奨しているのは、絶対値に固執するのをやめることです。

ウォッチが一貫して5 ml/kg/min過小評価しているなら、それで構いません。一貫して過小評価している限りは。重要なのは、トレーニングで数値が上昇傾向を示し、トレーニングを休むと下降傾向を示すかどうかです。

ザルツブルク研究では、絶対精度は大きくばらついたものの、相対精度(時間経過に伴うフィットネス変化の検出)はずっと優れていることがわかりました。被験者がトレーニングブロックで実際のVO2 Maxを3+ ml/kg/min改善した場合、ウォッチは84%の確率で改善を検出しました。大きさは必ずしも正確ではありませんでしたが、方向性は合っていたのです。

ウォッチのVO2 Maxは、3kg重く校正されている体重計のようなものと考えてください。絶対値は間違っていますが、体重の変化を追跡するなら、それでも機能するのです。

ウォッチの精度を向上させる実践的なステップ

ウォッチを完璧にすることはできませんが、誤差の原因を減らすことはできます。

同じルートを定期的に走る。一貫した地形は変数を一つ取り除きます。常に同じ平坦な5kmループで「テスト」ランを行えば、GPS誤差と標高の影響は一定に保たれます。

ベンチマークランの前はカフェインを控える。VO2 Maxのトレンドを正確に追跡したいなら、安定した評価ランは刺激物なしで行いましょう。

完全なGPSロックを待つ。検索中の最初の30秒は、最も悪い位置データを生成することが多いです。ウォッチが確実な衛星接続を示すまで静止していましょう。

アプリで体重を更新する。VO2 Maxは体重1kgあたりで計算されます。設定時から2〜3kg以上増減していれば、推定値はずれていきます。

可能な限り穏やかな条件で走る。極端な暑さ、寒さ、湿度はすべて、フィットネスとは無関係に心拍数に影響します。春と秋の朝のランニングが、通常最もクリーンなデータを生成します。

ラボテストが本当に意味を持つとき

ほとんどのレクリエーション運動者にとって、ウォッチの推定値は十分な情報を提供します。健康のためにトレーニングし、トレンドを追跡し、モチベーションを維持しているのです。小数点以下の精度がワークアウトプランを変えることはありません。

しかし、実際のラボテストが必要な状況もあります。トレーニングゾーンが正確に重要なエリートアスリートなら、テストを受けましょう。心臓イベントからの回復中や心臓疾患を管理している場合も、テストを受けましょう。健康要件のある競技イベントへの参加資格など、フィットネス指標に基づいて重要な決定を下す場合も、テストを受けましょう。

ラボテストは通常、大学の運動科学部門やスポーツ医学クリニックで1〜2万円程度です。体験自体も価値があります。自分がどこまで追い込めるか、本当の最大努力とはどんな感覚かを正確に学べるからです。

手首ベースのVO2 Maxについての結論

スマートウォッチは、おそらく現実の10〜15%以内の妥当な推定値を提供します。一部のユーザーにとっては驚くほど正確です。他のユーザー、特に効率の良いランナー、高地居住者、心拍数に影響する薬を服用している人にとっては、より大きくずれることがあります。

手首の数値は、あなたの実際のVO2 Maxではありません。限られたデータに基づくアルゴリズムの推測です。それに応じて扱いましょう。トレンドの追跡、一貫性の維持、大まかなフィットネスベンチマークの提供には有用です。医療上の決定、正確なトレーニングゾーン計算、ラボテストを受けたアスリートとの比較には適していません。

私のウォッチはまだ47と表示しています。実際は53くらいだとわかっています。そして正直なところ、それで納得しています。重要なのはトレンドライン。日々の数値は単なる代理指標に過ぎないのです。

アプリで続きを読む

あなたのデータでパーソナライズ

📊 主要統計

4.2 ml/kg/min
スマートウォッチのVO2 Max推定平均誤差
Medicine & Science in Sports & Exercise, 2025
平均5.8 ml/kg/min
効率の良いランナーの過小評価
European Journal of Applied Physiology, 2024
平均6.1 ml/kg/min
高地居住者(1,500m以上)の過小評価
Medicine & Science in Sports & Exercise, 2025
実際の変化が3 ml/kg/min以上の場合84%
フィットネス変化の検出精度
Medicine & Science in Sports & Exercise, 2025
ユーザーの68%
Garmin推定値が3.5 ml/kg/min以内
Medicine & Science in Sports & Exercise, 2025

ブランド別スマートウォッチVO2 Max精度(2025年検証)

ブランド3.5 ml/kg/min以内の割合平均誤差よくある誤差の方向
Garmin68%±3.8 ml/kg/minやや過小評価
Polar61%±4.1 ml/kg/minばらつきあり
COROS59%±4.3 ml/kg/minやや過小評価
Apple Watch54%±4.7 ml/kg/minばらつきあり
Samsung52%±4.9 ml/kg/minやや過大評価

127名のレクリエーションアスリートをラボでの代謝分析と比較したデータ。ランニング効率、標高、その他の要因により個人差があります。

よくある質問

スマートウォッチのVO2 Maxはどのくらいの頻度で更新されますか?
ほとんどのウォッチは、安定した心拍データを伴う10分以上の屋外ランニング後に更新されます。Garminは通常、条件を満たすランニング後に更新されますが、Apple Watchは変化を記録するまでに複数のワークアウトが必要な場合があります。意味のあるトレンド変化は、数日ではなく数週間単位で期待してください。
より激しくトレーニングしているのに、なぜVO2 Maxが下がったのですか?
オーバートレーニング、暑さ、睡眠不足、体調不良、カフェインはすべて心拍数を上昇させ、一時的な低下を引き起こす可能性があります。また、よりアップダウンの多いルートや高地で走っていないか確認してください。単発の低い数値は通常、コンディションを反映しており、フィットネスの低下ではありません。
スマートウォッチのVO2 Maxを公開されているフィットネス表と比較できますか?
注意が必要です。フィットネス表は通常、ラボでテストされた値を参照しています。ウォッチの推定値は3〜7 ml/kg/min異なる可能性があります。大まかなカテゴリー分類には使えますが、正確なパーセンタイル順位には使えません。
サイクリングや水泳だけでも、フィットネスウォッチのVO2 Maxは機能しますか?
サイクリングの推定はパワーメーターがあると大幅に改善されます。水泳の推定は、水中での手首心拍検出が信頼性に欠けるため、最も誤差範囲が広くなります。ほとんどのデバイスでは、ランニングが最も正確な推定を提供します。
VO2 Maxが高いほど健康に良いのですか?
高い値は心血管の健康と長寿と相関していますが、その関係は直線的ではありません。25から35 ml/kg/minへの向上は、50から60への向上よりも大きな健康効果をもたらします。ほとんどの人にとって、エリートの数値を追い求めるよりも「良好」カテゴリーに到達することの方が重要です。
ウォッチを校正するためにラボテストを受けるべきですか?
ラボテストはウォッチを校正しません。アルゴリズムを修正するために真のVO2 Maxを入力することはできません。しかし、実際の値を知ることで、ウォッチのデータを解釈しやすくなります。ラボテストでウォッチの表示より5ポイント高いとわかれば、今後のすべての数値を頭の中で調整できます。
なぜ異なるウォッチで異なるVO2 Max数値が出るのですか?
各ブランドは異なるデータセットでトレーニングされた独自のアルゴリズムを使用しています。GarminのFirstbeatアルゴリズムはAppleのアプローチとは異なります。どちらがあなたにとって必ずしも正確というわけではありません。デバイス間の一致よりも、一つのデバイス内での一貫性が重要です。

参考資料