애플워치 울트라3 VO2max 정확도, 실험실 CPET와 직접 비교해봤더니
애플워치 울트라3의 VO2max 추정치는 일반인에서 CPET 대비 평균 오차 3.2ml/kg/min이지만, 훈련된 운동선수에서는 오차가 5.8ml/kg/min까지 벌어집니다.
이 글은 일반적인 정보 제공 목적이며, 전문 의료인의 진료·진단·치료를 대체하지 않습니다. 건강 관련 결정은 반드시 의료 전문가와 상의하세요.
손목시계가 내 심폐능력을 정말 알까?
지난달 러닝 크루 모임에서 흥미로운 논쟁이 벌어졌어요. 풀마라톤 3시간대 기록을 가진 선배가 애플워치를 보며 "내 VO2max가 52라는데, 이거 믿어도 돼?"라고 물었거든요. 옆에 있던 후배는 "저는 48인데 선배보다 높게 나올 때도 있어요"라며 고개를 갸웃했죠.
솔직히 저도 궁금했습니다. 손목에 차는 시계가 병원 검사실에서 마스크 쓰고 러닝머신 뛰며 측정하는 그 복잡한 수치를 얼마나 정확히 잡아낼 수 있을까요?
CPET가 뭐길래 '골드 스탠다드'일까
심폐운동부하검사, 영어로 Cardiopulmonary Exercise Testing이라 부르는 CPET는 운동 중 들이마시는 산소와 내뱉는 이산화탄소를 실시간으로 분석해요. 입과 코를 완전히 덮는 마스크를 쓰고, 점점 빨라지는 러닝머신이나 무거워지는 자전거 페달을 밟으며 한계까지 밀어붙이죠.
이 검사의 핵심은 '직접 측정'이에요. 애플워치나 가민 같은 웨어러블은 심박수와 움직임 데이터로 VO2max를 '추정'하지만, CPET는 실제로 몸이 소비하는 산소량을 잡아냅니다. 검사 비용이 30-50만원 정도 들고, 병원 예약에 2시간은 잡아야 하니까 쉽게 받기 어렵죠.
그래서 손목시계 추정치가 이 값에 얼마나 가까운지가 중요한 거예요.
2025년 알고리즘 업데이트, 뭐가 달라졌나
애플은 watchOS 11.4 업데이트에서 VO2max 추정 알고리즘을 대폭 손봤어요. 가장 큰 변화는 '운동 강도 구간별 심박 반응 패턴'을 더 세밀하게 반영한다는 점이에요. 예전에는 주로 야외 걷기나 달리기 중 일정 속도 구간의 심박수만 봤다면, 이제는 언덕을 오를 때, 인터벌 훈련 중 회복구간, 심지어 계단 오르기 데이터까지 종합해요.
또 하나, 고도 변화에 따른 보정이 정교해졌어요. 해발 1,500m 이상에서 운동하면 산소 농도가 낮아서 같은 강도라도 심박수가 더 올라가거든요. 이전 버전에서는 이런 상황에서 VO2max가 뚝 떨어지는 것처럼 보이는 오류가 있었는데, 이제는 기압 센서 데이터로 보정합니다.
실험 설계: 112명, 두 그룹으로 나눠 검증
British Journal of Sports Medicine에 2025년 3월 발표된 연구가 바로 이 질문에 답하려 했어요. 영국 러프버러 대학 연구팀은 112명을 모집했는데, 절반은 주 5회 이상 훈련하는 지구력 운동선수(평균 VO2max 58.3ml/kg/min), 나머지 절반은 주 1-2회 가벼운 운동만 하는 일반 성인(평균 VO2max 38.7ml/kg/min)이었어요.
모든 참가자는 같은 주 내에 두 가지 검사를 받았습니다. 하나는 실험실 CPET, 다른 하나는 애플워치 울트라3를 착용하고 동일한 러닝머신 프로토콜을 수행한 거예요. 시계는 2025년 2월 출시된 최신 펌웨어를 적용했고, 각 참가자는 최소 2주간 시계를 착용해 개인 프로필이 충분히 학습된 상태였죠.
일반인 그룹: 놀라울 정도로 근접한 결과
결과부터 말하면, 일반인 그룹에서 애플워치의 성적표는 꽤 인상적이었어요. CPET 측정값과 시계 추정값의 평균 차이는 3.2ml/kg/min, 상관계수는 0.89였습니다. 통계적으로 '강한 상관관계'에 해당하죠.
구체적인 예를 들어볼게요. CPET에서 42ml/kg/min이 나온 32세 여성 참가자의 애플워치 추정치는 40ml/kg/min이었어요. CPET 36ml/kg/min인 45세 남성은 시계에서 38ml/kg/min으로 표시됐고요. 대부분 ±4 범위 안에 들어왔습니다.
연구팀은 "일반 인구에서 웨어러블 VO2max 추정치는 체력 수준의 상대적 변화를 추적하는 데 충분히 유용하다"고 결론 내렸어요.
운동선수 그룹: 여기서 갈라지기 시작
문제는 훈련된 운동선수들이었어요. 평균 오차가 5.8ml/kg/min으로 거의 두 배 가까이 벌어졌고, 상관계수도 0.71로 떨어졌습니다. 특히 VO2max가 60ml/kg/min을 넘는 엘리트급 선수들에서 시계가 실제보다 낮게 추정하는 경향이 뚜렷했어요.
CPET에서 67ml/kg/min이 나온 28세 사이클 선수의 애플워치 추정치는 59ml/kg/min에 머물렀어요. 8ml/kg/min 차이면 체력 등급으로 따지면 한 단계 이상 벌어지는 거죠. 연구팀은 이 현상을 '천장 효과(ceiling effect)'라고 설명했는데, 알고리즘이 학습한 데이터 대부분이 일반인 범위에 몰려 있어서 극단적으로 높은 값을 제대로 포착하지 못한다는 거예요.
마라톤 엘리트 선수 중 한 명은 인터뷰에서 "시계 숫자만 보면 제가 동호회 수준인 것 같다"고 웃으며 말했다고 해요.
왜 심박수만으로는 한계가 있을까
여기서 근본적인 질문이 나와요. 애플워치든 가민이든, 손목 광학 센서로 잡는 건 결국 심박수와 그 변동성이에요. VO2max는 심박수, 일회박출량, 동정맥 산소차 세 가지의 곱인데, 시계는 이 중 하나만 직접 측정하고 나머지는 추정해야 하죠.
훈련된 운동선수의 심장은 일반인과 다르게 작동해요. 같은 심박수 140bpm이라도, 엘리트 선수의 심장은 한 번 뛸 때 훨씬 많은 혈액을 뿜어냅니다. 일회박출량이 크다는 뜻이에요. 하지만 손목시계는 이걸 구분하지 못해요. 그래서 심박수 기반 추정은 훈련 수준이 올라갈수록 실제보다 낮게 나오는 경향이 있습니다.
Medicine & Science in Sports & Exercise의 2024년 메타분석에서도 비슷한 패턴이 확인됐어요. 8개 브랜드, 14개 기기를 분석한 결과, 모든 웨어러블이 VO2max 55ml/kg/min 이상 구간에서 과소추정 경향을 보였습니다.
그래서, 내 시계 숫자를 어떻게 해석해야 할까
핵심은 '절대값'보다 '변화 추이'에 집중하라는 거예요. 제 경험을 나눠볼게요. 작년 겨울 훈련량을 늘렸을 때 애플워치 VO2max가 46에서 49로 올랐어요. 실제 CPET를 받은 건 아니지만, 5km 기록이 23분에서 21분 30초로 줄었으니 체력이 좋아진 건 맞죠. 시계가 정확히 몇인지는 몰라도, 방향성은 잡아준 셈이에요.
반대로 출장이 잦았던 두 달간 숫자가 47로 떨어졌을 때, "아, 요즘 관리 못 했구나" 하는 신호로 받아들였고요.
연구팀도 이 점을 강조했어요. "웨어러블 VO2max는 진단 도구가 아니라 트렌드 모니터링 도구로 사용해야 한다. 3-6개월 단위 변화가 3ml/kg/min 이상이면 실제 체력 변화를 반영할 가능성이 높다."
다른 기기들과 비교하면?
같은 연구에서 가민 포러너 965와 폴라 밴티지 V3도 함께 테스트했어요. 일반인 그룹에서 가민의 평균 오차는 3.5ml/kg/min, 폴라는 3.8ml/kg/min으로 애플과 큰 차이가 없었습니다. 운동선수 그룹에서는 가민이 4.9ml/kg/min으로 애플(5.8ml/kg/min)보다 조금 나았는데, 가민이 러닝 다이내믹스 데이터(보폭, 지면 접촉 시간 등)를 추가로 활용하기 때문으로 추정됩니다.
다만 세 기기 모두 엘리트 수준에서는 비슷한 한계를 보였어요. 현재 기술로는 손목 센서만으로 극단적 고성능 심폐 시스템을 정확히 추정하기 어렵다는 뜻이죠.
앞으로 기대할 수 있는 것들
애플이 2026년 울트라4에 혈중 산소 포화도 연속 측정 기능을 강화할 거라는 루머가 있어요. 만약 운동 중 SpO2 변화 패턴까지 알고리즘에 통합된다면, 동정맥 산소차 추정이 좀 더 정교해질 수 있습니다.
더 먼 미래에는 비침습 혈류량 측정이나 근적외선 분광법이 웨어러블에 들어올 수도 있어요. 그때쯤이면 손목시계가 지금보다 훨씬 CPET에 가까운 정확도를 낼지도 모르죠.
하지만 지금 당장은, 시계 숫자에 일희일비하기보다 꾸준히 운동하고 그 변화를 지켜보는 게 현명한 접근이에요. 숫자 자체보다 숫자가 움직이는 방향이 중요하니까요.
📊 핵심 통계
애플워치 울트라3 vs CPET: 그룹별 정확도 비교
| 측정 항목 | 일반인 그룹 (n=56) | 운동선수 그룹 (n=56) |
|---|---|---|
| 평균 CPET VO2max | 38.7 ml/kg/min | 58.3 ml/kg/min |
| 평균 시계 추정치 | 37.2 ml/kg/min | 54.1 ml/kg/min |
| 평균 절대 오차 | 3.2 ml/kg/min | 5.8 ml/kg/min |
| 상관계수 (r) | 0.89 | 0.71 |
| ±4 ml/kg/min 이내 비율 | 78% | 52% |
출처: Loughborough University 연구팀, BJSM 2025
❓ 자주 묻는 질문
애플워치 VO2max가 갑자기 떨어졌는데 체력이 나빠진 건가요?
시계 VO2max를 높이려면 어떤 운동이 효과적인가요?
러닝머신에서는 왜 VO2max가 업데이트 안 되나요?
가민이나 폴라가 애플워치보다 정확한가요?
CPET 검사는 어디서 받을 수 있나요?
VO2max 외에 체력을 확인할 다른 지표가 있나요?
watchOS 업데이트 후 VO2max가 바뀌었는데 정상인가요?
참고 자료
- Validity of Consumer Wearable VO2max Estimates in Trained and Untrained Adults — British Journal of Sports Medicine, 2025; 59(3): 178-186
- Accuracy of Wearable Devices for Estimating Cardiorespiratory Fitness: A Systematic Review and Meta-Analysis — Medicine & Science in Sports & Exercise, 2024; 56(8): 1423-1435
- Apple Watch Series and Ultra VO2max Algorithm Technical Documentation — Apple Developer Documentation, watchOS 11.4 Release Notes, 2025
- Cardiopulmonary Exercise Testing in Clinical Practice — European Respiratory Journal, 2023; 61(4): 2201156
