診療ガイドライン・システマティックレビュー
読み方 ガイド

— すべての医療関係者のための、GRADE準拠の読み手向け解説 —
日々の診療で ガイドラインを読み、SRを参照し、推奨を目の前の患者に適用する ために必要な知識を、Gordon Guyatt先生らのUsers' Guidesシリーズ、GRADE最新方法論、閾値・MID、信頼できるCPGの6つの質問、AMSTAR 2/PRISMA 2020までを1つにまとめた読み手専用のサイトです。

本サイトは作成者向けのGRADEハンドブックとは別に、読み手の視点で「どこを見るか・どう判断するか・どう現場に持ち込むか」に特化しています。
🎓 初学者の方は、まず次の動画と解説を学んでください
本サイトの各章に入る前に、EBM・システマティックレビュー(SR)・診療ガイドライン(CPG)の関係を正しく理解しておくことが、信頼できる医療情報を見極める目を養うための第一歩です。
📊 診療ガイドライン(システマティックレビューに基づく)全体像
🔍 タップで拡大 — スマホはスワイプで移動
🏋️ CPG/SRの読み方の実践的な訓練を行いたい方へ
本サイトで学んだ読み方を、実例を使って手を動かしながら訓練したい方は、姉妹サイト GRADE 探検 をご利用ください。SR/CPG の読解演習を、ステップごとに体験できます。
📘 世界標準の読み方フレームワーク — JAMA ユーザーズガイド
本サイトの中核は、Gordon Guyatt 先生らが編集する JAMA Users' Guides to the Medical Literature(第3版)のフレームワークです。本編の各章はこのガイドの質問を土台に、日本の読者向けに独自に再構成・解説しています。3つの要約章(Ch22 SR/MAプロセス、Ch23 結果の理解と適用、Ch24 NMA)は独立ページとして読めます。
このサイトで学べること
✅ GRADEの4段階の「エビデンスの確実性」を正しく解釈できる
✅ SoF表(Summary of Findings)を5分で読めるようになる
✅ 「強い推奨」と「条件付き推奨」を患者にどう提示するかが分かる
✅ 目の前のCPGが信頼できるかを6つの質問で判定できる(Guyatt 2023)
✅ 臨床的に重要な差(MID/閾値)の意味が分かる
✅ AMSTAR 2/PRISMA 2020でSRの質を評価できる
要点:EBM(Evidence-Based Medicine)は25年で「RCTの階層」から「GRADEによる構造化判断」へ進化した [G1]。臨床家は論文を全て読む代わりに、信頼できるSRとCPGを「読み解く」ことで、患者の価値観と統合した意思決定を行う。[G1][U12][U16]
📘 JAMA UG
本章と JAMA ユーザーズガイドの関係

Gordon Guyatt 先生らが編集する JAMA Users' Guides to the Medical Literature は、個別の論文タイプ(RCT、SR、診断研究、CPG など)ごとに「臨床家が読むときに自問すべき質問」を体系化した標準テキストです。本章で扱う SR/CPG の読み方は、同書 Ch22〜Ch26 に対応します。

EBMの25年間の進化

EBMは1990年代初頭、RCTをエビデンスピラミッドの頂点に置く階層モデルから出発しました。以降、Djulbegovic & Guyatt [G1] が総括した通り、EBMは以下のような成熟を遂げました:

  • SRが第一情報源に:個別RCTよりも系統的レビュー+メタ解析が臨床判断の基盤となった
  • エビデンスの「確実性」という概念の導入:単なる研究デザインではなく、バイアスリスク・一貫性・直接性・精度・出版バイアスで総合評価するGRADEが普及
  • 観察研究の再評価:RCTが実施困難な場合の観察研究の活用方法が整備された [G2]
  • 患者の価値観と嗜好の組込み:推奨の強さ決定に「価値観」が明示的要素として組み込まれた
  • 共同意思決定(SDM):特に条件付き推奨では患者との対話が必須との理解が定着

診療ガイドライン(CPG)とシステマティックレビュー(SR)の関係

臨床家が実際に日々参照するのは、生のRCTではなく:

  1. システマティックレビュー(SR):特定の臨床疑問について、系統的に文献を検索・選択・評価・統合した二次研究。メタ解析(統計的統合)を含むこともある。[U12]
  2. 診療ガイドライン(CPG):複数のSRの結果をパネル討議で推奨に変換したもの。推奨の方向(賛成/反対)と強さ(強い/条件付き)、根拠となるエビデンスの確実性を提示する。[U16]

読み手としての3つの問い

🎯 SRやCPGを読むとき、常に自問する3つ

  1. このエビデンス(あるいは推奨)は妥当か?(=信頼できるか)
  2. 結果は何か?(=効果の方向と大きさ、確実性)
  3. 自分の患者に適用できるか?(=Applicability)

これが Users' Guides to the Medical Literature [U18] の30年来の基本枠組みです。本サイトの各章はこの3つの問いに沿って構成されています。

本サイトの読み進め方

初めての方は Ch2(GRADE概要)→ Ch3(確実性)→ Ch4(推奨強度)→ Ch5(SoF表)→ Ch16(信頼できるCPG)の順がおすすめ。すぐに判定ツールを使いたい方は Ch16の6質問チェックリストから始めてください。

🗺️ 診療ガイドライン/SRの文書構造マップ — 「どこに何が書いてあるか」の全体像

本サイトで学ぶGRADE・MID・RoB・AMSTAR 2などの各トピックは、すべて実際のCPG/SR文書の「どこかの一節」を読み解くためのものです。下のマップは、CPGとSRの典型的な章立てを示し、各セクションに書かれている内容それを読むために必要な本サイトの章を対応させています。各章を読んでいる最中に「今どこを読もうとしているか」分からなくなったら、いつでもここに戻ってください。

📖 文書構造ナビゲーター

タブを切り替えて、診療ガイドライン(CPG)システマティックレビュー(SR)それぞれの典型的な構造を確認してください。各セクションの「🎓 学習章」ボタンをクリックすると、そのセクションを読むのに必要な章へ直接ジャンプします。

STEP
1
表紙・作成組織・パネル構成 Title page / Authorship / Panel composition
何が書いてある?作成学会・パネル委員名・多職種構成・患者代表の有無・COI(利益相反)情報。
STEP
2
目的・スコープ・対象集団 Objectives / Scope / Target population
何が書いてある?このCPGが答える臨床疑問(PICO形式)・対象患者・除外集団・想定ユーザー。
STEP
3
方法論セクション Methodology / GRADE approach statement
何が書いてある?「GRADEアプローチを採用」「SRを実施/既存SRを利用」「エビデンスの確実性を4段階で評価」「推奨の強さを2段階で評価」等の根幹宣言
STEP
4
推奨文(Recommendation statements) "We recommend..." / "We suggest..."
何が書いてある?「強く推奨する/提案する(条件付き)」の文言・推奨の方向(賛成/反対)・根拠となる確実性レベル・動詞(results in/likely/may)。GPS(Good Practice Statement)が混じることも。
STEP
5
Summary of Findings(SoF)表 SoF tables / Evidence Profile
何が書いてある?アウトカムごとに①参加者数/研究数 ②相対効果(RR/OR/HR) ③絶対効果(per 1000) ④確実性(⊕⊕⊕⊕/⊕⊕⊕◯など) ⑤平易な要約。CPGの中で最も情報密度が高い箇所
STEP
6
根拠の確実性を下げた理由 Rationale for downgrading certainty
何が書いてある?「serious risk of bias」「serious imprecision due to wide CI」「indirectness: surrogate outcome」等の5要因の判定根拠。Evidence Profile(付録)に詳細。
STEP
7
Evidence to Decision(EtD)枠組み EtD framework / Justification
何が書いてある?利益と害のバランス・患者の価値観・資源(費用)・公平性・実施可能性・受容性の6項目の判定。推奨の強さを決めた理由。
STEP
8
臨床考察・実施上の考慮事項 Clinical considerations / Implementation
何が書いてある?サブグループ(高リスク群/低リスク群)での絶対効果・代替治療との比較・モニタリング・特殊集団での注意。
STEP
9
付録 — Evidence Profile・検索戦略・COI詳細 Supplementary materials
何が書いてある?完全版Evidence Profile(確実性の5要因すべての判定内訳)・文献検索戦略(DB、検索語、期間)・個々のパネリストのCOI申告・外部レビューのコメント。
STEP
1
タイトル・抄録(Abstract) Title / Structured abstract
何が書いてある?研究目的、主要結果、確実性の総合評価、結論。PRISMA 2020の2項目に該当。忙しいときはここだけ読むことも。
STEP
2
緒言(Introduction) Rationale / Objectives (PICO)
何が書いてある?研究の背景・先行SRの状況・PICO形式の臨床疑問・レビューの目的。自分の臨床疑問と一致するか確認。
STEP
3
方法 — プロトコル・適格基準 Methods: Protocol / Eligibility criteria
何が書いてある?PROSPERO登録番号・プロトコル参照・対象研究デザイン(RCT/観察研究/定性的研究)・包含/除外基準。
STEP
4
方法 — 情報源・検索戦略 Information sources / Search strategy
何が書いてある?検索したDB(MEDLINE, Embase, CENTRALなど)・灰色文献・試験登録・言語制限・検索日。2つ以上のDB+灰色文献がAMSTAR 2の重要基準。
STEP
5
方法 — 選択・データ抽出・RoB評価 Selection / Data extraction / RoB
何が書いてある?2名独立での選択・データ抽出・RCTはRoB 2、観察研究はROBINS-I/ROBINS-Eでバイアス評価。
STEP
6
方法 — 統合方法・確実性評価計画 Synthesis methods / GRADE plan
何が書いてある?メタ解析モデル(固定/変量効果)・異質性評価(I²)・サブグループ/感度分析・GRADE 5要因での確実性評価計画。
STEP
7
結果 — 研究選択(フロー図) PRISMA flow diagram
何が書いてある?Identified → Screened → Eligible → Included の件数フロー。除外理由の内訳。
STEP
8
結果 — 研究特性・RoB結果 Study characteristics / RoB results
何が書いてある?各研究の集団・介入・対照・アウトカム・バイアスリスクのtraffic light図。高リスク研究が多いほど確実性が下がる。
STEP
9
結果 — 森林プロット(Forest plot) Forest plot / Meta-analysis results
何が書いてある?各研究の効果量・95%CIと統合効果(ダイヤモンド)・I²・p for heterogeneity。左右バラバラなら異質性の疑い。
STEP
10
結果 — SoF表・確実性評価 Summary of Findings table
何が書いてある?アウトカムごとの相対効果・絶対効果・確実性(⊕)・平易な要約。SRの結論セクションで最も参照される一枚
STEP
11
結果 — 発表バイアス評価 Dissemination bias assessment
何が書いてある?ファネルプロット・Egger検定/Begg検定・未発表試験の検索。研究数10以上で実施されることが多い。
STEP
12
考察(Discussion) Discussion / Limitations
何が書いてある?結果の解釈・先行研究との比較・SRの限界(研究数不足、異質性、言語制限など)・臨床/政策への示唆。
STEP
13
資金源・COI・登録 Funding / COI / Registration
何が書いてある?資金提供者・著者のCOI・PROSPERO登録番号・プロトコル参照。業界資金はバイアスの追加リスク。
💡 この文書構造マップの使い方
Ch2以降の各章冒頭には「📍あなたが今学んでいる場所」というピンが表示されます。そこにCPG/SRのどのセクションを読むための知識かが示され、このマップの対応箇所を思い出しながら学べます。迷ったらいつでもCh1末尾のこのマップに戻ってください。
📍
あなたが今学んでいる場所 CPG:方法論セクション(STEP 3) SR:方法の「統合方法・確実性評価計画」(STEP 6) CPG/SRの文書内で「GRADEアプローチを採用」「エビデンスの確実性を評価」と書かれている箇所の根幹宣言を読み解くための基礎を学びます。この章の知識は、以降のすべての章の土台になります。

🧭 なぜCPG/SRの読み方を学ぶ初心者が、まず「GRADE」から学ぶのか?

"GRADE" という耳慣れない用語が急に出てきて混乱するかもしれません。でも大丈夫。この用語を避けて通ると、CPG/SRのほぼすべての内容が理解できなくなるからです。理由は3つあります:

  1. 現代のCPG/SRの「共通言語」だから — 世界110以上のガイドライン組織(WHO、NICE、Cochrane、Minds、米国内科学会…)がGRADEを採用 [U13]。「エビデンスの確実性:中」「条件付き推奨」「⊕⊕⊕◯」などの記号と用語はすべてGRADEの産物です。GRADEを知らずにCPGを読むのは、文法を知らずに外国語を読むのと同じです。
  2. 本サイトの全24章の地図になるから — Ch3は「確実性4段階」、Ch4は「推奨の強さ」、Ch5-7はGRADEの具体的な表現、Ch8-12はGRADEの「確実性を下げる5要因」の詳細、Ch16-19は「GRADEが正しく適用されたかを評価する」ツール…すべての章がGRADEの一部分を掘り下げる形で構成されています。
  3. あなたの臨床判断を変えるから — GRADEは「何をどのくらい信じて、どのくらい患者に勧めるか」を構造化する道具です。「この治療は強く推奨されている」と「条件付きで推奨されている」で、実臨床でのあなたの行動は明確に変わるべきで、GRADEはその変え方を教えてくれます。

この章のゴール:GRADEという用語の正体を知り、CPG/SRを読んだときに「いま自分はGRADEのどの部分を見ているのか」が分かるようになること。細部の理解はあとで大丈夫です。

要点:GRADEGrading of Recommendations, Assessment, Development, and Evaluation)は、エビデンスの確実性を4段階で評価し、推奨の強さを2段階(強い/条件付き)で提示する国際標準の枠組みです。2000年頃に国際ワーキンググループが開発し、現在110以上のガイドライン組織が採用しています [U13]。読み手としては「CPG/SRの結論を信じる度合いと、患者への勧め方を決める共通ルール」と理解してください。

GRADEという単語の意味を分解する

「GRADE」は頭字語(acronym)です。1文字ずつ分解すると、この枠組みが何をする道具なのかが見えてきます:

🔤 G・R・A・D・E を分解

G Grading 等級付け
R Recommendations 推奨
A Assessment 評価
D Development 開発
E Evaluation 判定

つまり直訳すると「推奨を等級付けし、その評価・開発・判定を行う枠組み」。短く言えば「エビデンスと推奨に『格付け』を与える標準ルール」です。GRADEの中核は「格付けを客観的・透明・再現可能に行う」ことにあります。

GRADE以前の世界 — なぜ新しい枠組みが必要だったか

2000年以前、多くの学会は独自のエビデンス分類(Level I, II, III…やA, B, C…)を使っていました。しかし問題がありました:

  • 学会ごとに定義がバラバラ — ある学会の「Level B」が別の学会では「Grade II」。読み手は毎回定義表を確認する必要がありました。
  • 研究デザインに過度に依存 — 「RCTなら高、観察研究なら低」という単純な階層。しかし質の低いRCTと優れた観察研究ではどちらが信頼できるかは単純に決まりません。
  • エビデンスと推奨の混同 — 「エビデンスの質」と「推奨の強さ」が区別されておらず、「強い推奨=質の高いエビデンス」と誤解されがちでした。

GRADEはこれらの問題を解決するために誕生し、エビデンスの確実性推奨の強さを完全に分離し、5要因による透明な評価を導入しました。これは25年間のEBM進化の中核成果です [G1]。

GRADEの基本構造 — 2つの独立した判断

GRADEの最も重要な考え方は、以下の2つの判断を絶対に混同しないことです:

  1. エビデンスの確実性(Certainty of Evidence)(高/中/低/非常に低い、4段階) — エビデンスそのものがどのくらい信頼できるかの評価(Ch3で詳述)
  2. 推奨の強さ(Strength of Recommendation)(強い/条件付き、2段階) — 推奨を出すかどうか・どの程度強く出すかの判断(Ch4で詳述)

これらは必ずしも一致しません。具体例で見ましょう:

例1:高い確実性だが条件付き推奨:スクリーニング検査の有効性がRCTで確認され確実性は「高」。しかし「早期発見による延命」に対する患者の価値観は人により大きく異なり(偽陽性の負担を嫌う人、早期発見を最優先する人)、全員に推奨できない → 条件付き推奨

例2:低い確実性だが強い推奨:重篤な感染症の抗菌薬使用について観察研究のエビデンスしかなく確実性は「低」。しかし未治療で死亡率が高く、代替策もない → 強い推奨(Ch4で詳述する例外条件に該当)。

この「エビデンスの確実性と推奨の強さが独立している」という点は、GRADE以前のシステムとの最大の違いであり、読み手として最も誤解しやすい部分です。

エビデンスの確実性を決める5要因(下げる要因)

RCT(ランダム化比較試験)のエビデンスはGRADEでは「高(⊕⊕⊕⊕)」から出発します。そこから以下の5要因のそれぞれについて「深刻な問題がある」と判定されれば確実性を1段下げ、「非常に深刻」なら2段下げます:

要因何を見るか詳細章
① Risk of Bias
バイアスリスク
個別研究の方法論的欠陥(無作為化、盲検化、脱落、選択的報告) Ch8
② Inconsistency
不一致性
研究間で結果がバラバラか(説明できない異質性) Ch9
③ Indirectness
非直接性
PICO(対象・介入・比較・アウトカム)のズレ、サロゲート使用 Ch10
④ Imprecision
不確実性(精度不足)
信頼区間が広く、臨床判断がぶれるか Ch11
⑤ Dissemination bias
発表バイアス
肯定的結果が選択的に発表されている疑い Ch12

この5要因は、CPGのEvidence Profile付録やSRの「Certainty Assessment」の列に必ず記載されています。例えば "serious imprecision due to wide CI"(CIが広く精度不足があるため1段下げ)といった文言。この章から先の Ch8-12 では、各要因について「どういう状況で下げるのか」「読み手として何をチェックすべきか」を個別に掘り下げます。

観察研究を格上げする3条件(上げる要因)

観察研究(コホート、症例対照)は交絡の問題があるため、GRADEでは「低(⊕⊕◯◯)」から出発します。しかし以下の条件を満たせば確実性を上げることができます:

  • 大きな効果量(例:RR>2 または <0.5)→ +1段
  • 非常に大きな効果量(RR>5 または <0.2)→ +2段
  • 用量反応関係が明確 → +1段
  • すべての残存交絡が観察効果を弱める方向(つまり真の効果はより大きいはず)→ +1段

古典例:喫煙と肺がんの関連はRR>10で観察研究ベースでも確実性は「高」と評価されます。

推奨の強さを決める判断要素

推奨の強さは、エビデンスの確実性だけでは決まりません。以下の要素を総合的に検討します(EtDフレームワークで構造化)[U16]:

  • 望ましい効果と望ましくない効果のバランス(benefit vs harm)
  • エビデンスの確実性(高いほど強い推奨を出しやすい)
  • 患者の価値観と嗜好の多様性(多様なら条件付き寄りに)
  • 資源・費用(費用対効果)
  • 公平性(Equity)への影響
  • 実施可能性(Feasibility)受容性(Acceptability)

これらをEvidence to Decision(EtD)フレームワークで構造化して検討します [U16]。CPGの付録に EtD テーブルが掲載されていれば、パネルが推奨の強さをどう決めたかを読み手も追跡できます。

GRADEの「成果物」 — CPG/SRにはこう現れる

GRADEに基づくCPGやSRには、以下の3つの「成果物」が必ず含まれます。これらは Ch1 の文書構造マップの STEP 4-7(CPG)/STEP 10(SR) に該当します:

成果物内容詳細章
Summary of Findings(SoF)表 アウトカムごとの相対効果・絶対効果(per 1000)・確実性(⊕⊕⊕⊕等)・平易な要約 Ch5
Evidence Profile(EP) SoF表に5要因の判定詳細を加えた完全版。通常は付録に掲載 Ch5
推奨とその解釈 「強く推奨する(We recommend)」「提案する(We suggest)」の文言と、強さの実務的意味 Ch4

CPG/SRを開いたとき、この3つを探す癖をつけてください。「SoF表がない/Evidence Profileが見当たらない/推奨の強さが明示されていない」CPGは、信頼性に疑問があるサインです(Ch5, Ch16で詳述)。

GRADEを採用しているCPGかを判別する方法

CPG本文を読むとき、以下のキーワードが出てくれば「GRADEベース」と判断できます:

🔍 GRADE採用CPGの見分けサイン

  • 方法論セクションに「GRADE approach」「GRADEpro GDT」「Evidence Profile」「EtD framework」の言及
  • 確実性表記に ⊕⊕⊕⊕/⊕⊕⊕◯/⊕⊕◯◯/⊕◯◯◯(または High / Moderate / Low / Very Low)
  • 推奨文が「We recommend(強い)」「We suggest(条件付き)」の二択
  • 推奨の動詞が results in / likely / may / very uncertain に対応して確実性と連動 [G5]

逆に、Level I/II/III や Grade A/B/C などの古い分類しか使っていないCPGは、GRADE非採用の可能性が高いです。この場合は Ch16 の「信頼できるCPGの6質問」で慎重に評価する必要があります。

🛤 この章の先に学ぶこと(学習ロードマップ)

本章で登場した各要素を、以降の章でひとつずつ深く掘り下げます。カードをクリックで各章へジャンプ

Ch3エビデンスの確実性4段階
高・中・低・非常に低いの実務的な意味と、読み手の姿勢
Ch4強い vs 条件付き推奨
推奨の強さが臨床・患者・政策にとって何を意味するか
Ch5SoF表の読み方
GRADEの「成果物」を5分で読み解く実践
Ch6相対効果と絶対効果
SoF表の「per 1000」をどう患者に翻訳するか
Ch7 ⭐閾値とMID
「臨床的に重要な差」の基準を理解する
Ch8-12確実性を下げる5要因
RoB/不一致性/非直接性/不確実性/発表バイアスの個別詳細
Ch16 ⭐⭐信頼できるCPG 6質問
本サイトの核心 — GRADEが正しく適用されたCPGかを判定
Ch18AMSTAR 2(SR評価)
参照しているSR自体の質を16項目でチェック
この章で覚えておくべき3つ:
① GRADE = CPG/SRの世界共通の「格付け」ルール(110+組織採用)
エビデンスの確実性(4段階)推奨の強さ(2段階)は独立した判断
③ 確実性は5要因で下げる/3条件で上げる — 以降の章でそれぞれ詳細に学ぶ
📍
あなたが今学んでいる場所 CPG:SoF表・推奨文の「確実性」列(STEP 5) SR:SoF表「Certainty of evidence」列(STEP 10) SoF表に並ぶ ⊕⊕⊕⊕(高)/⊕⊕⊕◯(中)/⊕⊕◯◯(低)/⊕◯◯◯(非常に低い) という記号が、アウトカムごとに何を意味するか解釈できるようになるための章です。
要点:GRADEのエビデンスの確実性は「推定値の真値が特定の範囲内(または意思決定の閾値の上/下)にあるという確信度」と定義される [U13]。読み手は「どの程度この効果推定値を信じられるか」という問いに答える4段階のラベルとして扱う。

4段階の解釈 — 読み手の視点

ラベル意味(読み手向け)推定値への姿勢
高(⊕⊕⊕⊕)真の効果は推定値に非常に近い基本的に信じて行動してよい
中(⊕⊕⊕◯)真の効果は推定値に近いと思われるが、実質的に異なる可能性もある推定値を参考に、患者の状況を加味
低(⊕⊕◯◯)真の効果は推定値と実質的に異なる可能性がある推定値は参考程度、他の情報と総合
非常に低い(⊕◯◯◯)真の効果は推定値と実質的に異なる可能性が非常に高い推定値に依存しない判断を検討

読み手が最も注意すべきこと

⚠ 「確実性が高い」=「効果が大きい」ではない。
確実性が高くても効果が小さいこと、確実性が低くても効果が大きいことはあります。確実性は "効果量をどの程度信じられるか" の指標であり、"効果が大きい/小さい" とは別次元です。

確実性は「どこに対して」評価されているか

重要なポイントとして、確実性の評価はアウトカムごとに行われます。例えば「死亡:高」「QOL:中」「有害事象:低」のように、1つのCPG推奨の中で複数の確実性レベルが併記されるのが普通です。

SoF表(Ch5)を読むときは、各アウトカム行の確実性を個別に確認してください。

確実性を上げる・下げる要因

詳細はCh8-12で扱いますが、概観:

  • 下げる要因(-1 or -2):バイアスリスク/不一致性/非直接性/不確実性/Dissemination bias
  • 上げる要因(観察研究のみ、+1 or +2):大きな効果量/用量反応関係/すべての交絡が逆方向
📍
あなたが今学んでいる場所 CPG:推奨文(STEP 4)/EtDフレームワーク(STEP 7) SR:(該当少、考察で推奨の示唆がある場合) CPG本文に並ぶ「We recommend(強く推奨する)」「We suggest(提案する=条件付き)」の違い、および Good Practice Statement(GPS)の見分け方、低確実性+強い推奨のレッドフラッグ判定を学びます。
要点:GRADEの推奨は「強い」と「条件付き(弱い)」の2種類。それぞれ臨床家と患者への意味が異なる [U5][U11][U13][U16]。加えて、Good Practice Statement(GPS)[G4]、推奨表現の標準化[G5]、単一推定値がない場合[G6] の扱いも知っておく必要がある。

強い推奨 vs 条件付き推奨の解釈

強い推奨条件付き推奨
患者にとってほぼ全員が選ぶ多数派は選ぶが、価値観により選ばない人もいる
臨床家にとって例外なく適用してよい価値観を確認し、共同意思決定(SDM)が必要
政策担当者にとって標準ケアとして採用可能議論を経て採用、アウトカム測定を

低い確実性で強い推奨は「レッドフラッグ」

Guyatt 2023 [U17] は、低い確実性のエビデンスで強い推奨を出すことは、原則として疑わしいと明言しています。例外として許されるのは:

  1. 生命を脅かす状況
  2. 利益不確実・害確実(→推奨しない)
  3. 利益が等価で片方がより害少/安価
  4. 壊滅的な害の可能性

これらに該当しないのに低確実性+強い推奨が出ているCPGは、信頼性に疑問があります。

Good Practice Statement(GPS)

GPS [G4] は、形式的なエビデンスレビューなしに作られる推奨です。例:

  • 「患者に情報を十分に提供する」
  • 「手洗いをする」
  • 「患者の意向を確認する」

GPSは、利益が明らかで代替案が非倫理的・非合理な場合に限って使われます。頻繁にGPSを使うガイドラインは要注意(エビデンスを探す努力が足りない可能性)。

推奨表現の標準化(Piggott 2022)

Piggott et al. [G5] は、EtDフレームワークと推奨の表現を標準化しました。確実性レベルと効果の大きさごとに使うべき動詞・副詞が決まっています:

確実性表現例
「results in / 〜をもたらす」「reduces / 減らす」(断定)
「likely results in / おそらく〜をもたらす」「probably reduces / おそらく減らす」
「may result in / 〜をもたらすかもしれない」
非常に低い「evidence is very uncertain / エビデンスは極めて不確か」

読み手はこれらの表現の強さから、確実性レベルを逆引きできます。

単一推定値がない場合(Murad 2017)

メタ解析で統合できない場合(効果量がばらばら、研究デザインが多様、など)にも、GRADEの5要因は評価できます [G6]。読み手は「なぜ単一推定値がないのか」を見て、その推奨の限界を理解しましょう。

📍
あなたが今学んでいる場所 CPG:Summary of Findings表(STEP 5)/付録のEvidence Profile(STEP 9) SR:結果セクションのSoF表(STEP 10) CPG/SRで最も情報密度が高い一枚がSoF表です。アウトカム行を縦に、相対効果・絶対効果・確実性・平易な要約の列を横に読み解き、5分で結論を把握できる技術を学びます。
要点:Summary of Findings(SoF)表は、GRADEアプローチの中核的な情報提示形式。アウトカムごとに①参加者/研究数 ②相対効果(RR/OR/HR) ③絶対効果(何/1000人) ④確実性 ⑤平易な要約 の5要素を1つの表に集約する [U12]。

SoF表の典型的な列構成

アウトカム 相対効果
(95% CI)
対照群
(per 1000)
介入群
(per 1000)
絶対差
(per 1000, 95% CI)
確実性 平易な要約
死亡(30日) RR 0.83
(0.75-0.92)
130 110 20 fewer
(30-8 fewer)
⊕⊕⊕⊕
治療により死亡が減少する

※ 上記は Guyatt 2023 [U17] Fig.1 のWHO COVID-19バリシチニブ例を参考に簡略化したもの。

読み手として必ず見る5ポイント

📌 SoF表の読解5ステップ

  1. アウトカムの重要度を確認:死亡・主要イベントが含まれているか。サロゲートのみなら要注意
  2. 絶対効果(Absolute)に注目:相対効果は印象を誇張しやすい(Ch6で詳述)
  3. 絶対差の信頼区間が閾値を超えているか:MID(Ch7)未満なら「実質差なし」
  4. 確実性ラベル:高/中なら信じる、低/非常に低いなら他の情報と総合
  5. 平易な要約の動詞:「results in」→高、「likely」→中、「may」→低、「very uncertain」→非常に低い([G5])

Evidence Profile(EP)との違い

EPはSoF表に確実性を下げた理由の詳細("serious indirectness due to use of surrogate outcome"など)を追加したもの。CPG本文にはSoFのみ、付録にEPが載ることが多い。理由を詳しく知りたい場合はEPを確認してください。

SoF表がない/貧弱なガイドラインは疑う

Guyatt 2023 [U17] は、SoF表の欠如・不完全さを 信頼性の重要な判断材料 と位置付けています。ESPNIC POCUSガイド(2020)の例:39推奨中28が「中等度確実性」とされたが、参照されるRCTは7件のみで、SoF表がなく評価不能だった。
📍
あなたが今学んでいる場所 CPG:SoF表の「Relative effect」「Anticipated absolute effects」列(STEP 5)/臨床考察(STEP 8) SR:結果セクションの森林プロットとSoF表(STEP 9, 10) SoF表で「RR 0.5」と「1000人中20人減」が並んで書かれているのはなぜ? — ベースラインリスクによって同じ相対効果でも患者へのインパクトは桁違いという事実を、実際の診療判断に使える形で理解します。
要点:相対効果(RR, OR, HR)はベースラインリスクに依存せず比較的安定。絶対効果はベースラインリスクに依存し、患者への意味付けに直結。読み手は必ず両方を確認し、SoF表の「per 1000」表記に注目する [U12][M5]。

違いの数値例

例:介入のRR = 0.5(リスクを半減)

ベースライン100/1000の場合
100 → 50 人/1000、絶対差 = 50 人/1000 = 20人を治療すれば1人の悪化を防ぐ(NNT=20)

ベースライン10/1000の場合
10 → 5 人/1000、絶対差 = 5 人/1000 = 200人治療で1人改善(NNT=200)

同じRR 0.5でも、患者への意味はベースラインリスクで大きく異なる

読み手が陥りやすい罠

⚠ 「相対リスクが50%減少」という表現に惑わされない
ベースラインリスクが低ければ絶対差はわずか。1000人で1人が2人になる(「RR 2、二倍のリスク」)状況と、1000人で100人が200人になる状況は、同じ相対表現でも全く違います。

ベースラインリスクをどう推定するか

SoF表では多くの場合、以下のいずれかが用いられます:

  • 対照群イベント率:メタ解析に含まれた研究の対照群のイベント率
  • 低/中/高リスク集団の想定:ガイドラインが複数のリスク層に対し絶対効果を提示
  • 臨床家が自分の患者のリスクを推定して代入:NNT/NNHが実際の臨床に近づく

最良のCPGは、読み手が自分の患者のベースラインリスクに合わせて絶対効果を計算できる情報を提供します(Guyatt LinkedIn post on baseline risk vs effect modification)。

絶対効果差のための方法論(2023)

[M5](絶対リスク差のための論文2023)は、観察研究メタ解析でオッズ比から絶対効果差を導出する標準的な手順を示しています。観察研究のSR(Ch13)を読む際は、絶対効果への変換が適切に行われているかを確認しましょう。

学習動画(YouTube) 閾値・信頼区間とMIDで考える考え方の基本 本章を読む前にまず動画で基本的な考え方を掴むのがおすすめ
📍
あなたが今学んでいる場所 CPG:SoF表の「絶対効果(per 1000)」列と注釈(STEP 5)/推奨根拠(STEP 6 不確実性判定) SR:SoF表・考察での「臨床的に意味のある差」議論(STEP 10, 12) SoF表の絶対効果が「20 fewer per 1000」と書かれていても、それが臨床的に意味のある差かどうかの基準線(MID)を知らないと解釈できません。この章では些細・中・大の閾値を学び、Ch11の不確実性(Imprecision)判定に直結させます。
要点:MID(Minimal Important Difference、最小重要差)は、患者が「重要」と感じる最小の治療効果。Jaeschke-Singer-Guyatt (1989) [M1] が提唱した概念で、現在はMIDと統一。SoF表の解釈とImprecision評価に直結する。

なぜMIDが必要か

統計的有意差(p<0.05)は、臨床的に意味のある差とは限りません。1000人で0.5人が0.6人になる効果はp値が有意でも臨床的に無意味。逆に、p値が有意でなくても信頼区間の上限が十分大きければ臨床的に重要な可能性があります。MIDはこの臨床的重要性の基準線です。

些細・中・大の3段階閾値

現代GRADEでは、効果量を以下4段階で分類します [M2][M6]:

MIDとImprecisionの関係

信頼区間がMIDをどう含むかで、確実性を下げるかが決まります:

  • 信頼区間がMIDを超えていない("no clinically important difference")→ 「small」または「trivial」
  • 信頼区間がMIDをまたぐ → 精度不足(Imprecision)で確実性を1段下げる
  • 信頼区間が完全にMIDを超えている → 精度は十分(Ch11で詳述)

MIDの推定方法

  1. アンカーベース法:患者自身が「少し良くなった/変わらない」と評価したスコア差の中央値。最も信頼性が高い。
  2. 分布ベース法:0.5 SD、0.5 SEM など。二次的指標。
  3. 合意ベース法:パネル議論で決定。多くのGLで用いられる。

[M7](BMJ 2025)は、アンカーベースMID推定値の信頼性を評価する新instrumentを提供しています。SoF表のMIDがどの方法で設定されたかを確認しましょう。

⚠ MIDはアウトカムごと/集団ごとに異なる
慢性腰痛のVAS 15mmと、術後痛のVAS 15mmでは臨床的意味が違う。同じ指標でも疾患・状況によりMIDが変わることに注意。
📍
あなたが今学んでいる場所 CPG:Evidence Profile「Risk of bias」判定(STEP 6, 9) SR:方法の「Risk of bias評価」・結果のRoB 2 traffic light図(STEP 5, 8) GRADEで確実性を下げる5要因のうちの第1要因。SR本文やEvidence Profileで「serious risk of bias」「very serious risk of bias」と書かれている箇所の根拠を追跡できるようになります。RCTのRoB 2 の5ドメイン、観察研究のROBINS-I/E の7ドメインを理解します。
要点:研究の方法論的欠陥により結果が歪む可能性を評価する。RCTは RoB 2(Cochrane)、観察研究はROBINS-I(介入)またはROBINS-E(曝露)を用いる [G7]。読み手は「どのドメインに問題があり、結果がどちらに歪む可能性があるか」を把握する。
📘 JAMA UG の視点
RoB はアウトカムごとに判定する

同じ研究でも、客観的アウトカム(死亡・画像所見)は盲検化の破綻に比較的頑健、主観的アウトカム(疼痛・QOL・患者報告)はバイアスを受けやすい。したがってアウトカム行ごとに確実性を下げるかを判断します。JAMA UG Ch22 の「バイアスリスクが低い結果をもたらす可能性が最も高い論文を選ぶためのガイド」と同趣旨。

詳細要約は JAMA UG Ch22 ページ

RCTのRoB 2 — 5ドメイン

  1. 無作為化プロセス:割付隠蔽・背景バランス
  2. 介入からの逸脱:プロトコル違反・アドヒアランス
  3. アウトカムデータの欠損:脱落率・理由の記録
  4. アウトカム測定:盲検化・測定の客観性
  5. 報告される結果の選択:事前登録との一致

観察研究のROBINS-E(曝露)/ROBINS-I(介入) — 7ドメイン

観察研究には交絡という固有の問題があるため、より厳密な評価が必要です:

  1. 交絡(Confounding)
  2. 参加者選択
  3. 曝露/介入の測定
  4. 意図した曝露/介入からの逸脱
  5. 欠損データ
  6. アウトカム測定
  7. 報告の選択

観察研究は交絡の管理(多変量調整、傾向スコア、操作変数など)が十分かが最重要です [G2]。

読み手としてのチェック

📌 バイアスリスクを読むときのポイント

  • SRが「RoB評価を実施したか」を確認(AMSTAR 2 Q9)
  • 高リスクの研究が多い → 確実性を1-2段下げる根拠になる
  • 感度分析(高リスク研究を除いた解析)で結果が変わるか
  • 「どの方向に歪んでいる可能性が高いか」の考察があるか

Guyattの警告:早期中止RCT

LinkedIn投稿("Stopping trials early for benefit")で指摘されるように、利益を理由に早期中止されたRCTは治療効果を過大評価しやすい。バイアスリスク評価では「早期中止の有無」も確認すべき対象です。

📍
あなたが今学んでいる場所 CPG:Evidence Profile「Inconsistency」判定(STEP 6) SR:結果の森林プロット・I²・異質性p値(STEP 9) GRADE 5要因の第2要因。森林プロットで各研究の四角が左右にバラバラに並んでいる、I² が75%を超えている、サブグループ間で効果方向が逆転…こうした「研究間で話が食い違う」状況を読み解き、「serious inconsistency」の根拠を確認する章です。
要点:研究間で効果推定値が一致しない程度。説明できない異質性(heterogeneity)があれば確実性を下げる。[U12]
📘 JAMA UG の視点
異質性評価の 3 ステップ
  1. 視覚的評価:フォレストプロット上で点推定値と CI の重なりを目視。「一見して似ているか」が出発点。
  2. 統計的検定:Q 検定(p 値)、I² 統計量(%)。I² 50% 以上は実質的異質性の候補。
  3. 事前仮説に基づくサブグループ解析:ばらつきの原因を「患者・介入量・追跡期間・研究の質」で説明。事後の探索は仮説生成に留める。

詳細要約は JAMA UG Ch23 ページ

読み手が確認する4つの異質性指標

  • 点推定値のばらつき:研究ごとの効果が正負逆になっていないか(森林プロットで目視)
  • 信頼区間の重なり:各研究の95% CIがどの程度重なっているか
  • I² 統計量:0-25%低、25-50%中、50-75%高、>75%顕著な異質性
  • p値 for heterogeneity:<0.10で異質性ありとみなすことが多い

異質性が説明できる場合は下げない

サブグループ解析(疾患重症度・年齢・介入量など)で異質性が説明できれば、確実性は下げずに別々の推定値を提示するのが理想。説明できない場合のみ「Inconsistency」で確実性を下げます。

森林プロットの読み方

📌 森林プロット5秒チェック

  • 各研究の四角(効果量)が左右バラバラに散らばっていないか
  • 統合結果(ダイヤモンド)の幅が広すぎないか
  • 外れ値(outlier)があれば、なぜそうなのかの考察があるか
📍
あなたが今学んでいる場所 CPG:目的・対象集団(STEP 2)/Evidence Profile「Indirectness」(STEP 6) SR:緒言のPICO・方法の適格基準(STEP 2, 3) GRADE 5要因の第3要因。「研究は高齢男性で行われた/サロゲートしか測られていない/プラセボ比較のみ」などの理由で「serious indirectness」と判定される根拠を読み解きます。自分の目の前の患者にCPG推奨が適用できるか(Ch20)にも直結します。
要点:PICO(対象・介入・比較・アウトカム)が、臨床疑問と研究で一致しない程度。サロゲートアウトカムを用いた場合も該当する [U17]。Guyatt LinkedInで紹介されたindirectness algorithmは読者にも有用。
📘 JAMA UG の視点
非直接性は「4 つの側面」で点検する
  • 患者:目の前の患者が研究対象からかけ離れていないか
  • 介入:用量・投与経路・実施環境の差
  • 対照:プラセボ対照か、通常診療対照か — 解釈が変わる
  • アウトカム:真のアウトカムか、代理アウトカム(サロゲート)か

JAMA UG Ch23 の「結果を自分の患者に直接適用できるか」節を参照 → Ch23 要約ページ

4つの非直接性

  1. 対象集団の非直接性:研究対象が自分の患者と異なる(年齢、疾患重症度、併存疾患)
  2. 介入の非直接性:用量・投与方法・デバイスが異なる
  3. 比較対照の非直接性:プラセボ比較しかなく、実臨床での代替治療との比較がない
  4. アウトカムの非直接性サロゲートアウトカム(血圧、HbA1c、腫瘍縮小率など)しか測定されていない

Guyatt 2023のサロゲート議論

Guyatt 2023 [U17] は、「患者にとって重要なアウトカム」と「サロゲート」を区別する判定質問を提示:

判定質問:もしこのアウトカムだけが改善して、他のアウトカムは改善しなくても、患者は害と負担を受け入れてこの治療を選ぶか?
Noならサロゲート(酸素化、生理指標、心拍出量など)
Yesなら患者重要アウトカム(死亡、QOL、呼吸困難感など)

近年の進展:Indirectness Algorithm

2025年にBMJ Core GRADEシリーズの補遺として、非直接性評価のアルゴリズム/フローチャートが発表されました(Guyatt LinkedIn投稿)。読み手としても「どう判定されたか」を追跡可能になりました。

📍
あなたが今学んでいる場所 CPG:Evidence Profile「Imprecision」判定(STEP 6) SR:SoF表の95% CI・Certainty列・統合結果ダイヤモンドの幅(STEP 10) GRADE 5要因の第4要因。SoF表の絶対効果の信頼区間(CI)が Ch7で学んだMID をまたいでいるか。両端が同じ臨床判断を支持するか。「serious imprecision」判定の根拠を、サンプルサイズ・イベント数・OIS(Optimal Information Size)と合わせて理解します。
要点:信頼区間の幅が広く、臨床的決定が変わるかどうか判定できない状態。MID(Ch7)との関係で評価される [U12]。
📘 JAMA UG の視点
精度評価は「CI 両端の臨床判断」で決まる

CI の上限と下限の両方が同じ臨床判断を支持するなら精度は十分。どちらかが「効果ありなし」の閾値をまたぐなら確実性を 1 段下げ、両端ともまたぐなら 2 段下げる候補になります。加えて、最適情報サイズ(OIS)に達していないメタアナリシスは、統計的有意でもランダム誤差の影響が残ります。

詳細は JAMA UG Ch23 ページ(2 節「結果の精度を評価する」)。

判定の基本原則

  1. 点推定値と95% CIを見る
  2. CIの両端がMIDを超えているか(同じ判断になるか)を確認
  3. どちらか一方でもMIDをまたいで反対側に行く → Imprecisionで確実性を下げる
  4. サンプルサイズが小さい/イベント数が少ない → 追加要因

パターン別判定

MID閾値:絶対差 20/1000

Pattern A:絶対差 30/1000 (95% CI 25-40) → CIの下限25>MID → Imprecisionなし
Pattern B:絶対差 30/1000 (95% CI 10-60) → 下限10<MID → Imprecision(1段下げ)
Pattern C:絶対差 10/1000 (95% CI -5〜+25) → 不利益側にもまたぐ → 重大なImprecision(2段下げの可能性)

サンプルサイズの目安(OIS)

GRADEでは Optimal Information Size(OIS)という概念を用い、メタ解析の総参加者数が十分かを判定します。目安として、臨床試験のパワー計算に必要な数(通常400-2000人、イベント300前後)を下回るとImprecisionで下げることが多い。

📍
あなたが今学んでいる場所 CPG:Evidence Profile「Publication bias」判定(STEP 6) SR:結果のファネルプロット・Egger検定結果・未発表研究の検索(STEP 11) GRADE 5要因の第5要因(最後)。SRの結果セクションに載っているファネルプロットの左右非対称性、Egger検定のp値、ClinicalTrials.govでの未発表試験の有無などを読み解き、「strongly suspected publication bias」判定の根拠を追跡します。
要点:肯定的結果は発表されやすく、否定的/中立的結果は埋もれる傾向。従来は「出版バイアス」と呼ばれたが、SNS・プレスリリース・学会発表でも歪みが生じるため「情報発信バイアス」という広い概念に進化している。

検出方法

  • ファネルプロット:点対称か(左右非対称なら疑わしい)
  • Egger検定 / Begg検定:非対称性の統計検定
  • 登録試験の未発表チェック:ClinicalTrials.govで該当研究の未発表を確認
  • 研究数が少ない場合、検定そのものの信頼性が低い点に注意

読み手としての対応

  • ファネルプロットが対称 → 一定の安心材料
  • 非対称 → 効果は過大評価の可能性、確実性を1段下げる
  • 業界資金の試験が多い → Dissemination biasの追加リスク
📍
あなたが今学んでいる場所 CPG:方法論セクション(STEP 3)/希少疾患・外科領域・有害事象CPG SR:観察研究のSR/非RCTが混在するSRの方法・結果全体 RCTが存在しない/実施困難な領域では観察研究SRが重要な根拠になります。GRADE Guidance 44の4ステップ枠組みで、交絡対策(ROBINS-I/E)・RCTとの整合性・格上げ条件を読み解きます。
要点:RCTが実施できない/ない場合、観察研究(コホート、症例対照)のSRが重要。GRADE Guidance 44(Cuello-Garcia 2025)[G2] は、RCTと非RCTを統合する4ステップ枠組みを提唱。読み手は「観察研究でも適切に統合されているか」を判定できる。

GRADE Guidance 44の4ステップ

  1. 各研究デザインの確実性を個別評価(RCT単独、非RCT単独)
  2. 効果の整合性を評価:RCTと非RCTの絶対効果差がMID閾値以内か
  3. ドメイン別判断:RoB、交絡、整合性を個別に検討
  4. 提示方法の決定:別々に提示/並列行/1つに統合するか

観察研究の典型的な限界

  • 交絡:測定/未測定の交絡因子により真の因果効果が歪む
  • 選択バイアス:参加者・曝露群・対照群の選択基準の違い
  • 情報バイアス:曝露・アウトカムの測定誤差

観察研究が格上げされる3条件

通常「低」から出発する観察研究でも、以下の条件を満たせば確実性を1-2段上げる:

  1. 大きな効果量(RR >2 or <0.5)
  2. 用量反応関係が明確
  3. 残存交絡がすべて逆方向(観察される効果を弱める方向)

例:喫煙と肺がんの関連はRR >10で観察研究ベースでも確実性は高い。

読み手としてのチェック

📌 観察研究SRを読むとき

  • ROBINS-I/ROBINS-Eで評価されているか(AMSTAR 2 Q9相当)
  • 傾向スコアマッチング・操作変数など交絡対策の記述があるか
  • 感度分析で結果が変わらないか
  • RCTエビデンスが別にあれば、両者の効果量の整合性を議論しているか [G2]
📍
あなたが今学んでいる場所 CPG:EtDフレームワーク「患者の価値観と嗜好」セクション(STEP 7) SR:定性的研究のSR(患者体験・医療者視点のメタ統合) 「抗凝固療法で患者は脳卒中予防と出血リスクをどう天秤にかけているか?」といった定性的SRは、推奨の価値観セクションの重要な根拠になります。CERQualの4要素で信頼度を判定する方法を学びます(Ch21のSDMと直結)。
要点:患者の体験・価値観・医療者の視点など、定性的研究のSRに対する確実性評価枠組みがCERQual(Lewin 2018)[G3]。4要素で評価し、高/中/低/非常に低いの4段階で信頼度を判定する。

CERQualの4評価要素

  1. 方法論的限界(Methodological limitations):個別研究の質
  2. 整合性(Coherence):データと解釈の整合性
  3. データの十分性(Adequacy of data):データの豊富さ・深さ
  4. 関連性(Relevance):レビューの文脈への適合

なぜ読み手に重要か

推奨を患者に適用するには、患者の価値観と嗜好(Ch21)を理解する必要があります。CERQualで評価された定性的SRは、その基礎情報を提供します。例:「抗凝固療法における患者の価値観のSR」は治療選択肢の提示方法を変えます(Guyatt LinkedIn #45)。

📍
あなたが今学んでいる場所 CPG:推奨文のうち SoF表を伴わないGPS・ナラティブ推奨(STEP 4) SR:単一効果量が出せないナラティブSR すべての推奨が「SoF表+⊕記号」形式で出るわけではありません。GPS(Good Practice Statement)単一推定値なしの推奨、ネットベネフィット分析など、変則的な推奨タイプを見分け、その限界と濫用の兆候を読み取る章です。
要点:推奨は常に「SoF表+GRADE」の形式とは限らない。Good Practice Statement(GPS)[G4]、単一推定値が統合できない場合[G6]、ネットベネフィット分析などのバリエーションを読み分ける。

Good Practice Statement(GPS)

GPS [G4] の適用条件:

  • 利益が明らかで、代替案が非倫理的・非合理
  • 正式なエビデンスレビューが不要と判断される
  • 例:「手洗い」「患者の同意を得る」「情報提供する」

濫用の兆候:GPSが推奨の半数以上を占める/SRで容易に評価できる質問にGPSを使っている → GRADE評価の回避の可能性。

単一推定値が統合できない場合(Murad 2017)

[G6] はナラティブ統合でも確実性を評価する方法を示しています:

  • 効果の方向が一致するか
  • 効果量の範囲がMID以内か
  • 各研究のバイアスリスク
  • 結果の堅牢性

ネットベネフィット分析

ネットベネフィットの手順 2019 は、複数のアウトカムを統合した意思決定枠組み。利益の加重和と害の加重和を引き算する形式で、個別化された推奨を可能にします。Guyatt LinkedInでも推奨("evidence-based decision-analytical approach")。

📍
あなたが今学んでいる場所 CPG:CPG全体の総合評価 — 表紙〜推奨〜SoF〜付録を横断チェック SR:引用されているSRの質も含めて判定 本サイトの⭐⭐ 中核章。Ch2-15で学んだGRADE知識を総動員して、目の前のCPG1つを6つの質問で吟味します。「このCPGを信じて行動すべきか?」の最終判定ツールです。
要点:Lima-Mirza-Guyatt (2023) [U17] は、臨床家がガイドラインを信頼できるかを判定するための6つの質問を提示。個別CPGをこの6問で吟味することが、現場での最重要スキル。

インタラクティブ・チェックリスト

以下のチェックリストで、目の前のCPGを評価できます。ガイドラインを1つ思い浮かべて各質問に回答してください:

6質問の理論的背景

Guyatt 2023 [U17] の6質問は、以下のUsers' Guidesシリーズを統合したものです:

  • [U1] Hayward 1995「CPGの推奨は妥当か?」 → Q1-Q5に相当
  • [U2] Wilson 1995「推奨はあなたの患者ケアに役立つか?」 → Ch20 Applicabilityに相当
  • [U16] Brignardello-Petersen 2021「CPG推奨の解釈と利用」 → 総合枠組み

判定後の行動

🎯 判定後のアクション

  • 信頼できる → Ch20で「自分の患者に適用できるか」を検討
  • 部分的に信頼 → 該当する弱点を補完する別ソース(別CPG、最新SR)を参照
  • 信頼できない → 別のCPG(GRADE採用・Minds・Cochraneなど)を優先
📍
あなたが今学んでいる場所 CPG:実在CPGへの6質問適用のケーススタディ CPG:NCCN/IOM 8基準/日本のCPG Ch16で学んだ6質問を、NCCN(米国がん)・IOM 8基準・日本のCPGに実際に当てはめるケーススタディ。「完璧なCPGは存在しない」前提で、限界を理解した上で使う実務的な姿勢を身につけます。
🔍 素晴らしい診療ガイドラインあら探しシリーズ 特別編+論文+No.1〜16(YouTube/note/論文/docswell/X)— タップで展開
特別編 診療ガイドライン作成上の問題点をまとめてみた 2026-01-30 概要欄も読んでね 📄 論文 Trustworthiness of treatment clinical practice guidelines has modestly improved since the introduction of Institute of Medicine standards: a systematic survey 世界の診療ガイドラインの質について(J Clin Epidemiol 2025) No.1 2025年改訂版 心不全診療ガイドライン について 日本循環器学会の診療ガイドラインとAHAの診療ガイドラインの違いをエビデンスレベルという用語で説明(概要欄も読んでね) No.2 骨粗鬆症の予防と治療ガイドライン2025年版 概要欄も読んでね No.3 糖尿病診療ガイドライン2024 No.4 乳癌診療ガイドライン2022年版について 概要欄も読んでね No.5 日本リウマチ学会 関節リウマチ診療ガイドライン2024改訂 概要欄も読んでね No.6 甲状腺腫瘍診療ガイドライン 2024 概要欄も読んでね No.7 障害者歯科診療における行動調整ガイドライン 2024 概要欄も読んでね No.8 高血圧管理・治療ガイドライン2025 概要欄も読んでね No.9 膵癌診療ガイドライン2025 概要欄も読んでね No.10 American Society of Hematology/International Society on Thrombosis and Haemostasis 2024 updated guidelines for treatment of venous thromboembolism in pediatric patients 概要欄も読んでね 📝 No.11 成人肺炎診療ガイドライン2024・「口腔のケアと肺炎」が弱い推奨になったのを誤解ないために 全体のエビデンスの確実性の問題点とメタ分析の問題点を取り上げている(noteに掲載) 📝 No.12 AHAのCPGは、米国用でGRADEアプローチでないのでハイライトも???・JRC蘇生ガイドライン2025 あら探しを、JRCでなく、その大元のCoSTRでみつけてしまった。人間でなくマネキンのシュミレーション研究がエビデンスのところがあり面白い 📝 No.13 FDI World Dental Federation (FDI) のConsensus on Toothbrushing コンセンサスレポートでなく診療ガイドラインだったので、しっかり吟味していました 📊 No.14 歯周病のEFP S3 level CPGという最高レベルのCPG EFP S3 levelは、ドイツの医学会連合(AWMF)が策定したガイドライン開発の階層における最高ランク(Stufe 3)。網羅的なSRに基づくエビデンスと構造化されたコンセンサス会議の双方が必須条件 𝕏 No.15 うつ病診療ガイドライン2025は、Mindsの手引きの推奨の分類を改変しているのか? Xに投稿してみた 📝 No.16 肺癌診療ガイドライン2025年版の「謎の線」の意味は?
要点:Ch16の6質問を、実在のCPGに適用した事例を示す。NCCN(独自Evidence Blocks、GRADE非採用)、IOM 8基準(米国の標準)、日本のCPG課題。

NCCN — GRADE非採用の代表例

NCCN Clinical Practice Guidelines in Oncology(米国)は、GRADEを採用せず独自のEvidence Blocksを用いるため、6質問で以下の問題点が指摘されます [C2]:

  • Q4(最新のSR):厳格なシステマティックレビューの実施が明記されず、「GOBSAT(good old boys sitting around a table)」型の可能性
  • Q5(推奨強度と確実性の整合):Evidence Blocksは専門家経験に大きく依存し、再現性に限界
  • Q3(患者重要アウトカム):コスト考慮と患者中心意思決定の要素が欠落との分析
  • Q6(COI):個々のパネリストの評価結果が公開されない

ただし、NCCNは詳細な治療アルゴリズムを提供しており、実臨床で有用な面もあります。完全に参照しないのではなく、6質問で限界を認識した上で利用するのが読み手としての対応。

IOM(米国医学研究所、現NAM)8基準 — 2011

Institute of Medicine「Clinical Practice Guidelines We Can Trust」[C3]:

  1. 透明性の確保
  2. COIの管理
  3. 多職種パネルとステークホルダー参加
  4. システマティックレビューに基づく
  5. 推奨の根拠と強さの明記
  6. 外部レビュー
  7. 更新のメカニズム
  8. 実施支援資源の提供

IOM基準はGuyatt 2023の6質問の土台となった歴史的文書です。

日本のCPG問題

日本のCPGは一部で以下の課題が指摘されています [C4]:

  • GRADE採用が徐々に進んでいるが未採用のCPGも多い
  • COI管理ポリシーは明文化されているが、個別推奨への影響評価が弱いCPGがある
  • 更新頻度・Living Guideline化が限定的
  • 患者代表のパネル参加が限定的

信頼できる日本のCPG代表例:Minds掲載CPGの一部(GRADE採用)

読み手としての結論:どのCPGも完璧ではない。6質問でその限界を認識しつつ、複数ソースを照合して臨床判断を下すのが現実的なアプローチです。
📍
あなたが今学んでいる場所 SR:SR全体の総合評価 — プロトコル〜検索〜RoB〜統合〜COI を横断 CPG:CPGが参照しているSRの質評価にも使える Ch16がCPG評価なら、Ch18はSR評価の中核。SR本文やその補遺を順にチェックし、重要項目(★)での欠陥が2つ以上なら「Critically Low」と判定します。Ch5-12で学んだGRADE 5要因やRoBの知識がすべて活かされる総合演習です。
要点:AMSTAR 2(Shea 2017, BMJ)[T1] はSRの方法論的質を16項目で評価。重要(critical)項目に欠陥があると総合評価が大きく下がる厳格な設計。PROSPERO登録、文献検索、RoB評価、COI報告が重要項目。

インタラクティブ評価ツール

重要項目(★)の背景

  • Q2 プロトコル事前登録:結果を見てからの分析変更を防ぐ
  • Q4 包括的文献検索:少なくとも2つ以上のDB+灰色文献+試験登録
  • Q7 除外研究リスト:選択バイアスの透明化
  • Q9 個別研究のRoB:RoB 2 / ROBINS-I/E
  • Q11 適切な統計統合:異質性への対応、適切なモデル
  • Q13 結果解釈でのRoB考慮:感度分析・バイアス方向の議論
  • Q15 Dissemination bias評価:ファネルプロット等

評価結果の解釈

評価意味
High重要項目の欠陥なし、非重要項目は0-1個 → 信頼できる
Moderate重要項目の欠陥なし、非重要項目の欠陥が複数 → 概ね信頼
Low重要項目の欠陥1つ → 限定的に参考
Critically Low重要項目の欠陥2つ以上 → 信頼不可
📍
あなたが今学んでいる場所 SR:全セクション横断(タイトル・抄録・緒言・方法・結果・考察・COI) SR:補遺のPRISMAチェックリスト・PRISMAフロー図 AMSTAR 2が「方法論の質」を評価するのに対し、PRISMA 2020は「報告の透明性」を評価します。本文に何がどう書かれているべきかの27項目チェックを理解することで、SR本文を読む際の「見落とし」を防げます。
要点:PRISMA 2020(Page 2021, BMJ)[T2] は、SRを報告する際に含めるべき27項目のチェックリスト。AMSTAR 2が方法論品質を評価するのに対し、PRISMAは報告の透明性を保証する。
📘 JAMA UG との対応
3 つのツールを読者がどう使い分けるか
  • AMSTAR 2(16項目):この SR の「方法論的な質」は信頼できるか?
  • PRISMA 2020(27項目):この SR は「十分に報告されている」か?
  • JAMA UG Ch22 チェックリスト(8 質問):結果を信じてよい水準かを、臨床家の視点で短時間に判定する

JAMA UG は「質問を自分に投げかけながら論文を読む」使い方を想定しており、AMSTAR 2/PRISMA と補完関係にあります。要約は Ch22 ページ を参照。

AMSTAR 2 vs PRISMA 2020

AMSTAR 2PRISMA 2020
目的SRの方法論的評価SRの報告の透明性
項目数1627
使う場面SRを使うときの批判的吟味SRを書くとき/査読するとき
読み手としてこのSRは信頼できるか?このSRは十分に報告されているか?

27項目の主要セクション

  • タイトル・抄録(2項目)
  • 緒言(2項目:根拠、目的)
  • 方法(12項目:適格基準、情報源、検索、選択、データ抽出、アウトカム、個別研究RoB、効果量、統合、Dissemination bias、確実性)
  • 結果(7項目:選択、研究特性、個別研究RoB、効果、統合、Dissemination bias、確実性)
  • 考察(4項目:結果の解釈、限界、結論、資金源・COI)

読み手としての使い方

📌 PRISMA 2020を読み手として活用

  • PRISMAチェックリスト付録があるSRは、報告が構造化されている可能性が高い
  • 特に重要:方法の4番(情報源)、9番(データ抽出)、13番(統合の方法)、22-24番(確実性・Dissemination bias・限界)
  • フローダイアグラム(研究選択の流れ)が掲載されているか

公式サイト:prisma-statement.org

📍
あなたが今学んでいる場所 CPG:対象集団(STEP 2)/臨床考察・実施上の考慮(STEP 8) CPG:サブグループ別絶対効果・特殊集団注意 Ch16で「このCPGは信頼できる」と判定できたら、次は「目の前の患者に適用できるか」を判断する番です。対象集団の類似性・介入の実行可能性・ベースラインリスク・価値観の4次元で吟味します。
要点:信頼できるCPGの推奨でも、自分の患者・設定に適用できるかは別途判定が必要 [U3][U6][U17]。患者特性・医療資源・文脈の違いを考慮する。
📘 JAMA UG の視点
適用可能性の検討は「相対効果 → 絶対効果 → NNT」の翻訳から

JAMA UG Ch23 は、SR の結果を自分の患者に使うとき、ベースラインリスクに応じて絶対効果を計算し直すことを強調しています。同じ RR でも、高リスク患者と低リスク患者では NNT が大きく変わり、ベネフィット/ハームのバランスが逆転することもあります。

計算の流れ・例示は Ch23 要約ページ の「ベースラインリスク」節を参照。

Applicability評価の4次元

  1. 対象患者の類似性:研究対象と自分の患者の類似度(年齢・重症度・併存症)
  2. 介入の実行可能性:自施設で実施できるか、代替手段の有無
  3. リスクのベースライン:自分の患者はCPG想定集団より高/低リスクか
  4. 価値観の類似性:患者がアウトカムにどう重み付けするか

Guyatt 2023のApplicability事例

例1:オーストラリア・ニュージーランド脳卒中GLは「発症4.5時間以内の血栓溶解を強く推奨」。5時間の患者で適用できるか? → Appendixの境界域議論を確認。

例2:同GLは「すべての脳卒中患者をStroke Unitで学際チームで治療」を強く推奨。低所得国の地方救急室ではチームが存在せず適用不可能。→ 現実的な代替策を検討。

ベースラインリスクの重要性

患者のリスクが高い/低いと、同じ相対効果でも絶対ベネフィットが変わります(Ch6)。例:

  • 血栓塞栓症低リスク患者への抗凝固薬 → 出血リスクの方が重大
  • 血栓塞栓症高リスク患者への抗凝固薬 → ベネフィットが害を上回る

CPGが複数リスク層での絶対効果を提示していれば、自分の患者のリスク層を選択できます。

読み手のチェックリスト

📌 Applicability 7チェック

  1. 対象集団が自分の患者と合致するか
  2. 介入が自施設で実施可能か
  3. 患者のリスク層が想定内か
  4. 併存症・薬剤相互作用は考慮されているか
  5. 医療費・アクセスの障壁は
  6. 患者の価値観に合うか
  7. 文化的・社会的要因
📍
あなたが今学んでいる場所 CPG:EtDフレームワーク「患者の価値観と嗜好」(STEP 7)/条件付き推奨の文脈 SR:価値観SR・CERQual評価された定性的SR(Ch14と連動) CPG/SR読解の最終段階。条件付き推奨では特にSDMが必須。Ch4で学んだ推奨の強さと、Ch14で学んだ定性的SRの価値観エビデンスを統合して、診察室で実際に患者とどう対話するかを学びます。
要点:共同意思決定(SDM)は、医療者と患者がエビデンスと患者の価値観を統合して意思決定を行うプロセス。特に条件付き推奨では必須 [U16][U17]。
📘 JAMA UG Ch26 の枠組み
推奨のタイプと意思決定の使い分け

JAMA UG は推奨の強さを 4 パターンに整理しています。強/条件付き × 推奨/反対 の組み合わせで、患者との対話の密度が変わります。

強い推奨
ほぼ全員に推奨

「just do it」レベル。SDM はエビデンスの要約を簡潔に伝える。

条件付き推奨
多くの患者で推奨だが、価値観次第

SDM が必須。ベネフィット/ハーム/価値観を一緒に検討。

条件付き反対
多くの患者で反対だが、価値観次第

SDM で、患者が重視するアウトカム次第では実施を検討。

強い反対
ほぼ全員に反対

ハームが明らかで、実施しない旨を伝える。

条件付き推奨(中央の 2 パターン)は、「推奨をどう使うか」よりも「どう患者に説明するか」が焦点になります。

SDMの3ステップ

  1. Choice talk:選択肢があることを患者に伝える
  2. Option talk:各選択肢の利益・害・確実性を具体的に説明
  3. Decision talk:患者の価値観・状況を確認し、共に決定

価値観と嗜好のエビデンス

患者の価値観も研究可能です。例:

  • 抗血栓療法における患者価値観のSR [V2]:48件の研究を系統的に統合。「脳卒中回避 vs 出血リスク」の重み付けに関する集団レベルの傾向を提示。
  • 質的SR(CERQual評価、Ch14):患者体験を系統的に要約。

これらは集団レベルの価値観であり、個別患者の価値観はSDMで確認する必要があります。

条件付き推奨での対話例

条件付き推奨:「脳卒中予防で心房細動患者に抗凝固薬を提案する(条件付き)」

対話例
「このお薬は年間の脳卒中リスクを5%から2%に下げますが、出血リスクを0.5%から1.5%に上げます。脳卒中を避けることを強く重視される方には推奨できます。出血の懸念が強い方は別の選択肢もあります。あなたはどのように考えますか?」

強い推奨でのSDM

Guyatt 2023 [U17] は、強い推奨でも理論的にはSDMを行うべきだが、時間制約から実践的には限定的と認めています。ただし患者の強い反対意思があれば聞き入れる姿勢は必要です。

要点:本文中の 用語(点線下線) をクリックすると用語集ポップアップが表示されます。以下は主要用語の一覧。

主要用語

GRADE:エビデンス評価と推奨決定の国際標準
確実性:真値が推定範囲にあるという確信度
推奨の強さ:強い or 条件付き
SoF表:アウトカムごとの効果と確実性の要約
MID:最小重要差(患者が重要と感じる最小の効果)
Risk of Bias:バイアスリスク(RoB)
ROBINS-E:観察研究(曝露)のRoB評価ツール
不一致性:研究間で効果がバラつく度合い
非直接性:PICOのずれ
サロゲート:患者重要ではない代替指標
患者重要アウトカム:患者自身が重要と感じる結果
Imprecision:信頼区間が広く結論が不安定
Dissemination bias:情報発信バイアス
AMSTAR 2:SR方法論質の16項目評価
PRISMA 2020:SR報告の27項目
EtD:Evidence to Decisionフレームワーク
SDM:共同意思決定
GPS:Good Practice Statement
CERQual:定性的研究SRの確実性評価
PICO:臨床疑問の4要素
IOM基準:信頼できるCPGの8基準(2011)
NCCN:米国がん診療ネットワーク(GRADE非採用)

Q&A(よくある質問)

Q1. GRADEの「低い確実性」の推奨は無視してよいですか?

A. いいえ。低い確実性でも、現在利用可能な最良のエビデンスです。確実性が低い場合は①代替案がより良いか検討②SDMで患者の価値観を重視③フォローアップで効果を確認、などの対応をします。

Q2. CPGが複数あって推奨が食い違う場合は?

A. Ch16の6質問でそれぞれのCPGを評価し、より信頼できる方を優先してください。方法論が同等なら、自国・自施設の文脈に近い方を優先。

Q3. RCTがない領域(希少疾患など)ではどうすれば?

A. 観察研究のSR(Ch13)、定性的研究のSR(Ch14)、単一推定値がない場合(Ch15)の各手法を組み合わせて判断。MAGIC・希少疾患CPGの取り組みが参考になります。

Q4. 英語のCPGを読むのが難しいです

A. まずは SoF表(Ch5)のみに絞って読む → 徐々に推奨本文とEtD → 最後にメタ解析詳細、という段階的アプローチがおすすめ。また、日本語の信頼できるCPG(Minds、Cochrane日本語訳)から始めるのも有効。

要点:GRADE方法論・CPG読み方に関する最新の知見を、Gordon Guyatt先生のLinkedIn投稿から厳選。各投稿は論文へのリンクとコメントを含む、先生による一次キュレーション
参考文献体系:本アプリは Users' Guides to the Medical Literature シリーズ(U1-U18)、閾値・MID関連(M1-M7)、GRADE方法論拡張(G1-G7)、SRツール(T1-T2)、CPG実例(C1-C4)、価値観関連(V1-V2)、LinkedIn(L1)を正式参照しています。本文中の [U17] 等をクリックすると詳細が表示されます。
A. Users' Guides to the Medical Literature シリーズ
  • U1 Hayward RS, Wilson MC, Tunis SR, Bass EB, Guyatt G. Users' guides VIII. How to use clinical practice guidelines. A. Are the recommendations valid? JAMA 1995;274(7):570-574.
  • U2 Wilson MC, Hayward RS, Tunis SR, Bass EB, Guyatt G. Users' guides VIII. B. What are the recommendations and will they help you in caring for your patients? JAMA 1995;274(20):1630-1632.
  • U3 Dans AL, Dans LF, Guyatt GH, Richardson S. Users' guides XIV. How to decide on the applicability of clinical trial results to your patient. JAMA 1998;279(7):545-549.
  • U4 Barratt A, et al. (EBM Working Group). Users' guides XVII. Screening. JAMA 1999;281(21):2029-2034.
  • U5 Guyatt GH, Sinclair J, Cook DJ, Glasziou P. Users' guides XVI. How to use a treatment recommendation. JAMA 1999;281(19):1836-1843.
  • U6 McAlister FA, Straus SE, Guyatt GH, Haynes RB. Users' guides XX. Integrating research evidence with the care of the individual patient. JAMA 2000;283(21):2829-2836.
  • U7 Attia J, et al. (incl. Guyatt). How to use an article about genetic association: B & C. JAMA 2009;301(2):191-197 / 301(3):304-308.
  • U8 Fan E, Laupacis A, Pronovost PJ, Guyatt GH, Needham DM. How to use an article about quality improvement. JAMA 2010;304(20):2279-2287.
  • U9 Mills EJ, et al. (incl. Guyatt). How to use an article reporting a multiple treatment comparison meta-analysis. JAMA 2012;308(12):1246-1253.
  • U10 Mulla SM, Scott IA, Jackevicius CA, You JJ, Guyatt GH. How to use a noninferiority trial. JAMA 2012;308(24):2605-2611.
  • U11 Andrews J, Guyatt G, Oxman AD, et al. GRADE guidelines: 14. Going from evidence to recommendations. J Clin Epidemiol 2013;66(7):719-725.
  • U12 Murad MH, Montori VM, Ioannidis JPA, et al. (incl. Guyatt). How to read a systematic review and meta-analysis and apply the results to patient care: users' guides. JAMA 2014;312(2):171-179. PMID 25005654
  • U13 Neumann I, Santesso N, Akl EA, et al. (incl. Guyatt). A guide for health professionals to interpret and use recommendations in guidelines developed with the GRADE approach. J Clin Epidemiol 2016;72:45-55. PMID 26772609
  • U14 Agoritsas T, et al. (incl. Guyatt). UpToDate adherence to GRADE criteria for strong recommendations. BMJ Open 2017;7(11):e018593.
  • U15 Liu Y, Chen PC, Krause J, Peng L. How to read articles that use machine learning. JAMA 2019;322(18):1806-1816.
  • U16 Brignardello-Petersen R, Carrasco-Labra A, Guyatt GH. How to Interpret and Use a Clinical Practice Guideline or Recommendation. JAMA 2021;326(15):1516-1523. PMID 34665198
  • U17 Lima JP, Mirza RD, Guyatt GH. How to recognize a trustworthy clinical practice guideline. J Anesth Analg Crit Care 2023;3:9. DOI
  • U18 Guyatt G, Rennie D, Meade MO, Cook DJ (eds.). Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice, 3rd ed. McGraw-Hill Education; 2015.
B. 閾値・MID関連
  • M1 Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Control Clin Trials 1989;10(4):407-415. (MCID原典)
  • M2 GRADE Guidance 42(閾値設定). J Clin Epidemiol 2024.
  • M3 Yao X, et al. GRADE note 6. 2025.
  • M4 2024閾値論文群. J Clin Epidemiol.
  • M5 絶対リスク差のための論文. 2023.
  • M6 些細・中・大の閾値を使っているCPG例. 2025.
  • M7 Evaluating the credibility of anchor based estimates of minimal important differences for patient reported outcomes. BMJ Medicine 2025.
C. GRADE方法論拡張
  • G1 Djulbegovic B, Guyatt GH. Progress in evidence-based medicine: a quarter century on. Lancet 2017;390(10092):415-423.
  • G2 Cuello-Garcia CA, et al. GRADE guidance 44: Strategies to enhance the utilization of randomized and non-randomized studies in evidence syntheses. J Clin Epidemiol 2025.
  • G3 Lewin S, et al. Applying GRADE-CERQual to qualitative evidence synthesis findings. Implement Sci 2018;13(Suppl 1):2.
  • G4 Guyatt GH, et al. Guideline panels should seldom make good practice statements. J Clin Epidemiol 2015.
  • G5 Piggott T, et al. Standardized wording to improve efficiency and clarity of GRADE EtD frameworks in health guidelines. J Clin Epidemiol 2022;146:106-122.
  • G6 Murad MH, et al. Rating the certainty in evidence in the absence of a single estimate of effect. Evid Based Med 2017;22(3):85-87.
  • G7 観察研究ROB — ROBINS-E / ROBINS-I / ネットベネフィット 2019 / GRADE Guidance 45 NAM. 各種.
D. SR品質ツール
  • T1 Shea BJ, Reeves BC, Wells G, et al. AMSTAR 2: a critical appraisal tool for systematic reviews. BMJ 2017;358:j4008. amstar.ca
  • T2 Page MJ, McKenzie JE, Bossuyt PM, et al. The PRISMA 2020 statement. BMJ 2021;372:n71. prisma-statement.org
E. CPG品質の実例
  • C1 = U17 Lima-Mirza-Guyatt 2023(再掲)
  • C2 NCCNガイドラインの批判的吟味 — NCCNのEvidence Blocksに関する分析
  • C3 Institute of Medicine. Clinical Practice Guidelines We Can Trust. National Academies Press; 2011.
  • C4 日本のCPG問題 — 日本国内CPGの方法論的課題の分析
F. 価値観・共同意思決定
  • V1 患者の価値観と嗜好を利用(日英両版) — EtDへの組込み方法
  • V2 Patient values and preferences in antithrombotic therapy: SR. ACCP Guidelines(LinkedIn #45で紹介)
G. 継続更新ソース

🎯 なぜ、この解説を最初に読むのか?

本サイトの本体(Ch1〜Ch24)は、「すでにEBM・SR・CPGの定義を理解している人」が、診療ガイドラインやシステマティックレビューを「読みこなす」ために書かれています。しかし、実際には多くの医療者が以下のような誤解を抱えたまま診療情報を利用しています:

  • ❌ 「システマティックレビューならエビデンスレベルが高い」
  • ❌ 「ランチョンセミナーで有名な先生が"EBMに基づく"と言ったから信頼できる」
  • ❌ 「診療ガイドラインなのだから、どれを選んでも大差ない」
  • ❌ 「AIがPubMedを検索してまとめてくれるから、それで十分」

こうした誤解が放置されると、患者に不利益を与える判断が日常的に起こり得ます。本ページでは、先生ご自身が作成されたキースライド(16枚)に沿って、EBM・SR・CPG の定義とその"なぜ"、そして信頼できる医療情報を見極める目の養い方を解説します。

📺 まず動画で学習してから以下を復習するとよいでしょう 動画
📚 もう少し詳しい全体像を、まず勉強したい方へ →

1. 医学情報の信頼性 — あなたはどちらを信頼する?

医学情報の信頼性:AIとPubMedどちらを信頼するか
スライド① 医学情報の信頼性:AIとPubMedの比較
問い:(1) AIで調べた「(ほぼ)ハルシネーションがない情報」と、(2) 専門医がPubMedで調べた「反対する論文がないか確認済みの情報」— あなたはどちらを信頼して患者に適用しますか?

ポイントは「ほぼ」という言葉です。医療において、1000人に1人でも誤った情報で不利益を被る患者が出れば、それは許容できません。AIは補助ツールとして有用ですが、最終的な信頼性の判断は、方法論を理解した人間にしかできないことを、まず認識してください。

2. 「知っている」「使っている」ではダメな理由

EBM・SR・CPGの定義を理解していますか?
スライド② 基本知識:定義を理解しているか?
⚠️ 耳が痛い質問:
  • 「EBM? 知っているよ」 → 5ステップは言える。でも3つの基本原則は?
  • 「システマティックレビュー? 読んだことあるよ」 → では、なぜ系統的検索が必要か、説明できますか?
  • 「診療ガイドライン? 使っているよ」 → その CPG の推奨の強さの根拠、把握していますか?

これらの「なぜ」が答えられないまま臨床情報を使うと、都合の良い情報だけを無意識に選んでしまい、結果として患者に最適でない医療を提供することになります。以下、1つずつ紐解いていきましょう。

3. EBMの定義 — Sackett 1996

EBMの定義:Sackett 1996
スライド③ EBMの定義(Sackett et al. BMJ 1996)
EBMの定義(Sackett 1996)
「根拠に基づく医療(EBM)とは、個々の患者のケアに関する意思決定において、現在得られる最良の根拠を、良心的に・明示的に・思慮深く用いることである。」

この定義のキーワードは3つ:「良心的(conscientious)」「明示的(explicit)」「思慮深く(judicious)」。これらは後で学ぶ透明性再現性価値観の統合に直結します。

4. EBMの5ステップ(Evidence cycle: 5つのA)

EBMの5Steps (5A cycle)
スライド④ EBMの5ステップ(5つのA)
1Ask疑問の定式化(PICO)
2Acquireエビデンスの入手
3Appraise批判的吟味(妥当性の評価)
4Apply患者への適用
5Assessプロセスの自己評価

5ステップは多くの医療者が知っています。しかし、「5ステップさえ回していれば EBM」と誤解している人が大半です。本当に重要なのは、次に説明する3つの基本原則です。

5. ⭐ EBMの3つの基本原則(意外に知られていない)

EBMの3つの基本原則
スライド⑤ EBMの3つの基本原則(Users' Guides 3rd ed. 2015)
1
最適な臨床決断には、入手可能な最適のエビデンス、理想的にはシステマティックレビューのエビデンスを必要とする。
2
EBMは、エビデンスが信頼できるかどうか(診断検査・患者の予後・治療選択肢についてどれほど確信を置けるか)を提供する。
3
エビデンスだけでは、臨床決断をするのに決して十分ではない。(患者の価値観・意向・コストが必要)
EBMの3つの基本原則 追加情報
スライド⑥ EBMの3つの基本原則:追加情報(検索の実践)

🎓 この原則から導かれる、実践上の重要ポイント

  • EBMにおける検索は効率重視。まずSR、なければ非RCT・症例報告も活用。
  • 信頼性の評価はチェックシートで迅速に行えばよい(全てを精読する必要はない)。
  • SRを検索するならPubMedで直接。AIよりハルシネーションがなく確実。
  • 近年は信頼できる CPG が増えたため、SRの前に CPG を参照することも多い(ただし信頼できない CPG にも注意)。

6. 診療ガイドライン(CPG)の世界的定義

診療ガイドラインの定義 NAM
スライド⑦ 診療ガイドラインの定義(Health and Medicine Division, National Academies / 旧IOM)
CPGの定義
「診療ガイドラインとは、システマティックレビューによって得られたエビデンスと、代替的なケア選択肢の利益と害の評価に基づいて、患者ケアを最適化することを意図した推奨を含む記述である。」

この定義には3つの必須要素が含まれます:
(a) システマティックレビュー、(b) 利益と害の評価、(c) 推奨
この3要素のいずれかが欠落している文書は、世界標準の「診療ガイドライン」ではありません。残念ながら日本国内の学会作成CPGには、定義を満たしていないものも少なくありません [U17][C4]。

7. システマティックレビュー(SR)の定義

システマティックレビューの定義
スライド⑧ SRの定義(Cochrane Handbook 2023)
SRの定義(Cochrane Handbook)
「システマティックレビューとは、特定の臨床的な問い(リサーチ・クエスチョン)に答えるため、あらかじめ定められた適格基準を満たすすべての実証的エビデンス(研究)を、同定・評価・統合しようとするものである。」…再現性がある!

SRが従うべき6ステップ

  1. 明確に設定された問い:PICO/PECO形式
  2. 事前に定めた計画(プロトコル):透明性
  3. 網羅的・系統的な文献検索
  4. 客観的な研究の選択
  5. エビデンスの確実性の評価GRADEアプローチ
  6. 結果の統合(メタ分析)と要約

8. ⭐⭐ エビデンスの確実性とは — 同じ"1.62"でも確実性は違う

同じ1.62でも確実性が違う
スライド⑨ 2つのメタ分析:どちらの1.62が確実性が高い?

左右の図は、いずれも4つの研究を統合したメタ分析の結果 1.62 を示しています。しかし、研究結果のバラツキが全く違います。

左:研究結果のバラツキ大
4つの研究結果が大きく分散 → メタ分析の 1.62 は偶然の産物かもしれない確実性 低
右:研究結果が揃っている
4つの研究結果がほぼ一致 → メタ分析の 1.62 は本当に 1.62 に近い確実性 高
エビデンスの確実性とは
スライド⑩ エビデンスの確実性(certainty of the evidence)の定義
エビデンスの確実性の定義:「データから計算した効果推定値が、いろいろな要因を考えても、本当に意味のある範囲に入っているか? そして、臨床的意味がある閾値(MIDと言います)を、自信を持ってクリアしていると言えるか?」

9. エビデンスの確実性を下げる5要因(GRADEアプローチ)

確実性を下げる5要因
スライド⑪ 確実性を下げる5要因がまとめられた(GRADEアプローチ)
1研究の限界 (limitation, risk of bias)
そのアウトカムの結果を構成する論文にバイアスが多く存在していたら…
2非一貫性 (inconsistency)
論文間で結果が異なっていれば…
3非直接性 (indirectness)
最初に想定した臨床の疑問の患者層と、選択した論文の患者層が異なっていれば…
4不精確さ (imprecision)
症例数の小さな、あまり精確でないデータばかりなら…
5出版バイアス (publication bias)
有意差がなかったからと報告されなかった論文が、たくさんありそうな状況だったら…
確実性の用語変遷
スライド⑫ エビデンスの確実性の用語の変遷
⚠️ 用語の変遷に注意:かつては「エビデンスレベル」「エビデンスの質」「エビデンスの強さ」と様々に呼ばれていましたが、現在は「エビデンスの確実性(certainty of the evidence)」が世界標準です。「エビデンスレベル」という用語を使う人は、概念を理解していない可能性が高いので要注意。2025年現在、日本のMindsが「エビデンスの強さ」を併用しているのが混乱の原因となっています。

10. ⭐⭐⭐ 最重要:SRの質と、エビデンスの確実性は別物

従来のSRと最新のSRの違い
スライド⑬ 従来のSR vs 最新のSR(エビデンスの確実性が必須)

従来のSRは「系統的・網羅的に検索」+「メタ分析」の2輪だけでした。しかし最新のSRは、そこに必ず「エビデンスの確実性の評価」が加わります(図の★印)。メタ分析ができない定性的SRでも、確実性の評価は必須です。

SRの質 vs エビデンスの確実性
スライド⑭ ⭐必ず理解して欲しいこと — 4パターンの分岐
Case A
SR自体がしっかり作られていない
❌ 使ってはいけない
Case B
SRはしっかり作られている
中のエビデンスの確実性が低い
⚠️ 使うが注意が必要
Case C
SRはしっかり作られている
中のエビデンスの確実性も高い
✅ 十分使える
⚠️ 講演会の要注意フレーズ:「システマティックレビューなのでエビデンスレベルが高い」— これは概念が分かっていない発言です。SR の質が高くても、中のエビデンスの確実性は高い場合も低い場合もあります。SRの作り方の質中の効果推定値の確実性は完全に別物として評価する必要があります。

11. 診療ガイドラインの解説文 — 批判的吟味の実例

ガイドライン解説文の批判的吟味例
スライド⑮ よくあるCPGの解説文の問題点
例1(NG):「SR1では生存率が延長され、RCT1でも生存率が延長され、RCT2では再発率が低かった…」
問題:SR1はRCT1・RCT2を含んでいるはず。なのに並列で並べるのは重複カウント。どのRCTが含まれているか不明、SRの質・エビデンスの確実性も不明。
例2(NG):「SR1では生存率延長、SR2では再発率低下、SR3では生存率同等…」
問題:各SRで使われているRCTが異なるのか同一なのか、SRが丁寧に作られているのか、メタ分析結果のエビデンスの確実性も何も分からない。

このような解説文は、CPG としての信頼性を大きく損ないます。本サイトの Ch16(信頼できる CPG の6つの質問)・Ch18(AMSTAR 2)で、こうした CPG・SR を系統的に判定する方法を学びます。

13. 🆕 Guyatt先生のCore GRADE — 「GRADEが複雑になりすぎた」という反省

Gordon Guyatt 先生(2025):「最近、臨床疫学は方法論の厳密さに偏りすぎて、シンプルさの価値を見失った。GRADEも20年で40以上の論文と膨大なガイダンスを持つようになり、新規ユーザーにとって難しすぎる状態になった。Core GRADE は、その解決策として生まれた。
― Guyatt GH, Hultcrantz M, et al. Why Core GRADE is needed. BMJ 2025;389:e081902.
Core GRADE の本質:GRADE の本質的な部分(エビデンスの確実性評価推奨への変換)だけに絞り、"one-stop shopping" で学べる BMJ 7論文シリーズ(2025年4〜6月)として公開。単一介入 vs 単一比較対照の状況に特化し、個別患者視点を中心に据えた。

Core GRADE の7論文シリーズ(BMJ 2025)

1Overview — Core GRADE全体像・PICO・サブグループ
2Imprecision — 確実性評価のターゲット選択・精度
3Inconsistency — 不一致性
4Risk of Bias — バイアスリスク・効果upgrade
5Indirectness — 非直接性・適用性・代替アウトカム
6Summary of Findings — SoF表作成
7Evidence to Decision — 推奨への移行

💡 Core GRADE の設計思想(先生の言葉)

  • 複雑で高度な方法論ほど"上級"ではない。本当に重要なのは、誰でも使えるシンプルさ。
  • "guidance, not rules" — Core GRADE はルールではなく判断の指針を提供する。
  • "Close-call decisions are common" — 境界線上の判断は頻繁にある。絶対的な答えを求めない柔軟性が必要。
  • 公式GRADEの追加ガイダンスはあっていい — しかし、それがなくてもCoreで誤った判断には至らない、というのが重要。
⚠️ Risk of Bias 2 と Core GRADE の対立:Guyatt先生は「Cochrane Risk of Bias 2 は複雑すぎて信頼性も低い」と批判し、代わりに ROBUST-RCT(より簡潔なRoBツール)を BMJ 2025 で提案しています。これは「方法論の単純さ」を重視する Core GRADE の思想そのものです。

14. 🆕 確実性評価の「ターゲット」選択 — Null vs MID

Core GRADE の最重要コンセプト:「何について確実性を評価しているのか?」を明示的にする。これを Guyatt 先生らは "target of certainty rating"(確実性評価のターゲット)と呼ぶ。

以前の GRADE では、確実性は「点推定値(point estimate)」に対するものと定義されていましたが、Core GRADE では「ある閾値のどちら側に真実があるか」の確信度として再定義されました(Zeng et al. 2021)。

閾値は2つだけ — Null と MID

Null 閾値 (相対リスク=1、リスク差=0)
効果が ゼロではない か?」を問う場面で使う。
読み手が "効果があるか/ないか" だけに関心がある場合。
MID 閾値 (Minimal Important Difference=最小臨床的重要差)
効果が 臨床的に重要 か?」を問う場面で使う。
読み手が "患者に実際に意味のある大きさの効果か" を知りたい場合。

ターゲット選択の4ステップ(Guyatt 2025年講演より)

  1. 閾値を選ぶ — Null か MID か。
  2. 点推定値の位置を見る — 閾値のどちら側にあるか。
  3. 点推定値が真実なら、どんなメッセージになる? — それが確実性評価のターゲットになる。
  4. 信頼区間が閾値を跨ぐか見る — 跨いでいれば不精確性(imprecision)で1段階ダウングレード。Core GRADEはこれだけで済ませる。
📘 実例:治療薬Aのメタ分析で、死亡の相対リスク=0.82、95%信頼区間 0.70〜1.05 だったとする。

ターゲットをNullにした場合:点推定値は0.82(利益側)→「有益な効果がある」という確信度。信頼区間が1を跨ぐ → 1段階ダウン。
ターゲットをMID(たとえば0.90)にした場合:点推定値は0.82(MIDより大きな利益)→「臨床的に重要な利益がある」という確信度。信頼区間がMIDを跨ぐ → 1段階ダウン。

💡 ターゲットの使い分け(Guyatt先生のアドバイス)

  • 読み手によって両方のターゲットで評価を提示することも可能(パネルが高度に情報リテラシーのある読者向けに評価する場合)。
  • 両方を跨いだり近かったりする場合は、境界判断を"educated thoughtful gestalt"(熟慮された総合判断)に委ねるのが正しい。
  • 「ターゲットがMIDで、点推定値がMIDよりも小さい場合、"重要な効果はない"という確信度を評価する」— これは一見混乱しやすいが、Core GRADE の重要なロジック。

15. 🆕 最適情報サイズ(OIS) — 少数症例で大きな効果は要注意

Core GRADE の新ルール:信頼区間が閾値を跨がなくても、"小サンプル+大効果" の場合は不精確性でダウングレードすべき。これを判断する基準が OIS(Optimal Information Size)

Guyatt 先生らが BMJ 2025 で強調しているのは、「エビデンス蓄積の初期に大きな効果が見られる研究が、後続研究で追試されないケースが多い」という経験則です。例えば、ある薬で相対リスク減少が60%以上という大効果が、少数症例研究で示されても、症例数が積み上がると効果は縮小していくことが頻繁に起こる。

OIS の計算

OIS は以下の4つを設定して計算する:
  • α(有意水準の許容限界):通常 0.05
  • β(検出力の許容限界):通常 0.20(検出力 80%)
  • コントロール群のイベント発生率:臨床コンテキストから設定
  • 控えめな相対リスク減少:通常 20% または 25%(控えめに設定するのがミソ)

ここから計算される症例数が OIS(Optimal Information Size)

ダウングレードの判定

ケースA:総症例数が OIS を超えている → ダウングレードしない(通常のルール通り)
ケースB:総症例数が OIS 未満 → 1段階ダウン(「不精確性」として)
ケースC:総症例数が OIS から大きく不足 → 2段階ダウン(「非常に不精確」として)
ケースD:症例数が極端に少ない+他の問題もある → 3段階ダウンもあり得る
📘 Guyatt先生の実例(BMJ 2025):抗がん剤化学療法による好中球減少症患者への fluoroquinolone 予防投与 → 感染関連死亡の相対リスク減少 62%(絶対効果=1000人あたり21人減少)。信頼区間は MID(1000人あたり10人または5人)を跨がない。一見、不精確性でダウングレード不要に見える。しかし、総症例数は 1,022人、OIS 計算では 6,000人必要 → OIS基準により1段階ダウングレード。大きな効果+小サンプルの "再現性"を疑うのが Core GRADE の基本姿勢。
⚠️ OIS の適用範囲:OIS は"大きな効果+少数症例"の場合のみ検討する。効果が小さい場合は、信頼区間が必然的に広くなり閾値を跨ぐため、通常の閾値ルールで十分判定できる。

16. 🆕 「Risk of Bias」は「Bias」ではない — 教育的ゲシュタルトの原則

Guyatt 先生(2025年講演):「私たちは "risk of bias" と呼んでいる。"bias" ではない。それは、バイアスの基準を満たしていないからといって、実際に結果がバイアスされているかどうかは決して確実ではないからだ。」
― Clarity Research Webinar, Core GRADE Part 1, 2025

具体例で理解する

例1:アウトカム評価者が盲検化されていない
しかし:アウトカムが「死亡」 → 死亡の判定にバイアスが入る可能性はほぼゼロ → criterion はfail、でも RoB実質的には問題なし
例2:割付隠蔽(allocation concealment)が不十分
しかし:結果的に両群のベースラインは完全に均等 → 不十分だったが実害なし

Core GRADE の新アプローチ — 2段階評価

1
何が起きたか?
(例:盲検化されていた/いなかった)
2
それでバイアスが実際に入るか?
(アウトカムとの関係・文脈を考慮)

複数研究を統合する際の判断フロー(ROBUST-RCT)

Q1:エビデンス全体が高RoBの研究で占められているか?
→ Yes なら通常ダウングレード
Q2:低RoBの研究で占められているか?
→ Yes ならダウングレードしない
Q3:高RoBと低RoBが半々の場合 → 結果は一致しているか?
一致している:RoBは実際の影響を及ぼしていないと推定 → ダウングレードしない
一致していない:高RoB研究を除外し、低RoBのみで解析 → ダウングレードしない

💡 教育的ゲシュタルトの原則(Guyatt 2025)

  • 「GRADE の最終評価は、その基準を満たすかどうかの機械的判定ではなく、熟慮された総合判断(educated thoughtful gestalt)によるべき」— Core GRADE の根本原則。
  • GRADE の評価者の直感が「確実性はもっと低い」と感じるなら、恐らく評価者の直感が正しい。機械的ルールの盲信は誤り。
  • これは「ルールを曲げろ」という意味ではなく、"GRADE のロジックを理解した上で、文脈に即した判断を下す"ということ。

17. 🆕 サブグループと背景リスク — 「誰に推奨するか」の科学

Core GRADE の新しい強調点:PICO を定義する段階で、サブグループ差(effect modification)背景リスク差(baseline risk)の両方を事前に検討せよ。これが "誰に推奨するか" を科学的に決める鍵。

2つの異なる概念

① 背景リスク差(baseline risk)
相対効果(RR)は同じでも、絶対効果の大きさが異なる集団。

例:COVID-19 の死亡リスクは、免疫抑制患者で高い。パクスロビドの RR=0.5 は同じでも、絶対効果は免疫抑制群で大きい。

頻度:非常に多い。年齢・重症度・併存疾患などは、ほぼ常に背景リスクに影響する。
② サブグループ効果(relative effect modification)
相対効果(RR)自体が集団で異なる

例:薬が若年層では RR=0.5 だが高齢層では RR=0.8。

頻度:非常にまれ。本当に RR が異なるには、強い生物学的根拠が必要。

Guyatt先生が提案する判定基準(2025年Q&A)

ステップ1 — 背景リスク:「この特性(年齢・重症度・併存疾患など)は、この疾患で悪いアウトカムに至るリスクの大きな違いと関連しそうか?」→ Yes なら事前仮説としてPICOに含める。
ステップ2 — サブグループ効果:この特性で相対効果が変わる明確な生物学的理由があるか?方向性も事前に特定できるか?」→ Yes なら仮説として採用。
⚠️ "どちらに行くか分からない"仮説は棄却する。事前に方向を言えない仮説は、post-hoc の fishing に堕する。

💡 パクスロビドの例(WHO ガイドライン 2022、Guyatt参加)

  • 背景リスクの高い集団(相対効果は同じ、絶対効果が大きい):免疫抑制患者、血清陰性、未ワクチン
  • 相対効果が大きい可能性のある集団(要事前仮説):症状発現からの時間が短い、血清陰性、未ワクチン
  • → WHO ガイドラインでは「非重症COVIDの高リスク患者にはパクスロビドを条件付きで推奨、低リスク患者には推奨しない」という集団別の推奨へ

18. 🆕 エビデンスから推奨へ — 4つの推奨タイプと「強さ」の決定

Core GRADE 7(EtD):エビデンスの確実性が決まったら、次は 「強い推奨」か「条件付き推奨」か、そして「賛成」か「反対」かを決める。これには3つ(個別患者視点)または7つ(集団/公衆衛生視点)の要因を検討する。

推奨の2×2グリッド

強い推奨(賛成)
"We recommend..."(〜を推奨する)
望ましい効果が望ましくない効果を明らかに上回る
条件付き推奨(賛成)
"We suggest..."(〜を提案する)
望ましい効果がやや上回るが、バランスは微妙
条件付き推奨(反対)
"We suggest against..."(〜を行わないことを提案する)
望ましくない効果がやや上回るが、バランスは微妙
強い推奨(反対)
"We recommend against..."(〜を行わないことを推奨する)
望ましくない効果が望ましい効果を明らかに上回る

個別患者視点:3つの主要要因

1
利益と害のバランス
各アウトカムの大きさ・重要度を重み付け。望ましい効果vs望ましくない効果。
2
エビデンスの確実性
全体的確実性(最も低いクリティカルアウトカムの確実性)。低い=推奨に慎重さが必要。
3
患者の価値観と嗜好
患者がその効果をどう評価するか。値が多様なら → 条件付き推奨になりやすい。

集団視点:追加される4つの要因

4
コスト・資源利用
介入の費用対効果(ICER等)。
5
実行可能性
医療システムで実装できるか。
6
受容性
患者・臨床家・政策担当者にとって受け入れ可能か。
7
公平性
特定集団に不利益が偏らないか。
⚠️ Core GRADE 7 の原則:「確実性が高い or 中」→ 強い推奨ができる可能性あり。「確実性が低い or 非常に低い」→ 特別な状況を除き 条件付き推奨 に限定される。
確実性の低いエビデンスで強い推奨」を出すには、正当な例外理由(生命を脅かす状況、代替手段なし、害が極小等)を明示する必要がある。

19. 🆕 Guyatt先生Q&A — 実践現場の難問と回答

以下は、Guyatt 先生の Clarity Research FAQ と 2025年12月講演から、日本の臨床家に特に有用な Q&A を抜粋・要約したものです。各質問はタップで展開されます。

Q1 単一RCTしかない場合、Cochraneは必ずGRADE評価を要求する。過剰評価になるのでは?
Guyatt先生の回答:

レビューを計画した以上、誰かがその介入を使おうとしているということです。そうなら、最良の効果推定値とその確実性が提供されるべきです。それは研究数に関わらず当てはまります。

重要なのは、確実性評価を正しくすること。あなたの直感が「これは lowvery low だ」と告げるなら、GRADE 機械的判定で過剰評価している場合はそれを修正すべき。

  • 点推定値が大きく、OISを満たさない → 不精確性で2段階ダウンが可能
  • OISからさらに大きく不足 → 3段階ダウンも妥当
  • 出版バイアスの懸念(単一研究でも理論的にあり得る) → 追加ダウン可
  • RoB 懸念があれば追加ダウン可

結果として very low certainty の評価に至れば、それが正しい評価。

Q2 背景リスクとサブグループ効果、同じ因子(例:未ワクチン)は両方に該当するか?
Guyatt先生の回答:

はい、同じ因子が両方に該当することはあります。プロセスとしては別々に検討すべきです:

  • 背景リスク:その特性で "悪いアウトカムのリスク" が違うなら含める。これは よくある(年齢・重症度・併存疾患など)。
  • サブグループ効果:その特性で "相対効果" が違う 明確な生物学的理由 があるなら含める。これは まれ
  • COVIDの未ワクチンは両方に該当し得る:ベースライン死亡率が高く、かつ治療の相対効果も大きい可能性。

鉄則:「どちらに行くか分からない」仮説は棄却する。事前に方向を言えない仮説はpost-hoc になる。

Q3 2つの大規模RCTでメタ分析、RR=0.88(95%CI 0.75-1.13、N=2950)。不精確性でダウングレードは何段階?
Guyatt先生の回答:

まず、ターゲットを決めることが第一ステップ。

Nullをターゲットにした場合:

  • 点推定値=0.88は利益側 → 「非ゼロの利益」が評価のターゲット
  • 信頼区間が1を跨ぐ → 最低1段階ダウン
  • 1段階か2段階かは「probably effective」と伝えるか「possibly effective」と伝えるかの判断
  • 13%のRR増加(害の可能性)もある → "probably"と言うのは躊躇する → 他にダウン要因がなければ 2段階ダウンが妥当

ただし、最終的にはゲシュタルトで総合判断:他ドメインでダウン済みなら、ここで2段階ダウンするとvery lowになってしまう。その場合は1段階ダウンに留めて low とする方が適切。

Q4 MIDはどう決めるのか?プロトコル段階で決めるべきか?
Guyatt先生の回答:

理想的にはプロトコル段階で決定する。しかし実際には柔軟性がある:

  • ガイドラインパネルが組成されてから、パネルが自分たちのMIDを指定する場合がある → その後SRの確実性評価を修正
  • SRチームが最初はNullでだけ評価し、パネルがMIDを決めた後で追加のMID評価を行う

患者報告アウトカム(PRO)はMIDのエビデンスが豊富だが、有害事象などは研究が少ないため、パネル内の患者・臨床専門家のコンセンサスに依存することが多い。

Q5 Core GRADEと公式GRADE(Full GRADE)で、最終的な確実性評価は変わるか?
Guyatt先生の回答:

正式な比較研究はまだ行っていませんが、Core GRADE を設計する際の前提は「高度な方法論を加えても、最終的な確実性評価や推奨の方向・強さに重要な差を生じさせない」ということ。

細かい方法論的工夫(境界線上の判断への高度な対処など)は、"methodologically sophisticated" で面白いが、incremental benefit is not crucial。Core GRADE は「本質」を定義することに特化している。

MAGIC Foundation・BMJ Rapid Recommendations・WHOのCOVIDガイドラインは、何年も Core GRADE で運用されている

Q6 高RoBの研究は、感度分析で除外すべきか、本解析から完全に除外すべきか?
Guyatt先生の回答:

完全に除外すべき。理由:

  • 低RoB研究だけで解析 → 高い確実性が得られる
  • 高RoBを混ぜる → 結果をぼかし、バイアスを導入する可能性 → なぜ混ぜるのか?
  • 高RoBと低RoBで結果が異なる → RoBが実際に影響している証拠 → 高RoBは除外
  • 高RoBと低RoBで結果が似ている → RoBは実害なかったと推定 → 全て使って確実性をダウングレードしない
Q7 GRADEproとMAGICapp、どちらを推奨?
Guyatt先生の回答:

先生ご自身は「ソフトウェア懐疑派」で、手作業でGRADE評価を行う。ただし、MAGIC Evidence Ecosystem Foundation の MAGICapp のボードメンバーであり、特にガイドライン作成には GRADEpro より MAGICapp を推奨している(バイアスあり、と自己申告)。

ただし、ソフトウェアは方法論の本質的判断にはあまり役立たない。方法論の議論をする際に、ソフトウェアの挙動に頼るべきではない。

12. まとめ — 信頼できる医療情報を見極める目を養うために

医学情報の信頼性まとめ
スライド⑯ 医学情報の信頼性:まとめ(Lima-Mirza-Guyatt 2023)

🎯 患者にとって望ましい情報を考えると…

  • 最新の情報が欲しい
  • 偏ってない情報が欲しい
  • 信頼性が高い情報が欲しい
  • 研究段階でなく、臨床で使える情報が欲しい

→ 信頼できる診療ガイドライン、なければ、自分で信頼できる情報を探す

信頼できる情報を探すために:

  • 患者も AI で調べる時代で、同じレベルではプロではない
  • ハルシネーションは「ゼロ」でなければならない
  • エビデンスの確実性の評価が自分でできなければならない(AI では不可能)
  • もっとも、AI は有用であり、利用すべきである
  • 医学以外の分野では、AI、特に Deep Research が有用
EBM・システマティックレビュー・診療ガイドラインの意味を理解していなければならない。
本サイトの Ch1〜Ch24 は、このための最短ルートです。

📍 次のステップ:本サイトのどこから読むか

🗺️ 本サイトの学習ロードマップ(Primer読了後)

Ch1 EBMとCPG/SRの読み方
本Primerの内容を、臨床的視点で再構成+文書構造マップ
Ch2 GRADE概要
G-R-A-D-E を1文字ずつ分解して学ぶ
Ch3 確実性の4段階
高・中・低・非常に低いの判定基準と動詞(results in / likely / may)
Ch16 ⭐ 信頼できるCPGの6つの質問
Guyatt 2023 — 目の前の CPG を6問で判定
Ch18 AMSTAR 2(16項目)
SR の質を系統的に評価するチェックリスト
Ch7 ⭐ 閾値と MID
効果推定値が「臨床的に意味があるか」を判定
📘22 JAMA UG Ch22
SR/MA プロセスを信用できるかを見抜く 8 質問
📘23 JAMA UG Ch23
結果の理解と、目の前の患者への適用
📘24 JAMA UG Ch24
ネットワークメタアナリシス(NMA)
📘 Chapter 22 / 27 | JAMA UG
Ch22 システマティックレビュー/メタアナリシスのプロセス
⏱ 約 12 分

JAMA Users' Guides to the Medical Literature(第3版)第22章の枠組みを、独立の解説として整理しました。この章の目的は「SR/MAというプロセスが、私たちが結論を信じてよい水準で実施されたか」を見抜く視点を持つことです。本編の各章(Ch1, Ch8〜12, Ch18, Ch20)と補完的に読むと理解が深まります。

🩺 臨床シナリオ

心臓手術以外の大手術を控えた高リスク患者について、周術期のβ遮断薬perioperative β-blockerを投与すべきか迷っています。過去のガイドラインは「投与を推奨」としていた時期がありましたが、大規模RCT(POISE)以降、推奨は揺れ動いてきました。最新のSR/MAを探し、本当に信じてよいのか自分で判断したい — これが出発点です。

1. なぜ SR/MA を探すのか — ナラティブレビューとの違い

臨床上の疑問に答えるには、1本のRCTだけでなく、関連するすべての研究を系統的・再現可能な手順で集めて統合する必要があります。JAMA UG は SR と従来の「総説(ナラティブレビュー)」の違いを次のように整理しています。

❌ ナラティブレビュー 病気・診断・治療・予後など広範な主題を扱うことが多く、著者の視点で文献が取捨選択されがち。1次研究のバイアス評価や統合の手順が再現可能な形で明示されない
✅ システマティックレビュー 通常は焦点を絞った臨床疑問に答える。検索戦略・適格基準・バイアス評価・統合方法をすべてプロトコルとして事前に定め、他者が追試できる形で報告される。

用語整理

  • システマティックレビュー SR:焦点を絞った臨床疑問を、再現可能な方法で統合する研究のタイプ。
  • メタアナリシス MA:SR のなかで、個別研究の結果を統計的に統合して単一の推定値(point estimate)と信頼区間(CI)を算出する工程。統計的統合を行わない SR も正当(統合不可能な場合、ナラティブ統合に留める)。

2. SR/MA の標準プロセス — 9 ステップの俯瞰

JAMA UG が示す標準的な実施プロセスは以下の流れです。読者としては、論文本文および PRISMA 図でこの流れが追えるかを確認します。

🛠️SR/MA の実施プロセス
  1. 疑問を定式化する(PICO/PECO)患者・介入・対照・アウトカムを明示的に定義
  2. 適格基準を決める研究デザイン・対象集団・介入の範囲・アウトカム
  3. 異質性を説明する事前仮説サブグループ解析の方向性を事前に明文化
  4. 系統的な文献検索MEDLINE / EMBASE / Cochrane Central を最低限カバーし、検索語・期間・言語制限を明記
  5. タイトル・抄録・全文のスクリーニング独立した 2 名以上で行い、κ統計量で一致度を評価
  6. バイアスのリスク評価とデータ抽出これも独立した 2 名以上で実施
  7. 効果推定値の統合(MA を行う場合)固定効果/変量効果モデルを適切に選択
  8. 異質性の評価I²・Q 検定・事前仮説に基づくサブグループ解析
  9. 確実性(エビデンスの質)の評価と報告GRADE による格付けと Summary of Findings の提示

3. SR/MA の信頼性を見抜く 8 つの質問

JAMA UG は、臨床家が SR/MA を批判的に読むためのチェックリストとして、次の質問を提示します。本書では各質問の要点を解説付きで示します。

🔍ユーザーズガイド:SR/MAプロセスの信頼性を判定する
見ているのは「結果」ではなく「どう作られたか」です
  1. 臨床的に意味のある疑問が明確に設定されているかP・I・C・O が絞られていて、臨床現場で遭遇する問いと一致するか
  2. 検索は徹底かつ系統的か複数データベース(MEDLINE / EMBASE / Cochrane Central)に加え、未公表データ・試験登録・引用追跡・専門家照会まで確認したか
  3. 研究の選択と評価は再現可能か独立した 2 名によるスクリーニング、κ統計量による一致度の報告
  4. 1 次研究のバイアスリスクが適切に評価されたかランダム化・隠蔽化・盲検化・追跡・ITT などの主要ドメインを、個別研究ごとに判定しているか
  5. 研究間の結果のばらつき(異質性)の理由が探られているかI²・視覚的評価・事前仮説に基づくサブグループ解析/メタ回帰
  6. 効果推定値の確実性(エビデンスの質)が等級付けされているかGRADE に沿った評価が提示され、アウトカムごとに理由が明記されているか
  7. 報告バイアスが検討されているかファンネルプロット、trim-and-fill、未公表研究の統合など
  8. 自分の患者に適用できる結果が提示されているかベースラインリスク別の絶対効果、NNT、重要なサブグループでの効果

4. 各質問の要点 — 読むときの着眼点

Q1 — 疑問は明確か(PICO の定式化)

レビューの冒頭で、対象患者の範囲(年齢・病期・重症度・併存症)、比較される介入、対照、臨床的に重要なアウトカムが具体的に列挙されていることを確認します。

⚠️ 注意:「良いSRほど焦点は絞られ、適格基準は厳格」だが、その反面 一般化可能性は狭くなる というトレードオフがあります。あなたの目の前の患者がその範囲に入るかを必ず照合します。

Q2 — 検索は徹底的か

単一データベースだけの検索は不十分。最低 3 つの国際データベース(MEDLINE / EMBASE / Cochrane Central)に加え、以下をチェック:

  • 学会抄録・会議録
  • 試験登録(ClinicalTrials.gov, WHO ICTRP)
  • 引用追跡(参考文献リストのチェック)
  • 専門家への照会・灰色文献
  • FDA/EMA の申請資料(薬剤の場合)

FDA 資料と公表論文を比べると、未公表試験や結果の歪んだ報告が見つかる例があります(報告バイアス/選択的アウトカム報告)。

Q3 — 選択と評価は再現可能か(κ統計量)

スクリーニングとバイアスリスク評価は、独立した 2 名以上で行う必要があります。食い違いが出るのは当たり前で、それをどう解決したか(3 人目の裁定、議論)まで報告されるのが望ましい形です。

一致度はκ統計量kappaで定量化され、0.6 以上(実質的一致)が目安。κの報告がない SR は、選択バイアスの懸念が残ります。

Q4 — 1次研究のバイアスリスク評価

RCT では以下のドメインを個別研究ごとに判定:

  • ランダム化の方法(配列生成)
  • 割り付けの隠蔽化(concealment)
  • 盲検化(患者・医療者・評価者・解析者)
  • 脱落/追跡不能の影響
  • ITT 原則の適用
  • 早期中止(stopped early for benefit)

⚠️ 客観的アウトカム(死亡)では盲検化の影響は小さいが、主観的アウトカム(疼痛・QOL)では盲検化の破綻がバイアスを大きく増やすため、アウトカムごとに影響を考えます。

詳細は Ch8 Risk of Bias を参照。

Q5 — 異質性の理由は探られているか

統合する前に、個別研究の結果が互いに近いか(一貫しているか)を必ず確認します。評価方法は:

  1. 視覚的評価:フォレストプロット上の点推定値のばらつきと CI の重なり
  2. Q 検定(yes/no 式の帰無仮説検定)
  3. I²統計量:ばらつきのうち研究間差が占める割合を % で示す(0–100%)

ばらつきが大きい場合は、事前に計画されたサブグループ解析/メタ回帰でその源を説明すべきです(患者特性・介入量・追跡期間・研究の質など)。事後的に無理やり説明するのは「仮説を生み出す」程度の信頼性しかありません。

詳細は Ch9 不一致性 を参照。

Q6 — エビデンスの確実性(質)の等級付け

JAMA UG の標準は GRADE。RCT は「高」、観察研究は「低」を出発点とし、以下の要因で上下します:

下げる 5 要因
確実性を下げる

バイアスのリスク/非一貫性(inconsistency)/非直接性(indirectness)/不精確性(imprecision)/出版バイアス

上げる 3 要因
確実性を上げる(観察研究)

大きな効果量/用量反応性/交絡要因が効果を減弱させる方向に働く

結果は 高・中・低・非常に低 の 4 段階で示されます(Ch3)。

Q7 — 報告バイアスは検討されているか

JAMA UG は報告バイアスへの対処として 4 つの手法を挙げます:

  1. 小規模研究と大規模研究で結果が異なるかを比べる
  2. ファンネルプロットの視覚的検討(対称性)
  3. 点推定値のばらつきの非対称性を定式化した統計検定(Egger など)
  4. 統計的有意差の欠落した研究の過多を検出する方法

⚠️ いずれの手法も完璧ではなく、研究数が少ない SR では検出力が低いことに注意。最善の対処は「最初からすべての研究が登録・報告される仕組み」を社会として作ることです。

Q8 — 自分の患者に適用できる結果か

レビューが「相対リスク(RR)」だけを示しているなら半分の仕事です。臨床家には絶対効果が要ります。ベースラインリスク別に絶対リスク差・NNT を提示してこそ、目の前の患者に使える情報です。

例:相対リスク 25% 減 (RR 0.75) は

  • 高リスク患者(年間イベント率 8%)→ 絶対差 2%/NNT = 50
  • 低リスク患者(年間イベント率 0.5%)→ 絶対差 0.125%/NNT = 800

同じ RR でも臨床的意味は全く違う。この視点は Ch6 相対 vs 絶対Ch20 患者への適用 が詳しい。

5. フォレストプロットの読み方 — 模式図

JAMA UG は SR/MA のフォレストプロットを「結果を要約する言語」と位置づけます。次のような読み方をします。

模式例:介入 A vs 対照 のメタアナリシス(相対リスク)
研究 1(n=400)
0.85 (0.72–1.00)
研究 2(n=1200)
0.78 (0.68–0.90)
研究 3(n=260)
1.02 (0.80–1.30)
統合(MA)
0.83 (0.75–0.92)
← 介入が有利RR = 1.0対照が有利 →
  • 四角の大きさ = 研究の重み(精度 = サンプルサイズと情報量)
  • 横線 = 95% 信頼区間(CI)
  • ダイヤモンド = 統合推定値と CI
  • 縦線(無効線 RR = 1 または RD = 0)を CI がまたぐと「統計的有意差なし」
  • 結果のばらつきを目で見て、どれくらい似ているかを第一印象で判断するのが異質性評価の出発点
🎯 臨床シナリオの解決

β遮断薬のSR を読んで、上記 8 項目に照合します。
Q1–Q3:検索範囲・独立レビューが明記されていれば合格。
Q4:POISE 試験のような大規模・低バイアス試験が含まれているか。少数の古い試験のみなら信頼度は低い。
Q5:心血管アウトカム(ベネフィット)と脳卒中・死亡(ハーム)の両方でサブグループ解析がされているか。
Q6:GRADE による確実性が、主要アウトカムごとに示されているか。
Q8:あなたの目の前の患者のベースラインリスクに当てはめた NNT/NNH が提示されているか。

この 8 項目をクリアして初めて、「SR/MAの結果を信じてよい」水準に達します。信じられる SR が得られたら、次は Ch23(結果の理解と適用) へ進み、効果の大きさ・精度・患者への適用可能性を評価します。

出典:JAMA Users' Guides to the Medical Literature(第3版)第22章「Systematic Reviews and Meta-analysis: The Process」を基に、章構成と質問フレームを参照して独自に再構成・解説。章内の臨床シナリオ、フォレストプロット、数値例は本アプリ編集者の作成。関連1次資料:Bougie 2014, Dalen 2014, Cochrane Handbook (Higgins 2011)。
📘 Chapter 23 / 27 | JAMA UG
Ch23 SR/メタアナリシス 結果の理解と適用
⏱ 約 15 分

Ch22 で「信じてよい SR/MA」を見分けました。次は、その結果を目の前の患者にどう当てはめるかです。JAMA UG 第23章は、効果の大きさ・精度・確実性・適用可能性を段階的に評価する枠組みを提示します。

🩺 臨床シナリオ

非心臓手術を受ける 66 歳男性、2 型糖尿病・高血圧 を担当します。最新の SR/MA(周術期 β 遮断薬の影響)を読み、この患者に投与すべきかを判断したい — 効果推定値の数値から、NNT・NNH まで自分で計算できるようになるのが目標です。

1. 効果の大きさ — どう表現されるか

SR/MA の要約推定値は、アウトカムのタイプに応じて異なる指標で示されます。

森林図(フォレストプロット)の各要素を示す解説図 — ①研究, ②介入群と対照群, ③森林図, ④効果指標RR, ⑤95%信頼区間, ⑥重み, ⑦ランダム効果モデル, ⑧ヘテロジーニティ, ⑨予測区間, ⑩横軸, ⑪サブグループ間の比較 🔍 タップで原寸表示・スマホはピンチで拡大
図:森林図(フォレストプロット)の見方。SR/MA の要約推定値は、各研究の効果と統合結果を ①〜⑪ の要素として可視化します(個別研究の効果と CI/統合推定値のひし形/重み%/I²・τ²・予測区間/サブグループ比較の χ² など)。本章ではこれらの読み方を順に確認します。
🌲 インタラクティブツール(別タブ) フォレストプロットを再解析する(例:サブグループ追加、RoB の深刻な論文削除)場合 ブラウザ上でフォレストプロットを編集してメタアナリシスを再計算できます
アウトカムのタイプよく使われる指標解釈の要点
2 値(発生/非発生)
死亡・心筋梗塞など
相対リスク RR/オッズ比 OR/リスク差 RD/相対リスク減少 RRR RR=0.75 → 介入でイベントが 25% 相対的に減少。絶対効果に変換すると臨床的意味が見える。
発生までの時間
生存解析
ハザード比 HR HR=0.80 → 単位時間あたりのイベント発生率が 20% 低い。
診断検査の精度 尤度比 LR(正・負) LR+ が 10 以上 / LR− が 0.1 以下で、事後確率を大きく動かす。
連続変数
BP・QOLスコア
加重平均差 WMD/標準化平均差 SMD 異なるスケールを統合する場合は SMD。解釈には MID(最小重要差)を参照。
📘 JAMA UG の要点
SMD の解釈は「戻し翻訳」で

SMD(効果量)は「何 SD 分だけ改善したか」という抽象的な単位です。臨床家に伝わる形にするには、代表的な尺度(例:6 分間歩行距離、Chronic Respiratory Questionnaire)の実単位に戻し翻訳(back-translation)します。

2. 結果の精度を評価する — 信頼区間と不精確性

効果推定値(点推定値)のまわりの不確かさを示すのが信頼区間CIです。JAMA UG は精度の評価を次のように説明しています。

  • CI の上限と下限の両方で臨床判断が変わらないなら、精度は十分
  • CI のどちらかの端が「重要な効果あり/なし」の境界(閾値)をまたぐなら、不精確性で確実性を 1 段下げる候補
  • CI 上下限の両方が閾値をまたぐなら、2 段下げることもある
  • 統計的有意 (p<0.05) があっても、CI が広ければ臨床判断は不安定
📘 JAMA UG の要点
最適情報サイズ(OIS)の考え方

適切な精度を得るためには、メタアナリシス全体で所定のサンプルサイズ(OISOptimal Information Size)に達している必要があります。症例数が少なく CI が広い場合、統計的有意でも「ランダム誤差で生じた可能性」が残り、確実性を下げる根拠になります。

詳細は Ch11 不確実性 と、Primer(page-25)のセクション15(OIS)も併読。

3. 研究間の結果のばらつき(異質性)を理解する

同じ介入でも、研究によって結果が違うのは普通のことです。JAMA UG は、ばらつきの評価と説明を 3 段階で行います。

📊異質性評価の 3 ステップ
  1. 視覚的評価フォレストプロット上で、点推定値のばらつきと CI の重なりを目視
  2. 統計的検定Q検定(p 値)、I²統計量(% で表現)
  3. 臨床的・方法論的な説明事前に計画されたサブグループ解析で、ばらつきの原因を探る

I² の解釈の目安

  • 0–40%:重要でない異質性の可能性
  • 30–60%:中等度の異質性の可能性
  • 50–90%:実質的な異質性の可能性
  • 75–100%:かなりの異質性 — 統合の妥当性を慎重に考える

サブグループ解析の信用性 — 5 つの基準

ばらつきを「年齢・重症度・介入量」などのサブグループで説明できたと主張するとき、その主張を信じてよいかは次の 5 点で評価します。

  1. サブグループ効果の方向は、生物学的・臨床的に妥当
  2. その効果は、研究内(within-study)の比較か、それとも研究間(between-study)の比較か → 研究内比較のほうが信頼できる
  3. 事前に計画された仮説か、事後の探索か → 事前計画のほうが信頼できる
  4. 検定される仮説の数は少ないか(多重比較の問題)
  5. 他の独立した研究で再現されているか

4. エビデンスの確実性(質)を等級付けする — GRADE

JAMA UG は、要約推定値の確実性を評価するスタンダードとして GRADE を採用します。本アプリの Ch2Ch12 が詳しいので、ここでは JAMA UG 独自の視点をハイライトします。

📘 JAMA UG の独自視点
確実性の格付けは「アウトカムごと」に行う

単一の「GRADE 評価」はない。同じ SR でも「死亡」「脳卒中」「QOL」でそれぞれ確実性は異なり得ます。バイアスのリスク、異質性、不精確性はアウトカムによって異なる影響を受けるためです。

Summary of Findings(SoF)表は、アウトカム行ごとに確実性(高・中・低・非常に低)と理由を示します。詳細は Ch5 SoF 表の読み方 を参照。

5. 結果を自分の患者に直接適用できるか

信頼できる効果推定値が得られても、それを目の前の患者に使ってよいかは別の問題です。JAMA UG は 4 つのチェックポイントを提示します。

🧭患者への適用可能性チェック
  1. 患者の特性は、研究対象と十分似ているか年齢・性別・併存症・病期・重症度
  2. 介入の内容は、あなたの環境で実施可能か用量・投与経路・期間・実施チームの技能
  3. 対照は、あなたの通常診療と比較できるかプラセボ対照 vs 標準治療対照 で解釈が大きく変わる
  4. 結果は、患者にとって重要か代理アウトカムではなく患者重要アウトカム(death・disability・QOL)か
📘 JAMA UG の要点
非直接性(indirectness)の 3 側面
  • 患者:目の前の患者が研究対象からかけ離れていないか
  • 介入/対照:実施可能性、用量、通常診療との差
  • アウトカム:真のアウトカムか、代理アウトカムか

詳細は Ch10 非直接性 を参照。

6. 絶対効果とベースラインリスク — 臨床で活かす算数

SR/MA は多くの場合相対効果(RR、OR、HR)を主要結果として示します。臨床判断にはベースラインリスク × 相対効果 = 絶対効果への変換が必須です。

計算例 — 周術期 β遮断薬

✅ ベネフィット側:心筋梗塞

介入なし群の MI リスク = 5.1%(ベースライン)
RR = 0.73 → 介入群 MI リスク = 5.1 × 0.73 = 3.7%
絶対差 ≈ 1.4% → NNT ≈ 70
(1000 人に 14 人少ない心筋梗塞)

❌ ハーム側:脳卒中

介入なし群の脳卒中リスク = 0.5%
RR = 2.17 → 介入群 = 0.5 × 2.17 = 1.09%
絶対差 ≈ 0.6% → NNH ≈ 170
(1000 人に 6 人多い脳卒中)

ベネフィットとハームのバランスは、絶対効果でみて初めて適切に評価できます。相対効果は「効果の生物学的な大きさ」を示しますが、臨床的な差引きは絶対効果でしか計算できません。

📘 JAMA UG の要点
ベースラインリスクの取得方法

JAMA UG が推奨する優先順位:

  1. SR 内の対照群(介入なし)の平均リスク
  2. SR がレビューした観察研究のコホート
  3. 外部の大規模観察研究/レジストリ
  4. リスク層別化ツール/予測モデル(Framingham、CHA₂DS₂-VAScなど)

目の前の患者のリスクが平均と違うなら、そのリスクを入れて絶対効果を計算し直すのが正しい使い方です。

7. エビデンスプロファイル — 結果の一覧表

GRADE ワーキンググループが推奨する要約形式がエビデンスプロファイルSummary of Findings(SoF)表です。患者にとって最も重要なアウトカムをとして、各アウトカムの確実性・絶対効果・相対効果を一望できます。

アウトカム 相対効果 ベースラインリスク 介入群のリスク 確実性
心筋梗塞 RR 0.73 (0.61–0.88) 51/1000 37/1000
(14 人少ない)
🟢 高
脳卒中 RR 2.17 (1.26–3.74) 5/1000 11/1000
(6 人多い)
🟢 高
総死亡 RR 1.27 (1.01–1.60) 25/1000 32/1000
(7 人多い)
🟢 高
低血圧 RR 1.51 (1.39–1.65) 100/1000 151/1000
(51 人多い)
🟢 高

例示の数値は POISE 試験(Lancet 2008)の再解析およびそのメタアナリシスから報告された値を参考に、教育目的で簡略化して示したもの。

🎯 臨床シナリオの解決

66 歳、糖尿病・高血圧を持つこの患者について、上の SoF 表を適用します。
ベネフィット:MI リスクが年間 5.1% ほどあると仮定 → 1000 人に 14 人少ない MI。
ハーム:脳卒中 +6人、総死亡 +7人、低血圧 +51人/1000人。
確実性:いずれも GRADE「高」。
判断:MI の絶対利益よりも、脳卒中と死亡の絶対害が大きいと判断され、ルーチンの周術期高用量 β 遮断薬はこの患者には推奨しない。もともと β 遮断薬を服用中の患者は継続、という個別判断に落ち着く。

この「ベネフィット − ハーム」を、患者の価値観も含めて一緒に決めるプロセスが Ch21 共同意思決定 です。

出典:JAMA Users' Guides to the Medical Literature(第3版)第23章「Understanding and Applying the Results of a Systematic Review and Meta-analysis」を基に、章構成・質問フレーム・SoF フォーマットを参照して独自に再構成・解説。数値例は POISE 試験(Devereaux PJ et al. Lancet 2008)および GRADE 関連ガイダンス(Guyatt et al. J Clin Epidemiol 2011)を参照。
📘 Chapter 24 / 27 | JAMA UG
Ch24 ネットワークメタアナリシス(NMA)
⏱ 約 13 分

直接比較する RCT がない選択肢のあいだで優劣を知りたいとき、ネットワークメタアナリシスNMA / network meta-analysisが使えます。JAMA UG 第24章は、NMA の仕組みと、読者が信頼性を判定するためのチェックポイントを示します。

🩺 臨床シナリオ

45 歳女性、片頭痛。これまで市販鎮痛薬では効かず、トリプタン系薬剤のなかでどれが最も効果的かを比較したい。しかし、多くのトリプタンはプラセボ対照の RCT はあるが、薬剤どうしの直接比較 RCT は限定的。NMA で横断的に比較したい。

1. NMA は何が違うか — 従来 MA との対比

従来のメタアナリシス(pairwise MA)

「介入 A vs プラセボ」「介入 B vs プラセボ」を別々に統合。A と B を直接比べる RCT がなければ比較できない。

ネットワーク MA(NMA)

プラセボを共通の比較対象として、A vs プラセボB vs プラセボの情報を用いて A vs B の間接比較を計算。直接比較があればそれと統合して総合推定値を作る。

2. ネットワークの形 — 典型パターン

JAMA UG は NMA で扱う典型的なネットワーク形状を 4 つのパターンで整理しています。

(A) 星形
すべての介入がプラセボ(または標準治療)と結ばれる
(B) 閉ループ
一部の介入間に直接比較 RCT が存在(三角形など)
(C) 梯子型
直鎖状に比較が連なる
(D) 完全連結
すべての介入どうしに直接比較あり

閉ループ(B)や完全連結(D)のネットワークは、直接比較 vs 間接比較の一貫性をチェックできる点で信頼性が高くなります。

3. NMA の信頼性を判定する — ユーザーズガイド

🔍NMA を批判的に読むためのチェックリスト
  1. 適格基準に明白で適切な臨床疑問が含まれているかPICO が一貫しており、ネットワーク全体の「被験者同士が交換可能」と言える範囲か
  2. 研究の選択と報告のバイアスリスクが低いか検索の徹底性、出版バイアス、選択的アウトカム報告
  3. 研究間の違い(異質性)への説明があるか患者集団・介入量・アウトカム測定法の違い
  4. 直接比較と間接比較の結果が一貫しているか整合性coherence閉ループでの一貫性検定、ノード分割(node-splitting)など
  5. 著者は対比較ごとに確実性を等級付けしているかGRADE は「A vs B」ごとに「高・中・低・非常に低」を付けるべき
  6. 結果は感度推定や潜在的バイアスに頑健か感度分析、バイアスリスクの低い試験のみでの再解析
  7. ランク付け(例:SUCRA)の限界が明示されているか「最も有効」の見かけのランクは信頼性が低いことが多い
  8. 患者にとって重要なアウトカム全てが検討されているか有効性だけでなく、有害事象・QOL も NMA に含まれているか

4. 整合性(coherence)— NMA 特有の概念

同じ比較(A vs B)について、直接比較(A 対 B の RCT)と間接比較(プラセボを経由した計算値)が得られる場合、両者が一致するかを必ず検討します。

📘 JAMA UG の要点
非整合性(incoherence)が生じる主な原因
  • 研究に組み込まれた患者集団の違い(年齢・重症度・疾患の範囲)
  • ベースラインリスク・以前の治療歴の違い
  • 介入の用量・投与期間・併用療法の違い
  • アウトカムの定義や測定時点の違い
  • 研究の実施年代による通常診療の進化

5. ランク付けの落とし穴

NMA の結果として介入のランキング(1 位、2 位…)やSUCRA値が提示されることがあります。魅力的に見えますが、JAMA UG は深い落とし穴を指摘しています。

  • データが少ない介入は偶然に上位に来ることがある
  • 順位は「差が臨床的に意味がある」ことを保証しない
  • 確実性の低いエビデンスに基づくランクは、新しい試験で順位が変わる可能性が高い
  • 「最も有効」のランクだけを見て、対比較ごとの確実性を見ないのは誤り

6. NMA の結果の適用 — 4 つのチェック

🧭NMA 結果をあなたの患者に適用できるか
  1. 患者重要アウトカム全てが検討されているか(有効性+有害事象+QOL)
  2. 考えうる治療選択肢が全て含まれているか(臨床現場で選びうるすべての介入)
  3. 想定されているサブグループ効果のうち、信用性の高いものがあるか
  4. 結果は感度推定や潜在的バイアスに頑健か(非一貫性の有無含む)
🎯 臨床シナリオの解決

片頭痛に対するトリプタン NMA(たとえば Thorlund 2014)は、プラセボ対照・直接比較を含む多数の RCT を統合し、頭痛消失率・2 時間持続効果率・副作用を比較しています。
結果の読み取り:エレトリプタン 40 mg、スマトリプタン 100 mg、リザトリプタン 10 mg が頭痛消失率で上位にランクされますが、対比較ごとの確実性を見ると、上位 3 者間の差は小さく、確実性も「中」程度のことが多い。
臨床判断:ランキング 1 位に飛びつかず、利用可能性・副作用プロファイル・患者の既往歴(冠動脈疾患の有無など)・コスト・過去の反応を総合して選択する。

出典:JAMA Users' Guides to the Medical Literature(第3版)第24章「Network Meta-analysis」を基に、章構成・質問フレームを参照して独自に再構成・解説。NMA の信頼性評価枠組みは Puhan et al. BMJ 2014、Salanti et al. J Clin Epidemiol 2014 の GRADE-NMA 拡張を参照。