TOPへ

STATISTICAL PRINCIPLES FOR CLINICAL TRIALS 臨床試験のための統計的原則


TABLE OF CONTENTS 目次
I. INTRODUCTION 1 I. はじめに 1
1.1 Background and Purpose 1 1.1 背景と目的 1
1.2 Scope and Direction 2 1.2 適用範囲と方向性 2
II. CONSIDERATIONS FOR OVERALL CLINICAL DEVELOPMENT 3 II. 臨床開発全体を通して考慮すべきこと 4
2.1 Trial Context 3 2.1 試験の性格 4
2.1.1 Development Plan 3 2.1.1 開発計画 4
2.1.2 Confirmatory Trial 4 2.1.2 検証的試験 4
2.1.3 Exploratory Trial 4 2.1.3 探索的試験 5
2.2 Scope of Trials 4 2.2 試験で扱う範囲 5
2.2.1 Population 4 2.2.1 対象集団 5
2.2.2 Primary and Secondary Variables 5 2.2.2 主要変数と副次変数 5
2.2.3 Composite Variables 6 2.2.3 合成変数 6
2.2.4 Global Assessment Variables 6 2.2.4 総合評価変数 7
2.2.5 Multiple Primary Variables 7 2.2.5 複数の主要変数 8
2.2.6 Surrogate Variables 7 2.2.6 代替変数 8
2.2.7 Categorised Variables 7 2.2.7 カテゴリ化した変数 9
2.3 Design Techniques to Avoid Bias 8 2.3 偏りを回避するための計画上の技法 9
2.3.1 Blinding 8 2.3.1 盲検化 9
2.3.2 Randomisation 9 2.3.2 ランダム化(無作為化) 11
III. TRIAL DESIGN CONSIDERATIONS 11 III. 試験計画上で考慮すべきこと 13
3.1 Design Configuration 11 3.1 試験計画の構成 13
3.1.1 Parallel Group Design 11 3.1.1 並行群間比較計画 13
3.1.2 Crossover Design 11 3.1.2 クロスオーバー計画 13
3.1.3 Factorial Designs 12 3.1.3 要因計画 14
3.2 Multicentre Trials 12 3.2 多施設共同治験 15
3.3 Type of Comparison 14 3.3 比較の型式 17
3.3.1 Trials to Show Superiority 14 3.3.1 優越性を示すための試験 17
3.3.2 Trials to Show Equivalence or Non-inferiority 15 3.3.2 同等性又は非劣性を示すための試験 17
3.3.3 Trials to Show Dose-response Relationship 16 3.3.3 用量-反応関係を示すための試験 19
3.4 Group Sequential Designs 16 3.4 逐次群計画 19
3.5 Sample Size 17 3.5 必要な被験者数 19
3.6 Data Capture and Processing 18 3.6 データの獲得と処理 21
IV. TRIAL CONDUCT CONSIDERATIONS 18 IV. 試験実施上で考慮すべきこと 21
4.1 Trial Monitoring and Interim Analysis 18 4.1 治験モニタリングと中間解析 21
4.2 Changes in Inclusion and Exclusion Criteria 19 4.2 選択基準と除外基準の変更 22
4.3 Accrual Rates 19 4.3 集積率 22
4.4 Sample Size Adjustment 19 4.4 必要な被験者数の調整 22
4.5 Interim Analysis and Early Stopping 20 4.5 中間解析と早期中止 23
4.6 Role of Independent Data Monitoring Committee (IDMC) 21 4.6 独立データモニタリング委員会の役割 24
V. DATA ANALYSIS CONSIDERATIONS 21 V. データ解析上で考慮すべきこと 25
5.1 Prespecification of the Analysis 21 5.1 解析の事前明記 25
5.2 Analysis Sets 22 5.2 解析対象集団 25
5.2.1 Full Analysis Set 22 5.2.1 最大の解析対象集団 26
5.2.2 Per Protocol Set 24 5.2.2 治験実施計画書に適合した対象集団 27
5.2.3 Roles of the Different Analysis Sets 24 5.2.3 二つの異なる解析対象集団の役割 28
5.3 Missing Values and Outliers 25 5.3 欠測値と外れ値 28
5.4 Data Transformation 25 5.4 データ変換 29
5.5 Estimation, Confidence Intervals and Hypothesis Testing 26 5.5 推定、信頼区間及び仮説検定 29
5.6 Adjustment of Significance and Confidence Levels 26 5.6 有意水準と信頼水準の調整 30
5.7 Subgroups, Interactions and Covariates 27 5.7 部分集団、交互作用及び共変量 31
5.8 Integrity of Data and Computer Software Validity 27 5.8 データの完全性の維持とコンピュータソフトウェアの妥当性 31
VI. EVALUATION OF SAFETY AND TOLERABILITY 28 VI. 安全性及び忍容性評価 32
6.1 Scope of Evaluation 28 6.1 評価の範囲 32
6.2 Choice of Variables and Data Collection 28 6.2 変数の選択とデータ収集 32
6.3 Set of Subjects to be Evaluated and Presentation of Data 28 6.3 評価される被験者集団とデータの提示 32
6.4 Statistical Evaluation 29 6.4 統計的評価 33
6.5 Integrated Summary 30 6.5 統合した要約 34
VII. REPORTING 30 VII. 報告 34
7.1 Evaluation and Reporting 30 7.1 評価と報告 34
7.2 Summarising the Clinical Database 31 7.2 臨床データベースの要約 36
7.2.1 Efficacy Data 32 7.2.1 有効性データ 37
7.2.2 Safety Data 32 7.2.2 安全性データ 37
GLOSSARY 33 用語集 37


STATISTICAL PRINCIPLES FOR CLINICAL TRIALS 臨床試験のための統計的原則
I. INTRODUCTION I. はじめに
1.1 Background and Purpose 1.1 背景と目的
The efficacy and safety of medicinal products should be demonstrated by clinical trials which follow the guidance in 'Good Clinical Practice: Consolidated Guideline' (ICH E6) adopted by the ICH, 1 May 1996. The role of statistics in clinical trial design and analysis is acknowledged as essential in that ICH guideline. The proliferation of statistical research in the area of clinical trials coupled with the critical role of clinical research in the drug approval process and health care in general necessitate a succinct document on statistical issues related to clinical trials. This guidance is written primarily to attempt to harmonise the principles of statistical methodology applied to clinical trials for marketing applications submitted in Europe, Japan and the United States. 医薬品 の有効性及び安全性は、1996年5月1日にICHが採択した「医薬品の臨床試験の実施に関する基準のガイドライン(ICH E6)」に基づき、日本における臨床試験の実施基準として定められた「医薬品の臨床試験の実施の基準に関する省令」(平成9年3月27日厚生省令第28 号)に従って実施される臨床試験によって示されるべきである。上記のICHガイドライン及び日本における関連通知において、臨床試験の計画と解析における 統計学の役割は欠くことのできないものと認められている。医薬品承認の過程及びヘルスケア一般において臨床研究が重要な役割を果たしていることにより、臨 床試験領域での統計的研究が増大していることから、臨床試験に関連した統計的な問題に関する簡潔なガイドラインが必要とされている。本ガイドラインは、日 米EUの3極間で、主として、承認申請のための臨床試験(治験)に適用する統計的方法論の原則の調和を進めるために書かれている。
As a starting point, this guideline utilised the CPMP (Committee for Proprietary Medicinal Products) Note for Guidance entitled 'Biostatistical Methodology in Clinical Trials in Applications for Marketing Authorisations for Medicinal Products' (December, 1994). It was also influenced by 'Guidelines on the Statistical Analysis of Clinical Studies' (March, 1992) from the Japanese Ministry of Health and Welfare and the U.S. Food and Drug Administration document entitled 'Guideline for the Format and Content of the Clinical and Statistical Sections of a New Drug Application' (July, 1988). Some topics related to statistical principles and methodology are also embedded within other ICH guidelines, particularly those listed below. The specific guidance that contains related text will be identified in various sections of this document. 本ガイ ドラインは出発点として、CPMP(欧州医薬品委員会)ガイダンス文書'Biostatistical Methodology in Clinical Trials in Applications for Marketing Authorisations for Medicinal Products「医薬品市販認可のための申請に用いる臨床試験における生物統計方法論(1994年12月)」を利用した。また、厚生省(日本)の「臨床 試験の統計解析に関するガイドライン(1992年3月)」、U.S. Food and Drug Administration (米国食品医薬品庁)の'Guideline for the Format and Content of the Clinical and Statistical Sections of a New Drug Application'「新医薬品申請書臨床の部及び統計の部の書式と内容に関するガイドライン(1988年7月)」も参考にした。統計的原則と方法論 に関連したトピックは、他のICHガイドライン及びそれに基づいて作成された日本でのガイドライン等(作成中のものを含む)、特に以下のものにも記載され ている。関連する内容を含むガイドラインを、本文の各節で引用する。
E1A: The Extent of Population Exposure to Assess Clinical Safety E1A: 「致命的でない疾患に対し長期間の投与が想定される新医薬品の治験段階において安全性を評価するために必要な症例数と投与期間について(平成7年5月24 日薬審第592号)」(以下引用に際しては、ICHのトピックに合わせ「ICH E1A」という。)
E2A: Clinical Safety Data Management: Definitions and Standards for Expedited Reporting E2A: 「治験中に得られる安全性情報の取り扱いについて(平成7年3月20日薬審第227号)」(以下「ICH E2A」という。)
E2B: Clinical Safety Data Management: Data Elements for Transmission of Individual Case Safety Reports E2B: 「個別症例安全性報告の伝達のためのデータ項目(以下「ICH E2B」という。)」
E2C: Clinical Safety Data Management: Periodic Safety Update Reports for Marketed Drugs E2C: 「市販医薬品に関する定期的安全性最新報告(PSUR)(平成9年3月27日薬安第32号)」(以下「ICH E2C」という。)
E3: Structure and Content of Clinical Study Reports E3: 「治験の総括報告書の構成と内容に関するガイドライン(平成8年5月1日薬審第335号)」(以下「ICH E3」という。)
E4: Dose-Response Information to Support Drug Registration E4: 「新医薬品の承認に必要な用量-反応関係の検討のための指針(平成6年7月25日薬審第494号)」(以下「ICH E4」という。)
E5: Ethnic Factors in the Acceptability of Foreign Clinical Data E5: 「外国臨床データを受け入れる際に考慮すべき民族的要因についての指針(平成10年8月11日医薬審第672号)」(以下「ICH E5」という。)
E6: Good Clinical Practice: Consolidated Guideline E6: 「医薬品の臨床試験の実施の基準に関する省令(平成9年3月27日厚生省令第28号)」、及び「医薬品の臨床試験の実施の基準に関する省令の施行について (平成9年3月27日薬発第430号薬務局長通知) 」(以下「ICH E6」という。)
E7: Studies in Support of Special Populations: Geriatrics E7: 「高齢者に使用される医薬品の臨床評価法に関するガイドライン(平成5年12月2日薬新薬発第104号) 」(以下「ICH E7」という。)
E8: General Considerations for Clinical Trials E8: 「臨床試験の一般指針(平成10年4月21日医薬審第380号)」(以下「ICH E8」という。)
E10: Choice of Control Group in Clinical Trials E10: 「臨床試験における対照群の選択」(以下「ICH E10」という。)
M1: Standardisation of Medical Terminology for Regulatory Purposes M1: 「規制目的のための医学用語の標準化」(以下「ICH M1」という。)
M3: Non-Clinical Safety Studies for the Conduct of Human Clinical Trials for Pharmaceuticals. M3: 「医薬品の臨床試験のための非臨床安全性試験の実施時期についてのガイドライン(平成10年11月13日医薬審第1019号)」(以下「ICH M3」という。)
This guidance is intended to give direction to sponsors in the design, conduct, analysis, and evaluation of clinical trials of an investigational product in the context of its overall clinical development. The document will also assist scientific experts charged with preparing application summaries or assessing evidence of efficacy and safety, principally from clinical trials in later phases of development. 本ガイ ドラインは、臨床開発のあらゆる場面で、治験依頼者が被験薬に関する臨床試験の計画、実施、解析及び評価を行う場合の方向づけを目的としている。また、本 ガイドラインは、主として開発の後期の相の臨床試験について、承認申請書添付資料概要(以下「資料概要」という。)の作成を任せられた専門家、又は有効性 及び安全性の証拠を評価することを任せられた専門家にも役立つであろう。
1.2 Scope and Direction 1.2 適用範囲と方向性
The focus of this guidance is on statistical principles. It does not address the use of specific statistical procedures or methods. Specific procedural steps to ensure that principles are implemented properly are the responsibility of the sponsor. Integration of data across clinical trials is discussed, but is not a primary focus of this guidance. Selected principles and procedures related to data management or clinical trial monitoring activities are covered in other ICH guidelines and are not addressed here. 本ガイ ドラインは、統計的原則に焦点を合わせており、個々の統計的な手続き又は手法の使い方を扱うものではない。原則が正しく適用されていることを保証するため に個々の手続きを積み重ねることは、治験依頼者の責任である。複数の臨床試験にわたるデータの統合も論じるが、本ガイドラインの主要な点ではない。データ マネジメント又は臨床試験のモニタリング活動に関連した原則と手続きのうち、他のICHガイドラインで扱っているものはここでは触れない。
This guidance should be of interest to individuals from a broad range of scientific disciplines. However, it is assumed that the actual responsibility for all statistical work associated with clinical trials will lie with an appropriately qualified and experienced statistician, as indicated in ICH E6. The role and responsibility of the trial statistician (see Glossary), in collaboration with other clinical trial professionals, is to ensure that statistical principles are applied appropriately in clinical trials supporting drug development. Thus, the trial statistician should have a combination of education/training and experience sufficient to implement the principles articulated in this guidance. 本ガイ ドラインは、科学の広い分野の人々から関心を持たれるべきものである。しかし、臨床試験に関連したすべての統計的業務に対する実際の責任は、適切な資格と 経験のある統計家が果たすことが前提となっており、そのことはICH E6にも示されている。試験統計家(用語集参照)の役割と責任は、医薬品開発を支える臨床試験に統計的原則が適切に適用されていることを、他の臨床試験専 門家と共同して保証することである。したがって、試験統計家は本ガイドラインに明確に述べられた原則を実行するために十分な理論又は実地の教育及び経験を 併せ持つべきである。
For each clinical trial contributing to a marketing application, all important details of its design and conduct and the principal features of its proposed statistical analysis should be clearly specified in a protocol written before the trial begins. The extent to which the procedures in the protocol are followed and the primary analysis is planned a priori will contribute to the degree of confidence in the final results and conclusions of the trial. The protocol and subsequent amendments should be approved by the responsible personnel, including the trial statistician. The trial statistician should ensure that the protocol and any amendments cover all relevant statistical issues clearly and accurately, using technical terminology as appropriate. 承認申 請に含まれる個々の臨床試験の計画と実施に関するすべての重要事項についての詳細及び臨床試験において使用する統計解析の主要な特徴は、試験開始前に作成 された治験実施計画書(プロトコル)に明記すべきである。治験実施計画書中の手続きの遵守状況及び主要解析の事前での計画状況がどの程度であったかが試験 の最終結果と結論の信頼性に寄与することになる。治験実施計画書及びその作成後の改訂は、試験統計家を含む責任者全員から承認を受けるべきである。試験統 計家は、治験実施計画書及びそのいかなる修正もが、すべての重要な統計的問題を、必要ならば専門用語を用いて、明確かつ正確に扱っていることを保証すべき である。
The principles outlined in this guidance are primarily relevant to clinical trials conducted in the later phases of development, many of which are confirmatory trials of efficacy. In addition to efficacy, confirmatory trials may have as their primary variable a safety variable (e.g. an adverse event, a clinical laboratory variable or an electrocardiographic measure), a pharmacodynamic or a pharmacokinetic variable (as in a confirmatory bioequivalence trial). Furthermore, some confirmatory findings may be derived from data integrated across trials, and selected principles in this guidance are applicable in this situation. Finally, although the early phases of drug development consist mainly of clinical trials that are exploratory in nature, statistical principles are also relevant to these clinical trials. Hence, the substance of this document should be applied as far as possible to all phases of clinical development. 本ガイ ドラインにまとめられている原則は、主として、有効性の検証的試験として実施されることの多い開発の後期の相の臨床試験に当てはまるものである。検証的試 験では、主要変数として有効性以外にも安全性に関する変数(例えば、有害事象、臨床検査変数又は心電図の読み取り結果)、薬力学変数又は薬物動態変数(検 証的な生物学的同等性試験の場合)を採用してもよい。更に、検証的な知見の一部は複数の試験を統合したデータから導かれることもあり、このような場合でも 本ガイドライン中の原則の一部は適用できる。最後に、医薬品開発の初期の相は主として探索的な性質の臨床試験からなるが、統計的原則はこれらの臨床試験に も当てはまる。したがって、本ガイドラインの趣旨は、可能な限り臨床開発のすべての相において適用されるべきである。
Many of the principles delineated in this guidance deal with minimising bias (see Glossary) and maximising precision. As used in this guidance, the term 'bias' describes the systematic tendency of any factors associated with the design, conduct, analysis and interpretation of the results of clinical trials to make the estimate of a treatment effect (see Glossary) deviate from its true value. It is important to identify potential sources of bias as completely as possible so that attempts to limit such bias may be made. The presence of bias may seriously compromise the ability to draw valid conclusions from clinical trials. 本ガイ ドラインに述べられている原則の多くは、偏り(用語集参照)を最小にし、精度を最大にすることを目的としている。本ガイドラインでは、「偏り(バイア ス)」という用語を、「臨床試験の計画、実施、解析及び結果の解釈と関連した因子の影響により、試験治療の効果(用語集参照)の推定値と真の値に系統的な 差が生じること」という意味で用いる。偏りを低く抑えるためには、偏りの潜在的な原因を可能な限り明らかにすることが重要である。偏りの存在により、臨床 試験から妥当性のある結論を導くことが困難になるおそれがある。
Some sources of bias arise from the design of the trial, for example an assignment of treatments such that subjects at lower risk are systematically assigned to one treatment. Other sources of bias arise during the conduct and analysis of a clinical trial. For example, protocol violations and exclusion of subjects from analysis based upon knowledge of subject outcomes are possible sources of bias that may affect the accurate assessment of the treatment effect. Because bias can occur in subtle or unknown ways and its effect is not measurable directly, it is important to evaluate the robustness of the results and primary conclusions of the trial. Robustness is a concept that refers to the sensitivity of the overall conclusions to various limitations of the data, assumptions, and analytic approaches to data analysis. Robustness implies that the treatment effect and primary conclusions of the trial are not substantially affected when analyses are carried out based on alternative assumptions or analytic approaches. The interpretation of statistical measures of uncertainty of the treatment effect and treatment comparisons should involve consideration of the potential contribution of bias to the p-value, confidence interval, or inference. 偏りの 原因が治験実施計画にある場合がある。例えば試験治療の割付が不適切で、リスクの低い患者が一方の試験治療に系統的に割付けられる場合がそうである。偏り の原因は、臨床試験の実施や解析の際に生じることもある。例えば、治験実施計画書違反及び個々の被験者の結果を知った後で被験者を解析から除外することは 偏りの原因となり得るものであり、試験治療効果の正確な評価に影響を及ぼすおそれがある。偏りが起こる理由は明確にはとらえられない場合があり、偏りの影 響は直接測定できないため、試験の結果と主要な結論の安定性を評価することは重要である。安定性(ロバストネス)とは、データ、仮定及び解析方針について の様々な制限に対して全体の結論がどの程度変わり易いかに関連した概念である。安定性は、異なる仮定又は異なる解析方針に基づいて解析を行った場合でも、 試験治療の効果と試験の主要な結論は大きく影響されないことを意味している。試験治療の効果と試験治療の比較における不確実さに関する統計的指標の解釈に は、p値、信頼区間又は推測に偏りが与えうる影響を考慮に入れるべきである。
Because the predominant approaches to the design and analysis of clinical trials have been based on frequentist statistical methods, the guidance largely refers to the use of frequentist methods (see Glossary) when discussing hypothesis testing and/or confidence intervals. This should not be taken to imply that other approaches are not appropriate: the use of Bayesian (see Glossary) and other approaches may be considered when the reasons for their use are clear and when the resulting conclusions are sufficiently robust. 臨床試 験の計画と解析においては、頻度論的立場からの統計手法に基づく方法が主流になっていることから、本ガイドラインは仮説検定や信頼区間を議論する場合、主 として頻度論的手法(用語集参照)を念頭に置いている。これは、他の方法が適切でないと主張するものではない。ベイズ流の手法や他の手法の使用も、それら の使用の理由が明らかであり、異なる仮定の下でも結果として得られる結論が十分に安定している場合には検討することができる。
II. CONSIDERATIONS FOR OVERALL CLINICAL DEVELOPMENT II. 臨床開発全体を通して考慮すべきこと
2.1 Trial Context 2.1 試験の性格
2.1.1 Development Plan 2.1.1 開発計画
The broad aim of the process of clinical development of a new drug is to find out whether there is a dose range and schedule at which the drug can be shown to be simultaneously safe and effective, to the extent that the risk-benefit relationship is acceptable. The particular subjects who may benefit from the drug, and the specific indications for its use, also need to be defined. 新しい 医薬品を臨床開発する過程全体を通しての目的は、臨床上の利益との兼ね合いでリスクが許容できる限度において、医薬品が安全性と有効性を兼ね備えている用 量範囲と使用スケジュールが存在するかどうかを知ることにある。医薬品から利益を受ける対象となる集団を明確にし、医薬品の適応症も定める必要がある。
Satisfying these broad aims usually requires an ordered programme of clinical trials, each with its own specific objectives (see ICH E8). This should be specified in a clinical plan, or a series of plans, with appropriate decision points and flexibility to allow modification as knowledge accumulates. A marketing application should clearly describe the main content of such plans, and the contribution made by each trial. Interpretation and assessment of the evidence from the total programme of trials involves synthesis of the evidence from the individual trials (see Section 7.2). This is facilitated by ensuring that common standards are adopted for a number of features of the trials such as dictionaries of medical terms, definition and timing of the main measurements, handling of protocol deviations and so on. A statistical summary, overview or meta-analysis (see Glossary) may be informative when medical questions are addressed in more than one trial. Where possible this should be envisaged in the plan so that the relevant trials are clearly identified and any necessary common features of their designs are specified in advance. Other major statistical issues (if any) that are expected to affect a number of trials in a common plan should be addressed in that plan. これら 臨床開発全体としての目的を達成するためには、通常それぞれが特定の目的を持った臨床試験の順序だったプログラムが必要である(ICH E8 参照)。このプログラムは、判断をくだす適切な時点と、知識の蓄積に伴う修正を認める柔軟性を持つ、一つ又は一連の臨床開発計画として明示されるべきであ る。承認申請では、臨床開発計画の趣旨及び個々の試験がどのように寄与するかについて明確に述べるべきである。試験プログラム全体から得られる証拠の解釈 と評価は、個々の試験からの証拠を総合する過程を伴うものである(7.2節参照)。これは、医学用語の辞書、主要な測定の定義と時期、治験実施計画書から の逸脱の取り扱い、といった試験のいくつかの特徴について、共通の基準を採用することで容易になる。医学上の問題に複数の試験によって対応する場合、統計 的要約、総括(overview)又はメタアナリシス(用語集参照)が有益であろう。可能であれば、このように対応することは臨床開発計画の中で明確にす べきであり、そうすることによって関連する試験が把握され、試験間で共通にすべき計画上の特徴を前もって特定することができる。共通の臨床開発計画によっ て実施される複数の試験に影響することが予測されるその他の主要な統計的問題があるならば、臨床開発計画中に述べるべきである。
2.1.2 Confirmatory Trial 2.1.2 検証的試験
A confirmatory trial is an adequately controlled trial in which the hypotheses are stated in advance and evaluated. As a rule, confirmatory trials are necessary to provide firm evidence of efficacy or safety. In such trials the key hypothesis of interest follows directly from the trial’s primary objective, is always pre-defined, and is the hypothesis that is subsequently tested when the trial is complete. In a confirmatory trial it is equally important to estimate with due precision the size of the effects attributable to the treatment of interest and to relate these effects to their clinical significance. 検証的 試験とは、事前に定められた仮説を評価するための、適切に計画・実施された比較試験である。一般に、検証的試験は有効性又は安全性の確固たる証拠を提示す るために必要である。検証的試験では、関心のある重要な仮説は試験の主要な目的から直接導かれ、常に事前に設定され、試験完了後に検証される。検証的試験 では、関心のある試験治療に由来する効果の大きさを十分な精度で推定すること、及びそれらの効果を臨床的な意義と関連付けることも同様に重要である。
Confirmatory trials are intended to provide firm evidence in support of claims and hence adherence to protocols and standard operating procedures is particularly important; unavoidable changes should be explained and documented, and their effect examined. A justification of the design of each such trial, and of other important statistical aspects such as the principal features of the planned analysis, should be set out in the protocol. Each trial should address only a limited number of questions. 検証的 試験は、承認に関わる主張の裏付けとなる確固たる証拠を提示することを目的としているため、治験実施計画書と標準業務手順書に従うことは特に重要である。 このため、やむをえない変更については説明を文書として残すべきであり、変更の影響も検討しておくべきである。個々の検証的試験の計画及び予定している解 析の主要な特徴等の重要な統計的側面について、それを正当とする理由は、治験実施計画書に記述すべきである。個々の試験は限られた少数の問題のみを扱うべ きである。
Firm evidence in support of claims requires that the results of the confirmatory trials demonstrate that the investigational product under test has clinical benefits. The confirmatory trials should therefore be sufficient to answer each key clinical question relevant to the efficacy or safety claim clearly and definitively. In addition, it is important that the basis for generalisation (see Glossary) to the intended patient population is understood and explained; this may also influence the number and type (e.g. specialist or general practitioner) of centres and/or trials needed. The results of the confirmatory trial(s) should be robust. In some circumstances the weight of evidence from a single confirmatory trial may be sufficient. 承認に 関わる主張の裏付けとなる確固たる証拠としては、被験薬が臨床上の利益を持つことを、検証的試験の結果で示す必要がある。したがって検証的試験は、有効性 又は安全性の主張に関連した個々の主要な臨床的問題に、明確かつ確定的な回答を与えるのに十分なものであるべきである。更に、意図している患者集団への一 般化(用語集参照)の根拠が理解でき、説明できることは重要である。このことによっても、必要な施設(センター)の数と型式(例えば、専門医か一般臨床医 か)及び試験の数と型式が影響を受けるであろう。検証的試験の結果は、条件によらず安定しているべきである。場合によっては、一つの検証的試験からの証拠 だけで十分であることもありうる。
2.1.3 Exploratory Trial 2.1.3 探索的試験
The rationale and design of confirmatory trials nearly always rests on earlier clinical work carried out in a series of exploratory studies. Like all clinical trials, these exploratory studies should have clear and precise objectives. However, in contrast to confirmatory trials, their objectives may not always lead to simple tests of pre-defined hypotheses. In addition, exploratory trials may sometimes require a more flexible approach to design so that changes can be made in response to accumulating results. Their analysis may entail data exploration; tests of hypothesis may be carried out, but the choice of hypothesis may be data dependent. Such trials cannot be the basis of the formal proof of efficacy, although they may contribute to the total body of relevant evidence. 検証的 試験の正当性の根拠と計画は、事前に実施された一連の探索的研究の臨床成績にほとんど常に依存している。すべての臨床試験と同様に、これらの探索的研究も 明確で精密な目的を持つべきである。しかし、検証的試験とは対照的に探索的試験の目的は、必ずしも事前に設定した仮説の単純な検定に帰着するわけではな い。更に、探索的試験では、結果の蓄積に応じて変更が可能となるような、より柔軟な方法を必要とするときもある。その解析は探索的なデータ解析を伴っても よい。すなわち仮説検定を行う場合、その仮説の選択は得られたデータに基づいて行うことが有り得る。このような試験は、有効性を証明する証拠全体には貢献 するといってよいが、その正式な証明の根拠にはならない。
Any individual trial may have both confirmatory and exploratory aspects. For example, in most confirmatory trials the data are also subjected to exploratory analyses which serve as a basis for explaining or supporting their findings and for suggesting further hypotheses for later research. The protocol should make a clear distinction between the aspects of a trial which will be used for confirmatory proof and the aspects which will provide data for exploratory analysis. 個々の いかなる試験も、検証的側面と探索的側面の両方を持つものであるといってよい。例えば、検証的試験であってもほとんどの場合、結果を説明する又は裏付けす る根拠を与えるため、また後の研究の仮説を引き出すためにデータの探索的解析も行われる。治験実施計画書には、各試験について検証的な証明として用いられ る側面と、探索的解析のためにデータを提供する側面とを、明確に区別しておくべきである。
2.2 Scope of Trials 2.2 試験で扱う範囲
2.2.1 Population 2.2.1 対象集団
In the earlier phases of drug development the choice of subjects for a clinical trial may be heavily influenced by the wish to maximise the chance of observing specific clinical effects of interest, and hence they may come from a very narrow subgroup of the total patient population for which the drug may eventually be indicated. However by the time the confirmatory trials are undertaken, the subjects in the trials should more closely mirror the target population. Hence, in these trials it is generally helpful to relax the inclusion and exclusion criteria as much as possible within the target population, while maintaining sufficient homogeneity to permit precise estimation of treatment effects. No individual clinical trial can be expected to be totally representative of future users, because of the possible influences of geographical location, the time when it is conducted, the medical practices of the particular investigator(s) and clinics, and so on. However the influence of such factors should be reduced wherever possible, and subsequently discussed during the interpretation of the trial results. 医薬品 開発の初期の相では、臨床試験の被験者の選択は、関心のある特定の臨床効果が観察できる見込みを最大にしたいという要求に大きく影響されるであろう。した がって、被験者は、最終的にその薬が使用される全患者集団のうちごく限られた部分集団から選ばれる可能性がある。しかし、検証的試験が実施される時までに は、被験者を目標集団に十分近いものにしておくべきである。したがって、検証的試験では一般に、試験治療の効果を精度よく推定するために十分な均質性を維 持する一方、目標集団の範囲内でできるだけ広い患者を対象とするような選択基準及び除外基準を定めることが有益である。単一の臨床試験の被験者をもって、 将来の使用者を完全に代表させることは期待できない。なぜならば、地理的な位置、試験が実施された時期、個々の治験責任医師や診療所で行われる実地の医療 内容などが影響する可能性があるからである。しかし、これらの要因の影響は可能な限り小さくすべきであり、その上で試験の結果を解釈する際にその影響を議 論しておくべきである。
2.2.2 Primary and Secondary Variables 2.2.2 主要変数と副次変数
The primary variable (‘target’ variable, primary endpoint) should be the variable capable of providing the most clinically relevant and convincing evidence directly related to the primary objective of the trial. There should generally be only one primary variable. This will usually be an efficacy variable, because the primary objective of most confirmatory trials is to provide strong scientific evidence regarding efficacy. Safety/tolerability may sometimes be the primary variable, and will always be an important consideration. Measurements relating to quality of life and health economics are further potential primary variables. The selection of the primary variable should reflect the accepted norms and standards in the relevant field of research. The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended. There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria. The primary variable should generally be the one used when estimating the sample size (see section 3.5). 主要変 数(「目標」変数、主要評価項目ともいう)は、試験の主要な目的に直結した臨床的に最も適切で説得力のある証拠を与えうる変数であるべきである。主要変数 は通常ただ一つにすべきである。ほとんどの場合、検証的試験の主要な目的は有効性に関して科学的に説得力のある証拠を提示することにあるため、主要変数 は、通常有効性に関する変数となる。安全性及び忍容性は常に重要な問題であり、ときには主要変数となりうるものである。生活の質(QOL)及び保健経済に 関する測定値も、主要変数となる可能性がある。主要変数の選択には、開発に関連した研究領域で一般に認められている規範と基準を反映させるべきである。先 行研究又は公表論文で使用された実績のある、信頼性及び妥当性の確立した変数を使用することが薦められる。主要変数は、選択基準と除外基準によって規定さ れる患者集団において、臨床的に適切で重要な治療上の利益に関する妥当で信頼のおける指標であることが十分に証拠づけられているべきである。被験者数の見 積もりに用いる変数は、通常は主要変数であるべきである(3.5節参照)。
In many cases, the approach to assessing subject outcome may not be straightforward and should be carefully defined. For example, it is inadequate to specify mortality as a primary variable without further clarification; mortality may be assessed by comparing proportions alive at fixed points in time, or by comparing overall distributions of survival times over a specified interval. Another common example is a recurring event; the measure of treatment effect may again be a simple dichotomous variable (any occurrence during a specified interval), time to first occurrence, rate of occurrence (events per time units of observation), etc. The assessment of functional status over time in studying treatment for chronic disease presents other challenges in selection of the primary variable. There are many possible approaches, such as comparisons of the assessments done at the beginning and end of the interval of observation, comparisons of slopes calculated from all assessments throughout the interval, comparisons of the proportions of subjects exceeding or declining beyond a specified threshold, or comparisons based on methods for repeated measures data. To avoid multiplicity concerns arising from post hoc definitions, it is critical to specify in the protocol the precise definition of the primary variable as it will be used in the statistical analysis. In addition, the clinical relevance of the specific primary variable selected and the validity of the associated measurement procedures will generally need to be addressed and justified in the protocol. 多くの 場合、被験者の結果を評価する方法はあまり単純ではないであろうから、主要変数は慎重に定義する必要がある。例えば、主要変数を明確に定めないでただ死亡 とするのでは不十分である。死亡の評価にも、定められた時点における生存割合の比較、又は特定期間の生存時間分布全体の比較がある。別の例として、事象が 繰り返し起こる場合が挙げられる。この場合試験治療の効果の指標としては、単純な二分類の変数(一定期間に一度でも起きたかどうか)、初発までの時間、生 起率(単位観察時間あたりの事象数)などがある。慢性疾患のための治療の研究で、経時的に機能の状態を評価する場合も、主要変数の選択に関して別の問題が 生じる。可能な対処法としては、観察期間の最初と最後になされた評価の比較、全期間を通じたすべての評価から求めた傾きの比較、定めた閾値を超える若しく は下回る被験者の割合の比較、又は繰り返し測定データのための方法に基づいた比較といった多くのものがある。事後的に定義することから生じる多重性の問題 を回避するために、統計解析で用いる主要変数の正確な定義を治験実施計画書に明記することは重要である。更に、選択した特定の主要変数の臨床的な適切さ及 びその測定手順の妥当性は、通常治験実施計画書に記載し正当性を示すことが必要である。
The primary variable should be specified in the protocol, along with the rationale for its selection. Redefinition of the primary variable after unblinding will almost always be unacceptable, since the biases this introduces are difficult to assess. When the clinical effect defined by the primary objective is to be measured in more than one way, the protocol should identify one of the measurements as the primary variable on the basis of clinical relevance, importance, objectivity, and/or other relevant characteristics, whenever such selection is feasible. 主要変 数は、その変数を選択した理由とともに治験実施計画書に明記すべきである。割付が明らかになった後に主要変数を定義し直すことは、ほとんどの場合許容でき ない。なぜならば、それによって生じる偏りの評価が難しいからである。主要な目的として定めた臨床効果を二通り以上の方法で測定しようとしている場合、臨 床的な適切さ、重要性、客観性、その他関連する特徴に基づいて、治験実施計画書にはできる限り一つの測定値を主要変数として指定すべきである。
Secondary variables are either supportive measurements related to the primary objective or measurements of effects related to the secondary objectives. Their pre-definition in the protocol is also important, as well as an explanation of their relative importance and roles in interpretation of trial results. The number of secondary variables should be limited and should be related to the limited number of questions to be answered in the trial. 副次変 数は、主要な目的に関連した補足的な測定値又は副次目的に関連した効果の測定値のどちらかである。治験実施計画書において副次変数を事前に定義し、試験結 果の解釈の際に副次変数が果たす相対的な重要性と役割を説明することも重要である。副次変数の数は、試験で答えるべき限られた少数の問題と関連して制限す べきである。
2.2.3 Composite Variables 2.2.3 合成変数
If a single primary variable cannot be selected from multiple measurements associated with the primary objective, another useful strategy is to integrate or combine the multiple measurements into a single or 'composite' variable, using a pre-defined algorithm. Indeed, the primary variable sometimes arises as a combination of multiple clinical measurements (e.g. the rating scales used in arthritis, psychiatric disorders and elsewhere). This approach addresses the multiplicity problem without requiring adjustment to the type I error. The method of combining the multiple measurements should be specified in the protocol, and an interpretation of the resulting scale should be provided in terms of the size of a clinically relevant benefit. When a composite variable is used as a primary variable, the components of this variable may sometimes be analysed separately, where clinically meaningful and validated. When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting changes in the severity of disease. 主要な 目的に関する複数の測定値の中から、主要変数として一つを選ぶことができない場合、それに代わる有用な戦略は、事前に定められたアルゴリズムを用いて、複 数の測定値を単一の変数、つまり「合成」変数に統合又は結合することである。実際、主要変数を複数の臨床測定値の組み合わせとして定める例がみられる(例 えば、関節炎、精神障害その他で用いられる評価尺度)。この方法は、多重性の問題に対処するに当たり、第一種の過誤の調整を必要としない。複数の測定値を 結合する方法は、治験実施計画書に明記すべきであり、得られた尺度について、臨床的な利益の大きさを適切にあらわしているかどうかという観点から説明がな されるべきである。合成変数が主要変数として用いられる場合、合成変数の成分に臨床的意義がありかつ妥当性が示されているならば、その成分を個別に解析す ることがある。評価尺度を主要変数として用いる場合、内容的妥当性(用語集参照)、評価者内信頼性(用語集参照)及び評価者間信頼性(用語集参照)並びに 疾病重症度の変化を検出するための反応性といった特性を説明しておくことは、特に重要である。
2.2.4 Global Assessment Variables 2.2.4 総合評価変数
In some cases, 'global assessment' variables (see Glossary) are developed to measure the overall safety, overall efficacy, and/or overall usefulness of a treatment. This type of variable integrates objective variables and the investigator’s overall impression about the state or change in the state of the subject, and is usually a scale of ordered categorical ratings. Global assessments of overall efficacy are well established in some therapeutic areas, such as neurology and psychiatry. 場合に よっては、試験治療の全体的な安全性、全体的な有効性、全体的な有用性を測定するために、「総合評価」変数(用語集参照)が作られることもある。この種の 変数は、被験者の状態又はその変化についての客観的変数と治験責任(分担)医師の全体的な印象を統合した、通常は順序カテゴリの評価尺度となる。全体的な 有効性の総合評価は、神経科、精神科など一部の治療領域で確立されている。
Global assessment variables generally have a subjective component. When a global assessment variable is used as a primary or secondary variable, fuller details of the scale should be included in the protocol with respect to: 総合評 価変数は、一般的に主観的な要素を併せ持っている。総合評価変数を主要変数又は副次変数として使用する際は、尺度に関する以下の事項についての詳細を治験 実施計画書に記述する必要がある:
1) the relevance of the scale to the primary objective of the trial; 1) 試験の主要な目的に対する尺度の適切さ
2) the basis for the validity and reliability of the scale; 2) 尺度の妥当性及び信頼性の根拠
3) how to utilise the data collected on an individual subject to assign him/her to a unique category of the scale; 3) 個々の被験者を尺度のカテゴリの内の一つに判定するための、その被験者から集められたデータの利用法
4) how to assign subjects with missing data to a unique category of the scale, or otherwise evaluate them. 4) 欠測データがある被験者を尺度のカテゴリの内の一つに判定するための方法又は被験者を評価する方法
If objective variables are considered by the investigator when making a global assessment, then those objective variables should be considered as additional primary, or at least important secondary, variables. 総合評 価を実施する際、治験責任医師によって考慮されている客観的な変数があれば、それらの客観的変数は主要変数又は少なくとも重要な副次変数として追加するこ とを検討すべきである。
Global assessment of usefulness integrates components of both benefit and risk and reflects the decision making process of the treating physician, who must weigh benefit and risk in making product use decisions. A problem with global usefulness variables is that their use could in some cases lead to the result of two products being declared equivalent despite having very different profiles of beneficial and adverse effects. For example, judging the global usefulness of a treatment as equivalent or superior to an alternative may mask the fact that it has little or no efficacy but fewer adverse effects. Therefore it is not advisable to use a global usefulness variable as a primary variable. If global usefulness is specified as primary, it is important to consider specific efficacy and safety outcomes separately as additional primary variables. 有用性 の総合評価は、医薬品の使用による利益とリスクの両方の要素を統合するもので、医薬品の使用を決定するために、その使用による利益とリスクの比較検討をし なければならない臨床医の意思決定過程を反映したものである。有用性の総合評価尺度の問題点の一つは、二つの試験治療が有益な効果と有害な作用に関する全 く異なるプロファイルを持っているにもかかわらず、有用性の総合評価を用いることで同等と示す結果を導く場合があることである。例えば、試験治療の有用性 総合評価が他方の試験治療に対して同等である、又は優っているとの結果であっても、それは有害な作用が少ないだけで、試験治療には有効性がほとんど又は全 くないという事実を意味しているおそれがある。したがって、有用性の総合評価を主要変数とすることは薦められない。有用性の総合評価を主要変数とする場合 には、有用性の総合評価に用いた特定の有効性及び安全性の結果を主要変数として別個に追加して考慮することが重要である。
2.2.5 Multiple Primary Variables 2.2.5 複数の主要変数
It may sometimes be desirable to use more than one primary variable, each of which (or a subset of which) could be sufficient to cover the range of effects of the therapies. The planned manner of interpretation of this type of evidence should be carefully spelled out. It should be clear whether an impact on any of the variables, some minimum number of them, or all of them, would be considered necessary to achieve the trial objectives. The primary hypothesis or hypotheses and parameters of interest (e.g. mean, percentage, distribution) should be clearly stated with respect to the primary variables identified, and the approach to statistical inference described. The effect on the type I error should be explained because of the potential for multiplicity problems (see Section 5.6); the method of controlling type I error should be given in the protocol. The extent of intercorrelation among the proposed primary variables may be considered in evaluating the impact on type I error. If the purpose of the trial is to demonstrate effects on all of the designated primary variables, then there is no need for adjustment of the type I error, but the impact on type II error and sample size should be carefully considered. 治療の 及ぼす効果の範囲を一つ一つの変数(又は変数の組)が包含するような、複数の主要変数を用いることが望ましい場合がある。この型式の証拠を解釈する方法 は、事前に慎重に説明しておくべきである。試験の目的を達成するために必要と考えられるのは、複数の変数のいずれかに対する効果なのか、ある一定数の変数 に対する効果なのか、又は変数すべてに対する効果なのかを明らかにすべきである。一つ又は複数の主要な仮説と関心のあるパラメータ(例えば、平均、割合、 分布の状況)は、指定した複数の主要変数に関して明確に決められているべきであり、また統計的推測の方法も明確に述べるべきである。このとき、多重性の問 題が起こり得るため、治験実施計画書では、第一種の過誤に与える影響を説明し(5.6節参照)、それを制御する方法を定めるべきである。第一種の過誤への 影響を評価するためには、提案した複数の主要変数間の内部相関の程度を考慮する必要があろう。指定した主要変数のすべてにおいて有効性を示すことが試験の 目的である場合、第一種の過誤を調整する必要はないが、第二種の過誤及び必要な被験者数への影響は慎重に考慮すべきである。
2.2.6 Surrogate Variables 2.2.6 代替変数
When direct assessment of the clinical benefit to the subject through observing actual clinical efficacy is not practical, indirect criteria (surrogate variables - see Glossary) may be considered. Commonly accepted surrogate variables are used in a number of indications where they are believed to be reliable predictors of clinical benefit. There are two principal concerns with the introduction of any proposed surrogate variable. First, it may not be a true predictor of the clinical outcome of interest. For example it may measure treatment activity associated with one specific pharmacological mechanism, but may not provide full information on the range of actions and ultimate effects of the treatment, whether positive or negative. There have been many instances where treatments showing a highly positive effect on a proposed surrogate have ultimately been shown to be detrimental to the subjects' clinical outcome; conversely, there are cases of treatments conferring clinical benefit without measurable impact on proposed surrogates. Secondly, proposed surrogate variables may not yield a quantitative measure of clinical benefit that can be weighed directly against adverse effects. Statistical criteria for validating surrogate variables have been proposed but the experience with their use is relatively limited. In practice, the strength of the evidence for surrogacy depends upon (i) the biological plausibility of the relationship, (ii) the demonstration in epidemiological studies of the prognostic value of the surrogate for the clinical outcome and (iii) evidence from clinical trials that treatment effects on the surrogate correspond to effects on the clinical outcome. Relationships between clinical and surrogate variables for one product do not necessarily apply to a product with a different mode of action for treating the same disease. 実際の 臨床的有効性を観察することにより被験者の臨床的な利益を直接評価することが実際的でない場合には、間接的な基準(代替変数、用語集参照)を考慮すること ができる。代替変数は、それが臨床的利益の信頼できる予測因子であると信じられている多くの領域において、一般的に容認されたものとして用いられている。 代替変数を提案し導入する際には、大きな問題が二つある。一つめは、代替変数が関心のある臨床結果の真の予測因子ではないおそれがあることである。例え ば、代替変数はある特定の薬理作用と関連した試験治療の作用を測定しているだけで、肯定的であろうと否定的であろうと、試験治療の作用範囲と最終的な効果 の範囲に関する完全な情報はもたらさないおそれがある。提案された代替変数においては非常に有効であることを示している試験治療が、結局は被験者にとって 臨床上有害であると示された例は数多い。それとは逆に、提案された代替変数には何の影響もないが、臨床的には利益をもたらした試験治療の例もある。二つめ は、提案された代替変数が、有害作用に対して直接比較考量することのできる臨床的利益の定量的な指標とは必ずしもならないことである。代替変数の妥当性を 確認する統計的基準は提案されているが、その基準を使用した経験は限られている。実際には、代替性の証拠の強さは、(i) 代替変数と臨床的結果の関連の生物学的合理性、(ii) 代替変数が臨床的結果の予後を予測する上で有益であると疫学研究によって示されていること及び(iii) 試験治療の代替変数に対する効果が臨床的効果と対応しているという臨床試験の結果、に依存している。ある医薬品における臨床的変数と代替変数との関係は、 同じ疾患の治療に用いる医薬品であっても、作用機序の異なる医薬品について当てはまるとは限らない。
2.2.7 Categorised Variables 2.2.7 カテゴリ化した変数
Dichotomisation or other categorisation of continuous or ordinal variables may sometimes be desirable. Criteria of 'success' and 'response' are common examples of dichotomies which require precise specification in terms of, for example, a minimum percentage improvement (relative to baseline) in a continuous variable, or a ranking categorised as at or above some threshold level (e.g., 'good') on an ordinal rating scale. The reduction of diastolic blood pressure below 90mmHg is a common dichotomisation. Categorisations are most useful when they have clear clinical relevance. The criteria for categorisation should be pre-defined and specified in the protocol, as knowledge of trial results could easily bias the choice of such criteria. Because categorisation normally implies a loss of information, a consequence will be a loss of power in the analysis; this should be accounted for in the sample size calculation. 連続変 数若しくは順序変数の二分化又はその他のカテゴリ化を行うことが、望ましい場合もある。「成功」又は「反応あり」という基準は二分化のよくある例であり、 例えば、連続変数では(基準となる時点での値から)何パーセント以上の改善か、又は順序評価尺度であれば、ある閾値レベル(例えば「良好」)以上に分類さ れるか、という観点から二分化の方法を正確に記述することが要求される。拡張期血圧が90mmHgを下回るまで低下するかどうかを基準にして二分化するこ とは、その例である。カテゴリ化が最も有用なのは、それが明確な臨床的意味を持つ場合である。試験の結果を知った後でカテゴリ化の基準を決めることは偏り を生じやすいため、カテゴリ化の判定基準は前もって定め、治験実施計画書中に明記すべきである。カテゴリ化は一般に情報の損失となるため、結果として解析 での検出力の低下を招く。被験者数の計算では、この点を考慮すべきである。
2.3 Design Techniques to Avoid Bias 2.3 偏りを回避するための計画上の技法
The most important design techniques for avoiding bias in clinical trials are blinding and randomisation, and these should be normal features of most controlled clinical trials intended to be included in a marketing application. Most such trials follow a double-blind approach in which treatments are pre-packed in accordance with a suitable randomisation schedule, and supplied to the trial centre(s) labelled only with the subject number and the treatment period so that no one involved in the conduct of the trial is aware of the specific treatment allocated to any particular subject, not even as a code letter. This approach will be assumed in Section 2.3.1 and most of Section 2.3.2, exceptions being considered at the end. 臨床試 験で偏りを回避するための最も重要な計画上の技法は、盲検化及びランダム化(無作為化)であり、これらは承認申請に利用することを目的とするほとんどの比 較臨床試験で標準的に採用すべきである。そのような試験は、ほとんどの場合二重盲検法によるものであり、治験薬を適切なランダム割付表に従って事前に箱詰 めし、試験の実施に関係する者全てが個々の被験者に割付けられた試験治療を、その試験治療のコードのみであっても、知ることのないよう被験者番号と治療期 間のみを表示して治験実施施設に供給するというものである。2.3.1節全体と2.3.2節のほとんどでは、上記の方法を前提とし、2.3.2節最後にそ の他の方法を述べる。
Bias can also be reduced at the design stage by specifying procedures in the protocol aimed at minimising any anticipated irregularities in trial conduct that might impair a satisfactory analysis, including various types of protocol violations, withdrawals and missing values. The protocol should consider ways both to reduce the frequency of such problems, and also to handle the problems that do occur in the analysis of data. 試験の 実施に伴って発生する十分な解析が損なわれる可能性のあるあらゆる変則的な事例について、予想されるもの全て(様々な種類の治験実施計画書違反、試験治療 の中止及び欠測値など)の発生頻度を最小にするための手段を治験実施計画書に明記することにより、計画段階で偏りを減じることも可能である。治験実施計画 書では、そういった問題の発生頻度を減じる方法と、データ解析において起こる問題の対処法の両方を考慮すべきである。
2.3.1 Blinding 2.3.1 盲検化
Blinding or masking is intended to limit the occurrence of conscious and unconscious bias in the conduct and interpretation of a clinical trial arising from the influence which the knowledge of treatment may have on the recruitment and allocation of subjects, their subsequent care, the attitudes of subjects to the treatments, the assessment of end-points, the handling of withdrawals, the exclusion of data from analysis, and so on. The essential aim is to prevent identification of the treatments until all such opportunities for bias have passed. 盲検化 又はマスク化は、臨床試験の実施及び解釈における意識的、無意識的な偏りの発生を制限するために行われる。割付けられた試験治療を知ることが、被験者の募 集と割付、それに引き続き行われるケア、被験者の試験治療に対する態度、評価項目の評価、試験治療を中止した被験者の取り扱い、解析からのデータの除外等 に影響を及ぼし、偏りを発生させるためである。盲検化の本質的な目的は、割付けられた試験治療を知ることにより偏りが生じる可能性のある間は、試験治療が 同定されるのを防ぐことである。
A double-blind trial is one in which neither the subject nor any of the investigator or sponsor staff who are involved in the treatment or clinical evaluation of the subjects are aware of the treatment received. This includes anyone determining subject eligibility, evaluating endpoints, or assessing compliance with the protocol. This level of blinding is maintained throughout the conduct of the trial, and only when the data are cleaned to an acceptable level of quality will appropriate personnel be unblinded. If any of the sponsor staff who are not involved in the treatment or clinical evaluation of the subjects are required to be unblinded to the treatment code (e.g. bioanalytical scientists, auditors, those involved in serious adverse event reporting), the sponsor should have adequate standard operating procedures to guard against inappropriate dissemination of treatment codes. In a single-blind trial the investigator and/or his staff are aware of the treatment but the subject is not, or vice versa. In an open-label trial the identity of treatment is known to all. The double-blind trial is the optimal approach. This requires that the treatments to be applied during the trial cannot be distinguished (appearance, taste, etc.) either before or during administration, and that the blind is maintained appropriately during the whole trial. 二重盲 検試験は、被験者並びに被験者の試験治療又は臨床評価を行う治験責任(分担)医師及び治験依頼者のスタッフのすべての者が被験者に割付けられた試験治療を 知ることができないものである。これには、被験者の適格性の判断、評価項目の評価及び治験実施計画書遵守状況の評価に関わる者すべてが含まれる。この盲検 化のレベルは治験実施中維持され、許容できる質にまでデータクリーニングが行われてはじめて、適切な関係者に割付が明らかにされる。被験者に対し試験治療 又は臨床評価を行っていない治験依頼者のスタッフ(例えば、生体試料分析者、監査担当者、重大な有害事象報告にたずさわる者)に試験治療コードの割付を明 らかにする必要が生じた場合のために、治験依頼者は、試験治療コードの不適切な開示を防ぐための標準業務手順書を持つべきである。単盲検試験とは、治験責 任医師若しくはそのスタッフのどちらか又は両方が割付けられた試験治療を知っているが、被験者が知ることはない試験であり、逆の場合もありうる。非盲検試 験とは、どの試験治療が割付けられたかが全員に知られている試験である。この中で二重盲検試験が最適な方法である。二重盲検試験においては、試験中実施さ れる複数の試験治療が、実施前にも実施中にも区別できないこと(外見、味、その他)及び全試験期間中盲検を適切に維持することが必要である。
Difficulties in achieving the double-blind ideal can arise: the treatments may be of a completely different nature, for example, surgery and drug therapy; two drugs may have different formulations and, although they could be made indistinguishable by the use of capsules, changing the formulation might also change the pharmacokinetic and/or pharmacodynamic properties and hence require that bioequivalence of the formulations be established; the daily pattern of administration of two treatments may differ. One way of achieving double-blind conditions under these circumstances is to use a 'double-dummy' (see Glossary) technique. This technique may sometimes force an administration scheme that is sufficiently unusual to influence adversely the motivation and compliance of the subjects. Ethical difficulties may also interfere with its use when, for example, it entails dummy operative procedures. Nevertheless, extensive efforts should be made to overcome these difficulties. 二重盲 検という理想の実現が困難な場合も生じる可能性がある。比較する試験治療が、例えば外科的療法と薬物療法のように、完全に異なる性質を持つ場合である。治 験薬剤型が異なる場合もある。カプセルの使用によって識別不能にできたとしても、剤型の変更が薬物動態と薬力学の性質のどちらか又は両方を変える可能性も あるため、この場合は剤型間の生物学的同等性を立証する必要があろう。二つの治験薬の毎日の服薬パターンが異なる場合もある。こういった状況で二重盲検の 状態を達成する一つの方法は、「ダブルダミー」(用語集参照)技法を用いることである。しかし、この技法は、被験者の服薬に対する動機づけを低下させ服薬 遵守に悪影響を与えるような通常はありえない服薬計画を強いる場合がある。また、例えば二重盲検を保つために偽の手術を必要とする場合のように、倫理的な 問題により、ダブルダミーの使用が妨げられることがある。それでも、これらの問題を克服するための十分な努力をすべきである。
The double-blind nature of some clinical trials may be partially compromised by apparent treatment induced effects. In such cases, blinding may be improved by blinding investigators and relevant sponsor staff to certain test results (e.g. selected clinical laboratory measures). Similar approaches (see below) to minimising bias in open-label trials should be considered in trials where unique or specific treatment effects may lead to unblinding individual patients. 明らか に試験治療に由来する効果により、一部の臨床試験では部分的に二重盲検が破れるおそれがある。そのような場合、ある種の検査結果(例えば、臨床検査項目の 一部)を治験責任(分担)医師及び関連する治験依頼者スタッフが知ることのないようにすることにより、盲検性が改善されるであろう。試験治療特有の又は特 定できるような効果により、個々の被験者の割付が明らかになるおそれのある試験では、後述する非盲検試験で偏りを最小にする手法と同様の手法を検討すべき である。
If a double-blind trial is not feasible, then the single-blind option should be considered. In some cases only an open-label trial is practically or ethically possible. Single-blind and open-label trials provide additional flexibility, but it is particularly important that the investigator's knowledge of the next treatment should not influence the decision to enter the subject; this decision should precede knowledge of the randomised treatment. For these trials, consideration should be given to the use of a centralised randomisation method, such as telephone randomisation, to administer the assignment of randomised treatment. In addition, clinical assessments should be made by medical staff who are not involved in treating the subjects and who remain blind to treatment. In single-blind or open-label trials every effort should be made to minimise the various known sources of bias and primary variables should be as objective as possible. The reasons for the degree of blinding adopted should be explained in the protocol, together with steps taken to minimise bias by other means. For example, the sponsor should have adequate standard operating procedures to ensure that access to the treatment code is appropriately restricted during the process of cleaning the database prior to its release for analysis. 二重盲 検試験が実施できない場合は、次に単盲検を選択することを検討すべきである。非盲検試験のみが実際的に又は倫理的に可能な場合もある。単盲検試験と非盲検 試験は二重盲検試験に比べて柔軟性があるが、次の試験治療が何であるか治験責任(分担)医師が知ることにより、被験者の登録の決定に影響を与えないように することが重要である。登録の決定は、常に割付けられる試験治療を知る以前になされるべきである。これら単盲検又は非盲検試験では、試験治療のランダム割 付を管理するために、電話による割付のような一ヵ所でランダム化を行う方法を検討すべきである。更に、臨床評価は被験者の処置を行っておらず、試験治療が 盲検化された状態の医療スタッフによってなされるべきである。単盲検試験又は非盲検試験では、様々な既知の偏りの原因を最小にするために、あらゆる努力を なすべきであり、主要変数は可能な限り客観的にすべきである。採用した盲検化の程度について、それを選択した理由は、偏りを減じるために用いた他の手段に よる処置とともに、治験実施計画書に述べるべきである。例えば治験依頼者は、解析のためにデータベースを公開する前のデータベースクリーニングの段階で は、試験治療コードへのアクセスが適切に制限されることを保証するために十分な標準業務手順書を用意すべきである。
Breaking the blind (for a single subject) should be considered only when knowledge of the treatment assignment is deemed essential by the subject’s physician for the subject’s care. Any intentional or unintentional breaking of the blind should be reported and explained at the end of the trial, irrespective of the reason for its occurrence. The procedure and timing for revealing the treatment assignments should be documented. (被験 者個人について)割付を明らかにすることは、割付けられた試験治療を知ることが被験者のケアのため本質的であると主治医が考える場合に限り検討すべきであ る。故意であろうとなかろうと、割付を明らかにした場合は、開示の理由にかかわらず、治験終了時に報告し、説明すべきである。割付けられた試験治療を明ら かにするための手続きと時期は記録しておくべきである。
In this document, the blind review (see Glossary) of data refers to the checking of data during the period of time between trial completion (the last observation on the last subject) and the breaking of the blind. 本ガイ ドラインでは、試験完了(最後の被験者の最終観察)から割付を明らかにするまでの間にデータをチェックすることを、データの盲検下レヴュー(用語集参照) と呼ぶ。
2.3.2 Randomisation 2.3.2 ランダム化(無作為化)
Randomisation introduces a deliberate element of chance into the assignment of treatments to subjects in a clinical trial. During subsequent analysis of the trial data, it provides a sound statistical basis for the quantitative evaluation of the evidence relating to treatment effects. It also tends to produce treatment groups in which the distributions of prognostic factors, known and unknown, are similar. In combination with blinding, randomisation helps to avoid possible bias in the selection and allocation of subjects arising from the predictability of treatment assignments. ランダ ム化は、臨床試験において、被験者への試験治療の割付に意図的に偶然の要素を取り入れており、後に試験データを解析する際に、試験治療の効果に関する証拠 の定量的な評価のための正しい統計的根拠を与える。また、ランダム化は予後因子が既知であるか未知であるかにかかわらず、予後因子の分布が類似した試験治 療グループを作るために役立つものである。ランダム化は、盲検化と組み合わせることで、試験治療の割付が予見可能な場合に、被験者の選択的割付によって生 じる可能性のある偏りを回避することに役立つものである。
The randomisation schedule of a clinical trial documents the random allocation of treatments to subjects. In the simplest situation it is a sequential list of treatments (or treatment sequences in a crossover trial) or corresponding codes by subject number. The logistics of some trials, such as those with a screening phase, may make matters more complicated, but the unique pre-planned assignment of treatment, or treatment sequence, to subject should be clear. Different trial designs will require different procedures for generating randomisation schedules. The randomisation schedule should be reproducible (if the need arises). 臨床試 験のランダム割付表は、被験者への試験治療のランダム割付を記録するものである。最も単純な状況では、割付表は一連の試験治療のリスト又は(クロスオー バー試験では、試験治療の順序のリスト)被験者番号に対応するコードである。スクリーニングの段階がある試験のような、一部の試験の実施手順は問題をより 複雑なものにすることがあるが、被験者に対する試験治療又は試験治療の順についての事前に予定された唯一通りの割付は明確にすべきである。試験計画が異な れば、ランダム割付表の作成のためにも異なる手順が必要である。(必要な場合に備えて)ランダム割付表は、再現可能なものとすべきである。
Although unrestricted randomisation is an acceptable approach, some advantages can generally be gained by randomising subjects in blocks. This helps to increase the comparability of the treatment groups, particularly when subject characteristics may change over time, as a result, for example, of changes in recruitment policy. It also provides a better guarantee that the treatment groups will be of nearly equal size. In crossover trials it provides the means of obtaining balanced designs with their greater efficiency and easier interpretation. Care should be taken to choose block lengths that are sufficiently short to limit possible imbalance, but that are long enough to avoid predictability towards the end of the sequence in a block. Investigators and other relevant staff should generally be blind to the block length; the use of two or more block lengths, randomly selected for each block, can achieve the same purpose. (Theoretically, in a double-blind trial predictability does not matter, but the pharmacological effects of drugs may provide the opportunity for intelligent guesswork.) 制約を おかないランダム化は受け入れ可能な方法ではあるが、一般にはブロック別にランダム化する方が有利な点がある。このブロック別ランダム化の方法は、試験治 療グループ間の比較可能性を高めることに役立つものである。これは例えば募集方針の変更により、結果として被験者の特徴が時間的に変化する可能性があるよ うな場合である。また、ブロック別ランダム化は試験治療グループの被験者数をほぼ等しくすることを保証する。クロスオーバー試験では、ブロック別ランダム 化を採用することが、効率が高く解釈しやすいバランスのとれた計画を得る手段となる。ブロックの長さは、被験者数のバランスが崩れる可能性を制限できる程 度に短く、しかしブロックの終りの方での予見可能性を回避できる程度に十分長くするように注意すべきである。治験責任医師及びその他関係するスタッフは、 一般にブロックの長さを知ることがないようにすべきである。二つ以上の異なるブロックの長さを用いて、それぞれのブロックで異なる長さをランダムに選ぶこ とにより、同じ目的を達成できる。(理論的には、二重盲検試験において予見可能性は問題とならない。しかし、治験薬の薬理作用により、知的な当て推量をす る機会を提供してしまうおそれがある。)
In multicentre trials (see Glossary) the randomisation procedures should be organised centrally. It is advisable to have a separate random scheme for each centre, i.e. to stratify by centre or to allocate several whole blocks to each centre. More generally, stratification by important prognostic factors measured at baseline (e.g. severity of disease, age, sex, etc.) may sometimes be valuable in order to promote balanced allocation within strata; this has greater potential benefit in small trials. The use of more than two or three stratification factors is rarely necessary, is less successful at achieving balance and is logistically troublesome. The use of a dynamic allocation procedure (see below) may help to achieve balance across a number of stratification factors simultaneously provided the rest of the trial procedures can be adjusted to accommodate an approach of this type. Factors on which randomisation has been stratified should be accounted for later in the analysis. 多施設 共同治験(用語集参照)では、ランダム化の手続きは中央で準備すべきである。施設で層別する、又は各施設にブロック全体を数個割付けるといった、各施設毎 にランダム化する計画を立てることが推奨される。より一般的には、基準となる時点で測定された重要な予後因子(例えば、疾患の重症度、年齢、性、など)で 層別することは、層内でバランスのとれた割付を促進するために有益といってよい。これは小規模な試験では大きな潜在的利益となる。三つ又は四つ以上の層別 因子を用いる必要はほとんどない。そのうえ、例数のバランスがとりにくく、実施が煩雑になる。後述する動的割付法を用いることは、多数の層別因子のバラン スを同時にとることに役立つであろう。そのためにはその後の試験手続きをこの型式の方法に応じて調整する必要がある。層別ランダム化に用いた因子は、後の 解析の際にも考慮すべきである。
The next subject to be randomised into a trial should always receive the treatment corresponding to the next free number in the appropriate randomisation schedule (in the respective stratum, if randomisation is stratified). The appropriate number and associated treatment for the next subject should only be allocated when entry of that subject to the randomised part of the trial has been confirmed. Details of the randomisation that facilitate predictability (e.g. block length) should not be contained in the trial protocol. The randomisation schedule itself should be filed securely by the sponsor or an independent party in a manner that ensures that blindness is properly maintained throughout the trial. Access to the randomisation schedule during the trial should take into account the possibility that, in an emergency, the blind may have to be broken for any subject. The procedure to be followed, the necessary documentation, and the subsequent treatment and assessment of the subject should all be described in the protocol. ランダ ム割付けされ試験に組み入れられる被験者は、常に適切なランダム割付表(層別ランダム化の場合には、各層ごと)の中の、まだ割付けられていない最初の番号 に対応した試験治療を受けるべきである。次の被験者の該当番号とそれに対応する試験治療は、被験者が試験のランダム割付段階へ登録されたことを確認してか ら、はじめて割付けるべきである。予見可能性を高めてしまうようなランダム化に関する内容の詳細(例えば、ブロックの長さ)については治験実施計画書に含 めるべきではない。ランダム割付表自体は、全試験期間において、盲検性が適切に維持されることを保証する方法で、治験依頼者又は第三者によって安全に保管 されなければならない。どの被験者についても緊急の場合には割付を明らかにしなければならないことがあるため、試験中ランダム割付表にアクセスする可能性 を考慮すべきである。その際に従うべき手順、必要な証拠資料及び割付を明らかにした後の被験者の治療と評価の仕方はすべて治験実施計画書に記述すべきであ る。
Dynamic allocation is an alternative procedure in which the allocation of treatment to a subject is influenced by the current balance of allocated treatments and, in a stratified trial, by the stratum to which the subject belongs and the balance within that stratum. Deterministic dynamic allocation procedures should be avoided and an appropriate element of randomisation should be incorporated for each treatment allocation. Every effort should be made to retain the double-blind status of the trial. For example, knowledge of the treatment code may be restricted to a central trial office from where the dynamic allocation is controlled, generally through telephone contact. This in turn permits additional checks of eligibility criteria and establishes entry into the trial, features that can be valuable in certain types of multicentre trial. The usual system of pre-packing and labelling drug supplies for double-blind trials can then be followed, but the order of their use is no longer sequential. It is desirable to use appropriate computer algorithms to keep personnel at the central trial office blind to the treatment code. The complexity of the logistics and potential impact on the analysis should be carefully evaluated when considering dynamic allocation. 動的割 付は割付方法の選択肢の一つであり、被験者への試験治療の割付に、現在までに割付けられている試験治療の例数バランスを反映させ、層別された試験では被験 者が属する層での試験治療の例数バランスを反映させるものである。決定論的な動的割付法は避けるべきであり、試験治療の一つ一つの割付にランダム化の要素 が適切に取り入れられるべきである。動的割付法を取り入れた試験の二重盲検性を保つためには、あらゆる努力がなされるべきである。例えば、通常は電話登録 を用いることにより動的割付を管理している中央治験事務局以外は試験治療コードを知ることができないようにする方法が採られるであろう。この方法は結果と して、(電話登録時に)適格基準の追加確認を可能とし、試験への登録を確定する。これらの特徴はある種の多施設共同治験では有益である。二重盲検試験にお いて通常用いられる治験薬を事前に箱詰めし、ラベルを貼り供給するシステムを、動的割付でも用いることができる。ただし、使用する順番は番号順ではなくな る。中央治験事務局の職員に、試験治療コードを知られることがないようにするため、適切なコンピュータアルゴリズムを用いることが望ましい。動的割付を検 討する場合には、実施手順の複雑さと解析に与える潜在的な影響を慎重に評価すべきである。
III. TRIAL DESIGN CONSIDERATIONS III. 試験計画上で考慮すべきこと
3.1 Design Configuration 3.1 試験計画の構成
3.1.1 Parallel Group Design 3.1.1 並行群間比較計画
The most common clinical trial design for confirmatory trials is the parallel group design in which subjects are randomised to one of two or more arms, each arm being allocated a different treatment. These treatments will include the investigational product at one or more doses, and one or more control treatments, such as placebo and/or an active comparator. The assumptions underlying this design are less complex than for most other designs. However, as with other designs, there may be additional features of the trial that complicate the analysis and interpretation (e.g. covariates, repeated measurements over time, interactions between design factors, protocol violations, dropouts (see Glossary) and withdrawals). 検証的 試験で最もよく用いられる試験計画は並行群間比較計画である。被験者はそれぞれ異なる試験治療が割り当てられている二つ以上の群の一つにランダムに割付け られる。これらの試験治療は、一つ又は複数の用量の被験薬を含み、プラセボ若しくは実薬など一つ又は複数の対照治療も含むものであろう。並行群間比較計画 の基礎となる仮定は、他のほとんどの計画における仮定に比べ複雑ではない。しかし、他の計画と同様に試験の解析と解釈を複雑にする別な側面(例えば、共変 量、経時的繰り返し測定、要因間の交互作用、治験実施計画書違反、脱落(用語集参照)及び試験治療の中止)が存在することがある。
3.1.2 Crossover Design 3.1.2 クロスオーバー計画
In the crossover design, each subject is randomised to a sequence of two or more treatments, and hence acts as his own control for treatment comparisons. This simple manoeuvre is attractive primarily because it reduces the number of subjects and usually the number of assessments needed to achieve a specific power, sometimes to a marked extent. In the simplest 2×2 crossover design each subject receives each of two treatments in randomised order in two successive treatment periods, often separated by a washout period. The most common extension of this entails comparing n(>2) treatments in n periods, each subject receiving all n treatments. Numerous variations exist, such as designs in which each subject receives a subset of n(>2) treatments, or ones in which treatments are repeated within a subject. クロス オーバー計画では、各被験者は二つ又はそれ以上の試験治療を行う順序をランダムに割付けられる。したがって被験者自身を対照として試験治療比較が行われる ことになる。この単純な計画上の工夫は、主として、それを行うことが、定められた検出力の達成に必要な被験者数と通常は評価件数を劇的に減少させることが あるという理由から魅力的である。最も単純な2×2クロスオーバー計画では、各被験者は、多くの場合ウオッシュアウト期間をはさんで連続した二つの試験治 療期間に、二種の試験治療のそれぞれをランダム化された順番で受ける。この計画の最も一般的な拡張では、n(>2)個の試験治療をn期間で各被験者 がすべて受け、試験治療を比較することになる。計画の拡張には、各被験者がn(>2)個の試験治療の一部だけを受ける、同じ試験治療を繰り返し行 う、といった様々な変法が存在する。
Crossover designs have a number of problems that can invalidate their results. The chief difficulty concerns carryover, that is, the residual influence of treatments in subsequent treatment periods. In an additive model the effect of unequal carryover will be to bias direct treatment comparisons. In the 2×2 design the carryover effect cannot be statistically distinguished from the interaction between treatment and period and the test for either of these effects lacks power because the corresponding contrast is 'between subject'. This problem is less acute in higher order designs, but cannot be entirely dismissed. クロス オーバー計画は、結果の妥当性を損なうおそれのある多くの問題を抱えている。最大の問題は持ち越し効果に関するものである。持ち越し効果とは、先行する試 験治療が次に続く試験治療期間において及ぼす残存効果である。加法モデルでは、不均等な持ち越し効果が試験治療の直接の比較を偏らせる。2×2クロスオー バー計画では、持ち越し効果が試験治療と時期間の交互作用から統計的に分離できず、どちらの効果の検定も対応する対比が「被験者間」であるため検出力に欠 ける。この問題は、試験治療の数が多い、より高次の計画ではそれほど深刻なものではないが、完全に排除することはできない。
When the crossover design is used it is therefore important to avoid carryover. This is best done by selective and careful use of the design on the basis of adequate knowledge of both the disease area and the new medication. The disease under study should be chronic and stable. The relevant effects of the medication should develop fully within the treatment period. The washout periods should be sufficiently long for complete reversibility of drug effect. The fact that these conditions are likely to be met should be established in advance of the trial by means of prior information and data. した がって、クロスオーバー計画を用いる場合は、持ち越し効果を回避することが重要である。このためには、疾患の領域及び新しい薬剤の双方に関する十分な知識 に基づき、クロスオーバー計画を選択的かつ慎重に使用することが最善の結果を生むことになる。対象とする疾患は慢性的で症状が安定しているべきである。薬 剤に関連のある効果はその試験治療期間中に完全に現れなければならない。ウオッシュアウト期間は薬剤効果が完全に消失するよう十分長くすべきである。これ らの条件が満たされていると考えてよいかについて、試験に先だって事前情報及びデータから確認しておくべきである。
There are additional problems that need careful attention in crossover trials. The most notable of these are the complications of analysis and interpretation arising from the loss of subjects. Also, the potential for carryover leads to difficulties in assigning adverse events which occur in later treatment periods to the appropriate treatment. These, and other issues, are described in ICH E4. The crossover design should generally be restricted to situations where losses of subjects from the trial are expected to be small. クロス オーバー試験には、他にも注意を払わなければならない問題がある。その中で最も注意すべきことは、被験者の減失に起因する解析と解釈の複雑さである。ま た、持ち越し効果が存在する可能性があることから、後続の試験治療期間に発生した有害事象に対応した試験治療がどちらであるか特定することは困難である。 ICH E4には、これらの問題と共に、他の問題も含め記述されている。クロスオーバー計画は、一般に試験からの被験者の減失が少ないと期待できる場合に限定すべ きである。
A common, and generally satisfactory, use of the 2×2 crossover design is to demonstrate the bioequivalence of two formulations of the same medication. In this particular application in healthy volunteers, carryover effects on the relevant pharmacokinetic variable are most unlikely to occur if the wash-out time between the two periods is sufficiently long. However it is still important to check this assumption during analysis on the basis of the data obtained, for example by demonstrating that no drug is detectable at the start of each period. 2×2 クロスオーバー計画が一般的に使用されており、通常その妥当性が満たされているのは、同一薬剤の異なる二つの剤型間で生物学的同等性を示す場合である。特 にこの健康志願者への適用の場合、二つの投与期間の間のウオッシュアウト時間が十分長ければ、持ち越し効果が、それに関連のある薬物動態変数に関して、発 生することはほとんど考えられない。しかし、得られたデータに基づいて、例えば各治験薬の投与開始時に薬物が検出できなかったことを示すことによって、解 析時にこの仮定をチェックすることはやはり重要である。
3.1.3 Factorial Designs 3.1.3 要因計画
In a factorial design two or more treatments are evaluated simultaneously through the use of varying combinations of the treatments. The simplest example is the 2×2 factorial design in which subjects are randomly allocated to one of the four possible combinations of two treatments, A and B say. These are: A alone; B alone; both A and B; neither A nor B. In many cases this design is used for the specific purpose of examining the interaction of A and B. The statistical test of interaction may lack power to detect an interaction if the sample size was calculated based on the test for main effects. This consideration is important when this design is used for examining the joint effects of A and B, in particular, if the treatments are likely to be used together. 要因計 画は、複数の試験治療の異なる組み合わせを複数用いて、二つ以上の試験治療を同時に評価するものである。最も単純な例は、2×2要因計画である。被験者は 二つの試験治療で可能な四つの組み合わせの一つにランダムに割付けられる。その四つとは、試験治療をA, Bとすると、「A単独」、「B単独」、「AB同時」、「どちらもなし」である。多くの場合、要因計画はAとBの交互作用を調べるという特定の目的のために 用いられる。主効果の検定に基づいて必要な被験者数が計算されている場合には、交互作用の統計的検定はその検出力に欠けるであろう。要因計画がAとBの併 用効果を調べるために用いられる場合、特に二つの試験治療が併用される見込みのある場合、この配慮は重要である。
Another important use of the factorial design is to establish the dose-response characteristics of the simultaneous use of treatments C and D, especially when the efficacy of each monotherapy has been established at some dose in prior trials. A number, m, of doses of C is selected, usually including a zero dose (placebo), and a similar number, n, of doses of D. The full design then consists of m×n treatment groups, each receiving a different combination of doses of C and D. The resulting estimate of the response surface may then be used to help to identify an appropriate combination of doses of C and D for clinical use (see ICH E4). 要因計 画の別の重要な利用法は、試験治療CとDを同時に使用する場合の用量-反応特性を立証することである。それは特に、先行する試験から、それぞれ単剤での有 効性がある用量において立証されている場合である。Cについて、通常ゼロ用量(プラセボ)を含んだmの用量が選択され、Dについてもそれに近い数であるn の用量が選択される。全ての組み合わせを含んだ計画はm×n個の試験治療グループからなり、各グループはCとDの異なる用量の組み合わせのうちの一つを受 ける。このようにして得られた反応曲面を用いることが、臨床適用のために適切な、CとDの用量の組み合わせを同定するのに役立つ場合がある(ICH E4参照)。
In some cases, the 2×2 design may be used to make efficient use of clinical trial subjects by evaluating the efficacy of the two treatments with the same number of subjects as would be required to evaluate the efficacy of either one alone. This strategy has proved to be particularly valuable for very large mortality trials. The efficiency and validity of this approach depends upon the absence of interaction between treatments A and B so that the effects of A and B on the primary efficacy variables follow an additive model, and hence the effect of A is virtually identical whether or not it is additional to the effect of B. As for the crossover trial, evidence that this condition is likely to be met should be established in advance of the trial by means of prior information and data. 2×2 要因計画は、一方の試験治療の有効性を評価するための被験者数で両方の試験治療の有効性を評価することにより、臨床試験の被験者を効率よく利用するために 用いられる場合がある。この戦略は、死亡に関する大規模試験で特に有益であることが示されている。この方法の効率と妥当性は、試験治療AとBとの間に交互 作用がないことに依存している。交互作用がなければ、主たる有効性変数に関するAとBの効果は加法モデルに従い、このためA単独の効果とBの効果に上乗せ されたAの効果はほとんど等しくなる。クロスオーバー試験と同様に、この条件が満たされていると考えてよいことを示す根拠は、試験に先だって事前情報及び データから確認しておくべきである。
3.2 Multicentre Trials 3.2 多施設共同治験
Multicentre trials are carried out for two main reasons. Firstly, a multicentre trial is an accepted way of evaluating a new medication more efficiently; under some circumstances, it may present the only practical means of accruing sufficient subjects to satisfy the trial objective within a reasonable time-frame. Multicentre trials of this nature may, in principle, be carried out at any stage of clinical development. They may have several centres with a large number of subjects per centre or, in the case of a rare disease, they may have a large number of centres with very few subjects per centre. 多施設 共同治験が実施されることには、主として二つの理由がある。第一の理由は、多施設共同治験が、新医薬品の有効性をより効率よく評価するための方法として認 められていることである。場合によっては多施設共同治験が、妥当と考え得る範囲の期間内に試験の目的を満たすための十分な被験者を登録する唯一の実用的な 手段となることがある。このような特徴を持つ多施設共同治験は、原則として、臨床開発のあらゆる段階で実施してよい。多施設共同治験は、施設当たりの被験 者数が多い数カ所の施設において行う場合があり、まれな疾患の試験の場合は施設当たりの被験者数が少ない多数の施設において行うこともある。
Secondly, a trial may be designed as a multicentre (and multi-investigator) trial primarily to provide a better basis for the subsequent generalisation of its findings. This arises from the possibility of recruiting the subjects from a wider population and of administering the medication in a broader range of clinical settings, thus presenting an experimental situation that is more typical of future use. In this case the involvement of a number of investigators also gives the potential for a wider range of clinical judgement concerning the value of the medication. Such a trial would be a confirmatory trial in the later phases of drug development and would be likely to involve a large number of investigators and centres. It might sometimes be conducted in a number of different countries in order to facilitate generalisability (see Glossary) even further. 多施設 (かつ多治験責任医師)共同治験が計画される第二の理由は、得られた結果を一般化するためのより適切な根拠を与えるためであろう。第二の理由は、多施設共 同治験がより広い患者集団から被験者を募集できる可能性があること、及び臨床の広い範囲の現場でこの医薬品が使用される可能性があることに基づいている。 したがって、多施設共同治験は、将来使用される状況により近い実験状況を提供するものである。この場合、多数の治験責任医師が参加することは、医薬品の有 益性に関して広範囲にわたる臨床的判断がなされる可能性をも生み出すことになる。一般化を目的とした多施設共同治験は、医薬品開発の後期の相での検証的試 験となり、多数の治験責任医師と施設が参加することになる。一般化可能性(用語集参照)を更に高めるために、多施設共同治験が複数の異なる国にまたがって 実施されることもあり得る。
If a multicentre trial is to be meaningfully interpreted and extrapolated, then the manner in which the protocol is implemented should be clear and similar at all centres. Furthermore the usual sample size and power calculations depend upon the assumption that the differences between the compared treatments in the centres are unbiased estimates of the same quantity. It is important to design the common protocol and to conduct the trial with this background in mind. Procedures should be standardised as completely as possible. Variation of evaluation criteria and schemes can be reduced by investigator meetings, by the training of personnel in advance of the trial and by careful monitoring during the trial. Good design should generally aim to achieve the same distribution of subjects to treatments within each centre and good management should maintain this design objective. Trials that avoid excessive variation in the numbers of subjects per centre and trials that avoid a few very small centres have advantages if it is later found necessary to take into account the heterogeneity of the treatment effect from centre to centre, because they reduce the differences between different weighted estimates of the treatment effect. (This point does not apply to trials in which all centres are very small and in which centre does not feature in the analysis.) Failure to take these precautions, combined with doubts about the homogeneity of the results may, in severe cases, reduce the value of a multicentre trial to such a degree that it cannot be regarded as giving convincing evidence for the sponsor’s claims. 多施設 共同治験の結果の意味が十分に解釈され、外挿されるためには、治験実施計画書を実行する方法は明確で、すべての施設で同様のものであるべきである。更に、 通常行われる必要な被験者数と検出力の計算は、施設が異なる場合でも比較する試験治療間の差の大きさは同じであるという仮定に依存している。このような背 景を考慮して、共通の治験実施計画書を作成し、以下のように多施設共同治験を実施することが重要である。実施手順はできるかぎり徹底して標準化すべきであ る。評価基準及び評価体系のばらつきは、治験責任医師会議、試験前に行う関係者の訓練、試験実施中の慎重なモニタリングを通して小さくすることができる。 適切な計画を立てるためには、一般に施設内で試験治療毎に被験者の分布が同じになるよう心掛けるべきであり、適切な運営管理により、この計画の目的を維持 すべきである。後に施設間での試験治療効果の不均一性を考慮する必要性が判明した場合には、施設当たりの被験者数が過度に異なることがないようにしている 試験及び極端に小規模な施設を含まない試験が有利である。それは、施設毎の重みを変えた場合でも、試験治療効果の重み付き推定値がそれほど異ならないから である。(この点は、すべての施設が小規模で、施設の特徴が解析には現れない多施設共同治験には当てはまらない。)これらの予防策を採用しないことは、結 果の均一性が疑わしいことと併せると、深刻な場合には承認に関わる治験依頼者の主張に対して説得力のある根拠を示すものとは見なせない程度まで多施設共同 治験の価値を減じるおそれがある。
In the simplest multicentre trial, each investigator will be responsible for the subjects recruited at one hospital, so that ‘centre’ is identified uniquely by either investigator or hospital. In many trials, however, the situation is more complex. One investigator may recruit subjects from several hospitals; one investigator may represent a team of clinicians (subinvestigators) who all recruit subjects from their own clinics at one hospital or at several associated hospitals. Whenever there is room for doubt about the definition of centre in a statistical model, the statistical section of the protocol (see Section 5.1) should clearly define the term (e.g. by investigator, location or region) in the context of the particular trial. In most instances centres can be satisfactorily defined through the investigators and ICH E6 provides relevant guidance in this respect. In cases of doubt the aim should be to define centres so as to achieve homogeneity in the important factors affecting the measurements of the primary variables and the influence of the treatments. Any rules for combining centres in the analysis should be justified and specified prospectively in the protocol where possible, but in any case decisions concerning this approach should always be taken blind to treatment, for example at the time of the blind review. 最も単 純な状況の多施設共同治験では、個々の治験責任医師が一つの病院で募集された被験者に対し責任をもつため、「施設」は治験責任医師又は病院に対して一つに 特定される。しかし、多くの場合、状況はもっと複雑である。恐らく一人の治験責任医師が数カ所の病院で被験者を募集するということもあり、一人の治験責任 医師が、一つ又は複数の関連病院における自身の診察室で被験者を募集する臨床家(治験分担医師)のチームの代表であることもある。統計モデルにおける施設 の定義に疑問の余地がある場合、治験実施計画書の統計の部(5.1節参照)には、その多施設共同治験の枠組みにおける施設という用語の定義を明確にすべき である(例えば、治験責任医師毎なのか、場所なのか、又は地域なのか)。ほとんどの場合、施設は治験責任医師により定義することが十分可能で、ICH E6はこれに関連した指針を示している。施設の定義が疑わしい場合には、主要変数の測定及び試験治療に影響を与える重要な要因が施設内で均一になるように 施設を定義すべきである。解析の際に施設を併合するためのルールはすべて、可能な限り前もって治験実施計画書中にその正当性も含めて記述すべきである。し かしどのような場合でも、とるべき手段に関する決定は、常に試験治療について盲検下で、例えば盲検下レヴューの際に行うべきである。
The statistical model to be adopted for the estimation and testing of treatment effects should be described in the protocol. The main treatment effect may be investigated first using a model which allows for centre differences, but does not include a term for treatment-by-centre interaction. If the treatment effect is homogeneous across centres, the routine inclusion of interaction terms in the model reduces the efficiency of the test for the main effects. In the presence of true heterogeneity of treatment effects, the interpretation of the main treatment effect is controversial. 試験治 療の効果の推定と検定に用いる統計モデルは治験実施計画書に記載すべきである。試験治療の主効果は、最初に施設と試験治療の交互作用を含まず施設間差を考 慮に入れるモデルを用いて調べることができる。モデルに常に交互作用を含めると、試験治療の効果が施設間で均一な場合、主効果の検定の効率が低下する。試 験治療効果の不均一性が真に存在する場合には、主効果の解釈には様々な議論がある。
In some trials, for example some large mortality trials with very few subjects per centre, there may be no reason to expect the centres to have any influence on the primary or secondary variables because they are unlikely to represent influences of clinical importance. In other trials it may be recognised from the start that the limited numbers of subjects per centre will make it impracticable to include the centre effects in the statistical model. In these cases it is not appropriate to include a term for centre in the model, and it is not necessary to stratify the randomisation by centre in this situation. 例えば 死亡を評価する大規模試験で施設当たりの被験者数が少ない試験にみられる例として、施設が臨床的に重要な影響を反映するとは考えにくいために施設が主要変 数又は副次変数に影響を与えると考える理由はないといって差し支えないような場合がある。別の試験では、施設当たりの被験者数が少ないために、統計モデル に施設の効果を含めることが実行不可能であることが、あらかじめ認識できる場合もある。それらの場合、モデルに施設の項を含めることは適切ではなく、施設 で層別したランダム化を行うことも必ずしも必要ではない。
If positive treatment effects are found in a trial with appreciable numbers of subjects per centre, there should generally be an exploration of the heterogeneity of treatment effects across centres, as this may affect the generalisability of the conclusions. Marked heterogeneity may be identified by graphical display of the results of individual centres or by analytical methods, such as a significance test of the treatment-by-centre interaction. When using such a statistical significance test, it is important to recognise that this generally has low power in a trial designed to detect the main effect of treatment. 施設当 たりの被験者数が不均一性を評価しうる規模の試験で、試験治療の肯定的な効果が判明した場合、結論の一般化可能性に影響する可能性があるため、通常は施設 間における試験治療効果の不均一性を探索すべきである。著しい不均一性は、個々の施設の結果を図示すること又は試験治療と施設間の交互作用の有意性検定な どの解析手法によることでも確認される場合がある。交互作用の統計的有意性検定を用いる場合、試験治療の主効果を検出することを目的に計画した試験では、 一般に交互作用の検定の検出力は低いことを認識しておくことが重要である。
If heterogeneity of treatment effects is found, this should be interpreted with care and vigorous attempts should be made to find an explanation in terms of other features of trial management or subject characteristics. Such an explanation will usually suggest appropriate further analysis and interpretation. In the absence of an explanation, heterogeneity of treatment effect as evidenced, for example, by marked quantitative interactions (see Glossary) implies that alternative estimates of the treatment effect may be required, giving different weights to the centres, in order to substantiate the robustness of the estimates of treatment effect. It is even more important to understand the basis of any heterogeneity characterised by marked qualitative interactions (see Glossary), and failure to find an explanation may necessitate further clinical trials before the treatment effect can be reliably predicted. 試験治 療効果の不均一性がみられた場合、その解釈には注意すべきであり、試験の運営管理面又は被験者の特徴といったそれとは別の面から説明できるかどうかを、積 極的に調べるべきである。通常はその説明によって、適切な追加解析と解釈が示唆される。説明ができない場合、例えば著しい量的交互作用(用語集参照)から 試験治療効果の不均一性の存在が明らかとなることは、施設に異なる重みを与えて試験治療効果の推定値を複数求め、試験治療効果の推定値の安定性を実証する 必要があることを意味する。不均一性が著しい質的交互作用(用語集参照)により特徴付けられるものであれば、その理由を解明することは更に重要であり、説 明ができない場合は、試験治療効果を確実に予測するために、追加の臨床試験を必要とするであろう。
Up to this point the discussion of multicentre trials has been based on the use of fixed effect models. Mixed models may also be used to explore the heterogeneity of the treatment effect. These models consider centre and treatment-by-centre effects to be random, and are especially relevant when the number of sites is large. これま で、多施設共同治験に関する議論は、固定効果モデルを用いることを前提としてきた。混合モデルも試験治療効果の不均一性を探索するために利用できる。混合 モデルでは、施設及び試験治療と施設の交互作用を変量効果として扱っており、特に施設数が多い場合に用いることが適切である。
3.3 Type of Comparison 3.3 比較の型式
3.3.1 Trials to Show Superiority 3.3.1 優越性を示すための試験
Scientifically, efficacy is most convincingly established by demonstrating superiority to placebo in a placebo-controlled trial, by showing superiority to an active control treatment or by demonstrating a dose-response relationship. This type of trial is referred to as a ‘superiority’ trial (see Glossary). Generally in this guidance superiority trials are assumed, unless it is explicitly stated otherwise. 科学的 には、有効性を立証するには、プラセボ対照試験でプラセボに優ることを示すこと、実対照薬に優ることを示すこと又は用量-反応関係を示すことが最も説得力 がある。この型式の試験を「優越性」試験(用語集参照)と呼ぶこととする。本ガイドラインでは、特に断らない限り優越性試験を前提としている。
For serious illnesses, when a therapeutic treatment which has been shown to be efficacious by superiority trial(s) exists, a placebo-controlled trial may be considered unethical. In that case the scientifically sound use of an active treatment as a control should be considered. The appropriateness of placebo control vs. active control should be considered on a trial by trial basis. 重篤な 疾患に対して優越性試験により有効であることが示されている治療法が存在する場合、プラセボ対照試験は非倫理的と考えられることがある。その場合、実治療 を対照として科学的に正しく用いることを考慮すべきである。プラセボ対照と実薬対照のどちらが適切であるかは、個々の試験ごとに判断すべきである。
3.3.2 Trials to Show Equivalence or Non-inferiority 3.3.2 同等性又は非劣性を示すための試験
In some cases, an investigational product is compared to a reference treatment without the objective of showing superiority. This type of trial is divided into two major categories according to its objective; one is an 'equivalence' trial (see Glossary) and the other is a 'non-inferiority' trial (see Glossary). 優越性 を示す目的以外にも、被験薬と標準治療とが比較される場合がある。この型式の試験は目的に応じて二つの主要なカテゴリに分けられる。一つは「同等性」試験 (用語集参照)で、もう一つは「非劣性」試験(用語集参照)である。
Bioequivalence trials fall into the former category. In some situations, clinical equivalence trials are also undertaken for other regulatory reasons such as demonstrating the clinical equivalence of a generic product to the marketed product when the compound is not absorbed and therefore not present in the blood stream. 生物学 的同等性試験は前者のカテゴリに属している。また、例えば化合物が吸収されずそのために血中に現れない場合に、後発医薬品と先発医薬品との臨床的同等性を 示すといった規制側の理由から、臨床的同等性試験が要求されることがある。
Many active control trials are designed to show that the efficacy of an investigational product is no worse than that of the active comparator, and hence fall into the latter category. Another possibility is a trial in which multiple doses of the investigational drug are compared with the recommended dose or multiple doses of the standard drug. The purpose of this design is simultaneously to show a dose-response relationship for the investigational product and to compare the investigational product with the active control. 多くの 実薬対照試験は、被験薬の有効性が実対照薬の有効性よりも劣らないことを示すために計画され、したがって後者のカテゴリに属している。実薬対照試験のもう 一つの例は、被験薬の複数の用量と標準薬の推奨用量又は複数の用量が比較される試験である。被験薬の用量-反応関係を示すこと及び被験薬と実対照薬とを比 較することを同時に行うことがこの試験計画の目的である。
Active control equivalence or non-inferiority trials may also incorporate a placebo, thus pursuing multiple goals in one trial; for example, they may establish superiority to placebo and hence validate the trial design and simultaneously evaluate the degree of similarity of efficacy and safety to the active comparator. There are well known difficulties associated with the use of the active control equivalence (or non-inferiority) trials that do not incorporate a placebo or do not use multiple doses of the new drug. These relate to the implicit lack of any measure of internal validity (in contrast to superiority trials), thus making external validation necessary. The equivalence (or non-inferiority) trial is not conservative in nature, so that many flaws in the design or conduct of the trial will tend to bias the results towards a conclusion of equivalence. For these reasons, the design features of such trials should receive special attention and their conduct needs special care. For example, it is especially important to minimise the incidence of violations of the entry criteria, non-compliance, withdrawals, losses to follow-up, missing data and other deviations from the protocol, and also to minimise their impact on the subsequent analyses. 実薬対 照同等性試験又は非劣性試験には、プラセボを組み込んでもよく、そうすることで一つの試験で複数の目標を達成できる。例えば、プラセボに対する優越性の立 証とその結果として試験計画の妥当性を確認できると同時に、実対照薬に対する有効性及び安全性がどの程度類似しているかについても評価できる。プラセボを 含まない又は被験薬の複数用量を用いない実薬対照同等性試験(又は非劣性試験)には、よく知られた問題点がある。その問題点とは、(優越性試験とは対照的 に)内部妥当性を示すいかなる指標も必然的に存在していないことであり、このため外部情報による妥当性の確認を必要とする。同等性試験(又は非劣性試験) は本質的に保守的でないため、試験の計画上又は実施上の多くの不備が、同等であると結論づける方向へ結果を偏らせる傾向がある。これらの理由から、このよ うな試験ではその計画上の特徴に特に注意すべきであり、慎重に実施する必要がある。例えば、登録基準違反、服薬不遵守、試験治療の中止、追跡不能、欠測 データ及び治験実施計画書からのその他の逸脱を最小限に抑えることは特に重要であり、またこれらが解析に与える影響も抑えることが重要である。
Active comparators should be chosen with care. An example of a suitable active comparator would be a widely used therapy whose efficacy in the relevant indication has been clearly established and quantified in well designed and well documented superiority trial(s) and which can be reliably expected to exhibit similar efficacy in the contemplated active control trial. To this end, the new trial should have the same important design features (primary variables, the dose of the active comparator, eligibility criteria, etc.) as the previously conducted superiority trials in which the active comparator clearly demonstrated clinically relevant efficacy, taking into account advances in medical or statistical practice relevant to the new trial. 実対照 薬は慎重に選択すべきである。適切な実対照薬の例としては、広く使用されている治療法で、十分に計画され記録されている一つ以上の優越性試験によって適切 な適応に対する有効性が明確に立証され定量的に示されており、現在計画している実薬対照試験においても同様の有効性を示すことが十分に期待できるものがあ げられる。このためには、新たに行う試験に関連した、医学又は統計学の進歩を考慮した上で、新たに行う治験計画上の重要な特徴(主要変数、実対照薬の用 量、適格基準など)を、実対照薬が臨床的に適切な有効性を明確に示した過去の優越性試験と同じにすべきである。
It is vital that the protocol of a trial designed to demonstrate equivalence or non-inferiority contain a clear statement that this is its explicit intention. An equivalence margin should be specified in the protocol; this margin is the largest difference that can be judged as being clinically acceptable and should be smaller than differences observed in superiority trials of the active comparator. For the active control equivalence trial, both the upper and the lower equivalence margins are needed, while only the lower margin is needed for the active control non-inferiority trial. The choice of equivalence margins should be justified clinically. 同等性 又は非劣性を証明するために計画された試験では治験実施計画書に同等性又は非劣性を示すために計画されたということを明確に述べることが不可欠である。治 験実施計画書には同等限界を明示しておくべきである。同等限界とは、臨床的に許容できると判断しうる最大の差であり、実対照薬の有効性を立証した優越性試 験において観測された差よりも小さいものであるべきである。実薬対照同等性試験では、上側及び下側両方の同等限界が必要であり、実薬対照非劣性試験では下 側同等限界のみが必要である。同等限界の大きさの選択には、十分な臨床的根拠を示すべきである。
Statistical analysis is generally based on the use of confidence intervals (see Section 5.5). For equivalence trials, two-sided confidence intervals should be used. Equivalence is inferred when the entire confidence interval falls within the equivalence margins. Operationally, this is equivalent to the method of using two simultaneous one-sided tests to test the (composite) null hypothesis that the treatment difference is outside the equivalence margins versus the (composite) alternative hypothesis that the treatment difference is within the margins. Because the two null hypotheses are disjoint, the type I error is appropriately controlled. For non-inferiority trials a one-sided interval should be used. The confidence interval approach has a one-sided hypothesis test counterpart for testing the null hypothesis that the treatment difference (investigational product minus control) is equal to the lower equivalence margin versus the alternative that the treatment difference is greater than the lower equivalence margin. The choice of type I error should be a consideration separate from the use of a one-sided or two-sided procedure. Sample size calculations should be based on these methods (see Section 3.5). 統計解 析は、通常信頼区間に基づいて行われる(5.5節参照)。同等性試験では、両側信頼区間を用いるべきである。信頼区間全体が同等限界内に含まれる場合、同 等であると推論する。両側信頼区間の使用は、試験治療の差は同等限界の外側にあるという(複合)帰無仮説に対し、試験治療の差は同等限界の内側にあるとい う(複合)対立仮説を検定する、二つの片側検定を同時に行う方法と実際上同じものである。二つの帰無仮説には重なりがないため、第一種の過誤は適切に制御 される。非劣性試験では、片側信頼区間を用いるべきである。信頼区間を用いた方法は、(被験薬から対照を引いた)試験治療間の差は下側同等限界に等しいと いう帰無仮説に対して、試験治療間の差は下側同等限界よりも大きいという対立仮説を検定する片側仮説検定に対応する。第一種の過誤の大きさの選択は、片側 検定又は両側検定のどちらを選択するかとは別に検討すべきである。被験者数の計算は、これらの方法に基づくべきである(3.5節参照)。
Concluding equivalence or non-inferiority based on observing a non-significant test result of the null hypothesis that there is no difference between the investigational product and the active comparator is inappropriate. 被験薬 と実対照薬に差がないという帰無仮説の検定結果が有意でないことから、同等性又は非劣性が示されたと結論することは不適切である。
There are also special issues in the choice of analysis sets. Subjects who withdraw or dropout of the treatment group or the comparator group will tend to have a lack of response, and hence the results of using the full analysis set (see Glossary) may be biased toward demonstrating equivalence (see Section 5.2.3). 解析対 象集団の選択にも特別な問題が生じる。試験治療グループ又は対照治療グループにおいて、試験治療を中止した被験者又はそれらのグループから脱落した被験者 は、効果が現れにくいことから、最大の解析対象集団(用語集参照)を用いた結果は同等性を示す方向に偏るおそれがある(5.2.3節参照)。
3.3.3 Trials to Show Dose-response Relationship 3.3.3 用量-反応関係を示すための試験
How response is related to the dose of a new investigational product is a question to which answers may be obtained in all phases of development, and by a variety of approaches (see ICH E4). Dose-response trials may serve a number of objectives, amongst which the following are of particular importance: the confirmation of efficacy; the investigation of the shape and location of the dose-response curve; the estimation of an appropriate starting dose; the identification of optimal strategies for individual dose adjustments; the determination of a maximal dose beyond which additional benefit would be unlikely to occur. These objectives should be addressed using the data collected at a number of doses under investigation, including a placebo (zero dose) wherever appropriate. For this purpose the application of procedures to estimate the relationship between dose and response, including the construction of confidence intervals and the use of graphical methods, is as important as the use of statistical tests. The hypothesis tests that are used may need to be tailored to the natural ordering of doses or to particular questions regarding the shape of the dose-response curve (e.g. monotonicity). The details of the planned statistical procedures should be given in the protocol. 被験薬 がどのような用量-反応関係を示すかは、開発のすべての相から、様々な方法によって解答が得られる可能性がある問題である(ICH E4 参照)。用量-反応試験は多くの目的に役立つであろう。中でも次に示すものは特に重要である。有効性の確認、用量-反応曲線の形状と位置の研究、適切な開 始用量の推定、個人毎の用量の調整に最適な戦略の同定、それ以上臨床上の利益を見込むことができない最大用量の決定。プラセボ(ゼロ用量)を含めることが 適切な場合にはプラセボを含め、多くの用量について集められたデータを用いて、これらの目的に対応する必要がある。そのためには、用量-反応関係の推定に 信頼区間の構成及びグラフ表示を用いた手法を適用することが、統計的検定を使用することと同程度に重要である。仮説検定を用いる場合は、用量の順序関係又 は用量-反応曲線の形状に関する個々の問題(例えば単調性)に対応した方法を用いる必要があろう。予定している統計的な手続きに関する内容の詳細は、治験 実施計画書に述べるべきである。
3.4 Group Sequential Designs 3.4 逐次群計画
Group sequential designs are used to facilitate the conduct of interim analysis (see section 4.5 and Glossary). While group sequential designs are not the only acceptable types of designs permitting interim analysis, they are the most commonly applied because it is more practicable to assess grouped subject outcomes at periodic intervals during the trial than on a continuous basis as data from each subject become available. The statistical methods should be fully specified in advance of the availability of information on treatment outcomes and subject treatment assignments (i.e. blind breaking, see Section 4.5). An Independent Data Monitoring Committee (see Glossary) may be used to review or to conduct the interim analysis of data arising from a group sequential design (see Section 4.6). While the design has been most widely and successfully used in large, long-term trials of mortality or major non-fatal endpoints, its use is growing in other circumstances. In particular, it is recognised that safety must be monitored in all trials and therefore the need for formal procedures to cover early stopping for safety reasons should always be considered. 逐次群 (群逐次)計画は、中間解析(4.5節及び用語集参照)を実施するために用いられる。中間解析を可能にする計画がいくつかある中で、逐次群計画が受け入れ 可能な唯一の型式というわけではないが最もよく適用されている。なぜならば、被験者の結果を試験期間中定期的にまとめて評価することは、個々の被験者の結 果が利用可能になる都度評価するよりも実際的だからである。逐次群計画での統計手法は、試験治療の結果及び試験治療の割付に関する情報が利用可能となる (盲検解除、4.5節参照)前に、完全に明記しておくべきである。独立データモニタリング委員会(効果安全性評価委員会)(用語集参照)は、逐次群計画か ら得られるデータの中間解析の実施又は検討のために利用される(4.6節参照)。逐次群計画は、死亡又は重大な非致死性の評価項目を調べる大規模で長期に わたる試験で広く用いられ成功してきたが、その他の状況でも利用されることが増えてきている。特にすべての試験で安全性をモニターしなければならないこと は共通の認識となっていることから、安全性の理由から早期中止を行うことも含めて正式な手続きの必要性を常に検討しておくべきである。
3.5 Sample Size 3.5 必要な被験者数
The number of subjects in a clinical trial should always be large enough to provide a reliable answer to the questions addressed. This number is usually determined by the primary objective of the trial. If the sample size is determined on some other basis, then this should be made clear and justified. For example, a trial sized on the basis of safety questions or requirements or important secondary objectives may need larger numbers of subjects than a trial sized on the basis of the primary efficacy question (see, for example, ICH E1a). 臨床試 験の被験者数は、提示された問題に信頼のおける解答を与えられるよう常に十分多くすべきである。試験に必要な被験者数は、通常試験の主要な目的により決め られる。被験者数がその他の理由から決定される場合には、その理由を明確にし正当化しておくべきである。例えば、安全性に関する問題若しくは要求に基づい た試験又は重要な副次目的に基づいて被験者数が決定される試験では、主要な有効性の問題に基づいて被験者数が決定される試験よりも多くの被験者数を必要と するであろう(例えば、ICH E1A 参照)。
Using the usual method for determining the appropriate sample size, the following items should be specified: a primary variable, the test statistic, the null hypothesis, the alternative ('working') hypothesis at the chosen dose(s) (embodying consideration of the treatment difference to be detected or rejected at the dose and in the subject population selected), the probability of erroneously rejecting the null hypothesis (the type I error), and the probability of erroneously failing to reject the null hypothesis (the type II error), as well as the approach to dealing with treatment withdrawals and protocol violations. In some instances, the event rate is of primary interest for evaluating power, and assumptions should be made to extrapolate from the required number of events to the eventual sample size for the trial. 適切な 被験者数を決定するために用いられる通常の方法を利用するためには、以下の項目を定めておくことが必要である。それらは、主要変数、検定統計量、帰無仮 説、選択された用量での対立(「作業」)仮説(その用量と選ばれた対象集団で検出すべき又は棄却すべき試験治療の差を考慮することも含めて)、誤って帰無 仮説を棄却する確率(第一種の過誤)及び誤って帰無仮説を棄却できない確率(第二種の過誤)であり、更に試験治療を中止した被験者及び治験実施計画書違反 を取り扱う方法も定める必要がある。検出力の評価のために、イベント発生率が主要な関心事項となる場合には、試験に必要なイベント数から最終的な被験者数 を外挿するための仮定も置くべきである。
The method by which the sample size is calculated should be given in the protocol, together with the estimates of any quantities used in the calculations (such as variances, mean values, response rates, event rates, difference to be detected). The basis of these estimates should also be given. It is important to investigate the sensitivity of the sample size estimate to a variety of deviations from these assumptions and this may be facilitated by providing a range of sample sizes appropriate for a reasonable range of deviations from assumptions. In confirmatory trials, assumptions should normally be based on published data or on the results of earlier trials. The treatment difference to be detected may be based on a judgement concerning the minimal effect which has clinical relevance in the management of patients or on a judgement concerning the anticipated effect of the new treatment, where this is larger. Conventionally the probability of type I error is set at 5% or less or as dictated by any adjustments made necessary for multiplicity considerations; the precise choice may be influenced by the prior plausibility of the hypothesis under test and the desired impact of the results. The probability of type II error is conventionally set at 10% to 20%; it is in the sponsor’s interest to keep this figure as low as feasible especially in the case of trials that are difficult or impossible to repeat. Alternative values to the conventional levels of type I and type II error may be acceptable or even preferable in some cases. 被験者 数を計算する方法は、計算に用いる見積値(分散、平均値、反応割合、イベント発生率、検出すべき差)とともに、治験実施計画書に定めておくべきである。ま た、これらの見積値の根拠も示すべきである。これらの仮定からの様々なずれに対して、必要な被験者数がどの程度変わり易いか調べることは重要であり、この ためには実際に起こりうるずれの範囲に対応する被験者数の範囲を示すことで実施することが容易になるであろう。検証的試験では、通常これらの仮定は公表さ れたデータ又は先行する試験の結果に基づくべきである。検出すべき試験治療の差は、患者の治療管理を行う上で臨床的に意味をもつ最小限度の効果に関する判 断又は新しい試験治療の予想される効果の方が大きい場合にはその効果に関する判断に基づいて決まるものであろう。慣例的に、第一種の過誤は5%以下に設定 され、多重性を考慮するために必要な調整がなされる場合はそれに従って設定される。検証すべき仮説のもっともらしさ及び検定結果に望む影響力の強さによ り、第一種の過誤の的確な選択に影響が及ぼされるであろう。第二種の過誤は、慣例として10%~20%に設定される。第二種の過誤を実施可能な範囲ででき る限り小さくすることは、特に繰り返すことが困難又は不可能な試験の場合、治験依頼者の利益となる。慣例として用いている第一種の過誤の値及び第二種の過 誤の値とは異なる値を用いることも許容される場合があり、むしろそれが好ましいこともあり得る。
Sample size calculations should refer to the number of subjects required for the primary analysis. If this is the 'full analysis set', estimates of the effect size may need to be reduced compared to the per protocol set (see Glossary). This is to allow for the dilution of the treatment effect arising from the inclusion of data from patients who have withdrawn from treatment or whose compliance is poor. The assumptions about variability may also need to be revised. 被験者 数の計算は、主要な解析で用いる解析対象集団に基づくべきである。解析対象集団が「最大の解析対象集団」である場合、効果の大きさに関する見積値は、治験 実施計画書に適合した対象集団(用語集参照)の場合に比べて小さくする必要があろう。これは、試験治療を中止した被験者又は服薬遵守状況の悪い被験者を解 析に含めることにより、試験治療の効果が薄められることを考慮するためである。このときばらつきに関する仮定も再検討する必要があろう。
The sample size of an equivalence trial or a non-inferiority trial (see Section 3.3.2) should normally be based on the objective of obtaining a confidence interval for the treatment difference that shows that the treatments differ at most by a clinically acceptable difference. When the power of an equivalence trial is assessed at a true difference of zero, then the sample size necessary to achieve this power is underestimated if the true difference is not zero. When the power of a non-inferiority trial is assessed at a zero difference, then the sample size needed to achieve that power will be underestimated if the effect of the investigational product is less than that of the active control. The choice of a 'clinically acceptable’ difference needs justification with respect to its meaning for future patients, and may be smaller than the 'clinically relevant' difference referred to above in the context of superiority trials designed to establish that a difference exists. 同等性 試験又は非劣性試験の被験者数(3.3.2節参照)は、通常試験治療の差の信頼区間を用いて、試験治療間の差が最大でも臨床的に許容できる範囲であること を示すという目的に基づいて計算すべきである。同等性試験での検出力が真の差をゼロとして設定されている場合、真の差がゼロでなければ、この検出力を達成 するために必要な被験者数よりも少なく見積もられることになる。非劣性試験での検出力が差をゼロとして設定されている場合、被験薬の効果が実対照薬の効果 よりも小さければ、この検出力を達成するための必要な被験者数よりも少なく見積もられることになる。「臨床的に許容できる」差は、その選択に当たり市販後 使用される患者に対してどのような意味を持つかに関する正当な理由が必要であり、差が存在することを立証するために計画する優越性試験において参照した前 述の「臨床的に適切な」差よりも小さくなるであろう。
The exact sample size in a group sequential trial cannot be fixed in advance because it depends upon the play of chance in combination with the chosen stopping guideline and the true treatment difference. The design of the stopping guideline should take into account the consequent distribution of the sample size, usually embodied in the expected and maximum sample sizes. 逐次群 試験での正確な被験者数は、選択した中止指針と真の試験治療の差に依存する上に、偶然の動きにも左右されるため、事前には固定できない。中止指針の設計に は、試験を続けた際の被験者数の分布を考慮すべきであり、通常これは期待被験者数及び最大被験者数により具体的に示される。
When event rates are lower than anticipated or variability is larger than expected, methods for sample size re-estimation are available without unblinding data or making treatment comparisons (see Section 4.4). イベン ト発生率が予想よりも低い場合、又はばらつきが予想よりも大きい場合は、割付を明らかにすること又は試験治療間の比較を行うことなく被験者数を見直すこと ができる(4.4節参照)。
3.6 Data Capture and Processing 3.6 データの獲得と処理
The collection of data and transfer of data from the investigator to the sponsor can take place through a variety of media, including paper case record forms, remote site monitoring systems, medical computer systems and electronic transfer. Whatever data capture instrument is used, the form and content of the information collected should be in full accordance with the protocol and should be established in advance of the conduct of the clinical trial. It should focus on the data necessary to implement the planned analysis, including the context information (such as timing assessments relative to dosing) necessary to confirm protocol compliance or identify important protocol deviations. ‘Missing values’ should be distinguishable from the ‘value zero’ or ‘characteristic absent’. 治験責 任医師から治験依頼者へのデータの収集と転送は、症例記録用紙、遠隔地モニタリングシステム、医療コンピューターシステム、電子的転送等の様々な媒体で行 うことができる。どのようなデータ獲得の手段を用いても、収集する情報の様式及びその内容は治験実施計画書と完全に一致させるべきであり、臨床試験の実施 前に確定しておくべきである。収集する情報の様式及びその内容は予定した解析の実施に必要なデータに合わせて考えるべきである。必要なデータには、治験実 施計画書遵守状況の確認又は重要な治験実施計画書からの逸脱を明らかにするために必要な背景情報(服薬に対応した評価の時期等)が含まれる。「欠測値」は 「ゼロ」又は「該当せず」と区別できるようにすべきである。
The process of data capture through to database finalisation should be carried out in accordance with GCP (see ICH E6, Section 5). Specifically, timely and reliable processes for recording data and rectifying errors and omissions are necessary to ensure delivery of a quality database and the achievement of the trial objectives through the implementation of the planned analysis. データ ベースの確定までのデータ獲得の手順は、GCPに従って実行すべきである(ICH E6、5節参照)。特に、質の高いデータベースの引き渡しを確かにし、予定した解析の履行を通した試験目的の達成を確かにするためには、データの記録並び に誤り及び無記入の訂正のために、適切なタイミングで信頼できる処理を実施することが、必要である。
IV. TRIAL CONDUCT CONSIDERATIONS IV. 試験実施上で考慮すべきこと
4.1 Trial Monitoring and Interim Analysis 4.1 治験モニタリングと中間解析
Careful conduct of a clinical trial according to the protocol has a major impact on the credibility of the results (see ICH E6). Careful monitoring can ensure that difficulties are noticed early and their occurrence or recurrence minimised. 治験実 施計画書に従って臨床試験が慎重に実施されているかどうかは、結果の信憑性に重要な影響を与える(ICH E6 参照)。慎重なモニタリングによって、実施上の問題の所在を早期に発見するとともに、問題の発生又は再発を最小限に抑えることが保証できる。
There are two distinct types of monitoring that generally characterise confirmatory clinical trials sponsored by the pharmaceutical industry. One type of monitoring concerns the oversight of the quality of the trial, while the other type involves breaking the blind to make treatment comparisons (i.e. interim analysis). Both types of trial monitoring, in addition to entailing different staff responsibilities, involve access to different types of trial data and information, and thus different principles apply for the control of potential statistical and operational bias. モニタ リングには、製薬企業が依頼する検証的試験の性格を一般に左右するような二つの異なる型式が存在する。一方の型式は試験の質の監視と関係したものであり、 もう一方の型式は試験治療の比較のために割付を明らかにすることを伴うものである(中間解析)。治験モニタリングにおける二つの型式はどちらも、異なるス タッフの責任を伴ううえ、異なる型式の試験データ及び情報へのアクセスを必要とすることから、このための異なる原則が、潜在的な統計的及び運営上の偏りの 制御に適用される。
For the purpose of overseeing the quality of the trial the checks involved in trial monitoring may include whether the protocol is being followed, the acceptability of data being accrued, the success of planned accrual targets, the appropriateness of the design assumptions, success in keeping patients in the trials, etc. (see Sections 4.2 to 4.4). This type of monitoring does not require access to information on comparative treatment effects, nor unblinding of data and therefore has no impact on type I error. The monitoring of a trial for this purpose is the responsibility of the sponsor (see ICH E6) and can be carried out by the sponsor or an independent group selected by the sponsor. The period for this type of monitoring usually starts with the selection of the trial sites and ends with the collection and cleaning of the last subject’s data. 試験の 質を監視するためには、治験モニタリングで、治験実施計画書が守られているか、集積されたデータが受け入れ可能か、予定している集積目標が達成されている か、計画時に用いた仮定は適切か、患者の試験への継続的参加に成功しているか、などをチェックする必要があろう(4.2節から4.4節を参照)。この型式 のモニタリングは、試験治療効果の比較に関する情報へのアクセスを必要としないだけでなく、割付を明らかにしたデータを必要としないため、第一種の過誤へ の影響を与えるものではない。この目的での治験モニタリングは治験依頼者の責任であり(ICH E6 参照)、治験依頼者又は治験依頼者によって任命された独立したグループが行うことができる。この型式のモニタリングの期間は、通常試験実施施設が選択され たときに始まり、最後の被験者のデータが収集されクリーニングされたときに終了する。
The other type of trial monitoring (interim analysis) involves the accruing of comparative treatment results. Interim analysis requires unblinded (i.e. key breaking) access to treatment group assignment (actual treatment assignment or identification of group assignment) and comparative treatment group summary information. This necessitates that the protocol (or appropriate amendments prior to a first analysis) contains statistical plans for the interim analysis to prevent certain types of bias. This is discussed in Sections 4.5 & 4.6. 治験モ ニタリングのもう一つの型式(中間解析)は、比較のため試験治療の結果の集積を必要とする。中間解析は、割付を明らかにして(キーコードの開示)試験治療 グループにアクセスすること(実際の試験治療の割付、又は割付グループの同定)を必要とし、比較を行う試験治療グループ間の要約情報を必要とする。このた め、ある種の偏りを防ぐ目的で、中間解析のための統計解析計画を治験実施計画書中(又は最初に解析を行う前に目的にあった改訂を行った場合、その改訂中) に含める必要がある。これに関しては4.5節と4.6節で議論する。
4.2 Changes in Inclusion and Exclusion Criteria 4.2 選択基準と除外基準の変更
Inclusion and exclusion criteria should remain constant, as specified in the protocol, throughout the period of subject recruitment. Changes may occasionally be appropriate, for example, in long term trials, where growing medical knowledge either from outside the trial or from interim analyses may suggest a change of entry criteria. Changes may also result from the discovery by monitoring staff that regular violations of the entry criteria are occurring, or that seriously low recruitment rates are due to over-restrictive criteria. Changes should be made without breaking the blind and should always be described by a protocol amendment which should cover any statistical consequences, such as sample size adjustments arising from different event rates, or modifications to the planned analysis, such as stratifying the analysis according to modified inclusion/exclusion criteria. 選択基 準及び除外基準は、被験者募集期間を通じて、治験実施計画書に明記されているとおり一定に保つべきである。ときには基準を変更することが適切な場合もあ る。例えば、長期にわたる試験において、その試験以外又は中間解析による医学知識の蓄積により、登録基準の変更が示唆される場合である。登録基準の違反が 日常的に起こること又は募集率の低さが深刻であることが、登録基準の制限が強すぎたためであることをモニタリング担当者が発見することにより、登録基準の 変更がなされる場合もある。登録基準の変更は割付を明らかにしない状態で行うべきであり、治験実施計画書の改訂に常に記述すべきである。治験実施計画書の 改訂には、例えば、イベント発生率が異なることにより行われなければならない必要な被験者数の調整などの統計的変更の内容、又は修正された選択/除外基準 に従った解析の層化など、予定した解析の修正を含めるべきである。
4.3 Accrual Rates 4.3 集積率
In trials with a long time-scale for the accrual of subjects, the rate of accrual should be monitored and, if it falls appreciably below the projected level, the reasons should be identified and remedial actions taken in order to protect the power of the trial and alleviate concerns about selective entry and other aspects of quality. In a multicentre trial these considerations apply to the individual centres. 被験者 の集積が長期にわたる試験では、集積率をモニターすべきである。もしそれが予定している水準を大きく下回る場合には、その理由を確認すべきであり、試験の 検出力を保ち、選択的登録及びその他試験の質に関する別の側面についての懸念を和らげるための対応策をとるべきである。多施設共同治験では、個々の施設に おいて、これらの配慮が適用される。
4.4 Sample Size Adjustment 4.4 必要な被験者数の調整
In long term trials there will usually be an opportunity to check the assumptions which underlay the original design and sample size calculations. This may be particularly important if the trial specifications have been made on preliminary and/or uncertain information. An interim check conducted on the blinded data may reveal that overall response variances, event rates or survival experience are not as anticipated. A revised sample size may then be calculated using suitably modified assumptions, and should be justified and documented in a protocol amendment and in the clinical study report. The steps taken to preserve blindness and the consequences, if any, for the type I error and the width of confidence intervals should be explained. The potential need for re-estimation of the sample size should be envisaged in the protocol whenever possible (see Section 3.5). 長期に わたる試験では、通常、当初の計画で用いた被験者数の計算根拠となる仮定を確認するための機会があろう。この確認は、試験計画の詳細が予備的情報若しくは 不確実な情報、又はその両方に基づいている場合、特に重要であろう。盲検下のデータを用い中間での確認を行うことにより、それまでの試験全体での、反応の 分散、イベント発生率又は生存状況が予期していた状況と異なることが明らかにされる場合がある。その場合、適切に修正した仮定に基づいて被験者数の再計算 を行うこととなるが、その正当性を明らかにし、治験実施計画書の改訂及び総括報告書に記録しなければならない。盲検性を維持するために行う手続きと共に、 可能であれば、第一種の過誤と信頼区間の幅に対する被験者数の変更による影響を説明すべきである。被験者数の再見積もりが必要になる可能性がある場合に は、そのことを可能な限り治験実施計画書に述べるべきである(3.5節参照)。
4.5 Interim Analysis and Early Stopping 4.5 中間解析と早期中止
An interim analysis is any analysis intended to compare treatment arms with respect to efficacy or safety at any time prior to formal completion of a trial. Because the number, methods and consequences of these comparisons affect the interpretation of the trial, all interim analyses should be carefully planned in advance and described in the protocol. Special circumstances may dictate the need for an interim analysis that was not defined at the start of a trial. In these cases, a protocol amendment describing the interim analysis should be completed prior to unblinded access to treatment comparison data. When an interim analysis is planned with the intention of deciding whether or not to terminate a trial, this is usually accomplished by the use of a group sequential design which employs statistical monitoring schemes as guidelines (see Section 3.4). The goal of such an interim analysis is to stop the trial early if the superiority of the treatment under study is clearly established, if the demonstration of a relevant treatment difference has become unlikely or if unacceptable adverse effects are apparent. Generally, boundaries for monitoring efficacy require more evidence to terminate a trial early (i.e. they are more conservative) than boundaries for monitoring safety. When the trial design and monitoring objective involve multiple endpoints then this aspect of multiplicity may also need to be taken into account. 中間解 析とは、試験が正式に完了する前に行われる有効性又は安全性に関する試験治療群間の比較を意図したすべての解析を指す。中間解析の回数、方法及び結果が試 験の解釈に影響するため、実施するすべての中間解析は前もって慎重に計画し、治験実施計画書に記述すべきである。特別な状況では、試験開始当初には予定し ていなかった中間解析が必要となる場合がある。中間解析が必要となる場合、割付が明らかにされ試験治療を比較するデータにアクセスする前に、治験実施計画 書の改訂に中間解析について記述しておくべきである。試験を継続すべきか中止すべきかの決定を目的として中間解析を計画する場合、統計的モニタリング計画 を指針とする逐次群計画を用いるのが通常である(3.4節参照)。このような中間解析の目的は、研究中の試験治療の優越性が疑いなく立証された場合、適切 な試験治療の差を示す見込みのないことが判明した場合又は許容できない有害作用が明らかになった場合に試験を早期に中止することにある。一般に、有効性モ ニタリングのための棄却限界値は、安全性モニタリングのための棄却限界値よりも、試験を早期に中止するための証拠をより多く必要とする(つまり、より保守 的とする必要がある)。治験実施計画とモニタリングの目的により、複数の評価項目が用いられる場合、それによる多重性にも注意を払う必要があろう。
The protocol should describe the schedule of interim analyses, or at least the considerations which will govern its generation, for example if flexible alpha spending function approaches are to be employed; further details may be given in a protocol amendment before the time of the first interim analysis. The stopping guidelines and their properties should be clearly described in the protocol or amendments. The potential effects of early stopping on the analysis of other important variables should also be considered. This material should be written or approved by the Data Monitoring Committee (see Section 4.6), when the trial has one. Deviations from the planned procedure always bear the potential of invalidating the trial results. If it becomes necessary to make changes to the trial, any consequent changes to the statistical procedures should be specified in an amendment to the protocol at the earliest opportunity, especially discussing the impact on any analysis and inferences that such changes may cause. The procedures selected should always ensure that the overall probability of type I error is controlled. 治験実 施計画書には中間解析のスケジュール又は、例えばアルファ消費関数を用いる柔軟な方法を予定している様な場合には、少なくとも中間解析の方針について述べ るべきである。より詳細な内容については最初の中間解析時までに治験実施計画書の改訂に示してもよい。中止の指針及びそれらの特質を治験実施計画書又はそ の改訂に明確に述べるべきである。早期中止が中止の判断に用いた変数以外の重要な変数に及ぼす影響と、それらの変数の解析方法についても考慮すべきであ る。この内容は、独立データモニタリング委員会が存在する場合には、その委員会により記述されるか又は承認されるべきである(4.6節参照)。予定した手 順からの逸脱により常に試験結果の妥当性が損なわれる可能性がある。試験に変更を加える必要性が生じた場合、変更により必要となる統計手法の変更のすべて を、できるだけ早い機会に治験実施計画書の改訂に明記すべきである。特にそのような変更が原因となるおそれがあるすべての解析及び推測への影響を議論して おかなければならない。選択した中間解析の方法が、全体の第一種の過誤の確率を制御していることを保証すべきである。
The execution of an interim analysis should be a completely confidential process because unblinded data and results are potentially involved. All staff involved in the conduct of the trial should remain blind to the results of such analyses, because of the possibility that their attitudes to the trial will be modified and cause changes in the characteristics of patients to be recruited or biases in treatment comparisons. This principle may be applied to all investigator staff and to staff employed by the sponsor except for those who are directly involved in the execution of the interim analysis. Investigators should only be informed about the decision to continue or to discontinue the trial, or to implement modifications to trial procedures. 中間解 析では、割付を明らかにしたデータと結果が必要となりうるため、内容が全く漏れない手順により実施しなければならない。試験に対するスタッフの態度の変化 及び募集される患者の特徴の変化が起こり、試験治療の比較に偏りをもたらす原因となりかねないため、試験の実施に関係しているすべてのスタッフが、中間解 析の結果を知ることがないようにすべきである。この原則は、中間解析の実施に直接関係している者を除く、治験責任医師に関係するスタッフ全員及び治験依頼 者に雇用されているスタッフにも適用されるといってよい。治験責任医師には、試験の継続若しくは中止の決定、又は試験手順の変更の決定のみを知らせるべき である。
Most clinical trials intended to support the efficacy and safety of an investigational product should proceed to full completion of planned sample size accrual; trials should be stopped early only for ethical reasons or if the power is no longer acceptable. However, it is recognised that drug development plans involve the need for sponsor access to comparative treatment data for a variety of reasons, such as planning other trials. It is also recognised that only a subset of trials will involve the study of serious life-threatening outcomes or mortality which may need sequential monitoring of accruing comparative treatment effects for ethical reasons. In either of these situations, plans for interim statistical analysis should be in place in the protocol or in protocol amendments prior to the unblinded access to comparative treatment data in order to deal with the potential statistical and operational bias that may be introduced. 被験薬 の有効性及び安全性を裏付けることを意図した臨床試験は、ほとんどの場合、予定した被験者数の集積が完全に完了するまで継続すべきである。試験は、倫理的 な理由又は検出力が容認できない場合に限り、早期に中止すべきである。しかし、医薬品開発計画には、他の試験計画の立案など様々な理由から、比較のための 試験治療データに治験依頼者がアクセスする必要性があることが認識されている。また、集積していく試験治療効果の比較に関して継続的なモニタリングが倫理 的な理由から必要となるような、生命を脅かす重篤な結果に関する研究又は死亡に関する研究があるが、そのような試験は全体のごく一部であることも認識され ている。どちらの状況でも中間統計解析の計画は、生じるおそれのある潜在的な統計的及び運営上の偏りに対処するため、割付を明らかにして試験治療の比較 データにアクセスする前に、治験実施計画書又はその改訂の適切な箇所に記載すべきである。
For many clinical trials of investigational products, especially those that have major public health significance, the responsibility for monitoring comparisons of efficacy and/or safety outcomes should be assigned to an external independent group, often called an Independent Data Monitoring Committee (IDMC), a Data and Safety Monitoring Board or a Data Monitoring Committee whose responsibilities should be clearly described. 被験薬 に関する臨床試験では多くの場合、特に公衆衛生上意義のある試験の場合は、有効性若しくは安全性の一方、又はその両方の比較についてのモニタリングに対す る責任は、外部の独立したグループに委ねられるべきである。このグループは、独立データモニタリング委員会、データ及び安全性モニタリング委員会、又は データモニタリング委員会と呼ばれることがあり、その責任は明確にしておく必要がある。
When a sponsor assumes the role of monitoring efficacy or safety comparisons and therefore has access to unblinded comparative information, particular care should be taken to protect the integrity of the trial and to manage and limit appropriately the sharing of information. The sponsor should assure and document that the internal monitoring committee has complied with written standard operating procedures and that minutes of decision making meetings including records of interim results are maintained. 治験依 頼者が有効性又は安全性を比較するためのモニタリングの役割を担い、割付を明らかにした情報へのアクセス権を持つ場合、試験の完全性を維持し、情報の共有 を適切に管理し制限するために特別の注意が払われるべきである。治験依頼者は、内部モニタリング委員会が文書で書かれた標準業務手順書に従っていること及 び意思決定を行った会議の議事録が中間解析の結果とともに保持されていることを保証し記録に残すべきである。
Any interim analysis that is not planned appropriately (with or without the consequences of stopping the trial early) may flaw the results of a trial and possibly weaken confidence in the conclusions drawn. Therefore, such analyses should be avoided. If unplanned interim analysis is conducted, the clinical study report should explain why it was necessary, the degree to which blindness had to be broken, provide an assessment of the potential magnitude of bias introduced, and the impact on the interpretation of the results. 適切に 計画されていない中間解析はすべて(試験の早期中止の結論によらず)、試験の結果を損なう恐れがあるとともに導いた結論の信憑性を低下させる可能性があ る。したがって、計画されていない中間解析は行うべきではない。もし予定外の中間解析を実施するならば、その解析の必要性及びどの程度割付を明らかにした かを総括報告書に説明すべきであり、生じるおそれのある偏りの大きさ及び結果の解釈への影響を評価すべきである。
4.6 Role of Independent Data Monitoring Committee (IDMC) 4.6 独立データモニタリング委員会の役割
(see Sections 1.25 and 5.52 of ICH E6) (ICH E6、1.25節及び5.52節参照)
An IDMC may be established by the sponsor to assess at intervals the progress of a clinical trial, safety data, and critical efficacy variables and recommend to the sponsor whether to continue, modify or terminate a trial. The IDMC should have written operating procedures and maintain records of all its meetings, including interim results; these should be available for review when the trial is complete. The independence of the IDMC is intended to control the sharing of important comparative information and to protect the integrity of the clinical trial from adverse impact resulting from access to trial information. The IDMC is a separate entity from an Institutional Review Board (IRB) or an Independent Ethics Committee (IEC), and its composition should include clinical trial scientists knowledgeable in the appropriate disciplines including statistics. 独立 データモニタリング委員会は、臨床試験の進行状況、安全性データ及び重要な有効性変数を何回かにわたり評価するとともに治験依頼者に試験の継続、変更、又 は中止を勧告するために治験依頼者が設立できる。独立データモニタリング委員会は、文書で書かれた業務手順書を持つべきであり、すべての会議の議事録と中 間解析の結果を保持すべきである。また、これらは試験完了時には審査可能な状態にしておくべきである。独立データモニタリング委員会の独立性は、比較を目 的とした重要な情報の漏洩を管理すること及び臨床試験の情報にアクセスすることによる悪影響から試験の完全性を守ることを目的としたものである。独立デー タモニタリング委員会は治験審査委員会又は倫理委員会とは別の組織であり、統計学を含む適切な学識を持った臨床試験の専門家から構成されるべきである。
When there are sponsor representatives on the IDMC, their role should be clearly defined in the operating procedures of the committee (for example, covering whether or not they can vote on key issues). Since these sponsor staff would have access to unblinded information, the procedures should also address the control of dissemination of interim trial results within the sponsor organisation. 独立 データモニタリング委員会に治験依頼者を代表する者が参加する場合、(例えば、主要な問題の採決に参加できるかどうか等)その役割を委員会の業務手順書に 明確に定めるべきである。委員会に参加した治験依頼者のスタッフは割付を明らかにした情報に対しアクセス権を持つと考えられることから、業務手順書には治 験依頼者の組織に対し試験の中間結果の開示を制限することについても述べるべきである。
V. DATA ANALYSIS CONSIDERATIONS V. データ解析上で考慮すべきこと
5.1 Prespecification of the Analysis 5.1 解析の事前明記
When designing a clinical trial the principal features of the eventual statistical analysis of the data should be described in the statistical section of the protocol. This section should include all the principal features of the proposed confirmatory analysis of the primary variable(s) and the way in which anticipated analysis problems will be handled. In case of exploratory trials this section could describe more general principles and directions. 臨床試 験の計画立案の際、データの最終統計解析の主要な特徴は、治験実施計画書の統計の部に記述すべきである。統計の部には、主要変数について行うこととした検 証的解析の主要な特徴のすべてと、予想される解析上の問題に対処する方法を含めるべきである。探索的試験の場合には、統計の部の記述をより一般的な原則と 方向性にとどめることができる。
The statistical analysis plan (see Glossary) may be written as a separate document to be completed after finalising the protocol. In this document, a more technical and detailed elaboration of the principal features stated in the protocol may be included (see section 7.1). The plan may include detailed procedures for executing the statistical analysis of the primary and secondary variables and other data. The plan should be reviewed and possibly updated as a result of the blind review of the data (see 7.1 for definition) and should be finalised before breaking the blind. Formal records should be kept of when the statistical analysis plan was finalised as well as when the blind was subsequently broken. 統計解 析計画書(用語集参照)は治験実施計画書完成後に別の文書として作成することができる。統計解析計画書には、治験実施計画書に述べた解析の主要な特徴につ いて、より技術的で詳細な記述を含めることができる(7.1節参照)。統計解析計画書には、主要変数、副次変数及びその他のデータに関する統計解析を実行 するための詳細な手順を記載してもよい。統計解析計画はデータの盲検下レヴュー(7.1節で定義する)の結果に基づいて再検討すべきであり、場合によって は更新し、割付を明らかにする前に完成させるべきである。割付を明らかにした日付だけではなく、統計解析計画書を完成した日付も公式な記録として保持すべ きである。
If the blind review suggests changes to the principal features stated in the protocol, these should be documented in a protocol amendment. Otherwise, it will suffice to update the statistical analysis plan with the considerations suggested from the blind review. Only results from analyses envisaged in the protocol (including amendments) can be regarded as confirmatory. 盲検下 レヴューから、治験実施計画書に述べた解析の主要な特徴となる事項の変更を提案しようとする場合、変更の内容は治験実施計画書の改訂に記録すべきである。 変更が主要事項でない場合は、盲検下レヴューにより示唆された検討事項に基づいて統計解析計画書を更新すれば十分であろう。治験実施計画書(その改訂を含 む)に予定された解析の結果のみが検証的であるとみなされる。
In the statistical section of the clinical study report the statistical methodology should be clearly described including when in the clinical trial process methodology decisions were made (see ICH E3). 総括報 告書の統計の部には、一連の臨床試験の過程において方法論に関する決定がいつなされたかも含めて、統計的方法論を明確に記述すべきである(ICH E3 参照)。
5.2 Analysis Sets 5.2 解析対象集団
The set of subjects whose data are to be included in the main analyses should be defined in the statistical section of the protocol. In addition, documentation for all subjects for whom trial procedures (e.g. run-in period) were initiated may be useful. The content of this subject documentation depends on detailed features of the particular trial, but at least demographic and baseline data on disease status should be collected whenever possible. 主要な 解析でデータが用いられる被験者の集団は、治験実施計画書の統計の部で定義すべきである。更に、試験の手続きが開始された(例えば、治験導入期の)すべて の被験者の記録は有用といってよい。この被験者の記録の内容は、個々の試験の詳細に依存するが、少なくとも人口統計学的なデータ及び疾患の状態に関する基 準となる時点のデータは、可能な限り収集すべきである。
If all subjects randomised into a clinical trial satisfied all entry criteria, followed all trial procedures perfectly with no losses to follow-up, and provided complete data records, then the set of subjects to be included in the analysis would be self-evident. The design and conduct of a trial should aim to approach this ideal as closely as possible, but, in practice, it is doubtful if it can ever be fully achieved. Hence, the statistical section of the protocol should address anticipated problems prospectively in terms of how these affect the subjects and data to be analysed. The protocol should also specify procedures aimed at minimising any anticipated irregularities in study conduct that might impair a satisfactory analysis, including various types of protocol violations, withdrawals and missing values. The protocol should consider ways both to reduce the frequency of such problems, and also to handle the problems that do occur in the analysis of data. Possible amendments to the way in which the analysis will deal with protocol violations should be identified during the blind review. It is desirable to identify any important protocol violation with respect to the time when it occurred, its cause and influence on the trial result. The frequency and type of protocol violations, missing values, and other problems should be documented in the clinical study report and their potential influence on the trial results should be described (see ICH E3). ランダ ム化が行われて臨床試験に参加したすべての被験者が、すべての登録基準を満たし、追跡不能となることもなくすべての試験手順に従い、そしてデータの記録が 完全であれば、解析に含める被験者の集団は自明であろう。試験を計画し、実施するに当たっては、この理想に可能な限り近づけることを目ざすべきであるが、 実際には、これまでにこの理想が完全に達成されたことがあるかどうかは疑わしい。したがって治験実施計画書の統計の部には、予想される問題について、それ らが被験者及び解析されるデータにどのように影響を与えるかについて前もって述べておくべきである。更に治験実施計画書には、十分な解析を損なうと予想さ れる研究実施中の変則的な事例のすべて(様々な種類の治験実施計画書違反、試験治療の中止、欠測値を含む)を最小にするための手続きも明記すべきである。 治験実施計画書では、そのような問題の発生する頻度を少なくするための方法と、データ解析中に起こる問題へ対処する方法とを考慮しておくべきである。治験 実施計画書違反に対処する解析の方法を修正する必要性があれば、盲検下レヴューの際に確認しておくべきである。すべての重要な治験実施計画書違反は、違反 が起きた日時、違反が起きた理由及び試験結果へ与える影響を明らかにすることが望ましい。治験実施計画書違反及び欠測値などの問題の発生頻度とその種類は 総括報告書に記録すべきであり、それらが試験結果に対し、どのような影響を与える可能性があるかを記述すべきである(ICH E3 参照)。
Decisions concerning the analysis set should be guided by the following principles : 1) to minimise bias, and 2) to avoid inflation of type I error. 解析対 象集団の選択に関する判断は、次の二つの原則に従うべきである: 1) 偏りを最小にすること、及び2) 第一種の過誤の増大を回避すること。
5.2.1 Full Analysis Set 5.2.1 最大の解析対象集団
The intention-to-treat (see Glossary) principle implies that the primary analysis should include all randomised subjects. Compliance with this principle would necessitate complete follow-up of all randomised subjects for study outcomes. In practice this ideal may be difficult to achieve, for reasons to be described. In this document the term 'full analysis set' is used to describe the analysis set which is as complete as possible and as close as possible to the intention-to-treat ideal of including all randomised subjects. Preservation of the initial randomisation in analysis is important in preventing bias and in providing a secure foundation for statistical tests. In many clinical trials the use of the full analysis set provides a conservative strategy. Under many circumstances it may also provide estimates of treatment effects which are more likely to mirror those observed in subsequent practice. Intention -to-treatの原則(用語集参照)は、ランダム化が行われた全被験者を主要な解析に含めるべきであると主張するものである。この原則を遵守するに は、臨床結果を得るためにランダム化が行われた全被験者を完全に追跡することを必要とするであろう。しかし実際には、後に述べる理由からこの理想を達成す ることは難しいであろう。本ガイドラインでは「最大の解析対象集団」という用語を用いて、ランダム化が行われた全被験者を含めるintention-to -treat という理想に可能な限り完全に近づけた解析対象集団を表すことにする。解析時にも最初のランダム化を維持することは、偏りを防ぎ、統計的検定の強固な基盤 を与える点で重要である。多くの臨床試験において、最大の解析対象集団を用いることは保守的な戦略となる。また多くの状況で、最大の解析対象集団により得 られる試験治療の効果の推定値は、後の日常診療での効果を反映する可能性がより高いといってよい。
There are a limited number of circumstances that might lead to excluding randomised subjects from the full analysis set including the failure to satisfy major entry criteria (eligibility violations), the failure to take at least one dose of trial medication and the lack of any data post randomisation. Such exclusions should always be justified. Subjects who fail to satisfy an entry criterion may be excluded from the analysis without the possibility of introducing bias only under the following circumstances: ランダ ム化が行われた被験者を最大の解析対象集団から除外することになる状況は限られている。それらには、主要な登録基準を満たしていない場合(適格基準違 反)、試験治療を一回も受けていない場合、ランダム化後のデータがない場合などがある。そのような除外については常に理由を示すべきである。登録基準を満 たしていない被験者は、以下の条件下でのみ偏りを導入する可能性なく除外できるであろう。
(i) the entry criterion was measured prior to randomisation; (i) 登録基準はランダム化以前に評価されている
(ii) the detection of the relevant eligibility violations can be made completely objectively; (ii) 除外の対象となる適格基準違反の発見は完全に客観的になされる
(iii) all subjects receive equal scrutiny for eligibility violations; (This may be difficult to ensure in an open-label study, or even in a double-blind study if the data are unblinded prior to this scrutiny, emphasising the importance of the blind review.) (iii) すべての被験者が適格基準違反について同様の綿密さで調べられている(非盲検試験においてはこの保証は困難であり、二重盲検試験であっても割付を明らかに した後では難しい。このことは盲検下レヴューの重要性を強調している。)
(iv) all detected violations of the particular entry criterion are excluded. (iv) 特定の登録基準違反が発見された場合、それに関するすべての違反が除外される
In some situations, it may be reasonable to eliminate from the set of all randomised subjects any subject who took no trial medication. The intention-to-treat principle would be preserved despite the exclusion of these patients provided, for example, that the decision of whether or not to begin treatment could not be influenced by knowledge of the assigned treatment. In other situations it may be necessary to eliminate from the set of all randomised subjects any subject without data post randomisation. No analysis is complete unless the potential biases arising from these specific exclusions, or any others, are addressed. ランダ ム化が行われた全被験者から試験治療を一度も受けていない被験者を除くことが適切な場合もある。これらの患者を除外しても、例えば試験治療を開始するかど うかの判断が、割付けられた試験治療が何であるかに影響されない場合には、intention-to-treat の原則は保たれるであろう。ランダム化後のデータが全くない被験者をランダム化が行われた全対象集団から除外しなければならない場合もある。これらの個々 の除外から生じる可能性のある偏り又はその他の偏りを明示しない限り、どのような解析も完全とはいえない。
When the full analysis set of subjects is used, violations of the protocol that occur after randomisation may have an impact on the data and conclusions, particularly if their occurrence is related to treatment assignment. In most respects it is appropriate to include the data from such subjects in the analysis, consistent with the intention-to-treat principle. Special problems arise in connection with subjects withdrawn from treatment after receiving one or more doses who provide no data after this point, and subjects otherwise lost to follow-up, because failure to include these subjects in the full analysis set may seriously undermine the approach. Measurements of primary variables made at the time of the loss to follow-up of a subject for any reason, or subsequently collected in accordance with the intended schedule of assessments in the protocol, are valuable in this context; subsequent collection is especially important in studies where the primary variable is mortality or serious morbidity. The intention to collect data in this way should be described in the protocol. Imputation techniques, ranging from the carrying forward of the last observation to the use of complex mathematical models, may also be used in an attempt to compensate for missing data. Other methods employed to ensure the availability of measurements of primary variables for every subject in the full analysis set may require some assumptions about the subjects' outcomes or a simpler choice of outcome (e.g. success / failure). The use of any of these strategies should be described and justified in the statistical section of the protocol and the assumptions underlying any mathematical models employed should be clearly explained. It is also important to demonstrate the robustness of the corresponding results of analysis especially when the strategy in question could itself lead to biased estimates of treatment effects. 最大の 解析対象集団を用いる場合、ランダム化後に起こる治験実施計画書違反は、特にそれらの発生が試験治療の割付と関連しているときに、データ及び結論に影響す るおそれがある。ほとんどの場合、ランダム化後に違反があった被験者のデータを解析に含めることが適切であり、intention-to-treat の原則とも一致する。試験治療を一度以上受けた後で試験治療を中止し、その後のデータがない被験者及び中止ではないが追跡不能となった被験者の扱いに関連 して特別の問題が起きる。なぜなら、これらの被験者を最大の解析対象集団に含めないことにより、この方法が大きく損なわれるおそれがあるからである。どの ような理由にせよ被験者が追跡不能となった時点に測定された主要変数の測定値、又は追跡不能となった後に治験実施計画書に従って集められた主要変数の測定 値は、この観点から重要である。主要変数を追跡不能となった後に収集することは、死亡又は重大な疾患の発生を主要変数とする研究では特に重要である。この ようにしてデータを収集するということは、治験実施計画書に記述すべきである。最終観察値をそれ以降の値に外挿する方法から複雑な数理モデルの使用まで、 欠測値を埋め合わせる試みとして様々な技法を用いることができる。最大の解析対象集団の被験者全てについて、主要変数の測定値が利用できることを保証する ために用いられる別の方法では、被験者の臨床結果又はより単純化した臨床結果(例えば、成功か失敗か)について何らかの仮定が必要であろう。これらのうち どの戦略を用いる場合でも、治験実施計画書の統計の部にその理由とともに記述し、数理モデルで用いる前提は明確に説明すべきである。対応する解析結果の安 定性を示すことも重要であり、用いる戦略自体が試験治療の効果の偏った推定値を与える可能性がある場合には特に重要である。
Because of the unpredictability of some problems, it may sometimes be preferable to defer detailed consideration of the manner of dealing with irregularities until the blind review of the data at the end of the trial, and, if so, this should be stated in the protocol. 前もっ て予見できない問題もあるため、それらの変則的な事例を取り扱う方法に関する詳細な検討は、時期を遅らせて研究終了前に行うデータの盲検下レヴュー時に 行った方がよい場合もあろう。そのような場合は、治験実施計画書に述べるべきである。
5.2.2 Per Protocol Set 5.2.2 治験実施計画書に適合した対象集団
The 'per protocol' set of subjects, sometimes described as the 'valid cases', the 'efficacy' sample or the 'evaluable subjects' sample, defines a subset of the subjects in the full analysis set who are more compliant with the protocol and is characterised by criteria such as the following: ときに は「valid case(妥当例)」、「the efficacy sample(有効性サンプル)」、又は「evaluable subjects sample(評価可能被験者サンプル)」と表される「治験実施計画書に適合した」対象集団は、最大の解析対象集団の被験者のうち治験実施計画書をより遵 守している一部であり、以下のような基準から特徴づけられる。
(i) the completion of a certain pre-specified minimal exposure to the treatment regimen; (i) 事前に定められた最低限の試験治療規定を完了していること
(ii) the availability of measurements of the primary variable(s); (ii) 主要変数の測定値が利用可能であること
(iii) the absence of any major protocol violations including the violation of entry criteria. (iii) 登録基準違反などの重大な治験実施計画書違反がないこと
The precise reasons for excluding subjects from the per protocol set should be fully defined and documented before breaking the blind in a manner appropriate to the circumstances of the specific trial. 治験実 施計画書に適合した対象集団から被験者を除外する理由の詳細は、個々の試験の状況に合わせた適切な方法により、割付を明らかにする前にすべて明確にし、文 書として記録すべきである。
The use of the per protocol set may maximise the opportunity for a new treatment to show additional efficacy in the analysis, and most closely reflects the scientific model underlying the protocol. However, the corresponding test of the hypothesis and estimate of the treatment effect may or may not be conservative depending on the trial; the bias, which may be severe, arises from the fact that adherence to the study protocol may be related to treatment and outcome. 治験実 施計画書に適合した対象集団を用いることは、解析において新しい試験治療が有効性を示す可能性を最も大きくするといってもよく、治験実施計画書の基礎と なっている科学的なモデルを最もよく反映することになる。しかし、対応する仮説検定と試験治療の効果の推定値は試験により保守的となる場合もならない場合 もある。治験実施計画書の遵守状況が試験治療及び臨床結果と関連している場合には、生じる偏りは重大なものとなるおそれがある。
The problems that lead to the exclusion of subjects to create the per protocol set, and other protocol violations, should be fully identified and summarised. Relevant protocol violations may include errors in treatment assignment, the use of excluded medication, poor compliance, loss to follow-up and missing data. It is good practice to assess the pattern of such problems among the treatment groups with respect to frequency and time to occurrence. 治験実 施計画書に適合した対象集団を作り出すために被験者を除外しなければならなくなるような問題及びその他の治験実施計画書違反は、十分に把握し要約すべきで ある。ここで言う治験実施計画書違反には、試験治療の割付間違い、禁止薬剤の使用、低い服薬遵守状況、追跡不能及び欠測値などがある。試験治療グループ間 で、これらの問題の発生頻度及び発生時間のパターンを評価することはよい対処法である。
5.2.3 Roles of the Different Analysis Sets 5.2.3 二つの異なる解析対象集団の役割
In general, it is advantageous to demonstrate a lack of sensitivity of the principal trial results to alternative choices of the set of subjects analysed. In confirmatory trials it is usually appropriate to plan to conduct both an analysis of the full analysis set and a per protocol analysis, so that any differences between them can be the subject of explicit discussion and interpretation. In some cases, it may be desirable to plan further exploration of the sensitivity of conclusions to the choice of the set of subjects analysed. When the full analysis set and the per protocol set lead to essentially the same conclusions, confidence in the trial results is increased, bearing in mind, however, that the need to exclude a substantial proportion of subjects from the per protocol analysis throws some doubt on the overall validity of the trial. 一般 に、解析に用いる被験者集団の選択の変更を行っても、主要な試験結果が変わらないことを示すことは有益である。検証的試験では、最大の解析対象集団の解析 と治験実施計画書に適合した対象集団の解析との相違を明示的な議論と解釈の対象にできるよう、通常両方の解析を計画することが適切である。解析対象集団の 変更により結論がどの程度変わり易いかを、更に探索する計画を立てた方が望ましい場合もあろう。最大の解析対象集団の解析と治験実施計画書に適合した対象 集団の解析が本質的に同じ結論に達する場合、試験結果の信用度は高くなる。しかしその場合でも、最大の解析対象集団の相当の割合を治験実施計画書に適合し た解析で除かなければならない場合には、試験全体の妥当性が疑われることに注意する必要がある。
The full analysis set and the per protocol set play different roles in superiority trials (which seek to show the investigational product to be superior), and in equivalence or non-inferiority trials (which seek to show the investigational product to be comparable, see section 3.3.2). In superiority trials the full analysis set is used in the primary analysis (apart from exceptional circumstances) because it tends to avoid over-optimistic estimates of efficacy resulting from a per protocol analysis, since the non-compliers included in the full analysis set will generally diminish the estimated treatment effect. However, in an equivalence or non-inferiority trial use of the full analysis set is generally not conservative and its role should be considered very carefully. 最大の 解析対象集団と治験実施計画書に適合した対象集団は、(被験薬が優っていることを示そうとする)優越性試験と(被験薬が匹敵しうることを示そうとする、 3.3.2節参照)同等性試験又は非劣性試験とで異なる役割を果たす。優越性試験では、最大の解析対象集団から得られる有効性の推定値は、治験実施計画書 に適合した解析ほど過度に楽観的ではないため、最大の解析対象集団が(例外的な状況を除いて)主要な解析に用いられる。なぜならば、最大の解析対象集団に 含まれる遵守状況の悪い被験者は、推定される試験治療の効果を一般に小さくするからである。しかし、同等性試験又は非劣性試験では、最大の解析対象集団を 使用することは一般に保守的ではないため、その役割は十分慎重に考慮すべきである。
5.3 Missing Values and Outliers 5.3 欠測値と外れ値
Missing values represent a potential source of bias in a clinical trial. Hence, every effort should be undertaken to fulfil all the requirements of the protocol concerning the collection and management of data. In reality, however, there will almost always be some missing data. A trial may be regarded as valid, nonetheless, provided the methods of dealing with missing values are sensible, and particularly if those methods are pre-defined in the protocol. Definition of methods may be refined by updating this aspect in the statistical analysis plan during the blind review. Unfortunately, no universally applicable methods of handling missing values can be recommended. An investigation should be made concerning the sensitivity of the results of analysis to the method of handling missing values, especially if the number of missing values is substantial. 欠測値 は、臨床試験において偏りを起こし得る代表的な原因である。したがって、データ収集及びデータマネジメントに関しては、治験実施計画書が要求する事項につ いて、すべてを満たすようあらゆる努力をすべきである。しかし、実際には、ほとんど常に欠測値がいくつか存在するであろう。そうであったとしても、欠測値 を扱う方法が適切で、特にそれらの方法が治験実施計画書の解析計画中に事前に定められている場合には、試験は妥当であるとみなすことができる。この観点か ら盲検下レヴューの間に統計解析計画書を見直すことにより、欠測値を扱う方法が洗練されるであろう。残念ながら、欠測値に対処する方法で、普遍的に適用可 能と薦められる方法はない。欠測値に対処する方法により解析結果がどの程度変わり易いかを、欠測の数が多い場合には特に、検討すべきである。
A similar approach should be adopted to exploring the influence of outliers, the statistical definition of which is, to some extent, arbitrary. Clear identification of a particular value as an outlier is most convincing when justified medically as well as statistically, and the medical context will then often define the appropriate action. Any outlier procedure set out in the protocol or the statistical analysis plan should be such as not to favour any treatment group a priori. Once again, this aspect of the analysis can be usefully updated during blind review. If no procedure for dealing with outliers was foreseen in the trial protocol, one analysis with the actual values and at least one other analysis eliminating or reducing the outlier effect should be performed and differences between their results discussed. 同様の 手法は、外れ値(その統計的定義はある程度恣意的だが)の影響を探索するためにも用いるべきである。特定の値が外れ値であると明確に判断するのに最も説得 力があるのは、統計的に正当であるだけではなく医学的にも正当な場合であり、医学的な背景によりしばしば適切な対応が決定される例がみられる。治験実施計 画書又は統計解析計画書に記載する外れ値対策は、どのような場合でも先験的にどの試験治療グループの利益にもならないようにすべきである。この観点から、 盲検下レヴュー中に再度解析を見直すことが有益である。治験実施計画書中に外れ値に対処する方法が記載されていない場合、実際の値を用いた解析のほかに、 外れ値の影響を除くか小さくする別の解析を少なくとも一つ行うべきであり、それらの結果の間の差異を議論すべきである。
5.4 Data Transformation 5.4 データ変換
The decision to transform key variables prior to analysis is best made during the design of the trial on the basis of similar data from earlier clinical trials. Transformations (e.g. square root, logarithm) should be specified in the protocol and a rationale provided, especially for the primary variable(s). The general principles guiding the use of transformations to ensure that the assumptions underlying the statistical methods are met are to be found in standard texts; conventions for particular variables have been developed in a number of specific clinical areas. The decision on whether and how to transform a variable should be influenced by the preference for a scale which facilitates clinical interpretation. 重要な 変数を変換するために必要な判断は解析の前に行い、先行する臨床試験での類似データに基づいて治験実施計画立案時に行うのが最善である。変換(例えば、平 方根、対数)を行うことは、主要変数については特に治験実施計画書に明記すべきであり、その理論的根拠を述べるべきである。統計手法の前提を満たすことを 保証するための変換の一般的な原則は、標準的な教科書に書かれている。また、特定の変数についての変換の慣例的方法は、多くの臨床領域別に開発されてきて いる。変数を変換するかどうか、変換するのであればどのように変換するかという判断は、臨床的な解釈を容易にする尺度を選択するという観点も含めて行われ るべきである。
Similar considerations apply to other derived variables, such as the use of change from baseline, percentage change from baseline, the 'area under the curve' of repeated measures, or the ratio of two different variables. Subsequent clinical interpretation should be carefully considered, and the derivation should be justified in the protocol. Closely related points are made in Section 2.2.2. 同様な 配慮は、基準となる時点での値からの変化、基準となる時点での値からの変化割合、繰り返し測定の「曲線下面積」、又は二つの異なる変数の比、といった新た な変数の導出の際にも行うべきである。新たな変数の臨床的解釈は注意深く検討されるべきであり、その正当性も治験実施計画書に述べるべきである。密接に関 連した話題が2.2.2節に述べられている。
5.5 Estimation, Confidence Intervals and Hypothesis Testing 5.5 推定、信頼区間及び仮説検定
The statistical section of the protocol should specify the hypotheses that are to be tested and/or the treatment effects which are to be estimated in order to satisfy the primary objectives of the trial. The statistical methods to be used to accomplish these tasks should be described for the primary (and preferably the secondary) variables, and the underlying statistical model should be made clear. Estimates of treatment effects should be accompanied by confidence intervals, whenever possible, and the way in which these will be calculated should be identified. A description should be given of any intentions to use baseline data to improve precision or to adjust estimates for potential baseline differences, for example by means of analysis of covariance. 治験実 施計画書の統計の部には、試験の主要な目的に対応した検定すべき仮説及び推定すべき試験治療の効果のどちらか又は両方を明記すべきである。主要変数につい ては(望むべくは副次変数についても)、これらの目的を果たすための作業に用いる統計手法を記述すべきであり、基礎となる統計モデルを明確にすべきであ る。試験治療の効果の推定値は可能な限り信頼区間とともに提示すべきものであることから、治験実施計画書の統計の部にはこれらを求める方法を示すべきであ る。例えば共分散分析を用いて、精度の向上のため又は存在する可能性のある基準となる時点での差について推定値を調整するために、基準となる時点での値を 使用するいかなる目的に関しても説明を加えるべきである。
It is important to clarify whether one- or two-sided tests of statistical significance will be used, and in particular to justify prospectively the use of one-sided tests. If hypothesis tests are not considered appropriate, then the alternative process for arriving at statistical conclusions should be given. The issue of one-sided or two-sided approaches to inference is controversial and a diversity of views can be found in the statistical literature. The approach of setting type I errors for one-sided tests at half the conventional type I error used in two-sided tests is preferable in regulatory settings. This promotes consistency with the two-sided confidence intervals that are generally appropriate for estimating the possible size of the difference between two treatments. 片側検 定を用いるか両側検定を用いるかを明確にすることは重要であり、特に片側検定の使用については前もって理由づけることが重要である。仮説検定が適切ではな いと考えられる場合には、統計的結論を導くための別な手続きを提示すべきである。推測を片側と考えるか両側と考えるかには議論があり、統計学の文献にも様 々な見解がみられる。承認申請のための試験では、片側検定の第一種の過誤を両側検定で慣例的に用いている値の半分に設定する方法が好ましい。このように設 定することにより、試験治療間の差の大きさを推定するために通常用いられる両側信頼区間との整合性を図ることができる。
The particular statistical model chosen should reflect the current state of medical and statistical knowledge about the variables to be analysed as well as the statistical design of the trial. All effects to be fitted in the analysis (for example in analysis of variance models) should be fully specified, and the manner, if any, in which this set of effects might be modified in response to preliminary results should be explained. The same considerations apply to the set of covariates fitted in an analysis of covariance. (See also Section 5.7.). In the choice of statistical methods due attention should be paid to the statistical distribution of both primary and secondary variables. When making this choice (for example between parametric and non-parametric methods) it is important to bear in mind the need to provide statistical estimates of the size of treatment effects together with confidence intervals (in addition to significance tests). 選択す る個別の統計モデルには、試験の計画段階での統計的な配慮を反映させると同時に、解析する変数に関する現在の医学的及び統計的知識を反映させるべきであ る。(例えば、分散分析モデルで)解析に含める効果のすべてを十分に明記すべきであり、予備的な結果からこの効果の組を変更する可能性があるのであれば、 そのやり方を説明すべきである。共分散分析に用いる共変量の組に関しても同様の考慮が当てはまる(5.7節も参照のこと)。統計的方法を選択する際には、 主要変数及び副次変数両方の統計的分布に対して十分な注意を払うべきである。(例えばパラメトリック手法を用いるかノンパラメトリック手法を用いるかの) 選択の際には、試験治療効果の大きさに関する統計的推定値を、(有意性検定に加えて)信頼区間とともに示すことが必要だと心得ておくことが重要である。
The primary analysis of the primary variable should be clearly distinguished from supporting analyses of the primary or secondary variables. Within the statistical section of the protocol or the statistical analysis plan there should also be an outline of the way in which data other than the primary and secondary variables will be summarised and reported. This should include a reference to any approaches adopted for the purpose of achieving consistency of analysis across a range of trials, for example for safety data. 主要変 数の主要な解析は、その裏付けとして行う主要変数又は副次変数の解析とは明確に区別すべきである。治験実施計画書の統計の部又は統計解析計画書には、主要 変数及び副次変数以外のデータをどのように要約し報告するかについての概要も記述すべきである。その際、一連の試験にまたがる解析、例えば安全性データの 解析を一貫させるためにとったすべての手段についても言及すべきである。
Modelling approaches that incorporate information on known pharmacological parameters, the extent of protocol compliance for individual subjects or other biologically based data may provide valuable insights into actual or potential efficacy, especially with regard to estimation of treatment effects. The assumptions underlying such models should always be clearly identified, and the limitations of any conclusions should be carefully described. 既知の 薬理パラメータ、個々の被験者の治験実施計画書遵守の程度又はそのほかの生物学的な根拠に基づくデータをモデル化する方法により、真の有効性又は潜在的な 有効性について、とりわけ試験治療の効果の推定の点から、有益な理解が得られるであろう。そのようなモデルの前提条件は常に明確にしておくべきであり、モ デルから得られる結論の限界についても慎重に記述すべきである。
5.6 Adjustment of Significance and Confidence Levels 5.6 有意水準と信頼水準の調整
When multiplicity is present, the usual frequentist approach to the analysis of clinical trial data may necessitate an adjustment to the type I error. Multiplicity may arise, for example, from multiple primary variables (see Section 2.2.2), multiple comparisons of treatments, repeated evaluation over time and/or interim analyses (see Section 4.5). Methods to avoid or reduce multiplicity are sometimes preferable when available, such as the identification of the key primary variable (multiple variables), the choice of a critical treatment contrast (multiple comparisons), the use of a summary measure such as ‘area under the curve’ (repeated measures). In confirmatory analyses, any aspects of multiplicity which remain after steps of this kind have been taken should be identified in the protocol; adjustment should always be considered and the details of any adjustment procedure or an explanation of why adjustment is not thought to be necessary should be set out in the analysis plan. 多重性 が存在する場合、臨床試験データの解析に対する通常の頻度論的立場からは、第一種の過誤の調整を必要とするであろう。多重性は、例えば主要変数が複数ある 場合(2.2.2節参照)、試験治療間の多重比較、時間に伴う繰り返し評価、中間解析(4.5節参照)から生じるであろう。多重性を回避する又は減じる方 法は、それが利用できる場合には好ましいこともある。例えば、変数が複数ある場合に主要な変数の中でも重要な変数を指定すること、多群比較の場合に試験治 療間の重要な対比を選択すること、繰り返し測定の場合に「曲線下面積」といった要約指標を使用すること、などである。検証的解析では、このようにして多重 性を減じた後の段階でまだ残っている多重性のすべての側面について治験実施計画書において明らかにすべきである。調整は常に考慮すべきであり、調整方法の 詳細、又はなぜ調整は必要ないと考えるのかという説明は、統計解析計画書に述べるべきである。
5.7 Subgroups, Interactions and Covariates 5.7 部分集団、交互作用及び共変量
The primary variable(s) is often systematically related to other influences apart from treatment. For example, there may be relationships to covariates such as age and sex, or there may be differences between specific subgroups of subjects such as those treated at the different centres of a multicentre trial. In some instances an adjustment for the influence of covariates or for subgroup effects is an integral part of the planned analysis and hence should be set out in the protocol. Pre-trial deliberations should identify those covariates and factors expected to have an important influence on the primary variable(s), and should consider how to account for these in the analysis in order to improve precision and to compensate for any lack of balance between treatment groups. If one or more factors are used to stratify the design, it is appropriate to account for those factors in the analysis. When the potential value of an adjustment is in doubt, it is often advisable to nominate the unadjusted analysis as the one for primary attention, the adjusted analysis being supportive. Special attention should be paid to centre effects and to the role of baseline measurements of the primary variable. It is not advisable to adjust the main analyses for covariates measured after randomisation because they may be affected by the treatments. 主要変 数が試験治療によるものとは別の作用と、系統的に関連している例がよくみられる。例えば、年齢や性といった共変量と関連がある場合、又は多施設共同治験で は異なる施設で試験治療を受けた被験者という部分集団間に差がみられる場合がある。共変量の影響又は部分集団の効果を調整することは予定した解析の重要部 分となる場合があり、したがって治験実施計画書に記述すべきである。主要変数に重要な影響を及ぼすと予想される共変量と要因は、試験開始前に議論して確認 しておくべきであり、精度を向上させ、試験治療グループ間のバランスの欠如を埋め合わせるため、それらを解析でどう取り扱うかを考慮すべきである。計画時 に一つ以上の因子を層別因子として用いたならば、それらの因子を解析時に考慮することが適切である。調整することの潜在的な有益さが疑わしい場合にはしば しば、調整しない解析に主要な関心を払うと宣言し、調整した解析はそれを補うものとすることが薦められる。施設の効果及び基準となる時点での主要変数の測 定値の役割には特別な注意を払うべきである。しかし、ランダム化後に測定された共変量を主要な解析で調整することは薦められない。なぜならばそのような共 変量は試験治療の影響を受けている可能性があるからである。
The treatment effect itself may also vary with subgroup or covariate - for example, the effect may decrease with age or may be larger in a particular diagnostic category of subjects. In some cases such interactions are anticipated or are of particular prior interest (e.g. geriatrics), and hence a subgroup analysis, or a statistical model including interactions, is part of the planned confirmatory analysis. In most cases, however, subgroup or interaction analyses are exploratory and should be clearly identified as such; they should explore the uniformity of any treatment effects found overall. In general, such analyses should proceed first through the addition of interaction terms to the statistical model in question, complemented by additional exploratory analysis within relevant subgroups of subjects, or within strata defined by the covariates. When exploratory, these analyses should be interpreted cautiously; any conclusion of treatment efficacy (or lack thereof) or safety based solely on exploratory subgroup analyses are unlikely to be accepted. 試験治 療の効果自身もまた部分集団や共変量により異なる可能性がある。例えば、効果は年齢とともに減少する場合があり、被験者の特別な診断分類では、より大きな 効果があることもある。そのような交互作用は予想されたり、交互作用自体に重要な関心がある場合(例えば高齢者医療など)があり、したがって部分集団別解 析又は交互作用を含んだ統計モデルは予定した検証的解析に含まれる場合がある。しかし、多くの場合、部分集団別解析又は交互作用解析は探索的であるため、 探索的であることを明確に確認しておくべきである。それらの解析では、全体でみられた試験治療の効果がすべて一様であるかどうかを探索すべきである。一般 に、そのような解析は、まず問題となっている統計モデルに交互作用項を加えることから始めるべきであり、適切な被験者の部分集団内、又は共変量によって定 められる層内を更に探索的に解析することによって補われる。探索的解析である場合、これらの解析結果は慎重に解釈すべきである。試験治療の有効性(若しく は有効性がないこと)、又は安全性に関する結論は、どのようなものであっても、探索的な部分集団別解析のみに基づいていては受け入れ難い。
5.8 Integrity of Data and Computer Software Validity 5.8 データの完全性の維持とコンピュータソフトウェアの妥当性
The credibility of the numerical results of the analysis depends on the quality and validity of the methods and software (both internally and externally written) used both for data management (data entry, storage, verification, correction and retrieval) and also for processing the data statistically. Data management activities should therefore be based on thorough and effective standard operating procedures. The computer software used for data management and statistical analysis should be reliable, and documentation of appropriate software testing procedures should be available. 数値で 表された解析結果の信憑性は、データマネジメント(データ入力、保存、確認、訂正及び復元)及びデータの統計処理の両方に用いられる方法とソフトウェア (自作、外注、市販)の質及び妥当性に依存するものである。したがって、データマネジメントは綿密で効果的な標準業務手順書に基づいて行うべきである。 データマネジメント及び統計解析に用いるコンピュータソフトウェアは信頼できるものを使用すべきであり、ソフトウエアの適切な検証手順を資料として用意す べきである。
VI. EVALUATION OF SAFETY AND TOLERABILITY VI. 安全性及び忍容性評価
6.1 Scope of Evaluation 6.1 評価の範囲
In all clinical trials evaluation of safety and tolerability (see Glossary) constitutes an important element. In early phases this evaluation is mostly of an exploratory nature, and is only sensitive to frank expressions of toxicity, whereas in later phases the establishment of the safety and tolerability profile of a drug can be characterised more fully in larger samples of subjects. Later phase controlled trials represent an important means of exploring in an unbiased manner any new potential adverse effects, even if such trials generally lack power in this respect. すべて の臨床試験において、安全性及び忍容性(用語集参照)の評価は重要な要素である。初期の相では、この評価の大部分は探索的な性質のものであり、敏感にとら えられるのは明らかな毒性の出現のみである。しかし、後期の相では、被験薬の安全性及び忍容性のプロファイルを、より多くの被験者により十分に特徴づけて 確立することができる。後期の比較試験は、一般にこの点での検出力を欠いているとしても、新たな潜在的有害作用のすべてを偏りなく探索するための重要な手 段を提供するものである。
Certain trials may be designed with the purpose of making specific claims about superiority or equivalence with regard to safety and tolerability compared to another drug or to another dose of the investigational drug. Such specific claims should be supported by relevant evidence from confirmatory trials, similar to that necessary for corresponding efficacy claims. ある種 の試験は、他の医薬品又は被験薬の別な用量と比較して、安全性及び忍容性に関する優越性又は同等性についての具体的な主張のために計画される場合がある。 このような承認に関わる具体的な主張は、対応する有効性の主張に対し要求されるのと同様に、検証的試験による適切な証拠によって確認されるべきである。
6.2 Choice of Variables and Data Collection 6.2 変数の選択とデータ収集
In any clinical trial the methods and measurements chosen to evaluate the safety and tolerability of a drug will depend on a number of factors, including knowledge of the adverse effects of closely related drugs, information from non-clinical and earlier clinical trials and possible consequences of the pharmacodynamic/pharmacokinetic properties of the particular drug, the mode of administration, the type of subjects to be studied, and the duration of the trial. Laboratory tests concerning clinical chemistry and haematology, vital signs, and clinical adverse events (diseases, signs and symptoms) usually form the main body of the safety and tolerability data. The occurrence of serious adverse events and treatment discontinuations due to adverse events are particularly important to register (see ICH E2A and ICH E3). どのよ うな臨床試験でも、医薬品の安全性及び忍容性を評価するために選ばれる方法と測定値は、多くの要因に依存する。その要因には、関連医薬品の有害作用につい ての知識、非臨床試験及び初期の臨床試験からの情報、個々の医薬品の薬力学的/薬物動態的特質から起こると考えられる結果、使用方法、研究対象となる被験 者の特徴並びに試験の期間といったものがある。臨床化学と血液学に関する臨床検査値、バイタルサイン及び臨床的有害事象(疾患、徴候及び症状)は、通常、 安全性及び忍容性データの主要部を形成する。重篤な有害事象の発生及び有害事象による試験治療の中断については、登録することが特に重要である(ICH E2A とE3 参照)。
Furthermore, it is recommended that a consistent methodology be used for the data collection and evaluation throughout a clinical trial program in order to facilitate the combining of data from different trials. The use of a common adverse event dictionary is particularly important. This dictionary has a structure which gives the possibility to summarise the adverse event data on three different levels; system-organ class, preferred term or included term (see Glossary). The preferred term is the level on which adverse events usually are summarised, and preferred terms belonging to the same system-organ class could then be brought together in the descriptive presentation of data (see ICH M1). 更に、 異なる臨床試験からのデータを結びつけることを容易にするために、試験プログラム全体を通して一貫したデータ収集及び評価の方法論を用いることが薦められ る。共通の有害事象の辞書の使用は特に重要である。有害事象の辞書は、器官分類、基本語又は慣用語(用語集参照)という、三つの異なる水準で有害事象デー タを要約できるように構成されている。有害事象を要約する通常の水準は基本語であり、同一の器官分類に属している基本語は、データの記述的提示の際にまと めることができる(ICH M1 参照)。
6.3 Set of Subjects to be Evaluated and Presentation of Data 6.3 評価される被験者集団とデータの提示
For the overall safety and tolerability assessment, the set of subjects to be summarised is usually defined as those subjects who received at least one dose of the investigational drug. Safety and tolerability variables should be collected as comprehensively as possible from these subjects, including type of adverse event, severity, onset and duration (see ICH E2B). Additional safety and tolerability evaluations may be needed in specific subpopulations, such as females, the elderly (see ICH E7), the severely ill, or those who have a common concomitant treatment. These evaluations may need to address more specific issues (see ICH E3). 全体的 な安全性及び忍容性を評価するのに用いられる被験者集団は、通常被験薬を少なくとも一回服用した被験者の集団である。安全性及び忍容性の変数は、これらの 被験者から可能な限り包括的に有害事象の種類、重症度及び発現時と持続期間を含めて収集されるべきである(ICH E2B 参照)。女性、高齢者(ICH E7 参照)、重症者、又は共通の併用治療を受けた被験者といった特定の属性別集団については、恐らく更なる安全性及び忍容性評価が必要となるであろう。これら の評価では、より個別の問題に答えることが必要であろう(ICH E3 参照)。
All safety and tolerability variables will need attention during evaluation, and the broad approach should be indicated in the protocol. All adverse events should be reported, whether or not they are considered to be related to treatment. All available data in the study population should be accounted for in the evaluation. Definitions of measurement units and reference ranges of laboratory variables should be made with care; if different units or different reference ranges appear in the same trial (e.g. if more than one laboratory is involved), then measurements should be appropriately standardised to allow a unified evaluation. Use of a toxicity grading scale should be prespecified and justified. 評価の 際には、すべての安全性及び忍容性変数に注意を払う必要があるため、広範な方法を治験実施計画書に示すべきである。試験治療と関係していると考えられるか 否かにかかわらず、すべての有害事象を報告すべきである。評価の際には、研究対象集団の利用できるデータのすべてを用いるべきである。測定単位と臨床検査 変数の参照範囲は注意深く定義すべきである。もし異なる単位又は異なる参照範囲を同一の試験で用いるのであれば(例えば、二つ以上の検査機関が入っている 場合)、統一的な評価を可能にするために測定値を適切に標準化すべきである。毒性評価尺度の使用については、事前に定め、正当化しておくべきである。
The incidence of a certain adverse event is usually expressed in the form of a proportion relating number of subjects experiencing events to number of subjects at risk. However, it is not always self-evident how to assess incidence. For example, depending on the situation the number of exposed subjects or the extent of exposure (in person-years) could be considered for the denominator. Whether the purpose of the calculation is to estimate a risk or to make a comparison between treatment groups it is important that the definition is given in the protocol. This is especially important if long-term treatment is planned and a substantial proportion of treatment withdrawals or deaths are expected. For such situations survival analysis methods should be considered and cumulative adverse event rates calculated in order to avoid the risk of underestimation. ある有 害事象の発現は、通常有害事象を経験した被験者数とその有害事象を発現する可能性のある被験者数との関係を示す割合の形で表現される。しかし、発現の評価 の仕方はいつも自明というわけではない。例えば状況に応じて、試験治療が使用された被験者数、又は使用の程度(人年)を分母とすることが考えられる。計算 の目的がリスクの推定であるか、試験治療グループ間での比較であるかにかかわらず、その定義を治験実施計画書に示すことは重要である。この定義は、試験治 療が長期にわたることが予定され、かなりの割合で試験治療の中止又は死亡が起こると予想される場合、特に重要である。そのような状況では、生存解析の方法 を考慮すべきであり、過小評価を避けるために累積有害事象発現率を計算すべきである。
In situations when there is a substantial background noise of signs and symptoms (e.g. in psychiatric trials) one should consider ways of accounting for this in the estimation of risk for different adverse events. One such method is to make use of the 'treatment emergent' (see Glossary) concept in which adverse events are recorded only if they emerge or worsen relative to pretreatment baseline. 徴候や 症状に相当の背景ノイズが存在する状況では(例えば、精神科での試験)、異なる有害事象に対するリスクの推定に背景ノイズを考慮する方法を考えるべきであ る。そのような方法の一つは、「試験治療下での発現」(用語集参照)という概念を用いることである。「試験治療下での発現」では試験治療前の基準となる発 現状況と比べて、新たに発現又は悪化した有害事象のみを記録する。
Other methods to reduce the effect of the background noise may also be appropriate such as ignoring adverse events of mild severity or requiring that an event should have been observed at repeated visits to qualify for inclusion in the numerator. Such methods should be explained and justified in the protocol. 軽度の 有害事象は無視する、又は分子に加えるための基準として、繰り返しの来院で事象が観察し続けられることを要求するような背景ノイズの効果を減らすための別 の方法もまた適切な場合がある。そのような方法は治験実施計画書に正当性を説明しておくべきである。
6.4 Statistical Evaluation 6.4 統計的評価
The investigation of safety and tolerability is a multidimensional problem. Although some specific adverse effects can usually be anticipated and specifically monitored for any drug, the range of possible adverse effects is very large, and new and unforeseeable effects are always possible. Further, an adverse event experienced after a protocol violation, such as use of an excluded medication, may introduce a bias. This background underlies the statistical difficulties associated with the analytical evaluation of safety and tolerability of drugs, and means that conclusive information from confirmatory clinical trials is the exception rather than the rule. 安全性 及び忍容性の研究は多次元的な問題である。どのような被験薬についても、何らかの特定の有害作用は通常予測でき特定してモニターできるが、起こりうる有害 作用の幅はたいへん広く、新しく、予想もされない作用が常に生じうる。更に、禁止薬の使用のような治験実施計画書違反の後で発生した有害事象は恐らく偏り の原因となるであろう。このような背景があることが、被験薬の安全性及び忍容性の解析的評価が統計的に困難となる原因となり、検証的試験から結論を確定す るような情報を得ることをむしろ例外としている。
In most trials the safety and tolerability implications are best addressed by applying descriptive statistical methods to the data, supplemented by calculation of confidence intervals wherever this aids interpretation. It is also valuable to make use of graphical presentations in which patterns of adverse events are displayed both within treatment groups and within subjects. ほとん どの試験で、安全性及び忍容性関連事項を扱うには、記述統計の手法でデータを整理し、信頼区間が解釈の助けとなる場合にはその計算を加えることが最善であ る。試験治療グループ内と被験者個人内両方で有害事象のパターンが示されるようなグラフ表示を利用することもまた有益である。
The calculation of p-values is sometimes useful either as an aid to evaluating a specific difference of interest, or as a 'flagging' device applied to a large number of safety and tolerability variables to highlight differences worth further attention. This is particularly useful for laboratory data, which otherwise can be difficult to summarise appropriately. It is recommended that laboratory data be subjected to both a quantitative analysis, e.g. evaluation of treatment means, and a qualitative analysis where counting of numbers above or below certain thresholds are calculated. p値の 計算は、関心のある特定の差を評価する補助として、又は多数の安全性及び忍容性変数に対して注目するだけの価値のある差を際立たせるための目印として、有 用な場合がある。これは検査データに特に有用であり、この方法以外で検査データを適切に要約することは難しい。検査データには、例えば試験治療ごとの平均 の評価のような定量的な解析と、ある閾値を超える又は下回る数を数える定性的な解析の両方を行うことが薦められる。
If hypothesis tests are used, statistical adjustments for multiplicity to quantify the type I error are appropriate, but the type II error is usually of more concern. Care should be taken when interpreting putative statistically significant findings when there is no multiplicity adjustment. 仮説検 定を用いる場合、第一種の過誤を勘案して多重性を統計的に調整することは適切ではあるが、通常は第二種の過誤により注意を払うべきである。多重性の調整を 行っていない場合、統計的に有意となった結果の解釈には注意すべきである。
In the majority of trials investigators are seeking to establish that there are no clinically unacceptable differences in safety and tolerability compared with either a comparator drug or a placebo. As is the case for non-inferiority or equivalence evaluation of efficacy the use of confidence intervals is preferred to hypothesis testing in this situation. In this way, the considerable imprecision often arising from low frequencies of occurrence is clearly demonstrated. 大多数 の試験で、治験責任医師たちは、実対照薬又はプラセボに比べて安全性及び忍容性に関して臨床的に許容できない差はないことを立証しようとしている。有効性 に関する非劣性又は同等性評価の場合と同様に、この状況では仮説検定よりも信頼区間を使用することが望ましい。信頼区間を用いると、生起数が少ないことが 原因となってみられることの多い、はなはだしい精度の低さを明確に示すことができる。
6.5 Integrated Summary 6.5 統合した要約
The safety and tolerability properties of a drug are commonly summarised across trials continuously during an investigational product’s development and in particular at the time of a marketing application. The usefulness of this summary, however, is dependent on adequate and well-controlled individual trials with high data quality. 被験薬 の安全性及び忍容性に関する特質は、一般に被験薬を開発する過程で逐次的に、複数の試験を通して要約され、特に承認申請時には必ず要約されるものである。 しかし、この要約の有用性は高い質のデータを伴い適切に計画・実施された個々の比較試験に依存する。
The overall usefulness of a drug is always a question of balance between risk and benefit and in a single trial such a perspective could also be considered, even if the assessment of risk/benefit usually is performed in the summary of the entire clinical trial program. (See section 7.2.2) 被験薬 の全体的な有用性は、常にリスクと利益のバランスの問題であり、リスクと利益の評価は通常全臨床試験プログラムを要約して行われるものであるが、単一の試 験でも、有用性が見込まれるかについて検討することは可能である(7.2.2節参照)。
For more details on the reporting of safety and tolerability, see Chapter 12 of ICH E3. 安全性 及び忍容性に関連する報告の要求事項についての詳細は、ICH E3 12章を参照すること。
VII. REPORTING VII. 報告
7.1 Evaluation and Reporting 7.1 評価と報告
As stated in the Introduction, the structure and content of clinical study reports is the subject of ICH E3. That ICH guidance fully covers the reporting of statistical work, appropriately integrated with clinical and other material. The current section is therefore relatively brief. 「I. はじめに」で述べたように、総括報告書の構成と内容は、ICH E3 での主題である。ICHガイドラインE3は、臨床とその他の資料を適切に統合する統計作業の報告について十分に網羅している。したがって、この節は比較的 簡潔にとどめる。
During the planning phase of a trial the principal features of the analysis should have been specified in the protocol as described in Section 5. When the conduct of the trial is over and the data are assembled and available for preliminary inspection, it is valuable to carry out the blind review of the planned analysis also described in Section 5. This pre-analysis review, blinded to treatment, should cover decisions concerning, for example, the exclusion of subjects or data from the analysis sets; possible transformations may also be checked, and outliers defined; important covariates identified in other recent research may be added to the model; the use of parametric or non-parametric methods may be reconsidered. Decisions made at this time should be described in the report, and should be distinguished from those made after the statistician has had access to the treatment codes, as blind decisions will generally introduce less potential for bias. Statisticians or other staff involved in unblinded interim analysis should not participate in the blind review or in making modifications to the statistical analysis plan. When the blinding is compromised by the possibility that treatment induced effects may be apparent in the data, special care will be needed for the blind review. 試験の 計画段階では、解析の主要な特徴は5節に述べたように治験実施計画書に明記すべきである。試験の実施が終了し、データが集積されて予備的な点検ができるよ うになると、やはり5節で述べたように、予定した解析の盲検下レヴューを実施することは有益である。この解析前に行う検討では、試験治療を盲検化した状態 で、例えば被験者又はデータを解析対象集団から除外することに関する判断を行うべきである。また、変数変換の可能性の検討と外れ値の定義、最近の研究で明 らかになった重要な共変量をモデルに加えること、パラメトリック手法を用いるかノンパラメトリック手法を用いるか等について再検討して差し支えない。この 時点で下された判断は、報告書に記述されるべきである。一般に盲検下での判断は偏りをもたらす可能性が小さいので、統計家が試験治療のコードを知った後で の判断と区別しておくべきである。割付を明らかにして行った中間解析に従事した統計家及びその他のスタッフは、盲検下レヴュー又は統計解析計画の変更に参 加すべきではない。また試験治療に由来する効果がデータ上明らかなことによって盲検が破れる可能性がある場合、盲検下レヴューには特別の注意を必要とする であろう。
Many of the more detailed aspects of presentation and tabulation should be finalised at or about the time of the blind review so that by the time of the actual analysis full plans exist for all its aspects including subject selection, data selection and modification, data summary and tabulation, estimation and hypothesis testing. Once data validation is complete, the analysis should proceed according to the pre-defined plans; the more these plans are adhered to, the greater the credibility of the results. Particular attention should be paid to any differences between the planned analysis and the actual analysis as described in the protocol, protocol amendments or the updated statistical analysis plan based on a blind review of data. A careful explanation should be provided for deviations from the planned analysis. 提示と 作表のより詳細な内容の多くは、盲検下レヴュー時、又はその前後までに固定すべきである。その結果、実際の解析時には、被験者の選択、データ選択と変換、 データの要約と作表、推定と仮説検定を含むすべての解析内容についての完全な解析計画が存在することになる。データの妥当性の立証が完了したら、解析は事 前に定められた計画に従って進めるべきである。事前の計画が守られればそれだけ結果の信憑性は増すことになる。治験実施計画書、治験実施計画書の改訂、又 はデータの盲検下レヴューに基づいて更新された統計解析計画に記述されている、予定した解析と実際の解析の間のどんな差にも特別な注意を払うべきである。 予定した解析からの逸脱に対しては、慎重な説明を行うべきである。
All subjects who entered the trial should be accounted for in the report, whether or not they are included in the analysis. All reasons for exclusion from analysis should be documented; for any subject included in the full analysis set but not in the per protocol set, the reasons for exclusion from the latter should also be documented. Similarly, for all subjects included in an analysis set, the measurements of all important variables should be accounted for at all relevant time-points. 試験に 登録されたすべての被験者は、解析に含まれているかどうかにかかわらず、報告書で明らかにすべきである。解析から除外した理由はすべて記録すべきである。 最大の解析対象集団には含まれるが治験実施計画書に適合した対象集団には含まれない被験者については、治験実施計画書に適合した対象集団から除外された理 由も記録すべきである。同様にして、ある解析対象集団に含まれる被験者すべてについて、すべての重要な変数のすべての適切な時点での測定値も明らかにして おくべきである。
The effect of all losses of subjects or data, withdrawals from treatment and major protocol violations on the main analyses of the primary variable(s) should be considered carefully. Subjects lost to follow up, withdrawn from treatment, or with a severe protocol violation should be identified, and a descriptive analysis of them provided, including the reasons for their loss and its relationship to treatment and outcome. 被験者 又はデータの減失、試験治療の中止及び重大な治験実施計画書違反が主要変数の主な解析に及ぼす影響について、慎重に考慮すべきである。追跡不能、試験治療 の中止、又は重大な治験実施計画書違反があった被験者は明らかにすべきであり、減失の理由、減失と試験治療及び結果との関係を含めた、記述的解析を行うべ きである。
Descriptive statistics form an indispensable part of reports. Suitable tables and/or graphical presentations should illustrate clearly the important features of the primary and secondary variables and of key prognostic and demographic variables. The results of the main analyses relating to the objectives of the trial should be the subject of particularly careful descriptive presentation. When reporting the results of significance tests, precise p-values (e.g.'p=0.034') should be reported rather than making exclusive reference to critical values. 記述統 計は報告書に欠くことのできない部分である。適切な表若しくはグラフ表示、又はその両方により、主要変数及び副次変数並びに主な予後変数及び人口統計学的 変数の重要な特徴を明確に説明すべきである。試験の目的に関連する主な解析結果には、特別に慎重な記述的報告を行うべきである。有意性検定の結果を報告す る際には、限界値を越えたかどうかではなく、正確なp値(例えば「p=0.034」)を報告すべきである。
Although the primary goal of the analysis of a clinical trial should be to answer the questions posed by its main objectives, new questions based on the observed data may well emerge during the unblinded analysis. Additional and perhaps complex statistical analysis may be the consequence. This additional work should be strictly distinguished in the report from work which was planned in the protocol. 臨床試 験の解析の主たる目標は、その主目的から生じた問題に答えることであるべきだが、割付を明らかにした後の解析で、観察されたデータに基づいた新たな問題が 生じるおそれがある。追加解析、そして恐らく複雑な統計解析がその結果として必要になるであろう。この追加解析は、治験実施計画書に予定していた解析の報 告とは厳密に区別すべきである。
The play of chance may lead to unforeseen imbalances between the treatment groups in terms of baseline measurements not pre-defined as covariates in the planned analysis but having some prognostic importance nevertheless. This is best dealt with by showing that an additional analysis which accounts for these imbalances reaches essentially the same conclusions as the planned analysis. If this is not the case, the effect of the imbalances on the conclusions should be discussed. 偶然に より、多少とも予後に重要な意味を持つが、共変量として事前に定めていなかった基準となる時点の測定値に関して、試験治療グループ間の予期しないバランス のくずれが起こる可能性がある。このバランスのくずれに対処するには、それを考慮する解析を追加し、予定した解析と本質的に同じ結論に達することを示すこ とが、最善である。しかし両者が同じ結論に達しない場合には、バランスのくずれが結論に与える影響を議論すべきである。
In general, sparing use should be made of unplanned analyses. Such analyses are often carried out when it is thought that the treatment effect may vary according to some other factor or factors. An attempt may then be made to identify subgroups of subjects for whom the effect is particularly beneficial. The potential dangers of over-interpretation of unplanned subgroup analyses are well known (see also Section 5.7), and should be carefully avoided. Although similar problems of interpretation arise if a treatment appears to have no benefit, or an adverse effect, in a subgroup of subjects, such possibilities should be properly assessed and should therefore be reported. 一般 に、予定していない解析は最小限にとどめるべきである。予定外の解析は、試験治療の効果が何か別の要因に応じて変化する可能性があると考えられる場合に実 施される例がよくみられる。その場合、被験者集団の中で試験治療効果が特に有益な部分集団を明らかにする試みがなされるであろう。よく知られているよう に、予定していない部分集団別解析を拡大解釈することは潜在的に危険なことであり(5.7節を参照)、慎重に避けるべきである。試験治療が被験者のある部 分集団に何の利益もないと思われる場合、又は有害作用があるように思われる場合にも同様の問題が生じるが、それらの可能性について正しい評価を行うべきで あり、したがって常に報告すべきである。
Finally statistical judgement should be brought to bear on the analysis, interpretation and presentation of the results of a clinical trial. To this end the trial statistician should be a member of the team responsible for the clinical study report, and should approve the clinical report. 最後 に、臨床試験の結果の解析、解釈及び提示には統計的判断が下されるべきである。このためには、試験統計家は総括報告書に責任を持つチームの一員であるべき であり、総括報告書を承認する存在であるべきである。
7.2 Summarising the Clinical Database 7.2 臨床データベースの要約
An overall summary and synthesis of the evidence on safety and efficacy from all the reported clinical trials is required for a marketing application (Expert report in EU, integrated summary reports in USA, Gaiyo in Japan). This may be accompanied, when appropriate, by a statistical combination of results. 報告さ れているすべての臨床試験での安全性及び有効性の証拠を、全体的に要約して総合することは、承認申請の要求事項である(EUでの「専門家報告書 (Expert Report)」、米国での「総合要約報告書(Integrated Summary Reports)」、日本での「資料概要」)。これは、適切であれば、結果の統計的結合を伴ってもよい。
Within the summary a number of areas of specific statistical interest arise: describing the demography and clinical features of the population treated during the course of the clinical trial programme; addressing the key questions of efficacy by considering the results of the relevant (usually controlled) trials and highlighting the degree to which they reinforce or contradict each other; summarising the safety information available from the combined database of all the trials whose results contribute to the marketing application and identifying potential safety issues. During the design of a clinical programme careful attention should be paid to the uniform definition and collection of measurements which will facilitate subsequent interpretation of the series of trials, particularly if they are likely to be combined across trials. A common dictionary for recording the details of medication, medical history and adverse events should be selected and used. A common definition of the primary and secondary variables is nearly always worthwhile, and essential for meta-analysis. The manner of measuring key efficacy variables, the timing of assessments relative to randomisation/entry, the handling of protocol violators and deviators and perhaps the definition of prognostic factors, should all be kept compatible unless there are valid reasons not to do so. 要約の 中には、以下のような多くの領域において特定の統計的興味が発生する。一連の臨床試験プログラムにおいて試験治療を受けた集団の人口統計学的及び臨床的特 徴を記述すること。適切な(通常、比較を伴う)試験の結果を考慮にいれて有効性に関する主要な問題に答えること及び治験が相互に補強しあう、又は矛盾しあ う程度を際立たせること。承認申請の根拠となるすべての治験を結合したデータベースから利用できる安全性情報をまとめること及び安全性に関する潜在的な問 題を確認すること。臨床プログラムの設計段階では、特に試験を通じてよく結合される測定値に対して、後になって一連の試験の解釈が容易になるように測定値 を統一して定義し収集するよう、慎重な注意を払うべきである。薬物治療、医療歴及び有害事象の詳細を記録するために、共通の辞書を選んで使用すべきであ る。主要変数と副次変数を共通して定義することはほとんど常に有益であり、メタアナリシスのためには必須である。主要な有効性変数の測定方法、ランダム化 時/登録時から評価を行うまでの期間、治験実施計画書違反例と逸脱例の取り扱い及び恐らく予後因子の定義についても、そのようにしない妥当な理由がない限 り、矛盾なく保つべきである。
Any statistical procedures used to combine data across trials should be described in detail. Attention should be paid to the possibility of bias associated with the selection of trials, to the homogeneity of their results, and to the proper modelling of the various sources of variation. The sensitivity of conclusions to the assumptions and selections made should be explored. いくつ かの試験を通してデータを結合するために用いた統計手法はすべて、詳細に記述すべきである。結合の際には、試験を選択することに伴う偏りの可能性、結果の 一様性及びばらつきの様々な原因を適切にモデル化することに注意を払うべきである。また、用いた仮定及び試験の選択に対して結論がどの程度変わり易いかを 探索すべきである。
7.2.1 Efficacy Data 7.2.1 有効性データ
Individual clinical trials should always be large enough to satisfy their objectives. Additional valuable information may also be gained by summarising a series of clinical trials which address essentially identical key efficacy questions. The main results of such a set of trials should be presented in an identical form to permit comparison, usually in tables or graphs which focus on estimates plus confidence limits. The use of meta-analytic techniques to combine these estimates is often a useful addition, because it allows a more precise overall estimate of the size of the treatment effects to be generated, and provides a complete and concise summary of the results of the trials. Under exceptional circumstances a meta analytic approach may also be the most appropriate way, or the only way, of providing sufficient overall evidence of efficacy via an overall hypothesis test. When used for this purpose the meta-analysis should have its own prospectively written protocol. 一つ一 つの臨床試験は、常にその目的を果たせるだけの十分な規模で行うべきである。本質的に同一であるような主要な有効性の問題を扱っている一連の臨床試験を要 約することで、更なる有益な情報が得られるであろう。そのような一連の試験の主たる結果は、通常は推定値と信頼限界を中心とする表又は図として、比較可能 な同一形式で提示すべきである。これらの推定値を結合するためのメタアナリシス技法の使用が有用な補足となる例がよくみられる。なぜならば、メタアナリシ ス技法は試験治療効果の大きさに関するより精度の高い包括的な推定値を与え、試験の結果の完備した簡潔な要約を与えるからである。例外的な状況下ではある が、全体的な仮説検定を行うメタアナリシス手法が、有効性の十分な全体的証拠を与える最も適切な方法、又は唯一の方法となる場合もある。このような目的で メタアナリシス技法を用いる場合には、メタアナリシスを実施するための研究計画を前もって準備すべきである。
7.2.2 Safety Data 7.2.2 安全性データ
In summarising safety data it is important to examine the safety database thoroughly for any indications of potential toxicity, and to follow up any indications by looking for an associated supportive pattern of observations. The combination of the safety data from all human exposure to the drug provides an important source of information, because its larger sample size provides the best chance of detecting the rarer adverse events and, perhaps, of estimating their approximate incidence. However, incidence data from this database are difficult to evaluate because of the lack of a comparator group, and data from comparative trials are especially valuable in overcoming this difficulty. The results from trials which use a common comparator (placebo or specific active comparator) should be combined and presented separately for each comparator providing sufficient data. 安全性 データの要約では、潜在的な毒性を示すいかなる徴候に対しても徹底的に安全性データベースを調べることが重要であり、裏づけるパターンを探索してその徴候 を追跡することが重要である。医薬品のあらゆる人体曝露に関する安全性データを結合することが、重要な情報源となる。なぜならば、そのようにして被験者数 が多くなることによりまれな有害事象を検出し、恐らく有害事象のおおよその発現数を推定する可能性が最も高くなるからである。しかし、このようなデータ ベースからの有害事象発現データは、比較するグループを欠いていることから評価が困難であり、この困難さを克服するためには比較試験からのデータが特に有 益である。それぞれの対照薬について十分なデータを提供するため、共通の対照薬(プラセボ又は特定の実対照薬)を用いている試験の結果は結合し、別々に提 示すべきである。
All indications of potential toxicity arising from exploration of the data should be reported. The evaluation of the reality of these potential adverse effects should take account of the issue of multiplicity arising from the numerous comparisons made. The evaluation should also make appropriate use of survival analysis methods to exploit the potential relationship of the incidence of adverse events to duration of exposure and/or follow-up. The risks associated with identified adverse effects should be appropriately quantified to allow a proper assessment of the risk/benefit relationship. データ の探索から判明した毒性を持つ可能性を示す徴候はすべて報告すべきである。これらの潜在的有害作用がどれだけ現実に起こりうるかの評価には、多数の比較の 実施によって生じる多重性の問題を考慮すべきである。評価には、有害事象の発生に曝露期間若しくは追跡期間又はその両方が潜在的に関連しているかどうかを 探索するため、生存解析手法を適切に使用すべきである。確認された有害作用に関連するリスクは、リスクと利益の関係を正しく評価するために適切に定量化す べきである。
GLOSSARY 用語集
Bayesian Approaches ベイズ 流の方法Bayesian Approaches
Approaches to data analysis that provide a posterior probability distribution for some parameter (e.g. treatment effect), derived from the observed data and a prior probability distribution for the parameter. The posterior distribution is then used as the basis for statistical inference. 一部の パラメータ(例えば、試験治療の効果)について、観察されたデータとパラメータの事前確率分布から事後確率分布を与えるデータ解析の方法。得られた事後分 布を、統計的推測の基礎とする。
Bias (Statistical & Operational) 偏り (統計的及び運営上の)Bias (Statistical & Operational)
The systematic tendency of any factors associated with the design, conduct, analysis and evaluation of the results of a clinical trial to make the estimate of a treatment effect deviate from its true value. Bias introduced through deviations in conduct is referred to as 'operational' bias. The other sources of bias listed above are referred to as 'statistical'. 臨床試 験の計画、実施、解析及び結果の評価と関連した因子の影響により、試験治療の効果の推定値と真の値に系統的な差が生じること。試験実施中の逸脱によって起 こる偏りを「運営上の」偏りとよび、それ以外の原因によって起こる偏りを「統計的」偏りとよぶ。
Blind Review 盲検下 レヴューBlind Review
The checking and assessment of data during the period of time between trial completion (the last observation on the last subject) and the breaking of the blind, for the purpose of finalising the planned analysis. 試験完 了(最後の被験者の最終観察)から割付を明らかにするまでの間に予定した解析を固定する目的で実施するデータの評価と点検。
Content Validity 内容的 妥当性Content Validity
The extent to which a variable (e.g. a rating scale) measures what it is supposed to measure. ある変 数(例えば、評価尺度)で測定しようとしているものを、どれだけ間違いなく測定しているか、その程度。
Double-Dummy ダブル ダミーDouble-Dummy
A technique for retaining the blind when administering supplies in a clinical trial, when the two treatments cannot be made identical. Supplies are prepared for Treatment A (active and indistinguishable placebo) and for Treatment B (active and indistinguishable placebo). Subjects then take two sets of treatment; either A (active) and B (placebo), or A (placebo) and B (active). 臨床試 験で二つの試験治療の区別がつく場合に、医薬品投与時の盲検を維持する技法。試験治療Aについて、実際の製剤と共にそれと区別不能なプラセボを用意し、ま た試験治療Bについても、実際の製剤と共にそれと区別不能なプラセボを用意する。被験者は二組の試験治療(一つはAの実際の製剤とBのプラセボ、もう一つ はAのプラセボとBの実際の製剤)のどちらかを受ける。
Dropout 脱落 Dropout
A subject in a clinical trial who for any reason fails to continue in the trial until the last visit required of him/her by the study protocol. 治験実 施計画書が要求する最終観察以前に、何らかの理由で臨床試験の継続ができない被験者。
Equivalence Trial 同等性 試験Equivalence Trial
A trial with the primary objective of showing that the response to two or more treatments differs by an amount which is clinically unimportant. This is usually demonstrated by showing that the true treatment difference is likely to lie between a lower and an upper equivalence margin of clinically acceptable differences. 二つ以 上の試験治療に対する反応が、臨床的に重要な意味を持つほど異ならないことを示すことが主要な目的の試験。このことは、通常臨床的に許容できる差である上 側同等限界と下側同等限界の間に、試験治療間の真の差が存在する可能性が高いことを示すことにより証明される。
Frequentist Methods 頻度論 的方法Frequentist Methods
Statistical methods, such as significance tests and confidence intervals, which can be interpreted in terms of the frequency of certain outcomes occurring in hypothetical repeated realisations of the same experimental situation. 有意性 検定及び信頼区間といった統計的方法であり、その意味は同一実験状況下という仮説的な繰り返しのもとで起こるある結果の頻度という観点から解釈できる。
Full Analysis Set 最大の 解析対象集団Full Analysis Set
The set of subjects that is as close as possible to the ideal implied by the intention-to-treat principle. It is derived from the set of all randomised subjects by minimal and justified elimination of subjects. Intention-to-treat の原則に可能な限り近づけた被験者集団。最大の解析対象集団は、ランダム化が行われた全被験者から、除くべき理由のある最低限の被験者を除外した集団であ る。
Generalisability, Generalisation 一般化 可能性、一般化Generalisability, Generalisation
The extent to which the findings of a clinical trial can be reliably extrapolated from the subjects who participated in the trial to a broader patient population and a broader range of clinical settings. 臨床試 験で得た知見を、その試験に参加した被験者からより広い患者集団とより広い医療現場へ外挿することが信頼をもってできる程度。
Global Assessment Variable 総合評 価変数Global Assessment Variable
A single variable, usually a scale of ordered categorical ratings, which integrates objective variables and the investigator's overall impression about the state or change in state of a subject. 被験者 の疾患の状態又は疾患の状態の変化についての客観的変数と治験責任(分担)医師の全体的な印象を統合した、通常、順序カテゴリの評価尺度である単一の変 数。
Independent Data Monitoring Committee (IDMC) (Data and Safety Monitoring Board, Monitoring Committee, Data Monitoring Committee) 独立 データモニタリング委員会/効果安全性評価委員会(データ及び安全性モニタリング委員会、モニタリング委員会、データモニタリング委員会) Independent Data Monitoring Committee(IDMC) (Data and Safety Monitoring Board, Monitoring Committee, Data MonitoringCommittee)
An independent data-monitoring committee that may be established by the sponsor to assess at intervals the progress of a clinical trial, the safety data, and the critical efficacy endpoints, and to recommend to the sponsor whether to continue, modify, or stop a trial. 臨床試 験の進行状況、安全性データ及び重要な有効性評価項目を何回かにわたって評価するとともに、治験依頼者に試験の継続、修正、又は中止を勧告するために、治 験依頼者が必要に応じて設立する委員会。
Intention-To-Treat Principle Intention-To-Treat の原則Intention-To-Treat Principle
The principle that asserts that the effect of a treatment policy can be best assessed by evaluating on the basis of the intention to treat a subject (i.e. the planned treatment regimen) rather than the actual treatment given. It has the consequence that subjects allocated to a treatment group should be followed up, assessed and analysed as members of that group irrespective of their compliance to the planned course of treatment. 治療に 用いる治療方針により得られる効果は、実際に受けた試験治療ではなく、被験者を治療しようとする意図(予定した試験治療規定)に基づくことにより最もよく 評価できる、ということを主張する原則。この原則から、一つの試験治療グループに割付けられた被験者は、予定した試験治療のコースを遵守したかどうかにか かわらず、割付けられたグループのまま追跡され、評価され、解析されるべきであることが導かれる。
Interaction (Qualitative & Quantitative) 交互作 用(質的及び量的)Interaction (Qualitative & Quantitative)
The situation in which a treatment contrast (e.g. difference between investigational product and control) is dependent on another factor (e.g. centre). A quantitative interaction refers to the case where the magnitude of the contrast differs at the different levels of the factor, whereas for a qualitative interaction the direction of the contrast differs for at least one level of the factor. 試験治 療の対比(被験薬と対照薬との差など)が、他の要因(施設など)により変わる状況。量的な交互作用とは、要因のレベルが異なるとそれに応じて対比の大きさ が変わることであり、質的な交互作用とは、要因のレベルの少なくとも一つにおいて、対比の方向までもが変わることである。
Inter-Rater Reliability 評価者 間信頼性Inter-Rater Reliability
The property of yielding equivalent results when used by different raters on different occasions. 異なる 評価者が異なる機会に評価をする場合、同じ結果を与える特性。
Intra-Rater Reliability 評価者 内信頼性Intra-Rater Reliability
The property of yielding equivalent results when used by the same rater on different occasions. 同一評 価者が異なる機会に評価をする場合、同じ結果を与える特性。
Interim Analysis 中間解 析Interim Analysis
Any analysis intended to compare treatment arms with respect to efficacy or safety at any time prior to the formal completion of a trial. 試験の 正式な完了以前に、有効性又は安全性に関して試験治療群間を比較することを意図して行われるあらゆる解析。
Meta-Analysis メタア ナリシスMeta-Analysis
The formal evaluation of the quantitative evidence from two or more trials bearing on the same question. This most commonly involves the statistical combination of summary statistics from the various trials, but the term is sometimes also used to refer to the combination of the raw data. 同じ問 題を扱う二つ以上の試験から得られる定量的な証拠について形式に則って行う評価。最も一般的なメタアナリシスでは、様々な試験の要約統計量を統計的に結合 するが、生データを結合する場合もメタアナリシスと呼ぶ場合がある。
Multicentre Trial 多施設 共同治験Multicentre Trial
A clinical trial conducted according to a single protocol but at more than one site, and therefore, carried out by more than one investigator. 単一の 治験実施計画書に基づいて、二つ以上の施設で、したがって二人以上の治験責任医師によって実施される臨床試験。
Non-Inferiority Trial 非劣性 試験Non-Inferiority Trial
A trial with the primary objective of showing that the response to the investigational product is not clinically inferior to a comparative agent (active or placebo control). 被験薬 への反応が比較薬剤(実薬又はプラセボ)よりも臨床的に劣らないことを示すことが主要な目的の試験。
Preferred and Included Terms 基本語 及び慣用語Preferred and Included Terms
In a hierarchical medical dictionary, for example MedDRA, the included term is the lowest level of dictionary term to which the investigator description is coded. The preferred term is the level of grouping of included terms typically used in reporting frequency of occurrence. For example, the investigator text “Pain in the left arm” might be coded to the included term “Joint pain”, which is reported at the preferred term level as “Arthralgia”. MedDRA のような階層的医学辞書では、慣用語とは治験責任医師の記述がコード化される最下層の辞書用語である。基本語とは、発生頻度を報告するために用いられるも のであり、慣用語をグループ化するレベルである。例えば、「左腕に痛み」という治験責任医師の記述は、慣用語では「関節痛(Joint Pain)」としてコード化され、基本語レベルでは「関節痛(Arthralgia)」として報告される。
Per Protocol Set (Valid Cases, Efficacy Sample, Evaluable Subjects Sample) 治験実 施計画書に適合した対象集団(妥当例、有効性サンプル、評価可能被験者サンプル)PerProtocol Set (Valid Cases, Efficacy Sample, Evaluable Subjects Sample)
The set of data generated by the subset of subjects who complied with the protocol sufficiently to ensure that these data would be likely to exhibit the effects of treatment, according to the underlying scientific model. Compliance covers such considerations as exposure to treatment, availability of measurements and absence of major protocol violations. データ の集合であり、そのデータは基礎となる科学的モデルに従い試験治療の効果をよく示すと十分考えられる程度に治験実施計画書を遵守した部分集団から得られ る。遵守には、試験治療への曝露、測定値の利用可能性及び大きな治験実施計画書違反がないことが含まれる。
Safety & Tolerability 安全性 及び忍容性Safety & Tolerability
The safety of a medical product concerns the medical risk to the subject, usually assessed in a clinical trial by laboratory tests (including clinical chemistry and haematology), vital signs, clinical adverse events (diseases, signs and symptoms), and other special safety tests (e.g. ECGs, ophthalmology). The tolerability of the medical product represents the degree to which overt adverse effects can be tolerated by the subject. 医療用 医薬品の安全性は、臨床試験では通常臨床検査(臨床化学、血液学を含む)、バイタルサイン、臨床的有害事象(疾患、徴候、症状)、その他特別な安全性検査 (心電図、眼科学など)によって評価される、被験者の医療上のリスクに関するものである。医療用医薬品の忍容性とは、明白な有害作用が被験者にとってどれ だけ耐えうるかの程度を示す。
Statistical Analysis Plan 統計解 析計画書Statistical Analysis Plan
A statistical analysis plan is a document that contains a more technical and detailed elaboration of the principal features of the analysis described in the protocol, and includes detailed procedures for executing the statistical analysis of the primary and secondary variables and other data. 統計解 析計画書とは、治験実施計画書に記されている解析の主要な特徴のより技術的な詳細を述べた文書であり、主要変数、副次変数、その他のデータに関する統計解 析を実行するための詳細な手順を含むものである。
Superiority Trial 優越性 試験Superiority Trial
A trial with the primary objective of showing that the response to the investigational product is superior to a comparative agent (active or placebo control). 被験薬 への反応が比較薬剤(実薬又はプラセボ)よりも臨床的に優れることを示すことが主要な目的の試験。
Surrogate Variable 代替変 数Surrogate Variable
A variable that provides an indirect measurement of effect in situations where direct measurement of clinical effect is not feasible or practical. 臨床的 効果を直接測定することが実際的でない場合に、効果の間接的な測定値を示す変数。
Treatment Effect 試験治 療の効果Treatment Effect
An effect attributed to a treatment in a clinical trial. In most clinical trials the treatment effect of interest is a comparison (or contrast) of two or more treatments. 臨床試 験における試験治療の効果。ほとんどの臨床試験では、関心のある試験治療の効果は、二つ以上の試験治療間の比較(又は対比)である。
Treatment Emergent 試験治 療下での発現Treatment Emergent
An event that emerges during treatment having been absent pre-treatment, or worsens relative to the pre-treatment state. 試験治 療前には存在しておらず試験治療期間に出現した事象、又は試験治療前の状態に比べて悪化した事象。
Trial Statistician 試験統 計家Trial Statistician
A statistician who has a combination of education/training and experience sufficient to implement the principles in this guidance and who is responsible for the statistical aspects of the trial. 本ガイ ドライン中の原則を実行するために、十分な理論又は実地の教育及び経験を併せ持ち、かつ当該試験の統計的側面に責任を持つ統計家。