如今,临床研究结果层出不穷,“史上最佳”们频繁出没,给临床医生造成困扰,以至于面对眼花缭乱的选择,会衍生出来无助感、迷茫感,面对这些“史上最佳”不知道如何做出选择。那么,什么样的研究数据才能荣膺“史上最佳”这一光荣称号呢?
如今,临床研究结果层出不穷,“史上最佳”们频繁出没,给临床医生造成困扰,以至于面对眼花缭乱的选择,会衍生出来无助感、迷茫感,面对这些“史上最佳”不知道如何做出选择。那么,什么样的研究数据才能荣膺“史上最佳”这一光荣称号呢?
首先,我们的总路线、总方针是明确的、一贯的、坚定不移的,那就是:所有基于间接比较而宣称史上最佳的,都是耍流氓;所有基于探索性终点宣称得到阳性结果的,也都是耍流氓。
敢于标榜自己是史上最佳,只有一条金标准,即:与当前标准治疗相比,在头对头的临床试验中,在主要研究终点上得到统计学阳性结果,仅此,无他。如果你的“史上最佳”不仅仅得到了统计学阳性结果,而且同时得到有临床意义的终点水平的提升,那恭喜你,这是一个“有气质”的史上最佳(当然,什么叫有临床意义,只能具体情况具体分析了)。
为什么基于间接比较无法得出确认性结论?因为每一项研究的研究背景都是不完全一样的,而这些研究背景的差异对临床试验结果将会造成一定的影响,总体来说包括以下几个方面:
1、入排标准:例如,有些研究允许脑转移患者入组,有些则是排除标准,即使是无症状患者也不允许入组;有些研究允许IIIb期等局部晚期患者入组,有些不允许,这些入排标准的差异会导致研究结果有所不同。
2、评估周期:尤其是以PFS作为主要研究终点的研究,评估周期导致的偏倚更是如此。例如,有的研究每6周进行一次疗效评估,而有的研究是每8周进行一次评估,显然,后者评估的间隔会导致PFS更长,因为如果患者在6周以前进展,就意味着患者此时多了2周的PFS时间,毕竟疾病进展的准确时间难以界定;
3、检查方式:如针对脑转移,某些研究会定期(如6个月)对患者进行评估,但是,有些研究的规定是待患者出现症状后,根据临床情况决定是否进行相应的评估,而基于症状出现后才进行评估的研究,由于判断的滞后性,必然导致数据偏于乐观;
4、研究设计:是单中心还是多中心?是开放标签还是盲法设计?这些均会对疗效评估造成影响。为什么研究中心会对疗效造成影响呢?举个简单的例子,如果乡镇级卫生院与大型三甲医院相比,谁的水平相对更高一些?这种医疗技术的差异及干预的及时性与否必然会对患者的预后造成影响;此外,对于开放标签的设计,由于研究者已经知道患者口服的是何种研究药物,因此,不可避免的引入评估偏倚的产生。
5、研究分析人群:在临床试验中,意向性分析人群(ITT)是最常用的最终疗效分析人群,该人群纳入所有签署知情后进入研究的患者,由于部分患者可能存在方案违背、首次疗效评估前的脱落等因素,ITT分析虽然客观,但并不完全合理。这种情况下,需要对某些患者进行剔除以组建一个新的疗效分析集合——符合方案集(PP分析)。而由ITT分析转为PP分析过程中,需要遵循怎样的原则进行剔除,不同的研究所遵循的准则不完全一样。通常,剔除标准会事先写在研究方案中,并在最终锁库及数据揭盲之前,由研究专家、统计师等共同商议决定。
因此,头对头研究之所以如此可信,就是因为它把两款药物放在了同一个研究环境中,将上述因素完全平衡掉,得到的结果才会比较可信。当然,如果在研究背景类似(是类似)的情况下,某一款药物具有明显优势,尤其是有其他外部证据证实的情况下,间接比较仍然具有很高的可信度(但结论仍然不是确认性的)。
为什么基于探索性终点无法得到确认性结论呢?首先,我们需要明确一点,只有当某个疗效终点参与了样本含量计算的时候,得到的结论才是确认性结论。因为在一项临床研究中,所有的研究设计,包括样本含量计算均是围绕着主要终点进行,如果在研究中涉及了多个主要终点,那么就需要对相应的I类错误进行校正,从而得到一个新的显著性水准,最终的P值需要跟这个新的显著性水准进行比较,而这个新的显著性水准已经不是通常认为的0.05。如果这个研究终点没有纳入样本含量计算,即使最终的P值是0.01或者0.02甚至更小的一个值,那又能如何呢?由于没有参与到样本含量计算,已经不知道要比较的标杆是多少了。可能有同行会有疑问,此时在把这个终点纳入样本含量计算可以吗?肯定是不可以的,因为这种重大的研究方案修订必须要有充分的理由,对于注册研究而言,还需要与监管部门能沟通并得到批准。更重要的是,在已经看到研究数据的情况下,后续为这个研究量身定制一个统计方法,这种“人为”做出来阳性的研究,可信度又有多少呢?
总之,在“史上最佳”已经“乱花渐欲迷人眼”的时代,非头对头的直接比较,尤其是同一类药物非常有限时间的提高,并不能得到确认性结论,甚至这种差异有可能是抽样误差本身导致的,此时宣称“史上最佳”是不严谨的。