We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://mp.weixin.qq.com/s/5HhF1mEYybD7NwsNv4OlMg
The text was updated successfully, but these errors were encountered:
这是一篇读者的投稿,叫宇宇,研究领域是队列研究和临床试验,我们公众号的读者中也应该有人从事临床研究。我很喜欢这样的语言,希望能够多投几篇。到最后,技术实现都不重要,为什么选择那个技术才重要。
我今天又买了几本统计学的书籍,彻底搞清楚一件事情是令人愉悦的,不能在统计里再稀里糊涂了。
经常阅读临床研究文献的童鞋可能会发现,很多前瞻性的队列研究或者临床试验,都会在方法部分提供有样本量估算的相关细节。目前业内共识是,所有前瞻性研究都应该预先进行样本量的估算,没有这一步,可能写好的文章或者得到的结论到最后都很难发表。那么为什么要做样本量预先估算呢?
其实呀,样本量的估算涉及到一个统计学方面重要的问题,就是假设检验的检验效能。
我们今天主流的教科书上都是以经典的频率学派理论进行构建的,目前呢,这一学派最为推广的呢就是P值的应用,虽然这个方法广受其他学派的诟病,但是很多人还是一时用一时爽,一直用一直爽。。。。。。
P值小于0.05的意思到底是啥?其实是说假设H0(即两总体没区别)成立的可能性概率在5%以下。如果我们进行一次假设检验,P值结果大于0.05,能说明两总体没区别吗?我们大多时候在实际操作中,的确是这样子佛系地认为的,但是这种做法很不严谨。因为,这背后很有可能是我们采用的检验方法的效能不足,在目前的状态下,没有把差异检验出来,而呈现了一个假阴性的结果,如果提高抽样次数,可能差异就出来了。在统计学中衡量这个效能大小的值就是1-β,叫做检验效能(power)。
所以,在预先设定的检验效能下进行研究,是十分有必要的,一般要求,检验效能要达到80%以上,阴性结果才比较可靠。我们可以计算,在预设的检验效能下,至少需要多少样本量。
举个例子,我们用最简单的OR值来说明。假设,每100个60岁的高血脂的病人中,有15个发生心梗,而正常60岁人群里面,每100个人只有2个发生心梗。那我们通过点估计,可以知道,高血脂的人发生心梗是正常人风险的7.5倍,即OR=7.5。要使这个估计有统计学意义,其实就是使这个OR值的置信区间下限大于1,那样本量怎么算呢?在这里,推荐大家一个最简单的方法,用https://www.cnstat.org/samplesize/14/ 这个在线工具。
我们设置,α检验水准也就是P指为0.05,检验效能达到80%,高血脂组的发生心梗的概率(Pt)为0.15,正常组(Pc)为0.02,假定收集样本的时候两组样本量相等(1:1),那么可以计算,我们至少各组需要100个样本,而此时的检验效能达到0.8028。
通过这个例子我们可以发现哪些因素决定样本量。首先是P值和检验效能,我们预设的P值越小,或者要求的检验效能越高,结果就越可靠,当然需要的样本量就越大。
其次是点估计的OR值,两个总体自身存在的差异越明显,OR值离1越远,在设定的P值和检验效能不变的情况下,所需要样本量就越小。
还有一个重要的因素,就是所选择的检验工具,因为不同的统计学检验方法,比如t检验和非参检验,又比如卡方检验和fisher概率法,在某些条件下都可以适用,但是他们检验能力自身存在区别,当然所需的样本量也不同。
我们不仅可以通过预设P值、检验效能和预定点估计来推算样本量,也可以通过预设P值、点估计和现有样本量来计算检验效能,这个相当于是乘法和除法互为逆运算一样,很好理解。
那么,回到开始的问题。为什么说样本量估算在前瞻性研究中很重要?为什么临床研究大多会设置一个主要终点(primary outcome)?次要终点(secondary outcome)的结果也很可靠吗?
临床研究一般围绕一个主要的科学问题,即主要终点研究。需要对这个主要终点的假设检验预先估算样本量,而一般不对次要终点和亚组分析估算样本。样本量的估算,保证了主要终点一个可靠的结论。即便最终是一个阴性结果,也是建立在充足的样本量和可信的效能基础上的。
并且,临床研究遵循伦理原则,一般要求用尽可能少的样本量进行研究,所以,寻找一个可以得出可靠结果的样本量是需要预先计划的,在前瞻性研究中这是不可缺少的步骤。此外,因为未作样本量估算,次要终点发现的阳性或者阴性结果一般只能作为参考,并且,受到利用相同样本进行多重检验的影响,其结果的可信度也没有主要终点可靠。
关于,多重检验或者多次检验是统计学中的另一个重要话题,以后有机会再和大家讨论。在这里,我们用了一个简单的在线网站计算,还有很多复杂的实验设计,比如非劣效性、比例模型、生存函数等样本量计算,可以通过PASS统计学软件完成,操作和原理都大同小异,相信你理解了决定样本量各因素间关系,一切都迎刃而解。
Sorry, something went wrong.
No branches or pull requests
https://mp.weixin.qq.com/s/5HhF1mEYybD7NwsNv4OlMg
The text was updated successfully, but these errors were encountered: