2013
인터넷은 정보시스템(IS) 연구자들에게 극도로 큰 표본을 사용한 연구를 진행할 수 있는 기회를 제공해 왔다. 이러한 연구에서는 종종 10,000개 이상의 관측치가 사용된다. 큰 표본을 사용하는 것에는 많은 장점이 있지만, 통계적 추론을 사용하는 연구자들은 그들과 관련된 p값 문제에 대해 인식해야 한다. 매우 큰 표본에서는 p값이 매우 빨리 0으로 수렴하게 되며, p값만을 의존하는 것은 실용적인 의미가 없는 결과에 대한 지지를 주장하게 만들 수 있다. 큰 표본을 대상으로 한 연구 조사에서 우리는 상당 수의 논문이 낮은 p값과 회귀 계수의 부호만을 이용하여 가설을 뒷받침하려고 하는 것을 발견했다. 이 연구는 큰 표본에서 p값 문제를 완화하기 위해 연구자가 취할 수 있는 일련의 조치를 권장하며, 이를 30만 개 이상의 eBay 카메라 판매 예시를 통해 설명한다. 우리는 p값 문제에 대처함으로써 큰 표본 IS 연구의 신뢰성을 높일 뿐만 아니라 독자들에게 더 많은 통찰력을 제공할 수 있을 것이라 믿는다.
Comment
제목이 마음에 들어 검색해보니, 이 제목으로 이미 유명한 책과 소설이있다. 참고로 피인용횟수는 (2023/08/30기준)1066회 이다. 이 논문은 표본수와 p-value의 관계와 그로부터 나오는 문제와 몇 가지 대처법에 대해 이야기한다. 여기서는 effect size 제시, 신뢰구간 보고, chart 보이기를 제시한다.
일반적으로 표본의 수가 커지면 커질수록, 샘플내 분산은 매우 작아지기에, 작은 차이에도 유의미한 차이가 있다는 결론을 내게된다. 이 외에도 p-hacking이 가능한 여지가 곳곳에 도사리기 때문에, p-value만 가지고 분석을 진행하기보다는 effect size도 보는 분석을 해야한다는 주장을 하는 사람도 있으며, 이 논문에서의 주장과 일치한다.
Original paper
https://www.jstor.org/stable/24700283