2007
다양한 프로그램은 유전자 집합내에서 Gene Ontology(GO) 범주의 유전적 풍부도 또는 부족함을 결정한다. 문제의 수식화가 exact null distribution으로 이끌지만, 이런 GO 도구들은 종종 결정의 기반이 되는 p-value 계산을 명확하게 하지 않는 다양한 통계검정을 사용한다.
본 논문에서는 문제의 다양한 수식화와 그로인해 얻어지는 검정들을 검토한다. 그 예로는 이항, 카이제곱, 동질성 검정, 초기하검정, 피셔 정확 검정등이 있다. 이 검정들간의 관계를 명확히 하며, 특히 초기하검정과 피셔 정확검정간의 동일성을 설명한다. 다른 검정들은 콘 표본에만 유효하며, 두 확률의 동질성 검정과 카이제곱 검정은 동일하다. 또한 one-tailed & two-tailed p-value의 적절성과 어느정도의 이산성과 보수성 문제에 대해 논의한다.
Comment
논문을 더 읽어보면 one-tailed Fisher’s exact test가 hypergeopmetric test와 동일하다는 사실을 알 수 있다. 수식과 함께 결론을 찾아가는 과정이 궁금하다면, approximate null distribution과 exact null distribution의 차이점 위주로 원본 논문을 찾아 보길! (개인적으로 좋은 논문이라 생각된다)
Original paper