[8] Adjusting batch effects in microarray expression data using empirical Bayes methods
2007
배치효과는 실험의 목적인 생물학적인 차이로 인하지 않은 효과이며, 마이크로어레이 실험에서 종종 관측된다. 이로인해 이러한 배치로부터의 데이터 결합 작업이 어려워진다. 마이크로어레이 데이터 세트를 결합할 수 있는 능력은 연구자들에게 필요하며, 이로써 표본 크기를 제한하는 논리적 고려사항이나 어레이의 순차적인 결합을 필요로하는 연구에서 생물학적인 현상을 검출하는 통계적 검정력을 증가시킬 수 있다. 일반적으로 배치효과를 조정하지 않고 데이터 세트를 결합하는 것은 부적절하다. 데이터에서 배치효과를 걸러내기 위한 방법들이 제안되었지만, 이러한 방법들은 종종 복잡하며 25 이상의 대규모의 배치크기가 필요하다. 대부분의 마이크로어레이 연구는 매우 작은 표본크기를 사용하므로, 기존의 방법들은 충분치 않다. 우리는 작은 표본 크기에서 이상치에 robust한 배치효과를 조정하기 위한 모수 및 비모수적 empirical Bayes 프레임 워크를 제안하며, 대규모 표본에 대한 기존의 방법과 유사한 성능을 발휘한다. 이 두가지 예제 데이터세트를 사용하여 우리의 방법을 설명하고, 우리의 방법이 정당하며 적용하기 쉽고 실용적임을 보여준다. 우리의 방법을 위한 소프트웨어는 다음 링크에서 무료로 제공된다, (이 사이트는 현재 접속이 안된다...) **http://biosun1.harvard.edu/complab/batch/**
번역에 가까운 요약
비생물학적인 차이 즉, 배치의 차이로부터 오는 차이를 없애는 것이 이 논문의 목표이다. 기존의 방법론은 그저 정규화를 가능하게하는 데에 초점이 맞춰져있거나, 배치의 수가 많거나 배치간 유사도가 떨어지면 제대로 작동하지 않는다.
기존에는 크게 두가지 계열의 방법이 있다, Sigular Vector Decomposition (SVD)는 노이즈로 여겨지는 eigengene과 eigenarray를 필터링하여 데이터를 조정하며, 그리고 Distance Weighted Discrimination (DWD)는 두개의 배치를 분리하는 초평면을 찾아 정사영과 평균을 이용하여 노이즈를 제거하는 방법론이다.
하지만, 이 두가지 계열의 방법론은 표본의 수가 많이 필요하다는 문제점이 있다. SVD는 모든 벡터가 직교함으로 첫번째로 선택하는 몇가지의 고유벡터가 성능을 크게 좌지우지한다. 또한 온전히 배치로부터 오는 노이즈만을 제거하는 방법이 아니다. DWD는 한번에 딱 두개의 배치에만 적용 가능하다. 여러번의 분석이 필요하기 때문에, 배치의 수가 많으면 많을수록, 그리고 배치가 유사하지 않을수록 제대로 작동하지 않을 수 있다.
또 다른 계열의 방법으로 Location and Scale (L/S) 조정은 배치내의 평균/분산에 대한 모델을 가정한다. L/S 배치효과 조정은 배치효과가 각 배치간의 평균과 분산을 표준화하여 모델에서 제거될 수 있다고 가정한다. 여기서의 종속변수(좌변)는 gene expression이며, 우변의 항은 순서대로 overall gene expression, design matrix, additive and multiplicative 배치효과를 의미한다. 엡실론은 시그마 제곱의 분산과 0평균의 정규분포를 가정한다.
그리고 배치보정된 자료는 아래와 같이 추정된다.
해당 방법론의 문제점은 샘플사이즈가 작으면, 이상치에 너무 민감하다는 문제가 있다. 여기서는 해당 문제점을 고려한 empirical Bayes (EB) 방법을 기반으로 배치의 차이를 죽이는 방법론을 소개한다. 이 방법은 조정시에 유전자간의 공통적으로 나타나는 배치 효과를 통합하여 조정함으로, 배치효과로 인한 현상이 많은 유전자에 유사한 방식으로 영향을 미치는 것을 가정한다. (발현량 증가 → 높은 변동성). 구체적으로, 각 배치내의 유전자 사이에서 정보를 뽑아 배치효과 추정값을 유전자 전쳬에서 배치효과 추정값의 전체 평균으로 수축되는 L/S 모델 메개변수를 추정한다. 이러한 EB추정치는 데이터를 배치효과에 대해 조정하는데 사용되며, 각 유전자의 배치효과에 대한 더욱 견고한 조절을 가능하게 한다.
우선 가장먼저 L/S 모델과 같은 세팅에서, 유전자들이 비슷한 평균과 분산을 갖게끔 gene-wise 표준화를 진행한다. 그 뒤 배치 효과에 대한 empirical prior를 아래와 같이 가정한다.
EB는 아래처럼 배치효과 파라미터를 추정한다. 서플리먼트에 구체적인 derivation이 있지만, 굳이 여기서 다루지는 않을것이다.
6537회의 피인용수를 자랑하는 알고리즘이다.
Original paper
Adjusting batch effects in microarray expression data using empirical Bayes methods
Adjusting batch effects in microarray expression data using empirical Bayes methods
Abstract. Non-biological experimental variation or “batch effects
academic.oup.com