초록 읽기/Bioinformatics & Biostatistics

[7] Removing Batch Effects From Histopathological Images for Enhanced Cancer Diagnosis

Turtle0105 2023. 8. 28. 15:35

2014

  컴퓨터를 이용한 의사결정 시스템은 조직학적 이미지의 양적인 특성을 추출하고, 모델링함으로 의사들이 암을 진단하는 데 도움을 줄 수 있다. 하지만, 조직학적 이미지가 다른 실험 조건에서 얻어지고, 사전에 훈련된 진단 모델에서 테스트되는 경우 배치효과로 인해 예측 성능이 저하될 수 있다. 배치효과란 시료의 연령, 슬라이드 준비 방법, 이미징 장치의 사양 및 후처리 소프트웨어 유형과 같은 생물학적이 아닌 실험적 변동과 같은 것을 의미한다. 배치효과는 양적인 이미지 특성에 큰 차이를 일으킬 수 있으며, 이에따라 별도의 배치로 훈련된 예측모델을 사용하여 환자를 정확하게 진단하기 어렵다. 배치효과로 인해 디지털 카메라가 장착된 현미경이나 전체 슬라이드 스캐너와 같은 다양한 이미징 장치나 실험 설정을 사용하여 얻은 데이터는 새로운 설정으로 얻은 미래 데이터를 위해 모델을 훈련하는 데 사용될 수 없다. 이는 연구소간의 공통 채택과 의사결정 시스템의 표준화에 큰 도전을 제기한다.

  배치효과는 다른 생체 데이터 양식에도 화두가 된다. 이 효과의 원인은 각 데이터의 양식마다 다르겠지만, 배치효과를 제거하기 위해 개발된 방법들은 여러 데이터 양식에 적용 수 있다. 예를 들어, 마이크로어레이의 배치효과는 일반적으로 데이터의 평균과 분산에 영향을 미친다. 따라서 배치효과의 제거 방법은 주로 평균과 분산 위주의 정규화에 집중하게 된다. 예를 들어, 비율 기반 방법과 ComBat같은 방법이 있다. Luo는 마이크로어레이 데이터의 배치효과 제거 방법을 여러가지와 비교하고 비율 기반의 방법이 가장 좋다고 밝혔다. Chen이 수행한 별도의 연구에서는 여섯가지 배치효과 제거 방법을 비교하고 ComBat이 가장 우수하다는 사실을 발견했다.

  조직학적인 이미지의 배치효과 제거는 비교적 새로운 연구분야다. 그렇지만, TCGA와 같은 대규모 이미지 데이터 저장소의 등장으로 배치효과가 점점 중요한 연구분야가 되고 있다. 조직학적 이미지 분석 연구는 주로 단일 배치데이터에 초점을 맞추었다. 일부의 연구는 조직학적 이미지의 색상 배치효과를 강조하고, 색상의 정규화 방법을 제안했다. 색상 배치효과는 배치별로 염색 색상의 변화를 일으키며, 색상 분할 방법과 색상 특성의 성능에 영향을 준다. Kothari등은 조직학적 이미지의 크기 배치효과를 연구하고 핵 면적을 기반으로 크기 정규화 기법을 제안했다. 우리의 최신 지식에 따르면, 이러한 이미지에 대한 배치효과 제거방법을 정량화 하거나 비교한 paper는 아직 없다.

  우리는 하나의 이미지 (크기) 정규화 방법과 평균, 순위, 비율, ComBatP 와 ComBatN과 같은 다섯가지 특성 정규화 방법을 포함하여 여섯가지 정규화 방법을 비교한다. 서로 다른 실험 조건을 사용하여 획득한 네개의 신장 종양 데이터를 사용하여 각 배치효과 제거 방법이 이미지 기반 특성 및 신장 종양의 하위 유형 및 class의 예측에 미치는 영향을 평가한다. 결과는 데이터 배치효과가 하위 유형 및 class와 같은 생물학적 요인보다 이미지 특성의 분산에 더 큰 변동 요소가 될 수 있음을 나타낸다. 대부분의 배치효과 제거방법은 이 분산을 거의 0으로 감소 시킬 수 있다. 거기에 배치효과 제거 방법은 배치간 그리고 병합된 배치간 예측 성능을 향상시킬 수 있으며, 그 중에서도 ComBatN이 가장 우수한 성능을 보였다.

Image samples of three subtypes in four batches of renal cell carcinoma. Each image is a 512 × 512-pixel subsection of the original whole-slide sample.

Comment

  RNAseq, Microarray에서와 같이 익숙한 배치보정 방법이 이미지 데이터에서도 등장한다. 과연 어떤 전처리 과정을 거쳐야 tabular data와 비슷하게 배치효과 제거 과정이 진행될까? 아니면, image classification에 좋은 Bayes method 계열의 방법(Combat)이 그대로 작동해서 제일 좋아보이는 것인가? Histopathological image는 어떤 특성을 갖으며, 어떤 주의점이 알고리즘에 반영이 되어야 하는가?

 

관련 프로젝트가 시작되거나, 여유가 생기면 더 읽어보자...!

 

Original paper

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5003052/

 

Removing Batch Effects From Histopathological Images for Enhanced Cancer Diagnosis

1. Scale Normalization Upon visual inspection, we found that, besides color batch effects, which are handled using color normalization, these images differ in scale, i.e., images in batches RCC3 and RCC4 are at a higher scale compared to batches RCC1 and R

www.ncbi.nlm.nih.gov