2019
유전자 발현 데이터는 유전체의 static coding이상의 깊은 생리학적 통찰력을 제공할 수 있다. 이 잠재성을 실현하기 위해 생물학적인 구조를 활용할 수 있는 특화된 고용량 기계학습 방법이 필요하다. 그러나 이러한 모델의 개발은 출판된 벤치마크 작업과 잘 정의된 baseline의 부족으로 인해 어려움을 겪고 있다. 본 연구에서는 크게 구성된 두가지 정제된 관점 (LINCS corpus) 및 개인 제작 데이터셋에 대한 생물학적 동기부여 작업에 대한 많은 분류기의 프로파일링을 통해 이러한 벤치마크와 baseline을 수립한다. 우리는 이 두가지 정제된 LINCS 데이터셋과 벤치마크 작업을 제공하여 향후 방법론적인 연구와 이 모드에서의 딥러닝 방법 개발을 직접 비교하고 촉진하는데 도움을 준다. 전통적인 분류기 뿐 아니라 선형모델, 랜덤포레스트, 의사결정나무, KNN, 및 Feed forward 인공 신경망을 포함한 다양한 분류기를 프로파일링 하면서 이 데이터 모드에서 처음으로 시도되는 GCN등의 방법도 테스트한다. 이 방법은 이전의 생물학적인 도메인 지식을 통합할 수 있게한다. 우리는 GCN이 대규모 데이터셋에서 높은 성능을 낼 수 있으며, Feed forward 인공 신경망은 일관된 성능을 보이는 것으로 발견했다. 비신경 분류시는 선형모델과 KNN에 밀린다.
Original paper
https://dspace.mit.edu/bitstream/handle/1721.1/121738/1102050364-MIT.pdf?sequence=1&isAllowed=y
Git
https://github.com/mmcdermott/LINCS_Deep_Learning_Benchmarks
GitHub - mmcdermott/LINCS_Deep_Learning_Benchmarks: A collection of benchmark tasks and results for the LINCS dataset.
A collection of benchmark tasks and results for the LINCS dataset. - GitHub - mmcdermott/LINCS_Deep_Learning_Benchmarks: A collection of benchmark tasks and results for the LINCS dataset.
github.com