cleanUrl: "reverse-complement-equivariance-review"
description: "Towards a better understanding of reverse-complement equivariance for deep learning models in regulatory genomics 논문을 리뷰합니다."
→ RC equivariance를 달성하는 모델을 구축하기 위해서, post-hoc conjoined 모델을 reliable baseline으로 사용하고, 그것보다 성능이 좋은 모델을 구축하는 것을 목표로 하는 게 바람직하다.
DNA sequence 상에 존재하는 regulatory motif를 잡아내는 데 convolutional neural network (CNN)이 널리 활용되고 있지만, Standard CNN들은 주로 computer vision task를 위해 개발되고 발전되어 왔기 때문에 double-strand DNA의 complementary base-pairing 정보를 고려하지 않는다.
초창기 Deep learning for genomics 연구들을 보면 이 문제를 forward/reverse sequence 예측을 둘다 활용함으로써 해결한다. 이런 구조를 conjoined 혹은 “siamese” architecture라고 부른다.
결국 conjoined model은 forward/reverse strand input에 대한 “Representation merging”을 수행한다고 볼 수 있다.
전통적으로 representation merging을 training / testing time 둘 다 수행할 때 conjoined model 이라고 부르지만, training 시에는 representation merging을 하지 않아도 test-time에 merging을 수행하는 경우도 conjoined architecture로 볼 수 있다.
Conjoined architecture의 단점. Conjoined architecture는 convolutional filter에 의한 motif scanning 보다 뒷 단계에서 RC equivariant가 부여되기 때문에, filter 자체는 forward motif / reverse motif 두 개가 각각 학습되어야 한다는 부담이 있다. 따라서 어떤 sequence에 어떤 motif는 forward orientation으로 있고, 어떤 motif는 reverse orientation으로 있다면 어느 한 orientation의 motif만 학습한 모델은 모든 motif를 identify할 수 없다.
→ Reverse-complement parameter sharing (RCPS)의 필요성
RCPS. RCPS는 window length + channel axis를 따라 flipped된 한 쌍의 weight-tied filter를 가지고 학습을 진행한다.
RCPS 아이디어를 사용한 연구들.