-
ReRep: Computational detection of repetitive sequences in genomesurvey sequences (GSS)논문정리 2020. 2. 18. 17:44
연구에 관련이 있어 보이는 논문을 읽고 정리한다.
Genome survey sequences(GSS)에서 반복되는 패턴이 상당 부분 차지하는데, 이는 종을 특정하는 등 활용 가능.
기존 de novo 는 suffix trees, word count algo, similarity searches를 활용.
Repeatmasker는 Repbase같은 반복 서열 데이터베이스를 활용하여 검색하는데, 그러나 이는 밀접하게 관련된 유기체에서만 특정 반복 검출이 가능하며, 많은 반복이 종에 따라 다르다.
-> 현재 연구에서는 반복 패턴의 케이스가 따로 기록되어 있지 않은 상태에서 찾아내어 검출해야 한다.
GSS data에서 repeat detection의 challenge 중 1 -> 반복이 읽기보다 길 때 발생.
Contig : DNA의 합의 영역을 함께 나타내는 일련의 겹치는 DNA 세그먼트.
상향식 시퀀싱 프로젝트에서, contig는 중복 시퀀스 데이터를 나타냄.
패턴이 하나의 contig에 join되는 경향이 있다.
저자의 ReRep은 similarity searches, interpretation of sequence landscapes, assembly of clustered sequences에 기초한다.
During GSS sequencing in a larger project, and usually before assembly, repetitive elements should be identified and temporarily removed from the dataset.
->assembly 이전에 반복 요소를 먼저 식별하고 데이터셋에서 일시적으로 제거해야 한다(후보에서 제외)
bp: 어떤 단위같은데 의미를 모르겠다.
11글자(기본) 에서부터 시작하여 seq. landscape를 build.
PRS: 추정 반복패턴(패턴 후보)
이 때, 패턴의 최소 길이 제한을 조정하여 최적값을 찾는다.
Perl script link(http://bioinfo.pdtis.fiocruz.br/ReRep/)가 연결되지 않아 실제 코드는 확인할 수 없었다.
'논문정리' 카테고리의 다른 글
SNAPPY: Programmable Kernel-Level Policies for Containers (0) 2021.12.13 Root Cause Analysis 관련 논문 조사 (0) 2021.12.13 Detecting Motifs in System Call Sequences (0) 2020.04.22 Hierarchical Pattern Discovery in Graphs (0) 2020.03.29 DualIso: An Algorithm for Subgraph Pattern Matching on Very Large Labeled Graphs (0) 2020.03.24