Metagenomic 프로파일링 파이프라인은 16S amplicon 시퀀싱 데이터에 대한 분류 분류를 개선합니다.
Scientific Reports 13권, 기사 번호: 13957(2023) 이 기사 인용
8834 액세스
122 알트메트릭
측정항목 세부정보
박테리아 미생물군집을 연구하는 대부분의 실험은 미생물군집 샘플에 존재하는 다양한 분류군을 식별하고 정량화하기 위한 바이오마커 역할을 하는 16S rRNA 하위 단위에 대한 유전자 전체 또는 일부의 PCR 증폭에 의존합니다. 16S 앰플리콘 시퀀싱을 분석하기 위한 여러 계산 방법이 존재합니다. 그러나 가장 많이 사용되는 생물정보학 도구는 고품질 속 수준 또는 종 수준 분류학적 호출을 생성할 수 없으며 이러한 호출의 잠재적 정확성을 과소평가할 수 있습니다. 우리는 모의 박테리아 공동체의 16S 시퀀싱 데이터를 사용하여 미생물 분석에 사용되는 여러 생물정보학 파이프라인과 게놈 참조 라이브러리의 민감도와 특이성을 평가하고 16S 앰플리콘 읽기의 종 수준 분류학적 할당의 정확성을 측정하는 데 집중했습니다. Greengenes, SILVA, Kraken 2 및 RefSeq의 참조 라이브러리와 함께 DADA2, QIIME 2, Mothur, PathoScope 2 및 Kraken 2 도구를 평가했습니다. 프로파일링 도구는 다양한 종의 풍부함과 균일성을 지닌 136개 샘플, 16S rRNA 유전자 내의 여러 다른 증폭 영역, 도금된 세포 컬렉션의 DNA 스파이크인과 cDNA로 구성된 여러 소스의 공개적으로 사용 가능한 모의 커뮤니티 데이터를 사용하여 비교되었습니다. 전체 게놈 메타유전체학을 위해 설계된 도구인 PathoScope 2와 Kraken 2는 DADA2, DADA2 플러그인을 사용하는 QIIME 2 및 이론적으로 16S 분석에 특화된 Mothur보다 성능이 뛰어났습니다. 참조 라이브러리 평가에서는 SILVA 및 RefSeq/Kraken 2 표준 라이브러리가 Greengenes에 비해 정확도가 우수한 것으로 확인되었습니다. 이러한 발견은 PathoScope와 Kraken 2가 속 및 종 수준의 16S 앰플리콘 시퀀싱 데이터 분석, 전체 게놈 시퀀싱 및 메타유전체학 데이터 도구를 위한 완벽하고 경쟁력 있는 옵션임을 뒷받침합니다.
높은 처리량의 시퀀싱은 미생물학 연구, 즉 미생물 군집의 구성, 다양성 및 기능과 숙주 또는 환경과의 상호 작용을 연구하는 데 초점을 맞춘 과학 분야를 크게 가속화했습니다1. 미생물 시료의 조성을 특성화하는 것은 일반적으로 고도로 보존된 영역을 가진 편재 유전자인 16S 리보솜 하위 단위 서열의 증폭에 의존합니다. 이 하위 단위는 확립된 PCR 프라이머와 초가변 영역을 사용하여 16S rRNA를 분리하고 증폭하여 동일성과 계통발생을 확립하려는 노력을 단순화합니다. 16S rRNA 및 rDNA 시퀀싱은 알려진 원핵생물 종을 식별하고 미생물군집 샘플 내 운영 분류 단위(OTU)의 상대적 존재비를 정량화하는 프록시 역할을 하는 데 사용할 수 있습니다.
리보솜 RNA 유전자 서열의 분류학적 프로파일링 방법을 사용하면 rRNA 서열을 분류학적 그룹으로 분류하여 샘플 OTU 식별이 가능합니다. 사용 가능한 도구를 사용하면 종 수준 식별에서 상당한 정확도를 얻을 수 있지만2, 16S 앰플리콘 시퀀싱 데이터를 위한 현재 프로파일링 소프트웨어는 종 수준까지 식별하는 데 주저합니다. 대신, 서열 유사성을 기반으로 읽기를 클러스터링하여 속 또는 더 높은 수준의 식별을 할당하여 특이성과 민감도를 높이거나 분류학적 분류를 위해 오류 필터링된 서열을 직접 사용합니다3,4. 최신 시퀀싱 플랫폼의 기능이 증가하고 박테리아 참조 게놈 데이터베이스가 확장 및 개선됨에 따라 전체 게놈 메타유전체학에 보다 일반적으로 적용되는 대체 방법을 사용하여 향상된 16S 분석 성능을 달성할 수 있는 가능성이 더 커졌습니다.
현재 16S 앰플리콘 시퀀싱 데이터 분석에 사용되는 가장 일반적인 소프트웨어 패키지는 DADA24, QIIME 25, 이전 버전인 QIIME 26 및 Mothur7입니다. QIIME 2와 Mothur는 모두 차세대 시퀀싱이 발명된 직후에 원래 개발되었으며 QIIME 2와 함께 본질적으로 동일한 작업 흐름을 따릅니다. 판독은 일반적으로 서열 유사성을 기반으로 OTU(작업 분류 단위) 또는 잡음이 제거된 OTU로 클러스터링됩니다. (많은 사람들이 이를 앰플리콘 서열 변이체 또는 ASV라고 함) 클러스터링에 완전한 서열 동일성이 필요한지 여부에 따라 달라집니다. 초기 클러스터링 단계는 1) 대규모 참조 게놈 세트에 대한 정렬이 필요한 서열의 수를 제한하여 계산 효율성을 향상시키고 2) 주어진 박테리아 균주 내에 존재하는 낮은 수준의 유전적 변이를 수용하여 시퀀싱 오류를 완화하는 역할을 합니다. 거의 10년 동안 OTU 포함에 대한 컷오프는 97% 서열 동일성8,9이었지만 현재 컷오프 권장 사항은 일반적으로 어떤 형태의 노이즈 제거 또는 시퀀싱 오류에 대한 기타 수정 후 99~100% 서열 동일성입니다3,11.