Cistanche Deserticola Fleshy Stem-Ⅰ의 전사체 조립 및 유전자 발견
Sep 06, 2024
배경
Cistanche Deserticola는 완전히 비광합성 기생 식물로 약용 가치가 뛰어나며 주로 중국 북서부 사막에 분포합니다. 말린 다육질 줄기는 중요한 강장제입니다.한의학주로 남성의 성기능 개선과 면역력 강화의 역할을 담당하고 있으나 게놈 및 전사체 자원의 부족으로 인해 메커니즘에 대한 연구는 거의 이루어지지 않았습니다.

천연 CISTANCHE TUBULOSA 중국 전통 의학 PHGS75% ECH 30% ACT 12%
결과
이 연구에서 우리는 C. Deserticola의 과육 줄기에서 깊은 전사체 시퀀싱을 수행했으며 HiSeq2000 플랫폼에서 Illumina 페어엔드 시퀀싱을 사용하여 약 8{14}}개의 판독이 생성되었습니다. 트리니티 어셈블러를 사용하여 우리는 전사 길이가 200bp에서 15,698bp에 이르는 95,787개의 전사 서열을 얻었으며, 평균 길이는 950개 염기이고 N50 길이는 1,519개 염기입니다. 63,957개의 전사물이 FPKM 0.5 이상으로 활발하게 발현되는 것으로 확인되었으며, 여기서 30,098개의 전사물은 여러 공개 데이터베이스(NCBI의 Uniprot, NR 및 Nt 및 KEGG)에 대한 서열 유사성 분석을 통해 유전자 설명 또는 유전자 온톨로지 용어로 주석이 달렸습니다. . 또한, 우리는 주요 활성 성분으로 알려진 리그닌과 페닐에타노이드 배당체(PhGs)의 생합성에 관여하는 주요 효소 유전자를 확인했습니다. 리그닌 및 PhG 생합성의 첫 번째 핵심 효소인 4개의 페닐알라닌 암모니아 분해효소(PAL) 유전자가 서열 비교 및 계통발생 분석을 기반으로 확인되었습니다. PhG의 두 가지 생합성 경로도 처음으로 제안되었습니다.
결론
전체적으로 우리는 RNA-seq 기술을 사용하여 C. Deserticola 다육 줄기 전사체에 대한 글로벌 분석을 완료했습니다. 리그닌과 페닐에타노이드 글리코시드의 생합성과 관련된 효소 유전자 모음이 조립되고 주석이 달린 전사체로부터 확인되었으며 PAL의 유전자 계열도 예측되었습니다. 본 연구의 서열 데이터는 향후 이 중요한 약용 식물에 대한 페닐에타노이드 배당체 생합성 연구 및 기능적 게놈 연구를 수행하는 데 귀중한 자원을 제공할 것입니다.
소개
C. Deserticola는 오로반차과(Orobanchaceae)에 속하는 다년생 사막 식물의 세계적인 속으로 완전히 비광합성 종이며 일반적으로 지하 홀로기생 식물로 자랍니다. 가뭄과 염분에 대한 내성이 높아 주로 사막과 반사막에 서식하는 psammophyte Haloxylon ammodendron(명아주과)의 뿌리에 기생합니다. C. Deserticola는 혹독한 환경 조건에 강한 저항성을 보이며 주로 중국 북서부, 특히 내몽골, 간쑤성, 신장 지역에 분포합니다. 최근에는 인간의 소비 증가로 인해 멸종 위기에 처한 야생종으로 간주됩니다. 종종 사막 인삼이라고 불리는 C. Deserticola는 일반적으로 사막 빗자루로 알려져 있으며 말린 과육 줄기는 수년 동안 중국과 일본에서 전통적으로 중요한 강장제로 광범위하게 사용되었습니다. 약 1800년 전 신농본조경(1977년)에 처음으로 기록되었으며, 의학의 주요 출처 중 하나로 간주되었습니다.한약재 시스탄체.

성기능 개선을 위한 천연 시스탄체 투불로사 PHGS75% ECH 30% ACT 12%
C. Deserticola 추출물은 광범위한 의약 기능을 가지고 있으며, 특히 성기능 개선, 신장 강화, 간 보호, 변비 활동, 기억력 강화, 면역 조절, 항산화 활동, 항염증, 항바이러스 활동 등에 사용됩니다. C. Deserticola의 주요 생리활성 성분은 페닐에타노이드 배당체(PheGs, PhGs)입니다. 현재까지 C.deserticola의 다육성 줄기에서 20개 이상의 페닐에타노이드 글리코시드가 분리되었습니다. 그 중,액티오사이드와 에키나코사이드중요한 약리학적 활성을 갖는 두 가지 주요 구성 요소이며 중국 약전(2005년 및 2010년판)에 C. Deserticola의 품질 표준으로 문서화되어 있습니다. PhG의 세 가지 화학 성분은 유기산, 당류 및 페닐에타노이드이지만 페닐에타노이드 생합성 경로에 관한 세부 사항은 C.deserticola에서 잘 이해되지 않습니다.
C.deserticola의 상업적, 의학적 중요성에도 불구하고 이 종의 게놈 및 전사체 데이터는 매우 제한적입니다. NCBI 데이터베이스에는 사용 가능한 EST가 없으며 이 종에 대한 전체 게놈 정보는 엽록체 게놈 서열을 제외하고는 여전히 사용할 수 없습니다. 제한된 전사체 데이터는 PhG 생합성 메커니즘 연구를 방해합니다. RNA-seq 기술은 NGS 기술 플랫폼(예: Applied Biosystems SOLiD, Illumina HiSeq 및 Roche 454)을 사용하여 표적 게놈의 발현된 부분의 서열을 생성하고 유전자를 식별할 수 있습니다[18]. 이는 특히 소량의 전사체를 탐색하는 이점이 있기 때문에 고해상도와 넓은 동적 범위를 갖춘 비용 효율적이고 강력한 접근 방식이기 때문에 전사체 드 노보 어셈블리에서 점점 인기를 얻고 있습니다. 다양한 장점으로 인해 RNA-seq은 제한된 유전자 자원을 가진 비모델 유기체에 특히 매력적입니다. 그러나 RNA-seq을 이용한 C. Deserticola 전사체에 대한 자세한 연구는 없습니다.
이 연구에서 우리는 Illumina Hiseq2000 플랫폼을 사용하여 C. Deserticola의 줄기 전사체를 전체적으로 시퀀싱하고 7.9G 원시 데이터를 얻었습니다. 어셈블리와 주석을 통해 우리는 PhG의 생합성에 관여하는 유전자와 전체 리그닌 생합성을 담당하는 유전자를 채굴했습니다. 우리의 RNA-seq 분석은 최초의 C. Deserticola 합의 전사체를 생성하고 C. Deserticola의 의학적 가치에 대한 포괄적인 이해에 대한 새로운 통찰력을 제공했습니다. 또한, 여기에 설명된 방법은 매우 제한된 게놈 자원을 가진 다른 약용 식물의 특정 약용 성분 생합성 경로에 관련된 유전자의 발견을 촉진하기 위해 전사체 프로파일에 널리 적용될 수 있습니다.
재료 및 방법
식물재료 수집
발굴 단계에 있는 C. Deserticola의 신선한 즙이 많은 줄기는 중국 북서부 내몽골에 있는 Alxa League의 BayanHot City에 있는 식물 기지에서 수집되었습니다. 수집 허가는 공장 기지 소유자(HongKui CongRong Group)로부터 받았습니다. 바우처 표본은 중국과학원 베이징 유전체학 연구소의 핵심 게놈 시설에 보관되었습니다. 세척 후 다육줄기조직을 작은 조각으로 절단하여 즉시 액체질소에 동결시킨 후, 추가 가공시까지 -80도에서 보관하였다.
RNA 추출, cDNA 라이브러리 구축 및 Illumina 시퀀싱
제조업체의 지침에 따라 TRIzol Reagent(Invitrogen Inc., California, USA)를 사용하여 다육 줄기에서 총 RNA를 추출했습니다. 생성된 샘플을 DNase I으로 처리하여 게놈 DNA를 제거했습니다. 추출된 RNA는 Agilent 21{10}}0 바이오분석기(Agilent Technologies)를 사용하여 정량화하고 에티듐 브로마이드 염색과 함께 변성 아가로스 겔 전기영동을 사용하여 무결성을 확인했습니다. A260/A280 비율이 1.9~2.1이고, RNA 28S:18S 비율이 1.0보다 높으며, RNA 무결성 수치(RIN) -8.5를 갖는 RNA 샘플이 후속 분석에 사용되었습니다.
RNA-seq 라이브러리는 Illumina Truseq RNA 샘플 준비 키트를 사용하여 생성되었습니다. 제조업체의 지침에 따라 Dynal ligo(dT)25 비드를 사용하여 전체 RNA로부터 폴리(A)+ RNA를 분리했습니다. 정제 후, 단편화 완충액을 첨가하여 mRNA를 짧은 단편으로 분해했습니다. 첫 번째 가닥 cDNA는 SuperScript III 역전사 효소 및 N6 무작위 6량체 프라이머와 함께 이러한 짧은 단편을 주형으로 사용하여 합성되었습니다. 그런 다음 완충액, dNTPs, RNaseH 및 DNA 폴리머라제 I을 사용하여 두 번째 가닥 cDNA를 합성했습니다. 생성된 이중 가닥 cDNA를 T4 DNA 폴리머라제, DNA 폴리머라제 I Klenow 단편 및 T4 폴리뉴클레오티드 키나제를 사용하여 말단 복구하고 연결했습니다. T4 DNA 리가제를 사용하는 어댑터. 어댑터 연결 단편을 QiaQuick PCR 추출 키트를 사용하여 정제하고 EB 완충액으로 용출했습니다. 아가로스 겔 전기영동을 사용하여 분석한 후, 적합한 단편을 PCR 증폭을 위한 주형으로 선택했습니다. 생성된 cDNA 라이브러리의 시퀀싱은 Illumina HiSeq 2000 시스템을 사용하여 수행되었습니다.
성적표 de novo 어셈블리 및 유전자 발현 정량화
시퀀싱에서 생성된 원시 읽기는 사내 방법을 사용하여 어댑터 시퀀스(ATCTGCGTATGCCGTC)를 제거하여 정리되었습니다. 그런 다음 엄격한 저품질 필터링 프로세스를 수행했습니다. 첫째, phred 품질 점수가 20보다 낮은 베이스는 더 높은 품질(20 이상)을 가진 하나의 베이스로 실행될 때까지 시퀀스의 3' 끝에서 잘립니다. 읽기 길이가 50bp보다 짧으면 폐기됩니다. 둘째, 한 번의 읽기에 포함된 염기의 70%가 고품질 점수(20 이상)를 갖는다는 기준에 따라 읽기가 추가로 필터링됩니다. 셋째, 추가 조립에는 쌍방향 읽기만 사용되었습니다. 새로운 전사본 어셈블리는 Inchworm, Chrysalis 및 Butterfly의 세 가지 연속 소프트웨어 모듈로 구성된 Trinity 릴리스{10}} [30]를 사용하여 수행되었습니다. 어셈블리 매개변수는 다음과 같이 설정되었습니다.-seqType fq-JM 300G -min_contig_length 200-CPU 20-인치웜_cpu {{21} }bflyCPU 20.
전사체의 풍부함을 정량화하기 위해 서열화된 쌍말단 읽기는 Trinity의 스크립트를 사용하여 조립된 전사체에 다시 정렬되었습니다. 매핑된 읽기는 RSEM(기대 최대화에 의한 RNA-Seq) 소프트웨어에 의한 정량화에 사용되었습니다. 유전자 또는 이소폼 풍부도는 FPKM(백만 조각 매핑된 전사물당 킬로베이스당 단편) 값으로 표시되었으며, FPKM 값이 0.05 이상인 전사물은 표현된 것으로 정의되었습니다.
표현된 성적표의 기능적 주석
엽록체 게놈을 제외하고 C. Deserticola의 유전자 주석 세트는 없습니다[1]. 표현된 성적표를 BLAST 프로그램(E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
Gene Ontology 및 KEGG 경로 주석 Uniprot 데이터베이스에 대한 서열 유사성 정렬을 통해(모든 조립된 전사체의 Gene Ontology(GO) 주석은 (ftp://ftp.ebi.ac.uk/pub/에서 다운로드한 연관 파일을 사용하여 얻었습니다) 데이터베이스/GO/goa/UNIPROT/gene_association.goa_uniprot.gz). 발현된 유전자의 GO 용어 클러스터링은 사용자 정의 스크립트를 사용하여 수행되었으며, 우리는 네 번째 수준에서 유전자에 주석을 달았습니다. CC, BP, MF 카테고리가 별도로 있습니다.
KEGG 경로 정보는 온라인 도구 KAAS(KEGG 자동 주석 서버)를 사용하여 모든 예측된 단백질 서열에 할당되었습니다[34]. fasta 형식의 서열이 KAAS 요청에 제출되었으며 C. Deserticola 줄기 전사체와 관련된 모든 경로 정보의 결과 파일이 다운로드되었습니다. KEGG에 있는 13개 식물 유기체의 유전자 데이터 세트를 BBH(양방향 최고 적중) 방법을 사용하여 주석에 사용했습니다.

천연 시스탄체 튜불로사 시스탄체 추출물 PHGS75% ECH 30% ACT 12%
RT-qPCR 분석
DNase I으로 소화한 후 올리고(dT)15 프라이머와 GoScript Reverse Transcription System(Promega)을 사용한 역전사 반응을 통해 약 5ug의 전체 RNA가 첫 번째 가닥 cDNA로 전환되었습니다. 그런 다음 cDNA 생성물을 뉴클레아제가 없는 탈이온수로 10-배 희석한 후 실시간 PCR에서 주형으로 사용했습니다. 특정 cDNA는 GoTaq 2-Step RT-qPCR 시스템(Promega)을 사용하여 20 ul의 부피로 증폭되었습니다. PCR 증폭은 제조업체의 지침에 따라 7500 Real-Time PCR 검출 시스템(Applied Biosystems)을 사용하여 어닐링 온도 60도에서 수행되었습니다. 상대적인 전사 풍부도는 7500 Manager 소프트웨어를 사용하여 유전자 "comp{13}}c0"를 내부 표준으로 사용하여 비교 주기 임계값 방법으로 계산했습니다.
RT-PCR용 프라이머 쌍은 온라인 소프트웨어(//primer3.ut.ee/)를 기반으로 설계되었으며 S1 데이터 세트에 나열되어 있습니다.
결과
C. Deserticola 다육 줄기의 RNA 서열 분석 및 de novo 전사체 어셈블리
C. Deserticola의 줄기는 수년간 중국과 일본에서 전통적으로 중요한 강장제로 광범위하게 사용되어 왔습니다. C. Deserticola 다육 줄기의 유전자 발현에 대한 전체적인 개요를 얻기 위해 우리는 각각 2013년과 2014년에 동일한 식물 기반의 C. Deserticola 줄기 샘플을 수집했습니다. 쌍방향 RNA-seq 라이브러리를 구축하기 위해 총 RNA를 추출하고 폴리A+ RNA를 정제했습니다. Illumina HiSeq 2000 시퀀싱을 사용하여 거의 80억 및 86억 염기 서열에 해당하는 79,433,734 및 86,019,176 쌍 끝 판독을 얻었습니다.

2013-년 및 2014-년 샘플의 플랫폼입니다(표 1). 어댑터 시퀀스를 제거하고 낮은 품질의 읽기를 필터링한 후(방법의 세부 정보 참조) 2013-연도 샘플의 64,831,040개의 고품질 페어 엔드 읽기가 새로운 전사체 어셈블리에 사용되었습니다. Trinity 서열 어셈블러[30]를 사용하여 51,719개의 유전자와 95,787개의 전사체 서열이 200bp에서 15,698bp 범위의 전사체 길이로 생성되었습니다. 조립된 전사체의 평균 길이는 950개 염기이고 N50 길이는 1,519개 염기입니다. 다양한 길이의 전사체 수를 보면 조립된 전사체의 57.32%가 약 500bp 이상인 것으로 나타났습니다(그림 1A). 2014-연도 샘플의 고품질 페어 엔드 읽기가 조립된 전사체에 매핑되었습니다. 게다가, 우리는 조립된 각 유전자의 전사체 번호가 다양하고 하나의 이소형을 발현하는 유전자의 69%가 발현되는 반면, 유전자의 31%는 2개 이상의 전사체를 발현한다는 것을 발견했습니다(그림 1B).
조립된 성적서의 발현 정량화 및 기능적 주석
유전자 또는 전사체 풍부도는 RSEM 패키지를 사용하여 정량화되었으며, 여기서 서열화된 판독은 Bowtie를 사용하여 조립된 유전자 또는 전사체 서열에 다시 정렬되고 매핑된 판독은 정량화에 사용되었습니다. 각 유전자 또는 전사체에 대한 FPKM 값을 계산하였고, 최종적으로 2{{17} }각각 13년과 2014년. 44,776개의 성적표(2013-년 표본에서 70.01%, 2014-년 표본에서 84.71%)가 두 번의 반복실험에서 공통적으로 표현되었으며, 표현 데이터의 상관관계(Pearson 상관계수: 0.91979)는 다음과 같습니다. 시퀀싱 원시 데이터는 NCBI SRA 데이터베이스(접속 번호: SRX857402 및 SRX858938)에 업로드되었습니다. 추가 분석을 위해 2013-년 샘플에서 식별된 발현 유전자를 사용했습니다. 표현된 모든 성적표에 대한 기능적 주석 정보는 두 가지 방법을 사용하여 얻었습니다. 첫째, 발현된 모든 전사물은 BLAST 알고리즘에 의해 별도로 알려진 뉴클레오티드(GenBank nt) 및 펩타이드 서열 데이터베이스(GenBank nr 및 Arabidopsis 펩타이드)에 정렬되었습니다. 63,957개의 표현된 성적표 중,

29,220개(45.7%)가 주석이 달렸으며 E-값 컷오프 1e-20를 사용하여 세 가지 주제 데이터베이스 중 하나의 서열과 상동성을 나타냈습니다. 한편, 발현된 모든 전사체 서열에 대한 후보 코딩 영역은 TransDecoder 소프트웨어를 사용하여 예측되었으며, 각 전사체에 대한 가장 긴 ORF를 Pfam 도메인 검색에 사용했습니다. 그 결과, Pfam 데이터베이스를 기반으로 21,358개(33.4%)의 녹취록에 주석이 달렸습니다. 전체적으로, 위의 두 가지 방법을 결합하여 30,098개(47.1%)의 전사체가 공개 데이터베이스에 있는 알려진 유전자와 유의하게 일치했습니다. 기능 주석이 포함된 전체 표현 성적표 목록은 보충 데이터(S2 데이터 세트)에 표시되었습니다.
우리는 모든 시퀀싱 리드의 18.99%에 해당하는 가장 많이 발현된 상위 20개의 전사체(표 2)를 조사한 결과 대부분이 비생물학적 반응 유전자인 것을 발견했습니다.

스트레스 자극. 그룹 II LEA(후기 배아발생 풍부) 계열에 속하는 다수의 하전된 아미노산을 갖는 친수성 및 열안정성 스트레스 단백질의 일종인 디하이드린(DHN)은 가장 많이 발현되는 유전자입니다. 가뭄 스트레스로 인한 손상으로부터 세포를 보호하는 데 관여할 수 있는 과육 줄기에서 세 가지 다른 Dehyrin 전사체(comp28713_c0_seq1/2/4)가 많이 발현되는 것으로 검출되었습니다. 열충격 단백질, 병원체 관련 단백질, 메탈로티오네인 등 기타 스트레스 관련 유전자도 높게 발현되는 것으로 나타났는데, 이는 가혹한 생존 환경과 관련이 있는 것으로 보인다. 또한 26S 리보솜 RNA 유전자(comp22329_c2_seq1), 옥신 억제/휴면 관련 단백질(comp20999_c0_seq1)을 포함한 일부 구성 유전자, ADP-리보실화 인자(comp20499_ c0_seq1)도 높게 전사되었습니다.

면역력 향상을 위한 천연 시스탄체 투불로사 PHGS75% ECH 30% ACT 12%







