染色体

volume di dati scientifici 10,

Scientific Data volume 10、記事番号: 78 (2023) この記事を引用

1218 アクセス

1 オルトメトリック

メトリクスの詳細

Benincasa 属の唯一の種であるワックスヒョウタン (Benincasa hispida) は、アジア原産の重要な作物で、多目的用途に広く植えられています。最初のワックスひょうたんのドラフトゲノムは 3 年前に公開されましたが、データと技術的な制限により不完全で、かなり断片化されていました。ここでは、B. hispida の新しい染色体レベルのゲノムアセンブリと注釈を報告します。 PacBio ロングリードと Illumina ショートリードを使用したハイブリッドアセンブリ戦略により、N50 サイズ 2.43 Mb の 974.87 Mb のユニットを生成しました。次に、それらを Hi-C データを使用して足場に結合したところ、全長 975.62 Mb の 1862 足場が得られ、その長さの 94.92% (926.05 Mb) は、B. hispida の 12 染色体に対応する 12 の最大の足場に含まれていました。私たちは 37,092 個のタンパク質をコードする遺伝子を予測し、それらの 85.05% に機能の注釈が付けられました。この染色体レベルの参照ゲノムは、初期のバージョンのドラフトゲノムに大幅な改善をもたらし、ワックスウリの研究および分子育種にとって貴重なリソースとなるでしょう。

ワックスヒョウタン (Benincasa hispida) は、トネリコヒョウタン、白ヒョウタン、中国スイカ、冬ヒョウタンとしても知られ、ベニンカサ属に属する唯一の種です。アジア原産の一年生ウリ科で、中国やインドでは何千年もの間、野菜や漢方薬として使用されてきました1,2。ここ数十年で、ワックスひょうたんは多目的用途のために世界中のますます多くの地域で栽培されています。多くの重要な栄養素が含まれており、一部の代謝産物は発熱やさまざまな疾患の治療に使用できます3,4。一般に重要な野菜として利用され、若葉、花芽、未熟果実、成熟果実などを調理して食用とします。その薬効は、何千年にもわたって伝統的な中国医学とアーユルヴェーダ医学体系で認識されており、現在ではその薬効を報告する研究の数が増えています5、6。さらに、蝋瓢は食品業界で、果物の砂糖漬け、月餅、およびさまざまな種類のパイのベースの詰め物材料として広く使用されています。ワックスヒョウタンの利点を最大限に活用するためには、ワックスヒョウタンについての知識を広げることが非常に重要です。

高品質の参照ゲノムの開発は、ワックスヒョウタンの分子遺伝学、分子育種、進化研究に非常に役立ちます。以前、我々は、ワックスひょうたん品種B227のドラフトゲノム配列を報告し、ワックスひょうたんの12本の染色体が、調査されたウリ類の最も祖先の核型を表すことを明らかにしました1。 B227 アセンブリは、これまでに公開された唯一のワックスひょうたんゲノムの de novo アセンブリです。そのコンティグと足場は、Illumina ペアエンドリード (約 28 倍)、メイトペアリード (約 12 倍)、PacBio ロングリード (約 15 倍)、および最終的な疑似リードに基づいて構築されました。染色体は、公開された遺伝子地図上に足場を固定することによって生成されました7。マルチプラットフォームからのデータを組み合わせて開発されていますが、不完全かつ高度に断片化されたままであり（コンティグ N50 が 68.5 Kb、足場 N50 が 3.4 Mb）、遺伝子地図ベースの技術的制限により、順序が間違っていたり、方向が間違っている足場が含まれている可能性があります。一部の植物種で報告されている偽染色体構築8、9、10。ワックスひょうたんの参照ゲノムについてはまだ改善の余地が多く、さまざまな品種のゲノムが利用可能になれば、作物の遺伝的変異と進化の歴史を理解するのに役立つより多くのリソースが提供されるでしょう。

私たちの継続的な努力により、高品質でほぼ完全なリファレンスゲノムアセンブリが達成されました。ここでは、高カバー率の PacBio ロングリード (約 86 倍)、Illumina ショートリード (約 50 倍)、および Hi- Cデータ。 de novo ゲノムアセンブリとアノテーションのワークフローは図 1 に示すとおりです。

ゲノム配列決定、アセンブリ、およびアノテーションの概要。データ情報は長方形で示され、ソフトウェアとツールは斜体で示されます。

以前に、我々は、ゲノム変異データ1に従って、ワックスウリの生殖質を野生グループ(W)、在来種(L)、2つの栽培グループ(C1およびC2)の4つのグループに分けました。この研究で配列決定に使用されたワックスヒョウタン品種 pf3 は、中国広州にある広東農業科学アカデミー野菜研究所で開発された近交系です。雲南省から採取された小さな果物の在来種（Lグループに属する）と巨大な果物のエリート系統（C2グループに属する）との交雑から派生しました。ワックスを含む中程度の果実の大きさ、高収量の可能性、および良好な味の品質を示します（詳細な形態は図2を参照）。 pf3 の新鮮な苗木を高品質 DNA 抽出に使用し、その後 PacBio SMRT Bell ライブラリー、Illumina ショートリードライブラリー、および Hi-C ライブラリーを構築しました。 Bell ライブラリは PacBio Sequel II プラットフォーム (CLR モード) でシーケンスされ、出力された生のサブリード bam ファイルが fastq 形式に変換され、86.53 Gb データが生成されました (表 1)。 Illumina ショートリードおよび Hi-C ライブラリーは Illumina NovaSeq-6000 プラットフォーム (PE150) でシーケンスされ、それぞれ 50.92 Gb および 99.55 Gb のクリーンデータが生成されました。すべての DNA 抽出、ライブラリー構築、および配列決定手順は、製造業者のプロトコールに従って、Novogene Company (天津、中国) によって実行されました。

配列決定されたワックスヒョウタン cv. の形態。 PF3。 (a) 畑の植物全体。 (b) 雌花。 (c) 雄花。 (d) 成熟した果実。 (e) 成熟した果実の切断。 (f) 種子。

pf3 植物の根、茎、葉、花の組織を RNA 抽出のために収集しました。各組織からそれぞれtotal RNAを抽出し、等量プールした。その後、プールされた RNA を使用して直接 cDNA シークエンシングと TruSeq RNA-seq ライブラリーを構築し、Novogene Company (中国、天津) の Nanopore PromethION および Illumina Hiseq4000 プラットフォームでトランスクリプトームをそれぞれシーケンシングしました。合計で、50.05 Gb の全長 RNA-seq データと 8.33 Gb のショートリード RNA-seq データが得られました (表 1)。これらの RNA-seq データは、全ゲノムのタンパク質をコードする遺伝子の予測に使用されました。

まず、PacBio シーケンサーによって生成された生のサブリード bam ファイルを、ソフトウェア BAM2fastx を使用して fastq 形式に変換しました。統計分析の結果、ロングリードの平均長は 17.68 kb、N50 の長さは 21.01 kb であることがわかりました。次に、MaSuRCA アセンブラ v4.0.911 をデフォルトのパラメータで使用してプライマリアセンブリを構築しました。アセンブラーは、高カバレッジの PacBio ロングリードデータと Illumina ショートリードデータを使用したハイブリッドアセンブリ戦略を通じてユニット (高信頼コンティグ) を構築し、合計サイズ 974.87 Mb のユニット 1897 個と 2.43 Mb のユニット N50 を生成しました (表 2)。。次に、Juicer v1.6 および 3D-DNA v180922 パイプライン 12 経由の Hi-C データをデフォルトのパラメーターで使用して、ユニットを足場に結合しました。さらに未加工の足場を視覚化し、Juicebox ツールパッケージ v1.22.0113 を使用して手動キュレーションを実施しました。キュレーション後、全長 975.62 Mb、N50 足場サイズ 70.97 Mb の 1,862 個の高精度足場を取得しました。このアセンブリを pf3 v1.1 と命名しました。全長の 94.92% (926.05 Mb) は、ヒョウタンの予想される 12 本の染色体に対応する 12 個の最大の足場に含まれています (図 3)。以前に報告した B227 アセンブリと比較すると、連続性 (コンティグ N50 サイズ 2.43 Mb 対 68.5 Kb)、完全性 (975.62 Mb 対 912.95 Mb)、および染色体アンカーサイズ (926.05 Mb 対 859.0 Mb) において大幅な改善が達成されました。 pf3 v1.1 アセンブリ (表 2)。

ワックスひょうたん cv. のゲノム特徴 PF3。 (a) 12 個の染色体にわたる GC 含量 (30 ～ 50%)。 (b) リピート率 (60 ～ 100%)。 (c) 遺伝子密度 (0 ～ 1452)。 (d) SNP 密度 (0 ～ 24764)。 (e) パラロガス遺伝子のシンテニックブロック。広告は、重複しない 1 MB のスライディングウィンドウで描画されます。

私たちは、de novo および相同性に基づく予測を組み込むことで、pf3 v1.1 アセンブリの反復配列と転移因子 (TE) をマスクし、注釈を付けました。我々は、RepeatModeler v2.0.114 を使用して de novo リピート配列ライブラリを構築し、RepeatMasker v4.1.2-p115 とシロイヌナズナリピート配列データベースを使用して相同性に基づく予測を実行しました。 de novo 予測と相同性ベースの予測の出力 cat.gz ファイル (アセンブリ内で見つかったリピート領域のリストとアライメントを含む) はマージされ、RepeatMasker パッケージによる後処理を受けて、最終的なリピートアノテーションが生成されました。合計で、pf3 v1.1アセンブリ内の770.68 Mbの反復配列が特定され、その全長の78.99％を占めました（図3bおよび表3）。

BRAKER パイプライン v2.1.616 を介して、ab initio トレーニング、転写物、相同タンパク質のアラインメントからの証拠データを統合して、タンパク質をコードする遺伝子の予測を実施しました。 minimap2 v2.23-r111117 と STAR v2.7.9a18 をそれぞれ使用して全長 RNA 配列データとショートリード RNA 配列データを pf3 v1.1 アセンブリにマッピングし、続いてアライメント bam ファイルをサムツール v1.719。パイプラインの実行では、ソフトマスクされた pf3 v1.1 アセンブリが入力ゲノム (-genome オプション) として使用され、ソートされた RNA-seq アライメントファイルが RNA-seq 証拠 (-bam オプション) として使用され、ワックスのペプチドが使用されました。ヒョウタン B227 アセンブリと他の 3 つのウリ科種 (Cucumis sativus ChineseLong v3、Lagenaria siceraria v1、Cucurbita moscata v1) を相同タンパク質データ (–prot_seq オプション) として使用し、GenomeThreader v1.7.020 (–prg gth) を使用してゲノムとアライメントしました。簡単に説明すると、パイプラインは、RNA-Seq の証拠に裏付けられた GeneMark-ES v4.69_lic によってシード遺伝子を生成することから始まりました。続いて、シード遺伝子、RNA-Seq、タンパク質アラインメント情報を使用して、AUGUSTUS v3.4.021 の ab initio トレーニングを実行しました。最後に、トレーニング出力、RNA-Seq、相同タンパク質のアラインメント情報を統合して、AUGUSTUS を使用して遺伝子予測を実行しました。 50 aa (アミノ酸) より短いタンパク質配列をコードする遺伝子、および内部終止コドン、不正な開始コドンまたは終止コドンを含む遺伝子をフィルターで除外した後、合計 37,092 個の遺伝子が pf3 v1.1 アセンブリで注釈付けされました (図 3c および表 4)。）。

さらに、InterPro データベース (v88.0) に対してタンパク質を検索することで、予測された遺伝子の機能アノテーションを実行しました。これは、デフォルトのパラメーターを使用した Perl スクリプト (iprscan5_lwp-nodie.pl) を介してタンパク質配列を InterProScan 5 webservice22 に送信することで実行されました。さらに、PANNZER223 とeggNOG-mapper v2.1.724 を使用して、Gene Ontology (GO) 用語によってタンパク質に注釈を付けました。合計 31,562 個の遺伝子に機能の注釈が付けられ、22,707 個の遺伝子が特定の GO タームに割り当てられました (表 4)。

pf3 v1.1 アセンブリと B227 アセンブリのシンテニーと共線性を推測するために、TBtools v1.09872625 に埋め込まれた Quick Genome Dot Plot プラグイン (パラメーター: Blast e-value 1e-3、Num of BlastHits 5) を実行しました。 2つのアセンブリは非常にシンテニックであることがわかりました（図4a）が、一部の染色体の末端に大規模な逆位が存在しました。さらに、SyRI v1.626 ソフトウェアを使用して、2 つのアセンブリ間のゲノム再構成と局所配列の違いを分析しました。我々は、逆位、転座、重複を含む多くのMbサイズの構造再配置を特定し、これらの再配置は主に染色体の末端に位置していました（図4b）。

pf3 v1.1 と B227 アセンブリの全ゲノム比較。 (a) シンテニックブロックのドットプロット。 (b) 染色体レベルの局所配列の違い。

2 つの品種間の密接な遺伝的背景、および B227 アセンブリの疑似染色体が遺伝子地図に基づいて開発されたことを考慮すると、ほとんどの再配列は実際に存在するものではなく、むしろ間違った方向または間違った位置にある可能性があると推測できます。 B227アセンブリ内。これを確認するために、同じく C2 グループに属する遺伝的に非常に近い品種 B418 の Hi-C データを使用して、B227 アセンブリをさらに分割し、足場 (疑似染色体) を再構築しました。 Hi-CベースのB227アセンブリとpf3 v1.1の間のはるかに高い共線性が検出され、以前に発見された大規模な再配置のほとんどが消失しました（補足図S1）。また、B227のHi-Cベースのアセンブリと遺伝地図ベースのアセンブリの違いを調べ、染色体の末端にいくつかの大きな逆位を検出しました（補足図S2）。これらの証拠は、図4dに示された再配列のほとんどが実際に遺伝子地図に基づくB227アセンブリにおけるエラーであることを示唆しています。

新しく開発されたpf3ゲノムを参照したワックスひょうたん生殖質の遺伝的変異パターンを調査するために、以前に配列決定した31の代表的なワックスひょうたんアクセッション（補足表S1）が選択され、マッピングと変異発見手順の対象となりました。各アクセッションの配列データは、bwa v0.7.17-r118827 をデフォルトのパラメーターで使用して pf3 v1.1 アセンブリにマッピングされ、アラインメントファイルは samtools でソートおよびインデックス付けされました。 bcftools v1.828 と mpileup および call コマンドを使用して、31 のアクセッションすべてのバリエーションをまとめて呼び出しました。 -q 30 および -Q 20 を使用した呼び出し前フィルタリングを適用して、mpileup コマンドの実行時に不適切なマップされた読み取りと低品質の塩基をスキップした結果、初期合計 36,401,973 のバリアントサイトが得られました。生のバリアントの概要メトリクスを評価し、補足注 2 で説明されているように、品質スコア、深さ、平均マッピング品質、およびその他の基準に基づいて、VCFtools v0.1.1629 と bcftools を使用してそれらをフィルタリングしました。最終的には、1,200 万を超える高値を取得しました。 - 12,366,466 個の一塩基多型 (SNP) および 286,201 個の小さな挿入および欠失 (InDel) を含む品質の変動。偽染色体全体の SNP の分布は図 3d に示すとおりでした。さらに、サンプルのサブセットにおける SNP の数を調査したところ、C2 グループには 4 つのグループの中で最小の SNP が含まれており (表 5)、B227 と pf3 の間には 593,107 個の SNP のみが存在することがわかりました。

この論文で報告された配列決定データ、ゲノムアセンブリおよびアノテーションデータは、バイオプロジェクトの下、中国科学院北京ゲノミクス研究所/中国国家生命情報センターの国立ゲノミクスデータセンター(NGDC)のゲノム倉庫に保管されています30,31。アクセッション番号 PRJCA010475 は https://ngdc.cncb.ac.cn/gwh で公開されています。 PacBio ロングリード、イルミナショートリード、Hi-C データを含むすべてのクリーンなゲノムシーケンスデータ、および Nanopore 全長 RNA-seq およびイルミナショートリード RNA-seq データを含む RNA シーケンスデータは、アクセッション番号 CRA007486 の NGDC のゲノム配列アーカイブ (GSA)。 pf3 v1.1 アセンブリおよびアノテーションデータは、アクセッション番号 GWHBJVO00000000 で NGDC のゲノムアセンブリ配列およびアノテーション (GWH) に寄託されています。 DNA および RNA 配列データは、BioProject PRJNA89881932,33,34,35,36 の下でアクセッション番号 SRR23081782、SRR23081783、SRR23081784、SRR23081781、および SRR23096591 で国立バイオテクノロジー情報センター (NCBI) SRA データベースにも提出されました。ゲノムアセンブリは、アクセッション GCA_027475165.137 として DDBJ/ENA/GenBank にも寄託されています。遺伝的変異の発見に使用された 30 のワックスひょうたん品種の配列データは、プロジェクト受託番号 PRJCA001140 で GSA で入手でき、これらの品種の配列情報は補足表 S1 にまとめられています。

Wax Gourd pf3 v1.1 アセンブリの完全性を評価するために、まず Illumina ショートリードデータと PacBio ロングリードデータをアセンブリにマッピングし、Qualimap v.2.2.238 でアライメントファイルを分析しました。両方のライブラリのマッピング率は 98% 以上であり (表 2)、アセンブリの 96.5% 以上が Illumina のショートリードと PacBio のロングリードをそれぞれ少なくとも 20 倍カバーしています。次に、eudicots データセット (n = 2,326) を使用してベンチマーク Universal Single-Copy Orthologs (BUSCO) v5.2.239 を実行し、アセンブリの完全性を評価しました。 2,326 の BUSCO グループのうち 2,183 の完全な単一コピー BUSCO と 97 の完全な重複 BUSCO を含む 2,280 の完全な BUSCO (98.02%) を特定しました (表 6)。断片化された BUSCO と欠落した BUSCO の数は、それぞれ 9 件 (0.4%) と 37 件 (1.5%) でした。

さらに、Hi-C ベースの疑似染色体構築の結果を評価しました。 Hi-C データを 12 個の疑似染色体にマッピングし、Hicexplorer v3.740 で分析および視覚化しました。図 5 に Hi-C 接触のヒートマップを示すと、2 つのビン間の相互作用のシグナル強度が 12 の異なるグループに明確に分割され、擬似染色体アセンブリの高品質が示されました。

pf3 の染色体レベルのアセンブリの Hi-C コンタクトマップ。相互作用の強度は、10 K のビンサイズを使用して計算されました。

この作業で使用したソフトウェアツールのバージョン、設定、オプションは以下に記載されており、より詳細な説明は補足セクションに記載されています。

(1) MaSuRCA: v4.0.9、デフォルトパラメータ。

(2) ジューサー: v1.6、デフォルトパラメータ。

(3) 3D-DNA: v180922、デフォルトパラメータ。

(4) ジュースボックスツール: v1.22.01、デフォルトパラメーター。

(5)RepeatModeler: v2.0.1、デフォルトパラメータ+。

(6)RepeatMasker: v4.1.2-p1、パラメータ: -xsmall -gff;

(7) BRAKER: v2.1.6、パラメータ: –species = Benincasa_hispida –softmasking –prg gth –gth2traingenes –AUGUSTUS_ab_initio – gff3;

(8) minimap2: v2.23-r1111、パラメーター: 全ゲノムアライメント: -ax asm5 –eqx; PacBio SMRT のマッピングは次のようになります: -ax map-pb;

(9) STAR: v2.7.9a、デフォルトパラメータ。

(10) samtools: v1.7、パラメータ: view コマンド: -bS、sort コマンド: -O BAM;

(11) GenomeThreader: v1.7.0、デフォルトパラメータ。

(12) GeneMark-ES: v4.69_lic、デフォルトパラメータ。

(13) AUGUSTUS: v3.4.0、デフォルトパラメータ。

(14) InterProScan: v5.56 ～ 88.0、パラメータ: -dp -f tsv;

(15) PANNZER2: Web サーバーのバージョン、デフォルトのパラメーター。

(16)eggNOG-mapper: v2.1.7、デフォルトパラメータ。

(17) TBtools: v1.098726、ゲノムドットプロットの作成: Quick Genome Dot Plot プラグイン: evalue 1e-3 Num of BlastHits 5、ゲノムサーカスプロットの作成: Advanced Circos (入力データは Fasta Stats、One Step MCScanX、Text Merge を介して準備されました) MCScanX および Micro-Synteny View の Transformat の場合）、デフォルトのパラメータを使用します。

(18) SyRI: v1.6、デフォルトパラメータ。

(19) bwa: v0.7.17-r1188、パラメータ: マッピング読み取り: mem -M;

(20) bcftools: v1.8、パラメータ: mpileup -Ou -q 30 -Q 20 –p; -m -Ov を呼び出します。

(21) VCFtools: v0.1.16、パラメータ: –remove-filtered-all –remove-filtered-geno-all –max-missing 1.0 –min-alleles 2 –max-alleles 2;

(22) クオリマップ: v.2.2.2、パラメータ: bamqc;

(23) BUSCO: v5.2.2、パラメータ: -m genome -c 40;

(24) Hicexplorer: v3.7、パラメータ: hicBuildMatrix:–binSize 10000、hicPlotMatrix:–dpi 600。

Xie、D.ら。ワックスひょうたんのゲノムは、遺伝的多様性と祖先のウリの核型についての洞察を提供します。ナット。共通。 10, 5158 (2019)。

記事 ADS Google Scholar

Pandey, AK、Bhardwaj, DR、Dubey, RK、Singh, V. & Pandey, S. 植物学、ナナカマド (Benincasa hispida Thunb. Ex Murray Cogn) の多様性、利用および改良に関するレビュー。アン。ホルティック。 8、1–15 (2015)。

Google スカラー

Zaini 、 NAM 、 Anwar 、 F. 、 Hamid 、 AA & Saari 、 N. Kundur [Benincasa hispida (Thunb.) Cogn.]: 貴重な栄養素と機能性食品の潜在的な供給源。食品研究所内部。 44、2368–2376 (2011)。

記事 CAS Google Scholar

Talaei, A.、Forouzanfar, F.、Akhondzadeh, S. 強迫性障害の治療における薬用植物：レビュー。カー。ドラッグディスコブ。テクノロジー。 18、8–16 (2021)。

記事 CAS Google Scholar

Doharey, V.、Kumar, M.、Upadhyay, SK、Singh, R. & Kumari, B. ナナカマド、ベニンカサヒスピダ (Thunb.) 果実の薬学、物理化学および薬学的パラダイム。植物アーカイブ。 21、249–252 (2021)。

記事 Google Scholar

イスラム、MT 他 Benincasa hispida (thunb.) Cogn. に関する文献に基づく最新情報: 伝統的な用途、栄養補助食品、および植物薬理学的プロファイル。オキシド。医学。細胞。ロンゲブ。 2021、6349041 (2021)。

記事 Google Scholar

ジャン、B.ら。特定遺伝子座増幅フラグメント (SLAF) シークエンシングを使用した、ワックスウリの果皮色の高密度遺伝子マップの構築と遺伝子マッピング。 BMCゲノミクス。 16、1035 (2015)。

記事 Google Scholar

ジブラン、R. 他クロマチン相互作用データに基づくブラックラズベリー (Rubus occidentalis L.) ゲノムの染色体スケールの足場。ホルティック。解像度 5、8 (2018)。

記事 Google Scholar

Xie、T.ら。クロマチン相互作用に基づく新たな植物ゲノム構築: シロイヌナズナのケーススタディ。モル。植物。 8、489–492 (2015)。

記事 CAS Google Scholar

Jiao, Y. et al. 単一分子技術による改良されたトウモロコシ参照ゲノム。自然。 546、524–527 (2017)。

記事 ADS CAS Google Scholar

ジミン、AV 他 MaSuRCA メガリードアルゴリズムを使用した、パンコムギの祖先である Aegilops tauschii の大きくて反復性の高いゲノムのハイブリッドアセンブリ。ゲノム研究所 27、787–792 (2017)。

記事 CAS Google Scholar

Dudchenko、O. et al. Hi-C を使用したネッタイシマカゲノムの de novo アセンブリにより、染色体長の足場が得られます。科学。 356、92–95 (2017)。

記事 ADS CAS Google Scholar

ノースカロライナ州デュランドら。 Juicebox は、無制限のズーム機能を備えた Hi-C コンタクトマップの視覚化システムを提供します。セルシステム。 3、99–101 (2016)。

記事 CAS Google Scholar

フリン、JM 他転移因子ファミリーの自動ゲノム発見のためのRepeatModeler2。手順国立アカド。科学。 USA 117、9451–9457 (2020)。

記事 ADS CAS Google Scholar

Tarailo-Graovac, M. & Chen, N.RepeatMasker を使用してゲノム配列内の反復要素を識別します。カー。プロトック。バイオインフォマティクス。第 4 章、4–10 (2009)。

Google スカラー

Bruna, T.、Hoff, KJ、Lomsadze, A.、Stanke, M. & Borodovsky, M. BRAKER2: タンパク質データベースによってサポートされる GeneMark-EP+ および AUGUSTUS による自動真核生物ゲノムアノテーション。 NARジェノム。バイオインフォーム。 3、a108（2021）。

記事 Google Scholar

Li、H. Minimap2: ヌクレオチド配列のペアワイズアライメント。バイオインフォマティクス。 34、3094–3100 (2018)。

記事 CAS Google Scholar

ドービン、A.ら。 STAR: 超高速ユニバーサル RNA-seq アライナー。バイオインフォマティクス。 29、15–21 (2013)。

記事 CAS Google Scholar

リー、Ｈら。シーケンスアライメント/マップ形式と SAMtools。バイオインフォマティクス。 25、2078–2079 (2009)。

記事 Google Scholar

Gremme, G.、Brendel, V.、Sparks, ME & Kurtz, S. 高等生物の遺伝子構造予測のためのソフトウェアツールを開発。知らせる。ソフトウェア技術。 47、965–978 (2005)。

記事 Google Scholar

Stanke, M.、Diekhans, M.、Baertsch, R. & Haussler, D. ネイティブおよびシンテニカルにマッピングされた cDNA アライメントを使用して、新規遺伝子検索を改善します。バイオインフォマティクス。 24、637–644 (2008)。

記事 CAS Google Scholar

ジョーンズ、P. et al. InterProScan 5: ゲノムスケールのタンパク質機能分類。バイオインフォマティクス。 30、1236–1240 (2014)。

記事 CAS Google Scholar

Toronen, P.、Medlar, A. & Holm, L. PANNZER2: 高速機能の注釈 Web サーバー。核酸研究所 46、W84–W88 (2018)。

記事 CAS Google Scholar

Cantalapiedra, CP、Hernandez-Plaza, A.、Letunic, I.、Bork, P. & Huerta-Cepas, J.eggNOG マッパー v2: メタゲノムスケールでの機能アノテーション、オルソロジー割り当て、およびドメイン予測。モル。バイオル。進化。 38、5825–5829 (2021)。

記事 CAS Google Scholar

チェン、C.ら。 TBtools: 大きな生物学的データの対話型分析のために開発された統合ツールキット。モル。植物。 13、1194–1202 (2020)。

記事 CAS Google Scholar

Goel, M.、Sun, H.、Jiao, WB & Schneeberger, K. SyRI: 全ゲノムアセンブリからのゲノム再構成と局所配列の違いの発見。ゲノムバイオル。 20、277 (2019)。

記事 Google Scholar

Li, H. & Durbin, R. Burrows-Wheeler 変換による高速かつ正確なショートリードアライメント。バイオインフォマティクス。 25、1754–1760 (2009)。

記事 CAS Google Scholar

Danecek、P. & McCarthy、SA BCFtools/csq: ハプロタイプを認識したバリアントの結果。バイオインフォマティクス。 33、2037 ～ 2039 年 (2017)。

記事 CAS Google Scholar

Danecek、P. et al. バリアント呼び出しフォーマットと VCFtools。バイオインフォマティクス。 27、2156–2158 (2011)。

記事 CAS Google Scholar

チェン、M.ら。ゲノムウェアハウス: ゲノム規模のデータを保管する公共リポジトリ。ゲノミクスプロテオミクスバイオインフォマティクス。 19、584–589 (2021)。

記事 Google Scholar

2022 年の中国国家生命情報センター、国家ゲノミクスデータセンターのデータベースリソース。Nucleic Acids Res. 50、D27-D38 (2022)。

NCBI シーケンスリードアーカイブ https://identifiers.org/ncbi/insdc.sra:SRR23081781 (2023)。

NCBI シーケンスリードアーカイブ https://identifiers.org/ncbi/insdc.sra:SRR23081782 (2023)。

NCBI シーケンスリードアーカイブ https://identifiers.org/ncbi/insdc.sra:SRR23081783 (2023)。

NCBI シーケンスリードアーカイブ https://identifiers.org/ncbi/insdc.sra:SRR23081784 (2023)。

NCBI シーケンスリードアーカイブ https://identifiers.org/ncbi/insdc.sra:SRR23096591 (2023)。

NCBI 総会 https://identifiers.org/insdc.gca:GCA_027475165.1 (2023)。

Okonechnikov, K.、Conesa, A. & Garcia-Alcalde, F. Qualimap 2: ハイスループットシーケンスデータのための高度なマルチサンプル品質管理。バイオインフォマティクス。 32、292–294 (2016)。

記事 CAS Google Scholar

Simao, FA、Waterhouse, RM、Ioannidis, P.、Kriventseva, EV & Zdobnov, EM BUSCO: シングルコピーオルソログを使用したゲノムアセンブリとアノテーションの完全性の評価。バイオインフォマティクス。 31、3210–3212 (2015)。

記事 CAS Google Scholar

Wolff, J. et al. Galaxy HiCExplorer 3: 再現可能な Hi-C、キャプチャ Hi-C、および単一セル Hi-C データ分析、品質管理、視覚化のための Web サーバー。核酸研究所 48、W177–W184 (2020)。

記事 CAS Google Scholar

リファレンスをダウンロードする

この研究は、中国国家自然科学財団（31972403、32002044）、GDAASの規律チーム構築プロジェクト（202114TD）、およびGDAASの若年および中年の規律リーダーのための研修計画（R2020PY-JG003）の支援を受けました。原稿に対するコメントと改善の提案をくださった Kunshen Wu 博士に感謝します。

Wenlong Luo 氏、Jinqiang Yan 氏も同様に貢献しました。

広東省野菜新技術研究重点実験室、広東省農業科学院野菜研究所、広州、510640、中国

Wenlong Luo、Jinqiang Yan、Shanwei Luo、Wenrui Liu、Dasen Xie、Biao Jiang

PubMed Google Scholar でこの著者を検索することもできます

Wenlong Luo と Jinqiang Yan も同様にこの作業に貢献しました。 Biao Jiang と Dasen Xie が実験を考案し、設計しました。 Jinqiang Yan、Shanwei Luo、Wenrui Liu は植物サンプルを準備し、実験を行い、研究室での作業を行いました。 Wenlong Luo はデータ分析を行い、原稿を作成しました。すべての著者が草稿原稿にフィードバックを提供し、最終原稿を承認しました。

彪江への対応。

著者らは競合する利害関係を宣言していません。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Luo, W.、Yan, J.、Luo, S. 他ワックスヒョウタン (Benincasa hispida) の染色体レベルの参照ゲノム。サイデータ 10、78 (2023)。 https://doi.org/10.1038/s41597-023-01986-7

引用をダウンロード

受信日: 2022 年 7 月 25 日

受理日: 2023 年 1 月 24 日

公開日: 2023 年 2 月 7 日

DOI: https://doi.org/10.1038/s41597-023-01986-7

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

キリスト教徒と共和党員をナチスに結び付ける大学プログラムに「反」のもとDHS資金が供与

ニューヨーク市の高校の生徒が3年生に

ニュース

染色体