ゲノミクスクライアント向けアライメントベースQCの実装

Sequoia Applied Technologiesは、大手ゲノミクス企業と協力し、シーケンシングデータパイプライン内に堅牢なアライメントベースQCレイヤーを構築しました。この目的は、マッピング精度、カバレッジの一貫性、およびサンプルの整合性を可視化し、監査対応かつプラットフォームに依存しない設計を実現することでした。

当社は、アライメント出力を評価し、異常を検出してダッシュボードやAPI経由で利用できる要約を生成するモジュール型QCシステムを提供しました。これにより、品質問題の早期検出と一貫した結果再現性が可能になりました。

概要

レイヤーがカバーする内容

BAMまたはCRAMを読み込み、マッピング性能を要約し、早期に異常を検出します。結果はJSONおよびCSV形式で保存され、バッチサマリーとして確認できます。

マッピング

  • マッピング率および適切にペア化された率
  • 平均MAPQおよび二次・補助的リード率
  • キメラおよびスプリットリード信号

カバレッジ

  • 平均および中央値デプス
  • 均一性およびしきい値を超える割合
  • 低カバレッジ領域数

ライブラリおよびバイアス

  • インサートサイズ平均および分散
  • 重複率
  • GCバイアススコア

整合性

  • コンタミネーション推定
  • 再較正シフト要約
  • 合否・警告ステータスフラグ

すべての例は合成データを使用しています。クライアント識別情報は保存または表示されていません。

統合

ワークフローへの適用方法

標準的な短鎖または長鎖アライナーによるアライメント後にモジュールを配置します。標準QCユーティリティを実行してメトリクスを収集し、小さなスクリプトでJSONおよびCSVに統合します。ダッシュボードはこれらのファイルを読み込み、ステータスを明確に表示します。

  • 入力: BAMまたはCRAM、リファレンス名
  • 出力: サンプルごとのJSONおよびCSV、バッチサマリー
  • レポート: 監査用にPDFとしてダウンロード可能
設定

一般的な初期しきい値

  • マッピング率: 95%以上
  • 平均MAPQ: 30以上
  • 均一性: 80%以上
  • 重複率: 15%以下
  • コンタミネーション: 2%以下

これらの値は参考値であり、プロジェクトやプラットフォームごとに調整可能です。

FAQ

よくある質問

短鎖および長鎖リードの両方に対応していますか?

はい。このモジュールはプラットフォームに依存せず、短鎖・長鎖ワークフローの両方のメトリクスを集約できます。

結果の共有方法は?

パイプライン向けにJSONおよびCSV形式を出力します。監査用にはPDF形式も利用可能です。ダッシュボードは同一ファイルを参照します。

プライバシーへの配慮は?

公開コンテンツには合成データのみを使用しています。サンプルやスクリーンショットには識別情報を含みません。