化学情報協会

ニュース

GENESEQ (旧 DGENE) ファイル - リロード

2021年12月9日(木)

STNext

GENESEQ (旧 DGENE) ファイルは、世界 57 ヵ国の特許から抽出した核酸・タンパク質の配列およびその書誌情報を収録するデータベースです。

このたび、当ファイルがリロードされ、ファイル名が DGENE から GENESEQ に変わりました。
リロードに伴う主な変更点は以下の通りです。

BLAST ホモロジー検索の強化
  • 最新版の BLAST プログラム (version 2.12.0) が利用できるようになりました。
  • 従来の 3 つの検索タイプ (/SQN, /SQP, /TSQN) に加え、下記の 4 つの検索タイプが利用できるようになりました。
検索タイプ 検索機能 配列質問式 回答 検索フィールド
megaBLAST 非常に類似した (種内などの) 配列用に最適化された BLASTn 塩基配列 塩基配列 /SQM
discontiguous megaBLAST 一部の塩基を無視し (多少のミスマッチを許容し)、より離れた (種間などの) 配列を検索するために最適化された BLASTn 塩基配列 塩基配列 /SQDM
BLASTx 塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列を検索 塩基配列 アミノ酸配列 /TSQP
tBLASTx     塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列に翻訳された塩基配列を検索 塩基配列 塩基配列 /TSQNX
GETSIM ホモロジー検索の強化
  • 最新版の GETSIM プログラム (version 36.3.8h) が利用できるようになりました。
  • 最大 3 万コードの配列質問式を利用できるようになりました。
ホモロジー検索 (BLAST, GETSIM) のワークフローの変更
  • BLAST および GETSIM ホモロジー検索時に表示される回答数とスコアのグラフが下記のように変更されました。

左側のグラフは横軸がスコア値、縦軸が回答数 (棒グラフがそのスコア値以上の回答の総数、面グラフは対数値) を表します。
右側のグラフは横軸がスコア値/最高スコア値(%)、縦軸が回答数 (棒グラフがそのパーセンテージ以上の回答の総数、面グラフは対数値) を表します。

  • 回答集合を作成する際に、以前はオプションを 1 度しか指定できませんでしたが、複数回指定が可能になりました。

指定できるオプションの種類は下記の 3 つです。
 - 回答全件 (ALL と入力)
 - 入手したいスコア値の最低値 (数字を入力) *
 - 入手したいスコア値/最高スコア値の最低値 (パーセンテージを入力)

* リロード前は数字を入力すると、その件数 (80 と入力するとスコア値の高い順に 80 件) の回答集合が作成されていました。

 

<例>

:
ENTER EITHER THE MINIMUM SCORE VALUE YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :ALL  ← 回答全件

L2    RUN STATEMENT CREATED
L2        3207 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER THE MINIMUM SCORE VALUE YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :300  ←スコア値が 300 以上の回答のみ

L3    RUN STATEMENT CREATED
L3        797 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER THE MINIMUM SCORE VALUE YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :80%  ←スコア値/最高スコア値が 80% 以上の回答のみ

L4    RUN STATEMENT CREATED
L4        1792 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER THE MINIMUM SCORE VALUE YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :END   ← 終了する場合は END と入力
  • 回答上限数の増加および回答上限数を設定する検索パラメータの追加

BLAST, GETSIM の回答数の上限が 10 万件に増加しました。(以前は 1 万件でした。)

- "-MAXSEQ" パラメータで回答数の上限を変更できます。
- 回答数の上限は、デフォルトでは 15,000 件です。

<入力例> 回答上限を 10 万件に変更する場合
=> RUN BLAST L1/SQN -F F -MAXSEQ 100000

  • BATCH 検索機能は廃止されました。
完全配列検索・部分配列検索 (RUN GETSEQ) の強化
  • 回答数が多い場合に以前は 25,000 件ごとに L番号が分かれて作成されていましたが、1 つの L 番号にまとまるようになりました。
  • 回答数の上限は 25 万件です。
  • BATCH 検索機能は廃止されました。
ALIGNG 表示形式の追加

アライメントを図として表示する ALIGNG 表示形式が追加されました。
表示される内容は ALIGN 表示形式と同じです。

核酸表およびアミノ酸表の追加

配列に含まれる核酸またはアミノ酸の種類と数、比率 (%) の情報が収録され、以下のフィールドで検索・表示できるようになりました。

  • 検索フィールド

- 核酸の種類: /NA
- 核酸の数: /NA.CNT
- 核酸の比率: /NA.PER
- アミノ酸の種類: /AA  (1文字コードを使用)
- アミノ酸の数: /AA.CNT
- アミノ酸の比率: /AA.PER

  • 表示フィールド

- 核酸表: NA
- アミノ酸表: AA

核酸表およびアミノ酸表は以下の定型表示形式にも含まれます。

ALL、SQIDE、SQ3IDE

配列キー (SEQK) フィールドの追加

SHA-2 アルゴリズムを適用し、配列をコード化した情報が、配列キー (Sequence Key, SEQK) フィールドに追加されました。
配列キーは、異なるデータベースであっても、どの生物に由来する配列であっても、同じ配列であれば同一の文字列で表されます。そのため、異なるデータベースで同一の配列を簡単に検索できます。

<配列キーの例>
3df8973037e338fbecfa44ec06ff483e9430564df22300263cdbe87dbc4a03e5

新規検索フィールド

/APO : 出願番号、オリジナル
/DED : データ入力日
/DUPD : データ更新日
/PNO : 特許番号、オリジナル
/PRDF : 最先の優先権主張日
/PRYF : 最先の優先権主張年
/PRNO : 優先権出願番号、オリジナル

アラートの一時停止について

当面の間、配列質問式を用いたアラートの登録はできませんが何卒ご了承ください。

2021 年 12 月 13 日追記

GETSIM ホモロジー検索の相補鎖検索オプションに関する変更
  • デフォルト値の変更

リロードに伴い、GETSIM /SQN 検索時の相補鎖オプションのデフォルトが BOTH (相補鎖を含める) に変更されました。(以前は SIN (入力した配列コードのみ) でした。)

  • 相補鎖オプション指定方法の変更

相補鎖オプションは、下記のように "-S コード" で指定してください。

=> RUN GETSIM CUCGGUGCACCCUCUCAAAAGAGAGGGTGCACCGAG/SQN -S SIN ← 相補鎖オプションを SIN (入力した配列コードのみ) に変更

- コードの種類

SIN : 入力した配列コードのみ
COM : 入力した配列コードの相補鎖のみ
BOTH :入力した配列コードとその相補鎖の両方 (/SQN、/TSQN のデフォルト)