SMILES format
DayLightのSMILESフォーマットについて
SMILES記法は化学構造を簡潔に表現することを目標に開発された文字列表記法(linear notation)です。
基本的な記述法
- 化学構造に含まれる環をラベルをつけながら適当な位置で切断
- できた木構造を、適当な位置から( )を用いて書き下す
- 単結合、二重結合、三重結合はそれぞれ、'-','=', '#'を用いる
というステップで記述します。原子とそれに付属する水素は[ ] を用いて[CH4] (メタン)、[CH2]=[O] (ホルムアルデヒド)のように記述しますが、有機化学でよく使う以下の原子は[ ] と水素を省略できます。そのとき、価数は一般的な値に従うとします。単結合をあらわす'-'も省略可能です。
B, C, N, O, P, S, F, Cl, Br, and I
以下に簡単な例を記します。
| 化合物名 | 構造式 | SMILES |
|---|---|---|
| ethanol | CH3CH2OH | CCO |
| alanine | CH3CH(NH2)COOH | CC(N)C(=O)O |
| hexose | HOCH2-(CHOH)4-CHO | C(O)C(O)C(O)C(O)C(O)C=O |
| hydrogen sulfide | H2S | S |
| ammonium cation | NH4+ | [NH4+] |
環構造
構造に環がある場合、環の単結合部分を切断し、その両側の原子に数字でラベルをつけます。数字は何番でもかまいません。環をN個持つ構造は、N対の数字ラベルをつけることになります。ラベルのつけ方は、DayLightのウェブページ http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html にある画像を見るのが手っ取り早いでしょう。
以下に簡単な例を記します。
| 化合物名 | 構造 | SMILES |
|---|---|---|
| proline | ![]() | N1CCCC1C(=O)O |
| tryptophan | ![]() | C1=CC=CC2=C1NC=C2CC(N)C(=O)O 環のラベルは1と1、2と2を単結合で結びます。 |
立体異性
SMILESでalanineを書くと、CC(N)C(=O)Oとなります。ここで、不斉炭素に接続する3つの側鎖が、-CH3, 不斉炭素とH, -NH2, -COOHの順で書かれています。不斉炭素の前に来るCH3側から見て、不斉炭素につながる残りの側鎖が反時計回りになるとき、不斉炭素に@をつけます。時計回りの場合は@@をつけます。
同じ構造でも側鎖を書く順番によって@または@@になる点に注意してください。以下のSMILESは全てL-alanineをあらわしています。
N[C@@H](C)C(O)=O | C[C@H](N)C(=O)O | [H][C@@](C)(N)C(=O)O |
N[C@H](C(O)=O)C | C[C@@H](C(=O)O)N | [H][C@](N)(C)C(=O)O |
N[C@]([H])(C(O)=O)C | C[C@@]([H])(C(=O)O)N | [C@H](N)(C)C(=O)O |
N[C@@](C(O)=O)([H])C | C[C@](C(=O)O)([H])N | [C@@H](N)(C(=O)O)C |
芳香環
芳香環はベンゼン環のように単結合と二重結合の繰り返しで表記するか、芳香環に属するC, N, Oをそれぞれ小文字で記述します。
| 化合物名 | 構造 | SMILES |
|---|---|---|
| benzene |
| C1=CC=CC=C1 または c1ccccc1 |
SMILES記法の特徴
同一構造でもさまざまに記述できる
基本的にどこから一筆書きしてもよいため、表記法は一意に定まりません。しかし、原子に何らかの順序付け(order)がなされている場合、順序を崩さぬように一筆書きすることで、構造を一意に書き下すことができます。これはunique SMILESと呼ばれます。Unique SMILESを計算するには構造の正規化が必要です。

