Химия - SMILES - Определение в терминах теории графов
19 июля 2011Оглавление:
1. SMILES
2. Варианты спецификации SMILES
3. Определение в терминах теории графов
4. Расширения
В терминах теории графов SMILES представляет собой строку, полученную путём вывода символов вершин молекулярного графа в порядке, соответствующем их обходу в глубину. Первоначальная обработка графа включает в себя удаление атомов водорода и разбивку циклов таким образом, чтобы получившийся граф представлял собой остовный лес. Местам разбиения графа ставятся в соответствие числа, показывающие наличие связи в исходной молекуле. Для указания точек ветвления молекулы используются скобки.
Основные принципы построения SMILES
Атомы
Атомы обозначаются символами химических элементов в квадратных скобках, например, золото обозначается как . Для элементов-органогенов скобки могут быть опущены. В этом случае атомы водорода можно не указывать в явном виде, если их число соответствует наименьшей нормальной валентности в соответствии с явно заданными связями. Атомы в составе ароматических циклов обычно записываются строчными буквами вместо прописных, хотя в некоторых диалектах SMILES применяется явное чередование двойных и одинарных связей. При необходимости указать формальный заряд частицы атомы водорода и символ заряда записываются в явном виде. Изотопы записываются в квадратных скобках с указанием атомного веса перед символом атома, например, изотоп C будет записан как
.
Например, запись SMILES для воды будет выглядеть как O
, для этанола CCO
. Гидроксильный анион записывается , а ион железа как
.
Связи
Одинарная химическая связь может быть записана с использованием символа -
между атомами, соединёнными связью, но на практике это не применяется, символ дефиса опускают. Обозначение ароматической связи обычно тоже опускают. Двойная связь обозначается с помощью знака равенства, например, двуокись углерода записывается в виде O=C=O
. Тройная связь обозначается с помощью октоторпа, например, синильная кислота записывается как C#N
.
Разветвления молекулы
Боковые цепи молекулы заключаются в круглые скобки. Например, пропионовая кислота записывается как CCCO
. Каноническая форма записи трифторметана выглядит как CF
, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FCF
.
Циклические соединения
Атомы, находящиеся на концах разорванной при построении остовного леса связи, обозначаются одним и тем же номером. Например, циклогексан записывается как C1CCCCC1
, а бензол как c1ccccc1
.
Стереохимия
Конфигурация относительно двойной связи записывается при помощи символов / и \. Например, F/C=C/F
соответствует транс-дифторэтилену, а F/C=C\F
или F\C=C/F
соответствует цис-дифторэтилену.
Просмотров: 5623
|