Simplified molecular input line entry specification
SMILES, do inglês simplified molecular input line entry specification é uma gramática e vocabulário para especificar a estrutura de uma substância pura usando caracteres suportados de teletipo ordinários comuns, como por exemplo o código ASCII. David Weininger desenvolveu a SMILES enquanto trabalhando no Environmental Research Laboratory da Environmental Protection Agency em Duluth, Minnesota, Estados Unidos.
SMILES é, em essência, uma linguagem que especifica um composto químico, e muitas vezes é suficientemente precisa para ser um identificador único.
Vantagens
SMILES não necessita de construções especiais, nem qualquer tipo de dados especial. Cada caractere nela é parte da especificação original do American Standard Code for Information Interchange. Uma estrutura SMILES pode residir em um banco de dados como um tipo de dados "varying character" ou "string". Além disso, qualquer editor de texto simples pode produzir uma estrutura SMILES.
Gramática de SMILES
Como uma linguagem, SMILES tem um vocabulário e uma gramática, com regras definidas.
Átomos
Átomos são os substantivos da gramática SMILES. Se representa cada átomo pelo seu símbolo químico. Normalmente, se envolve o símbolo entre colchetes, assim: [Cl]. No entanto, os símbolos do subconjunto orgânico seguinte podem aparecer sem os colchetes: B, C, N, O, P, S, F, Cl, Br, e I. Estes incluem os halogênios, que iriam normalmente se ligar apenas a um outro átomo, em qualquer caso, e em outros átomos, que são assumidos ser ligados ao hidrogênio se não forem explicitamente ligados a alguma outra coisa. Um átomo participando de uma estrutura de anel aromático é listado em minúsculas.
A utilização de colchetes é significativa. Por exemplo, [S] refere-se ao enxofre elementar, enquanto o símbolo S representa o sulfeto de hidrogênio, que tem dois átomos de hidrogênio ligados a um de enxofre. (Contudo, Cl-Cl refere-se à molécula diatómica de cloro, enquanto que Cl refere-se ao ácido clorídrico.)
Cargas e as posições dos átomos
Sinais de carga (+ e -) e dígitos dando o múltiplo de uma carga ou a posição de um átomo são os adjetivos (e, por vezes, os advérbios) da gramática SMILES. Uma valência iônica é uma aplicação clássica. Por exemplo, o [Fe+2] é o íon ferro ou o ferro (II). Note que a SMILES não exige, nem usa, sobrescritos ou subscritos.
Não se multiplicam os próprios átomos (exceto para átomos de hidrogênio) usando números. Em vez disso, se repete o símbolo atómico tantas vezes quanto o átomo aparece.
Ligações
Ligações são os verbos da gramáica SMILES. Os símbolos para as ligações são absurdamente simples:
Símbolo | Significado |
---|---|
- | Ligação simples |
= | Ligação dupla |
# | Ligação tripla |
: | Ligação aromática |
Para simplificar ainda mais as coisas, pode-se omitir os símbolos - e : para átomos que são adjacentes uns aos outros e têm ligações simples ou aromáticas as juntando. Esta é a razão para a representação de um átomo aromaticamente ligado em letras minúsculas, em vez de em LETRAS MAIÚSCULAS.
Assim, a fórmula SMILES para o oxigênio diatômico é O=O; a do dióxido de carbono é O=C=O; para o nitrogênio diatômico, N#N; para o cianeto de hidrogênio, C#N; para o acetileno ou etino, C#C; para a hidrazina, N=N.
Ramificações
Ramificações são as conjunções subordinadas da gramática SMILES. Uma estrutura que se ramifica a partir da linha principal é cercada entre parênteses. É permitido o aninhamento e empilhamento de ramos. Um átomo diferente do átomo de carbono numa estrutura linear poderia também receber um ramo. Assim, o SMILES para o clorometano (anteriormente chamado de "cloreto de metila") iria ser C(Cl), e para o tetraclorometano ("tetracloreto de carbono") iria ser C(Cl)(Cl)(Cl)(Cl).
Os ácidos carboxílicos são uma estrutura de ramificação comum. O SMILES do ácido acético, por exemplo, é CC(=O)O.
Anéis
Para escrever uma estrutura cíclica ou anel, você "quebra" uma das ligações e escreve a estrutura como uma linha tendo dígitos seguindo os átomos da ligação quebrada. Portanto a SMILES para o ciclohexano é C1CCCCC1. Se um determinado átomo é parte de mais de uma estrutura em anel, e você tem que quebrar mais de uma ligação, você, em seguida, usar um dígito diferente para cada ligação quebrada a fim de transmitir a forma de rejuntar os átomos.
Por convenção, os vértices de anéis aromáticos são escritos em letras minúsculas. Assim, o SMILES para o benzeno é c1ccccc1 e o para a piridina é n1ccccc1.
Estruturas desconectadas
Um ponto simples (.) serve como o exemplo mais comum de uma conjunção coordenativa em SMILES. Duas estruturas que não têm uma ligação covalente de qualquer tipo se juntando a elas são consideradas desconectadas e são unidas com um ponto. Este é o método adequado para a representação de compostos iônicos. Por exemplo, a SMILES para o cloreto de sódio é [Na+].[Cl-]. A SMILES para o acetato de sódio é [Na+].[CC(=O)O-].
SMILES isoméricos
Refere-se a uma gramática SMILES avançada projetada para ilustrar isótopos e isômeros, incluindo a quiralidade, que é a orientação que varia em torno de uma ligação dupla ou em uma estrutura tetraédrica. (ligações triplas não têm nenhuma orientação variável, e se descreve a orientação de uma ligação simples, usando as regras de ramificação descritos acima.)
Isótopos
Um número que precede um símbolo atômico sempre se refere a um isótopo do elemento relevante. The number is the atomic mass number of that isotope. Deve-se sempre colocar um símbolo atômico com um especificador isótopo entre colchetes, mesmo que pertença ao subgrupo orgânico. Assim, o SMILES para o metano 13C é [13CH4].
Configuração de dupla ligação
Os símbolos / e \ representam ligações simples direcionais para átomos de ligação dupla de carbono. (A maioria dos outros átomos têm valências normais inferiores aos de carbono e, portanto, não seriam relevantes aqui; o nitrogênio, por exemplo, poderia ligar-se apenas a um outro átomo se já estivesse duplamente ligado a outra coisa.) Estas são estruturas localmente quirais. Este é um substituto para os prefixos cis- (neste lado de) e trans- (no outro lado de) para descrever a orientação em torno de uma ligação dupla. Por exemplo, o SMILES para trans-dicloroeteno é Cl/C=C/Cl, mas para o cis-dicloroeteno seria Cl/C=C\Cl. Pode-se dar uma especificação completa de todas as orientações de ligação dupla, ou uma especificação parcial que especifica um conjunto de direções, mas não outro.
Configuração Sobre um Centro Tetraédrico
Os símbolos @ e @@ representam dois "advérbios" especiais na gramática do SMILES: Eles indicam o método adequado para descrever a orientação de diferentes átomos ou estruturas ramificadas em torno de um único átomo de carbono. @ significa anti-horário, e @@ significa sentido horário. Por exemplo, listagens SMILES válidas para a alanina são N[C@@H](C)C(=O)O and N[C@H](C)C(=O)O. Cada uma dessas duas especificações nomeia um enantiômero diferente de alanina.
General Chiral Configuration
SMILES has highly specific rules for specifying tetrahedral, allene-like, square-planar, trigonal-bipyramidal, octahedral, and other orientations. For details, read the relevant text here.
SMILES Specifications for Reactions
SMILES can handle certain reactions that involve the displacement of one atom by another, or a change in the molecule's structure. The special conjunctions > and >> separate the reactant(s) and the product(s). The complete syntax is as follows:
- To specify reactants only, write [A].[B]>>[C].[D], where A, B, C, and D are separate and disconnected participants in the reaction. Thus to specify the dissociation of acetic acid when exposed, say, to sodium hydroxide or "caustic soda," the SMILES would be CC(=O)O.[Na+].[OH-]>>[CC(=O)O-].[Na+].O. In English, that reads "Acetic acid reacts with caustic soda to yield sodium acetate and water." Note that the SMILES representation of this reaction clearly shows that the sodium ion does not change itself in any way, shape or form. Rather, acetic acid loses an atom of hydrogen to become acetate ion, and hydroxide ion picks up a hydrogen atom to become water.
- If an agent participates in the reaction without undergoing any chemical change, the syntax is [A]>[B]>[C]. Here, A, B, and C represent reactant(s), agent(s), and product(s). (More than one molecular or ionic species in each category are connected by dots; see above for "Disconnected structures.") An agent could be a solvent or a catalyst.
Note that the > symbol never appears in a molecular SMILES, and at most two > characters can appear in a reaction SMILES.
Related References
- "SMILES 1. Introduction and Encoding Rules", Weininger, D., J.Chem. Inf. Comput. Sci. 1988, 28,31. This is the classic paper.
- SMILES - A Simplified Chemical Language from Daylight Chemical Information Systems, Inc.
- SMILES by Wikipedia.
|