Notación de Química: Pasos y ejemplos

Rodrigo Ricardo Publicado el 18 junio, 2024 12 minutos y 14 segundos de lectura

¿Qué es la notación de línea en química?

La notación de línea es un método tipográfico para expresar una estructura química como una cadena lineal de caracteres imprimibles. Estos métodos de notación de líneas para presentar un compuesto químico se utilizan en quimioinformática. En quimioinformática, una estructura química debe ser fácilmente procesada por una computadora, por lo que estas estructuras deben ser cadenas lineales de datos. Hay varios ejemplos de notación de línea, que son Wiswesser Line-Formula Notation (WLN), Sybyl Line Notation (SLN), Representation of Structure Diagram Arranged Linearly (ROSDAL), Simplified Molecular-Input Line-Entry System (SMILES) e IUPAC. Identificador Químico (InChI). Tanto las notaciones de línea SMILES como InChI son ampliamente utilizadas.

La notación de línea de nombre en química tiene sentido porque una estructura química se representa en una línea sin importar cuán complejo sea el compuesto. Incluso si hay una ramificación en el compuesto químico, cuando ese compuesto se escribe en notación de línea, todo el compuesto está en una línea.

Significado de la notación de línea

La notación de línea permite que las computadoras procesen fácilmente los compuestos y las reacciones utilizando la codificación del Código estándar estadounidense para el intercambio de información (ASCII). El texto en las computadoras está representado por código ASCII. La notación de línea SMILES es una construcción lingüística en lugar de una estructura de datos de computadora. Hay una sensación de lenguaje en SMILES con un vocabulario simple y pocas reglas gramaticales. SMILES permite una fácil transferencia entre idiomas, lo que es útil para el almacenamiento de sustancias químicas y la inteligencia. Las SONRISAS únicas existen, por lo que las SONRISAS únicas son estándares universales. Un programador en el campo de la quimioinformática puede usar SMILES para programar bases de datos, sistemas de entrada de datos químicos para programas y mecanismos computarizados para el intercambio de investigación química. Un ser humano puede mirar una SONRISA y comprender lo que se presenta en la notación de línea.

ejemplos de SONRISAS

Un SMILES genérico es un SMILES que solo describe la estructura básica sin información sobre la estereoquímica o la naturaleza isotrópica del compuesto. Puede haber múltiples SMILES genéricos válidos para un compuesto. Se puede generar una SONRISA única mediante un algoritmo de canonicalización. Las SONRISAS isoméricas son SONRISAS escritas con detalles sobre la estereoquímica y la naturaleza isotrópica de un compuesto. Una SONRISA absoluta es cuando hay SONRISAS isoméricas únicas.

La notación de línea InChI es un identificador basado en una estructura de código abierto que fue desarrollado por la Unión Internacional de Química Pura y Aplicada (IUPAC). Un InChI es una cadena de caracteres que genera un algoritmo informático para representar un compuesto químico. Este algoritmo informático utiliza un conjunto de reglas de nomenclatura. Junto con el InChI, hay un InChIKey, que es una versión codificada de un InChI. Estas InChIkeys son más compactas y permiten realizar búsquedas en motores de búsqueda estándar. Si bien la notación de línea InChI permite notaciones de línea más únicas, esto tiene un gran inconveniente. Las anotaciones de línea InChI no están destinadas a ser legibles por un humano.

En ambos sistemas de notación de líneas, la información estructural valiosa sobre un compuesto está contenida de una manera que una computadora puede reconocer fácilmente. La información estructural es el tipo de átomos, enlaces, estereoquímica y aromaticidad. Esto permite que las bases de datos ingresen y accedan a los compuestos. Un científico puede usar la notación de línea SMILES o InChI para buscar un compuesto para mejorar los estudios de investigación.

Reglas y convenciones de notación de línea

La notación de línea SMILES es una serie de caracteres sin espacios entre los caracteres. Los átomos de hidrógeno se omiten en un gráfico con supresión de hidrógeno. Si es necesario incluir átomos de hidrógeno, se utiliza un gráfico de hidrógeno completo. En SMILES, una estructura aromática como el benceno puede estar en forma de Kekule o especificarse directamente.

En SMILES genérico, hay cinco reglas de codificación. Estas reglas de codificación corresponden a átomos, enlaces, ramas, cierres de anillos y desconexiones. Las siguientes son las cinco reglas de codificación para SONRISAS genéricas:

  • Átomos
    • El único uso requerido de letras en SMILES son las de los átomos usando los símbolos atómicos. Los átomos que no son de hidrógeno están encerrados entre corchetes ([ ]).
    • Los siguientes elementos no requieren el uso de corchetes alrededor de los símbolos atómicos B, C, N, O, P, S, F, Cl y Br. Estos elementos solo tendrán corchetes alrededor de los símbolos atómicos cuando los átomos carezcan del número normal de átomos enlazados.
      • La C para un átomo de carbono no tendrá un corchete para el átomo de carbono en el metano porque este átomo de carbono tiene cuatro átomos de hidrógeno unidos. Cuando el número de átomos enlazados no es normal como un carbanión (átomo de carbono con tres átomos enlazados y una carga negativa), se deben colocar corchetes alrededor del átomo de carbono.
  • Los átomos cargados deben tener el número de átomos de hidrógeno (H) y la carga formal entre corchetes. Los cargos formales se indican con un signo más (+) o menos (-). Usar [Fe+++] o [Fe+3] son ​​SONRISAS correctas para el hierro (III).
  • Cautiverio
    • Los símbolos se utilizan para representar vínculos en SONRISAS. El símbolo de enlace simple es un guión (-). Un doble enlace se representa con el signo igual (=). Los enlaces triples se indican con el signo de número (#). Los dos puntos (:) se utilizan para representar enlaces aromáticos.
    • Los enlaces simples y los enlaces aromáticos se pueden omitir en SMILES. La notación de la línea de enlace del etano es CC, mientras que el eteno es C=C.
  • Derivación
    • La ramificación en compuestos se especifica en SMILES encerrando la rama entre paréntesis. La rama entre paréntesis está a la izquierda del átomo de conexión.
  • Estructura cíclica
    • Para representar una estructura cíclica en SMILES, el anillo debe romperse y numerarse en cualquier orden. El enlace de apertura del anillo se designa con un número que sigue a los símbolos atómicos de los dos átomos del enlace roto.
      • Un SMILES para ciclohexano se puede expresar en la notación de línea de enlace C1CCCCC1, donde el primer y el último C1 son los átomos de carbono del enlace roto para hacer que el ciclohexano sea acíclico.
  • Compuestos desconectados
    • Se utiliza un punto (.) para separar compuestos desconectados.

Los detalles estructurales básicos se incluyen en SONRISAS genéricas. Una estructura química más compleja se puede escribir en SONRISAS. La información sobre el compuesto, como su naturaleza isotópica, la configuración de los dobles enlaces y la quiralidad, se puede agregar a SMILES utilizando las reglas para SMILES isoméricos. Usando el siguiente conjunto de reglas, se pueden crear SMILES de isómeros.

  • naturaleza isotópica
    • Coloque un número antes del símbolo atómico entre paréntesis para permitir el uso de especies isotópicas en SMILES. El carbono-13 puede tener una SONRISA de [13C].
  • Configuración de dobles enlaces
    • Las barras (/ y \) se utilizan como enlaces direccionales para designar la posición de los átomos en los átomos del doble enlace.
  • quiralidad
    • El uso de @ y @@ se usa en SMILES con centros tetraédricos quirales para especificar si los átomos adjuntos están en el sentido de las agujas del reloj (@@) o en el sentido contrario a las agujas del reloj (@). En las SONRISAS se escribirá antes de la especificación de quiralidad el símbolo atómico del átomo del centro quiral.

Hay algunas convenciones utilizadas en SMILES que son universalmente aceptadas. Estas convenciones se ocupan de los átomos de hidrógeno, la aromaticidad, los compuestos nitrogenados aromáticos, los enlaces y los tautómeros. Las siguientes convenciones se utilizan en SMILES.

  • átomos de hidrógeno
    • Los átomos de hidrógeno se omiten para la mayoría de los compuestos orgánicos con suposiciones de valencia normal. Si se usan corchetes, entonces se debe agregar el átomo de hidrógeno. El programa de computadora asumirá cero si los átomos de hidrógeno no están entre corchetes. El etano se puede ingresar como CC o [CH3][CH3], pero no como [C][C].
    • Los átomos de hidrógeno deben especificarse por las siguientes razones.
      • El hidrógeno cargado (protón) debe tener el átomo de hidrógeno especificado. Un protón se ingresa como [H+].
      • El hidrógeno molecular debe ingresarse como [H][H]
      • Puente de átomos de hidrógeno, que es un átomo de hidrógeno conectado a más de un átomo.
      • Los átomos de hidrógeno isotrópicos, como el agua pesada, deben ingresarse como [2H]O[2H].
  • Aromaticidad
    • Los compuestos aromáticos como el benceno se pueden ingresar como c1ccccc1, donde el símbolo atómico en minúsculas se usa para señalar la aromaticidad. Ingresar el formulario Kekule C1=CC=CC=C1 también será detectado por la computadora como benceno.
  • Compuestos nitrogenados aromáticos
    • El átomo de nitrógeno en un compuesto aromático se puede ingresar como n, que es el símbolo atómico en minúsculas para nitrógeno. En la forma de Kekule, un átomo de nitrógeno aromático puede ser simplemente N. Un SMILES válido para piridina es n1ccccc1
  • Vinculación
    • Los compuestos con separación de carga pueden ingresarse con o sin separación de carga en SMILES. El nitrometano se puede escribir como CN(=O)=O, que conserva la simetría o C[N+](=O)[O-], que muestra separación de carga.
  • Estructuras tautoméricas
    • En SMILES, no hay especificaciones para tautómeros como enlaces tautoméricos o formas de anotar el hidrógeno móvil o la carga. Se hace una SONRISA para cada tautómero. Incluso con un solo tautómero, la computadora reportará datos para todos los tautómeros conocidos.

Ejemplos de notación de línea

La notación de líneas es un aspecto importante de la informatización de la información química. Las bases de datos usan notación de línea para compuestos químicos y reacciones. Comprender cómo usar la notación de línea es una habilidad importante. Usando ejemplos de estructura de línea de enlace, se pueden crear SONRISAS, también conocidas como cadenas de SONRISAS.

Estructura de 1-pentino
  • 1-pentyne – La cadena SMILES es C#CCCC
    • Cada átomo de carbono está representado por el símbolo atómico del carbono (C).
    • El triple enlace carbono-carbono está representado por el signo de número (#).
    • Tenga en cuenta que se omiten los átomos de hidrógeno.
estructura de E-4-metil-2-penteno
  • E-4-metil-2-penteno – La cadena SMILES es C/C=C/C(C)C
    • La configuración del alqueno se nota mediante el uso de /
    • La ramificación del grupo metilo se especifica usando (C)
    • Solo se especifican los átomos de carbono porque se pueden omitir los átomos de hidrógeno.
estructura del ácido butanoico
  • Ácido butanoico: la cadena SMILES es OC(=O)CCC
    • Los átomos de oxígeno se especifican mediante el símbolo atómico del oxígeno.
    • El oxígeno del grupo carbonilo se coloca entre paréntesis.
estructura del pirrol
  • Pyrrole: las cadenas SMILES son [nH]1cccc1, [H]n1cccc1, N1C=CC=Cl
    • En las dos primeras cadenas de SONRISAS, se incluye el átomo de hidrógeno sobre el nitrógeno. Tanto [nH] como [H]n1 especifican que el átomo de hidrógeno es el átomo de nitrógeno. Se omiten los átomos de hidrógeno en los átomos de carbono.
    • Las tres cadenas SMILES han roto un enlace carbono-nitrógeno en la estructura del pirrol.
    • La minúscula del símbolo atómico para nitrógeno se usa en las dos primeras cadenas de SONRISAS, esto especifica un compuesto de nitrógeno aromático.
    • La tercera cadena de SONRISAS es la forma Kekule.

Resumen de la lección

Un método tipográfico para escribir una estructura química como una cadena lineal de caracteres imprimibles se llama notación de línea . Las estructuras químicas en la notación de línea pueden ser fácilmente procesadas por computadoras. La quimioinformática es un campo de la química que se ocupa de crear y utilizar la notación de líneas con computadoras. Dos métodos de notación de línea ampliamente utilizados son el Sistema simplificado de entrada de línea de entrada molecular (SMILES) y el Identificador químico IUPAC (InChI). SMILES tiene la ventaja de ser legible por humanos, mientras que InChl se obtiene de forma gratuita. La codificación del Código estándar estadounidense para el intercambio de información (ASCII) permite que el texto se use en notación de línea, que luego es procesado por una computadora. SMILES utiliza una construcción lingüística muy parecida a un lenguaje en lugar de una estructura de datos de computadora.

En SMILES, hay conjuntos de reglas que permiten la creación de SMILES genéricos y SMILES isoméricos.. Cuando una SONRISA solo describe información estructural básica sobre un compuesto, estas SONRISAS se denominan SONRISAS genéricas. Si se utiliza información estructural como la estereoquímica y la naturaleza isotrópica en la creación de SMILES, entonces este SMILES es un SMILES isomérico. Estas cadenas SMILES isoméricas pueden contener signos para la configuración de un doble enlace (/ y/o \) o centro de quiralidad tetraédrica (@ o @@). Una de las pocas convenciones en SMILES tiene que ver con los átomos de hidrógeno y cuándo omitir o incluir estos átomos. Cuando un elemento está entre paréntesis o hay especies cargadas, entonces se deben incluir los átomos de hidrógeno. La mayoría de las veces, los átomos de hidrógeno se pueden omitir como en el caso del pentano, que tiene una cadena SMILES de CCCCC.

Explora más sobre este tema

Selecciona un tema y sigue aprendiendo...

Rodrigo Ricardo
Rodrigo Ricardo Editor y fundador