Información

¿Pueden las colas de PolyA estar dentro de las etiquetas de secuencia expresada?

¿Pueden las colas de PolyA estar dentro de las etiquetas de secuencia expresada?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Pueden aparecer colas de poliA dentro (en lugar de al final) de una etiqueta secuenciada? Considere, por ejemplo, las siguientes dos secuencias de NCBI: DY008075

> Gi | 119423037 | gb | DY008075.1 | DY008075 19ACACYS_UP_022_A11_29OCT2004_095 Brassica napus 19ACACYS Brassica napus cDNA 5' , secuencia de ARNm TGGTACGGTCAGATGCTTGCTAAAGGAGAAATAAATAGAGACATGGGTGATAGTATAAGCGGAAAGGGAA TGATTCAGGGTGTTTCTGCAGTGGGAGCGTTTTACCAACTGCTTAGTCAGTCCAGCCTAAGTATATTGCA TTCTGAAGAGAAGAAACCTGTGGCTCCGGTTGAATCATGTCCTATTTTGAAAACACTCTACAAGATACTC ATCACAAGAGAACAATCAACACAAGCGATTCTGCAAGCATTAAGGGATGAAACACTGAATGACCCAAGAG ACAGGATTGAGATTGCACAGAGCCATGCATTCTACAGGCCTTCCCTTCTAGATCAGCCTTGATTAGTCTG TCATGGCTCATAATCCGAACTTCTAAGATCTTACTTGTGCAAACTGCAGATTCTGCTATGTTAAACATCA TGTCTTAAAATTGATTGTTGTTCAGCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACATGTC

o EE485195

> Gi | 126492146 | gb | EE485195.1 | SEMILLAS EE485195 DHBN8DCT_UP_012_C05_25FEB2005_043 Brassica napus BNDH8DCT Brassica napus cDNA 5' , secuencia de ARNm GTTACAGCTGGTTGAGAACAGTGACAATTCCCGGTTGAGCAAAGAAATTGCAGACAAGAGCCACCAACTA AGGCAAATGAGAGGAGAGGAACTTCAAGGACTTAACATAGAAGAGCTGCAACAGCTGGAAAAGGCCCTTG AAGCTGGTTTGACGCGCGTGATTGAAACAAAGAGTGAGAAGATTATGAGTGAGATCAGTGACCTTCAAAG AAAGGGAATGAAATTGATGGATGAGAACAAGCGGCTAAGGCAGCATGGAACACAACTAACAGAAGAGAAC GAGCGACTAGGCAAGCAAATATATAATAATATGCATGAAAGATACGGTGGTGTTGAGTCGGAGAAGACCG CCGTGTACGAGGAAGGGCAGTCGTCAGAGTCCATTACTAACGCCGGAAACTCCACCGGCGCTCCTGTTGA CTCCGAGAGCTCCGATACCTCTCTTAGGCTCGGCTTACCGTATGGCGGTTAGAGATGGAACCATACAAAG AAGTTCATGGAGTGAGGAGATGCTCTGTAGTAACAAGTGGCAATGTAGTAATTTCTCTTGTTTGATGTAA GTTTTTGTCTGAGGAAGAGGTTTTCCTTTTATGTTCTCTTTGATATTATTATCTTTCTTCACTGCAAAAA AAAAAAAAAAAAAAAAAAAAAAAACATGTC

Me parece que ambas secuencias de poliA al final son una especie de cola en lugar de una codificación real para las polilisinas. Si hacemos BLAST en cualquiera de las secuencias, la parte poliA no se alinea con ningún nucleótido o proteína confiable (es decir, con las bases de datos no redundantes del NCBI). Puedo dar más ejemplos y mostrar sus mejores alineaciones con nr-Sequences pero hará que la pregunta sea demasiado larga.

Cross publicado en SeqAnswers.


La secuencia CATGTC al final de la cola poli A es un artefacto del método utilizado en la construcción de la biblioteca de ADNc original.

Según https://www.ncbi.nlm.nih.gov/nucest/EE485195.1 este EST proviene de una biblioteca construida en el vector Clontech pDNR-LIB

Los manuales del sistema de clonación de ADNc Clontech SMART están vinculados desde aquí y el manual general describe el uso de un cebador para la síntesis de la primera hebra:

CDS III / 3 'PCR Primer 5'-ATTCTAGAGGCCGAGGCGGCCGACATG-d (T)30norte-1N-3 '

(N = A, G, C o T; N-1 = A, G o C)

Si observa atentamente el cebador, verá que la porción de oligo dT, diseñada para aparearse con la cola poli-A del ARNm, está precedida por la secuencia GACATG y un sitio SfiI que se usa en alguna estrategia de clonación inteligente que no hago ' No entiendo completamente. Sin embargo, lo que está claro es que el uso de este cebador colocará CATGTC inmediatamente después del poli A en el ADNc:

... SfiI ... 5'-ATTCTAGAGGCCGAGGCGGCCGACATGTTTTTTTTTTTTTTTTTTT ... TAAGATCTCCGGCTCCGCCGGCTGTACAAAAAAAAAAAAAAAAAAA ... 5 '>>> girando la hebra inferior alrededor - 5'

Una moraRubusL.) biblioteca de etiquetas de secuencia expresada para el desarrollo de marcadores de repetición de secuencia simple

El reciente desarrollo de nuevos tipos de zarzamora de fructificación repetida (Rubus L.), combinado con una larga historia de selección asistida por marcadores morfológicos para la ausencia de espinas por parte de los mejoradores de moras, ha dado lugar a un mayor interés en el uso de marcadores moleculares para facilitar el mejoramiento de la mora. Sin embargo, no existen mapas genéticos, marcadores moleculares o incluso secuencias específicas para la mora cultivada. El propósito de este estudio es comenzar el desarrollo de estas herramientas generando y anotando la primera biblioteca de etiquetas de secuencia expresada (EST) de blackberry, diseñando cebadores de las EST para amplificar regiones que contienen repeticiones de secuencia simple (SSR) y probando la utilidad de un subconjunto de las EST-SSR con dos cultivares de mora.

Resultados

Se generó una biblioteca de ADNc de 18.432 clones a partir del tejido foliar en expansión del cultivar Merton Thornless, un progenitor de muchos cultivares comerciales sin espinas. Entre los más abundantemente expresados ​​de los 3000 genes anotados se encuentran los relacionados con la energía, la estructura celular y la defensa. A partir de secuencias individuales que contienen SSR, se diseñaron 673 pares de cebadores. De un conjunto elegido al azar de 33 pares de cebadores probados con dos cultivares de mora, 10 detectaron un promedio de 1,9 productos de PCR polimórficos.

Conclusión

Esta tasa predice que esta biblioteca puede producir hasta 940 pares de cebadores SSR que detectan 1786 polimorfismos. Esto puede ser suficiente para generar un mapa genético que pueda usarse para asociar marcadores moleculares con rasgos fenotípicos, haciendo posible la reproducción asistida por marcadores moleculares para complementar la reproducción asistida por marcadores morfológicos existente en la mora.


Abstracto

Las etiquetas de secuencia expresada (EST) siguen siendo un enfoque dominante para caracterizar las porciones que codifican proteínas de varios genomas. Debido a deficiencias inherentes, también presentan serios desafíos para el control de calidad de los datos. Antes de la presentación de GenBank, las secuencias EST se seleccionan y recortan típicamente de secuencias de vector y adaptador / enlazador, así como colas de poliA / T. La eliminación de estas secuencias presenta un obstáculo para la validación de datos de tecnologías ecológicamente racionales propensas a errores e impide la extracción de datos de ciertos motivos funcionales, cuya detección se basa en una anotación precisa de la información posicional para las colas de poliA añadidas postranscripcionalmente. A medida que la información de la secuencia de ADN sin procesar está cada vez más disponible en los repositorios públicos, como NCBI Trace Archive, serán necesarias nuevas herramientas para volver a analizar y extraer estos datos en busca de nueva información. WebTraceMiner (www.conifergdb.org/software/wtm) fue diseñado como un servicio público de procesamiento de secuencias para trazas EST sin procesar, con un enfoque en la detección y extracción de características de secuencia que ayudan a caracterizar las terminaciones 3 & # x02032 y 5 & # x02032 de inserciones de cDNA, incluyendo fragmentos de vector, secuencias adaptadoras / enlazadoras, sitios de reconocimiento de endonucleasas de restricción flanqueantes de insertos y colas poliA o polyT. WebTraceMiner complementa otros recursos EST públicos y debería resultar una herramienta única para facilitar la validación de datos y la extracción de EST propensos a errores (por ejemplo, descubrimiento de nuevos motivos funcionales).


Resultados

PAIso − seq para un análisis preciso de la cola de poli (A)

Los métodos actuales para analizar colas de poli (A) en la plataforma Illumina NGS están limitados por la incapacidad de manejar largas secuencias de homopolímeros. TAIL-seq y PAL-seq utilizaron un algoritmo alternativo de llamada de longitud de poli (T) o una receta de secuenciación para contar la longitud de poli (T) mientras sacrificaban la capacidad de llamar residuos no A dentro de las colas de poli (A) de ARN, con la excepción de la muy 3 ′ final 1,8. Además, requieren un nivel de microgramos de entrada de ARN que no es factible para muestras raras in vivo o de pacientes. El desarrollo actual de la secuenciación de tercera generación de PacBio permite la lectura de homopolímeros a través de la secuenciación de una sola molécula en tiempo real. Además, el bucle de las plantillas de secuenciación en las bibliotecas de secuenciación permite la secuenciación de una sola plantilla en varios pases para llamar con precisión a la secuencia de consenso read 19. Por lo tanto, la plataforma de secuenciación PacBio de tercera generación puede ser la mejor opción para analizar con precisión la longitud y composición de las colas de ARN poli (A).

Razonamos que si podemos preservar la información de poli (A) durante la transcripción inversa, seremos capaces de analizar la información de poli (A) de ARN con precisión utilizando la secuenciación PacBio. Para reducir el sesgo hacia las colas largas de poli (A), también queremos evitar el paso de enriquecimiento de poli (T). Por lo tanto, elegimos la extensión final de poli (A) + ARN con un cebador guía que contiene la secuencia adaptadora de la secuencia de oligo de cambio de plantilla (TSO) menos las bases G triple en el extremo 5 ′ y con la secuencia 5′-dUTTTTTTTdUTTTTTTT-3 ′ en el extremo Extremo 3 ′ que se puede templar con el extremo de poli (A) + ARN (Fig. 1a y Tabla complementaria 1). Después de la extensión final, el cebador guía se eliminó mediante digestión con enzima USER que escinde en los dos residuos dU dentro del cebador para evitar el cebador guía como cebador RT en el siguiente paso de transcripción inversa (Fig. 1a). La transcripción inversa y el cambio de plantilla se realizaron en presencia de un cebador correspondiente a la secuencia TSO menos las bases triple G y un TSO con la triple G al final (Fig. 1a). A continuación, se amplificó el ADNc con oligonucleótido TSO único menos triple G para generar suficiente cantidad de ADNc listo para la ligación del adaptador SMRTbell (Fig. 1a). Después de la ligadura del adaptador, la biblioteca circular de ADNc de longitud completa con colas de poli (A) se secuenció en la plataforma PacBio para generar lecturas de polimerasa largas de hasta 45 kb, que pueden tener hasta 200 pases de una sola molécula para llamar con precisión la lectura de CCS. que representa una única secuencia de ADNc de longitud completa que incluye las colas de poli (A), que se ha secuenciado varias veces. El número de pasadas de una lectura de CCS representa cuántas veces se ha secuenciado la secuencia de ADNc única (Fig. 1a). La extensión del extremo con plantilla y la transcripción inversa junto con el cambio de plantilla son altamente eficientes, por lo tanto, este método puede ser muy sensible.

El principio y la validación de PAIso − seq. a Diagrama de flujo para el diseño del método PAIso − seq. Los pasos principales del método incluyen extensión final, cambio de plantilla, amplificación de ADNc de longitud completa, ligadura de adaptador circular y secuenciación de PacBio. B La estructura (panel superior) y el análisis en gel de agarosa de los picos de poli (A) (panel central). La longitud media de la cola de poli (A) de cada pico medido por PAIso − seq (panel inferior). Los datos de origen se proporcionan como un archivo de datos de origen. C Las longitudes de la cola de poli (A) de Dnmt1, Btg4, y Plano en ovocitos de GV medidos por PAIso − seq (gráfico de densidad de la longitud de la cola de poli (A) de las lecturas de CCS detectadas de los genes dados, tres réplicas, panel izquierdo) y ensayo de PAT mediante electroforesis capilar en un analizador de fragmentos (media de tres réplicas, derecha panel). Se muestra la longitud media de cada cola del gen poli (A) medida por PAIso-seq. El número de lecturas CCS utilizadas es 141 (Dnmt1 /GV rep.1), 249 (Dnmt1 /GV rep.2) y 165 (Dnmt1 /SCGV com.) 164 (Btg4 /GV rep.1), 521 (Btg4 /GV rep.2) y 357 (Btg4 /SCGV com.) 136 (Plano/GV rep.1), 277 (Plano/GV rep.2) y 207 (Plano/SCGV com.). La longitud promedio de las colas de poli (A) es de 74 nt (Dnmt1), 44 nt (Btg4) y 45 nt (Plano) medido por el ensayo PAT. RFU, unidades de fluorescencia relativa.

Mediante el uso de este método, secuenciamos dos bibliotecas de ADNc de poli (A) + de longitud completa a partir de dos réplicas biológicas independientes de muestras de ovocitos de GV de ratón mediante el uso de PAIso-seq. Cada lectura de CCS mapeable se considera una transcripción detectada. Después de mapear los CCS al genoma del ratón (compilación GRCm38), la primera biblioteca contiene 79.994 transcripciones, mientras que la otra biblioteca contiene 227.902 transcripciones (Fig. 1a complementaria). Además, probamos si el método se puede utilizar para el análisis de una sola célula mediante la secuenciación de 15 ovocitos GV individuales (consulte los detalles a continuación). Combinamos todos los datos de las células individuales como una tercera réplica biológica que contiene 191.023 transcripciones en total (Fig. 1a complementaria). Cuando se combinan las tres réplicas juntas, el conjunto de datos de ovocitos de GV cubre 11 538 genes con al menos una transcripción y 8281 genes con al menos tres transcripciones (Fig. 1b complementaria).

Para probar si PAIso − seq puede evaluar la longitud de las colas poli (A) con precisión, aumentamos un grupo de ADNc sintéticos con códigos de barras con longitudes de cola poli (A) definidas de 10, 30, 50, 70 y 100 nt, respectivamente. , a la muestra de ADNc de transcripción inversa (Fig. 2a complementaria). Después de la secuenciación, observamos la longitud media de la cola de 10, 28, 48, 67 y 97 nt, que está muy cerca de la longitud esperada (Fig. 1b), lo que demuestra que nuestro método puede evaluar la longitud de la cola poli (A) con precisión . Para la muestra de ovocitos GV, podemos ver que Dnmt1 tiene colas de poli (A) relativamente largas, mientras que Btg4 y Plano tiene colas poli (A) relativamente cortas, lo que generalmente concuerda con los resultados del ensayo de longitud poli (A) (PAT) (consulte la sección “Métodos”) para estos genes (Fig. 1c). Por lo tanto, la longitud de la cola de poli (A) de PAIso − seq puede verificarse mediante estándares de aumento y un método independiente de la secuenciación, lo que confirma la capacidad de este método para evaluar la longitud de la cola de poli (A).

PAIso − seq tiene buena reproducibilidad

Para analizar la reproducibilidad de PAIso − seq, primero comparamos si podemos capturar bien el transcriptoma. Podemos ver que los recuentos de lectura normalizados por gen muestran una buena correlación entre cada réplica (Fig. 3 complementaria). Los patrones de distribución global de la longitud de la cola de poli (A) por transcripción y por gen son similares entre cada una de las réplicas (Fig. 2a, b). Además, la longitud de la cola de poli (A) para cada gen es altamente reproducible entre réplicas (Fig. 2c). La longitud de la cola de poli (A) en los ovocitos de GV se ha cartografiado previamente mediante el uso de TAIL-seq con un límite de detección máximo de 79 nt 10. Podemos ver que existe una buena correlación entre la longitud de la cola poli (A) determinada por TAIL-seq y PAIso − seq (Fig. 2d), lo que confirma aún más el desempeño de PAIso − seq en la determinación de la longitud de la cola poli (A). Una característica obvia de PAIso − seq es que no tiene un límite de tamaño superior obvio para la detección. Las colas de poli (A) se consideran comúnmente como de no más de 250 nt de longitud, en las que la enzima ya no puede unirse a CPSF (factor de especificidad de escisión y poliadenilación) y la poliadenilación se detiene 20,21. Cuando observamos las colas de poli (A) individuales, vimos aproximadamente un 0,4% (1,100 / 297,868) de colas de poli (A) de más de 200 nt y un 0,1% (207 / 297,868) de más de 260 nt. Aunque el número de transcripciones con colas largas es pequeño, es muy probable que sean reales, porque para algunos de los genes, podemos detectar consistentemente transcripciones con colas largas de tres réplicas independientes (Tabla complementaria 4). En el futuro, será interesante analizar la función y regulación de estas largas colas poli (A) que no son identificables por métodos anteriores.

PAIso − seq captura transcripciones poli (A) inclusivas. a Distribución global de las longitudes de la cola de poli (A) de todas las transcripciones (CCS) en ovocitos de GV. Se muestra la longitud media de la cola poli (A) de las lecturas de CCS para cada réplica. B La distribución de las longitudes de la cola poli (A) de todos los genes. Se muestra la mediana de la longitud media de la cola poli (A) de los genes para cada réplica (con no menos de tres CCS). C La correlación del gen (con no menos de diez CCS en cada una de las réplicas) de la longitud de la cola de poli (A) entre tres réplicas de ovocitos de GV. La línea azul representa la línea de regresión lineal. El área de color gris claro representa el intervalo de confianza de la regresión. norte = 1179 (panel izquierdo), norte = 1120 (panel central) y norte = 1992 (panel derecho). Rpag y Rs consulte el coeficiente de correlación de Pearson y Spearman. D La correlación entre la longitud de la cola del gen poli (A) en ovocitos GV medida por PAIso-seq (este estudio) y TAIL-seq 10. La línea azul representa la línea de regresión lineal. El área de color gris claro representa el intervalo de confianza de la regresión. Los genes con al menos 10 lecturas en PAIso − seq y 30 etiquetas en los conjuntos de datos TAIL-seq se incluyen en el análisis (norte = 1662). Rpag y Rs consulte el coeficiente de correlación de Pearson y Spearman. mi La distribución de colas de poli (A) de más de 200 nt. El número encima de la barra muestra los recuentos de lecturas CCS con una longitud de cola poli (A) dada.

Poliadenilación específica de isoformas

Se ha demostrado que la poliadenilación alternativa (APA) de los ARNm desempeña un papel importante en muchos procesos biológicos, incluida la maduración de ovocitos de ratón 22. Nuestro método permite adquirir secuencias de ADNc de longitud completa con la información completa de las colas de poli (A). Por lo tanto, es factible analizar las colas poli (A) de diferentes isoformas de ARNm de cada gen, incluido el APA y el empalme alternativo. Mediante el uso de los datos de PAIso-seq de ovocitos de GV, podemos mapear los sitios de poliadenilación de las transcripciones de ovocitos de GV de manera directa y precisa. En comparación con los sitios poli (A) anotados en la anotación del genoma del ratón Ensembl (mm10, versión 92), identificamos 3511 genes con dos sitios de poliadenilación (1 sitio APA), 762 genes con tres sitios de poliadenilación (2 APA) y 220 genes con más de tres sitios de poliadenilación (≥3 sitios APA) (Fig. 3a). Estos sitios se superponen bien con los sitios de poliadenilación de ARN anotados (Fig. 3a). Diferentes isoformas pueden tener diferentes colas de poli (A). Por ejemplo, encontramos Ccnb1 transcripciones con tres sitios de poliadenilación diferentes que dan como resultado tres tamaños diferentes de 3'-UTR. Claramente, el Ccnb1 Las isoformas de transcripción APA1 y APA2 tienen una longitud similar de colas de poli (A), mientras que la isoforma de APA3 tiene colas de poli (A) significativamente más largas en los ovocitos de GV (Fig. 3b). Esto es consistente con un estudio previo de Ccnb1 longitud de la cola de poli (A) en una etapa diferente del desarrollo de los ovocitos 22. Como otro ejemplo, encontramos que el Wee2, una quinasa inhibidora clave de MPF (factor de maduración (fase M)) necesaria para mantener la detención meiótica 23, tiene dos isoformas de APA diferentes con longitudes de colas de poli (A) significativamente diferentes (Fig. 3b).

PAIso − seq permite la detección de colas poli (A) específicas de isoformas. a Eventos de poliadenilación alternativa (APA) (panel izquierdo) de las transcripciones maternas en ovocitos de GV detectados por PAIso-seq y comparados con el sitio poli (A) de referencia (panel derecho) 45. B Dos genes maternos, Ccnb1 (con tres sitios de poliadenilación, pag = 0,0067 entre APA2 y APA3) y Wee2 (con dos sitios de poliadenilación, pag = 3.9e - 12 entre dos APA) con colas poli (A) específicas de isoforma APA. El número de isoformas APA se muestra a la derecha del modelo APA. En el gráfico se muestra la longitud media de las colas de poli (A) de isoformas de diferentes sitios de poliadenilación. los pag El valor fue calculado por Student's no emparejado y bilateral. t prueba. El número de lecturas CCS utilizadas es 194 (Ccnb1 /APA1), 70 (Ccnb1 /APA2) y 50 (Ccnb1 /APA3) 53 (Wee2 /APA1) y 132 (Wee2 /APA2). C Diferentes isoformas de empalme alternativo de Tcl1 Los ARNm tienen diferentes longitudes de colas de poli (A). El modelo genético y las isoformas capturadas (arriba) de Tcl1. El número de isoformas detectadas se muestra a la derecha. La longitud de la cola poli (A) de las isoformas detectadas se muestra en la parte inferior. Se muestra la longitud media de cada cola de poli (A) isoforma. pag = 0.03791 entre la isoforma ayc pag = 0.014 entre la isoforma by c. los pag El valor fue calculado por Student's no emparejado y bilateral. t prueba. El número de lecturas de CCS utilizadas son 242 (isoforma a), 14 (isoforma b), 7 (isoforma c) y 8 (isoforma e).

Además de APA, PAIso − seq también permite la detección de isoformas de ARN completas junto con información de poli (A). De hecho, vemos que diferentes isoformas empalmadas alternativamente pueden tener diferentes longitudes de colas de poli (A). Por ejemplo, Tcl1 se ha anotado con cinco isoformas diferentes, de las cuales detectamos cuatro en PAIso − seq con diferentes longitudes de colas de poli (A) en ovocitos de GV (Fig. 3b). Estos resultados demuestran que PAIso − seq es una herramienta poderosa que permite el estudio de colas poli (A) específicas de isoformas.

Asociación de la longitud de la cola con la traducción en ovocitos GV de ratón

Suceden muchos eventos importantes en el desarrollo de los ovocitos y los embriones en etapa muy temprana, incluido el almacenamiento de ARNm y proteínas durante la maduración de los ovocitos, la activación del genoma cigótico y la eliminación de ARNm / proteínas maternos en los embriones tempranos. Estos procesos dependen en gran medida de los ARNm y las proteínas almacenadas en el ovocito, que se acumulan gradualmente durante la ovogénesis. Se ha demostrado el control de la traducción de varios ARNm mediante la longitud de la cola de poli (A) en ovocitos de ratón 5, 14, 16. Sin embargo, se desconoce si es cierto en todo el transcriptoma. Wang y col. 24 proteoma previamente informado de ovocitos de ratón GV. Basándonos en el perfil de proteínas de los ovocitos de GV, dividimos las transcripciones maternas en dos categorías: una es de baja abundancia de proteínas (1184 genes, CCS ≥10, no detectados en el análisis de espectrometría de masas), la otra es de alta abundancia de proteínas ( 2669 genes, CCS ≥10, detectados en el análisis de espectrometría de masas) (Fig. 4a). Al comparar la longitud de la cola de poli (A) de estas dos categorías, encontramos que el grupo de alta abundancia de proteínas tiene una longitud media de la cola de poli (A) de 62 nt, que es significativamente más larga que la del grupo de baja abundancia de proteínas a 56 nt ( Figura 4a). La correlación positiva entre la longitud de la cola de poli (A) y el nivel de proteína sugiere que las colas de poli (A) más largas promueven la traducción en ovocitos de GV de ratón. Mediante el análisis de la vía KEGG (Enciclopedia de genes y genomas de Kioto), encontramos que los genes del grupo de alta abundancia de proteínas estaban asociados con la funcionalidad en curso de los ovocitos de GV, como el proteasoma y el procesamiento de proteínas en el retículo endoplásmico, mientras que los genes del grupo de baja abundancia de proteínas estaban relacionados con funcionalidad de voluntad de los ovocitos de GV, como el ciclo celular y la meiosis de los ovocitos (Fig. 4b). Por lo tanto, sugiere que las transcripciones de genes del grupo de alta abundancia de proteínas tienen colas poli (A) más largas para una traducción eficiente en este momento, mientras que las transcripciones de los genes del grupo de baja abundancia de proteínas tienen colas poli (A) más cortas para el almacenamiento en este momento. Por ejemplo, los ARNm de Dnmt1, Tle6, Npm2, y Zp2, que se ha demostrado que se traducen activamente en ovocitos de GV 25,26,27,28, tienen longitudes de cola poli (A) superiores a 60 nt (Fig. 4c). A diferencia de, Btg4, Cnot7, Cnot6l, y Plano, que son bien conocidos como ARNm maternos latentes con niveles más bajos de proteína en los ovocitos de GV 5, 14, 29, tienen longitudes de cola poli (A) inferiores a 60 nt (Fig. 4c). Estas transcripciones serán poliadeniladas adicionalmente para una traducción eficiente en etapas posteriores de desarrollo 5, 14, 16, 30, 31.

La longitud de la cola de poli (A) se correlaciona positivamente con el nivel de proteína. a Gráfico de violín para la distribución de la longitud de la cola poli (A) de genes de baja abundancia de proteínas y de alta abundancia de proteínas (los genes con al menos diez transcripciones detectadas se incluyen en el análisis). Las dos líneas punteadas representan las longitudes medias de las colas poli (A) de genes de baja abundancia de proteínas (rosa) y genes de alta abundancia de proteínas (azul claro). los pag El valor fue calculado por Student's no emparejado y bilateral. t prueba. B Categorización funcional de genes en grupos de genes de alta abundancia de proteínas y de genes de baja abundancia de proteínas mediante el análisis de la vía KEGG (pag valor de corte = 0,05). los pag El valor se calcula mediante una prueba hipergeométrica. C Distribuciones de longitud de cola de poli (A) para cuatro genes de alta abundancia de proteínas (Dnmt1, Tle6, Npm2, y Zp2, cian) y cuatro genes de baja abundancia de proteínas (Btg4, Cnot7, Cnot6l, y Plano, rosado). Una línea de puntos azul que indica 60 nt utilizada para ayudar a visualizar la diferencia de longitud de la cola de poli (A) entre los grupos de genes de alta abundancia de proteínas y de baja abundancia de proteínas. Los puntos negros indican la longitud media de la cola poli (A) de cada gen. El número de lecturas de CCS utilizadas es 390 (Dnmt1), 287 (Tle6), 146 (Npm2), 144 (Zp2), 685 (Btg4), 94 (Cnot7), 73 (cnot6l) y 413 (Plano). D Validación de la longitud de la cola poli (A) de los genes mostrados en la Fig. 3c mediante ensayo PAT. Las puntas de flecha azul oscuro representan bandas sin cola de poli (A) (A0), y las puntas de flecha cian (alta abundancia de proteínas) y rosa (baja abundancia de proteínas) representan bandas con cola de poli (A) (poliadenilación). M, marcador. Debido a las colas G adicionales y la secuencia adaptadora, la longitud de los productos de poliadenilación de PCR menos los productos A0 es al menos 35 pb más larga que las colas de poli (A) reales 43. Los datos de origen se proporcionan como un archivo de datos de origen.

Para validar aún más los datos de PAIso-seq, llevamos a cabo el ensayo PAT en estos ocho genes individuales como se muestra en la Fig. 3c utilizando ARN de ovocitos en etapa GV. La longitud de la cola de poli (A) determinada por el ensayo PAT mostró patrones muy similares a los de PAIso − seq (Fig. 4d), lo que confirma que Dnmt1, Tle6, Npm2, y Zp2 realmente tienen colas de poli (A) más largas que Btg4, Cnot7, Cnot6l, y Plano, lo que demuestra que PAIso-seq puede medir las longitudes de la cola de poli (A) con precisión, proporcionando la asociación global entre la síntesis de proteínas y la longitud de la cola de poli (A) de ARNm en ovocitos GV de ratón.

Residuos no adenosínicos generalizados dentro de las colas de ARN poli (A)

Se pensaba que las colas de ARN poli (A) solo estaban compuestas de residuos A. A través de TAIL-seq, se han encontrado modificaciones dominantes del extremo 3 'G y U en las colas de ARN poli (A) con un papel vital en la estabilidad del ARNm en las líneas celulares humanas 2,3. Utilizando el mismo método, se ha demostrado que el extremo 3 'de las transcripciones maternas con una cola corta de poli (A) se uridila en ovocitos GV de ratón [10]. Sin embargo, la señal que no es T no se puede llamar con precisión dentro de un tramo largo de T utilizando el algoritmo de llamada de base en el método TAIL-seq. Por lo tanto, la señal que no es T solo se puede llamar en el extremo 3 ′ utilizando TAIL-seq. Nuestro método no tiene esta limitación. Además, varias pasadas de una sola plantilla generan CCS de alta precisión de una transcripción, incluidas las bases dentro de las colas poli (A). Por lo tanto, PAIso − seq nos da la oportunidad de analizar la composición base detallada dentro de las colas poli (A). Usamos un umbral alto que requiere al menos 10 pases para una sola molécula para garantizar la precisión de la secuencia llamada 19,32. Sorprendentemente, hay U, G y C generalizadas dentro del cuerpo de las colas de ARNm poli (A) además de las que se pueden ver en el extremo 3 'dentro del 17% de las transcripciones (Fig. 5a). Cuando miramos en Us, Gs o Cs en colas poli (A) de diferente longitud, vimos que las modificaciones U son más frecuentes en transcripciones con colas cortas, mientras que las modificaciones G y C son más frecuentes en colas relativamente largas (Fig. 5b). En general, las modificaciones se ven con mayor frecuencia cerca del extremo 5 ′ de las colas poli (A), mientras que la modificación G tiene otra posición enriquecida obvia cerca del extremo 3 ′ de las colas (Fig. 4 complementaria). Además, encontramos que hay dos, tres e incluso cuatro (aunque con una frecuencia relativamente baja) residuos continuos no adenosínicos dentro de las colas de poli (A), además de los únicos U, C o G que son más frecuentes ( Figura 5c). Como ejemplos, detectamos las colas poli (A) de Rcor1 (Aprobado = 34), Nploc4 (Aprobado = 18) y Ngrn (Pasa = 10) transcripciones con múltiples residuos no adenosínicos dentro del cuerpo de las colas poli (A) (Fig. 5c). La proporción de transcripciones que contienen modificaciones de genes no A muestra una buena correlación entre las réplicas (Fig. 5 complementaria).

Residuos no adenosínicos generalizados dentro del cuerpo de las colas de poli (A). a Frecuencia de lecturas de CCS que contienen nucleótidos internos no A dentro de la cola de poli (A). B La proporción de lecturas de CCS que contienen nucleótidos internos no A (panel izquierdo) y la frecuencia de residuos no adenosínicos en lecturas de CCS de diferentes longitudes de cola de poli (A) (panel derecho). C Recuentos de residuos de mono y oligo no adenosina (U, C y G). D Tres ejemplos de lecturas de CCS con residuos que no son de adenosina en el cuerpo de las colas de poli (A), Rcor1 (Aprobado = 34), Nploc4 (Aprobado = 18) y Ngrn (Aprobado = 10). mi La frecuencia de residuos no A en ovocitos de GV y datos de aumento de poli (A). F Modelos hipotéticos de lecturas CCS con cebador T30VN RT anclado al final de 3′-UTR (a) o dentro del cuerpo de las colas poli (A) (B). gramo Porcentaje de dos modelos de anclaje de cebadores T30VN RT diferentes según lo revelado por las lecturas de CCS de los datos de Iso-seq. h La frecuencia de diferentes sitios de anclaje NV detectados dentro del cuerpo de las colas poli (A). El número de eventos detectados se muestra encima de cada barra. I Ejemplos de lecturas CCS con cebador T30VN RT anclado al final de 3′-UTR (a) o dentro del cuerpo de las colas poli (A) (B). El número de acceso de las lecturas de CCS se muestra a la izquierda. El CCS leyó i.d. se muestra en el medio. El modelo de lectura CCS se muestra a la derecha. El número después de A significa oligo A con el número dado de adenosinas.

Para asegurarnos de que la modificación no A que se ve aquí no sea causada por errores introducidos durante la construcción de la biblioteca, verificamos los datos del pico sintético de poli (A) + cDNA después de RT durante el paso de preparación de la biblioteca. El resultado mostró aproximadamente un 0,02% de desajustes dentro de secuencias de poli (A) con picos que tienen pasadas ≥10 (59 de 283,007 bases) (Fig. 5e). Esto es mucho más bajo que aproximadamente el 0,7% de las modificaciones no A observadas en las colas de poli (A). Por lo tanto, las modificaciones no A que observamos no pueden ser de pasos posteriores a RT. Se sabe que las enzimas RT utilizadas en este método, SuperScript II, introducen aproximadamente 1 / 42.000 (0,0024%) de desajustes durante la reacción RT 33,34. Aunque las enzimas RT podrían haber aumentado la posibilidad de introducir cambios de marco cuando se trata de homopolímeros 33, no generarán más desajustes. Por lo tanto, existen modificaciones internas de la cola poli (A) que no se realizaron en el análisis anterior debido a limitaciones técnicas, aunque una parte muy pequeña de ellas detectadas aquí podrían deberse a errores de RT. Para confirmar aún más que los residuos que no son A no son artefactos, buscamos secuencias codificantes con pistas de oligo A y oligo T de más de diez bases. Estas secuencias homopoliméricas están codificadas en el genoma, por lo tanto, si hay desajustes en los datos, es probable que sean causados ​​por errores introducidos durante el paso de RT o el paso de secuenciación. Hay ocho regiones de este tipo dentro del genoma cubiertas por 20 lecturas en nuestro conjunto de datos. Hay en total 243 bases secuenciadas, no se detecta SNV (variación de un solo nucleótido), lo que indica pocos si no se introducen errores durante los pasos de RT.

Para validar la existencia de modificaciones no A mediante el uso de información independiente de la secuenciación, analizamos la información de emparejamiento de bases entre los cebadores de ARN y RT. Tradicionalmente, el cDNA Iso-seq de longitud completa en la plataforma PacBio usaba oligo 5′-adapter-T30VN-3 ′ como cebador RT para la transcripción inversa V (A, C o G) y N (A, T, C o G) se utilizan para anclar el cebador RT al final de 3'-UTR para descartar las colas poli (A) durante la transcripción inversa. Razonamos que el cebador RT también se puede anclar a los residuos que no son A en el medio de las colas de poli (A) si hay residuos que no son A en el medio de la cola. Esto implica una hipótesis comprobable de que el emparejamiento de bases entre el residuo no A interno poli (A) y el cebador VN en RT dará como resultado la inclusión de secuencias poli (A) antes de VN (Fig. 5f). Para probar esto, elegimos aleatoriamente un conjunto de datos Iso-seq recientemente publicado de pimienta (experimento CRX041331 con el número de acceso CRA001412) 35. De hecho, el resultado es como lo que hipotetizamos. Hay aproximadamente un 5% de transcripciones que muestran pares de bases VN con nucleótidos en el medio de las colas poli (A) (figura 5g), donde el no A simple es más frecuente que el no A doble (figura 5h). En la figura 5i se muestran ejemplos de estas lecturas ancladas con cebador de RT media. El emparejamiento de la base del cebador RT tiene lugar antes de la reacción RT, lo que respalda que hay residuos no A dentro del cuerpo de las colas poli (A). Aunque la RT es muy ineficiente (2-6 × 10 −4 tasa normal relativa) para extenderse en cebadores con desajustes en el extremo 3 ′ 36, no podemos excluir la posibilidad de que algunos de los eventos de anclaje de cebadores de RT intermedios detectados aquí sean el resultado de un cebado incorrecto en el medio de las colas A puras. Estos datos validan que las modificaciones no A dentro de las colas poli (A) probablemente no sean causadas por secuenciación o artefactos de preparación de bibliotecas.

Estos hallazgos indican que PAIso − seq permite una descomposición precisa de las colas poli (A), revelando modificaciones generalizadas de U, G y C dentro del cuerpo de las colas poli (A) de ARNm, lo que indica que las colas poli (A) de ARNm son mucho más complejas que lo que se pensaba anteriormente.

Colas de poli (A) en otras celdas

La longitud de la cola de poli (A) anterior y la composición de la base es de aproximadamente un tipo de célula única, el ovocito GV de ratón. Para validar el método PAIso − seq en otros tipos de células, empleamos la muestra de hígado de rata que nunca se ha analizado en el aspecto de la cola del ARNm poli (A) y obtuvimos datos de PAIso − seq con éxito (Fig. Complementaria 1a, c). Podemos ver que la muestra de hígado de rata tiene un patrón muy diferente de longitud de la cola de poli (A) de transcripción global en comparación con los ovocitos GV de ratón (Fig. 6a complementaria y Fig. 2a). La muestra de hígado de rata también contiene una parte sustancial de las transcripciones con modificaciones no A dentro de las colas poli (A) (Fig. 6b complementaria). Estos datos confirman que PAIso − seq es ampliamente aplicable a muestras de diferentes células y diferentes especies y será una poderosa herramienta para diseccionar la regulación a través de colas de ARN poli (A) en diversos procesos biológicos.

PAIso − seq de celda única

Los pasos de construcción de la biblioteca PAIso − seq son muy eficientes. Creemos que podría ser aplicable a celdas individuales. Por lo tanto, probamos PAIso − seq en 15 muestras de ovocitos GV individuales con un cebador de extensión final con código de barras. Las muestras se agrupan para su secuenciación. Los datos unicelulares mostraron una abundancia de transcripciones y un patrón de distribución de longitudes poli (A) similares a los de la muestra global (Fig. 2a-c). Los datos de 15 celdas individuales también son comparables a los datos de celda a granel al medir tanto la longitud de la cola poli (A) como las modificaciones no A (Fig. 6a, b). A nivel de gen individual, podemos ver que la longitud de la cola de poli (A) medida de cada célula individual se correlaciona bien con la de las células a granel (Fig. 6c y Fig. 7 complementaria). Estos datos demuestran que PAIso − seq es capaz de tratar con un solo ovocito de GV que contiene alrededor de 0,3 a 0,5 ng de ARN total 37, lo que ofrece la oportunidad de estudiar las colas de poli (A) de ARN global en células raras.

PAIso − seq unicelular para ovocitos GV. a Distribuciones globales de la longitud de la cola poli (A) de todas las lecturas de CCS detectadas (Pasa ≥10) en un solo ovocito GV C1 (celda 1), C2, C4, C7, C15 y GV rep.2, y un solo ovocito GV combinado (SCGV com.) conjuntos de datos. La longitud media de cada cola poli (A) de una transcripción se muestra como el punto rojo y el número debajo del gráfico de violín. B La frecuencia de residuos no A en ovocitos de GV individuales C1, C2, C4, C7, C15, GV rep.2 y SCGV com. conjuntos de datos. C La correlación de Spearman de la longitud de la cola del gen poli (A) entre un solo ovocito GV C4 y GV rep.2 (panel superior, norte = 928), un ovocito GV C15 y GV rep.2 (panel central, norte = 566), conjuntos de datos C15 y C4 de ovocitos GV únicos (panel inferior, norte = 597) conjuntos de datos. La línea azul representa la línea de regresión lineal. El área de color gris claro representa el intervalo de confianza de la regresión. Los genes con al menos cuatro transcripciones en cada uno de los conjuntos de datos se incluyen en el análisis.


MÉTODOS

Identificación de sitios poli (A) en genomas usando cDNA / ESTs y trazas de secuencias

Recuperamos todas las secuencias de ADNc / EST enumeradas en las bases de datos UniGene de humanos, ratones, ratas, pollos y peces cebra de NCBI (versiones de julio y agosto de 2005), y las alineamos con las secuencias del genoma descargadas del sitio de bioinformática del genoma de UCSC (página web del autor, hg17 para humanos). , mm5 para ratón, rn3 para rata, galGal2 para pollo y danRer1 para pez cebra) usando BLAT (21). Los sitios poli (A) se identificaron analizando los extremos colgantes de las alineaciones utilizando el método descrito en (13). Se descartaron todos los candidatos a cebado interno. Se descargaron secuencias de trazas humanas, de ratón, de rata y de pez cebra de NCBI Trace Archive y se utilizaron para extender secuencias terminales de poli (A / T) en cDNA / EST como se describe en (22).

Agrupación de sitios poli (A) según ubicaciones y genes

Agrupamos los sitios poli (A) pertenecientes al mismo gen utilizando la base de datos NCBI UniGene. Para eliminar las transcripciones antisentido y otras transcripciones erróneas, limpiamos los contenedores UniGene (o clústeres) como se muestra en la Figura 1 complementaria. Los contenedores UniGene limpios se denominan CLUB (contenedor UniGene limpio). Este paso se llevó a cabo primero seleccionando una secuencia representativa llamada iniciador para el CLUB, seguido de la inclusión iterativa de cDNA / EST que tienen la misma orientación transcripcional que el iniciador y tienen una superposición de secuencia con cDNA / EST que ya están en el CLUB. Los iniciadores se seleccionaron basándose en el orden RefSeqs & gt otros cDNAs & gt ESTs. Las secuencias incluidas en un CLUB se denominan miembros del CLUB. Un UniGene Bin puede tener más de un CLUB. Para maximizar el número de secuencias de ADNc / EST de soporte para un sitio poli (A), los extremos 3 'de las secuencias sin colas poli (A / T) se compararon con sitios poli (A) identificados. Se considera que un cDNA / EST sostiene un sitio poli (A) si su extremo 3 'está cerca del sitio poli (A) dentro de los 24 nt. Las transcripciones con orientación transcripcional desconocida se asignan como miembros asociados del CLUB si uno de los extremos de su secuencia está cerca de un sitio poli (A) dentro de los 24 nt, y la orientación transcripcional inferida basada en el sitio poli (A) no entra en conflicto con la del CLUB . También se incluyeron como soporte de cDNA / EST. Los sitios poli (A) que están ubicados dentro de los 24 nt entre sí, debido a la escisión heterogénea, se agruparon de forma iterativa en la dirección 5 'a 3'. La posición del sitio de escisión medio en un grupo se usa para representar el grupo. Por lo tanto, en PolyA_DB 2, la identificación del sitio poli (A) se compone de tres partes, es decir, la identificación UniGene, el número CLUB y el número del sitio. Por ejemplo, Hs.44402.1.46 se basa en UniGene ID Hs.44402, CLUB número 1 y sitio número 46. La información genética se recuperó de las bases de datos de NCBI Gene (versiones de agosto de 2005) y se asignó a los CLUB según la relación entre las ID de genes y secuencias RefSeq en los CLUB.

Anotación de cis-elementos

Usamos matrices de puntuación específicas de posición (PSSM) de 15 identificadas previamente cis-elementos para buscar regiones poli (A) (9). Para cada matriz, obtuvimos todas las puntuaciones positivas posibles para hacer coincidir una secuencia con el mismo tamaño. Los percentiles 25, 50 y 75 se utilizaron para comparar otras coincidencias de secuencia. Para todas las secuencias que rodean los sitios poli (A) humanos y de ratón, comparamos sus puntuaciones de coincidencia con los puntos de referencia. Una coincidencia se consideró 'muy fuerte' si su puntuación estaba por encima del percentil 75 'fuerte' para el percentil 50-75 'débil' para el percentil 25-50 'muy débil' por debajo del percentil 25 y 'no coincidente' para el negativo puntuaciones.

Encontrar regiones sinténicas para sitios poli (A) humanos

Usamos las alineaciones del genoma de ocho vías del sitio de bioinformática del genoma de UCSC para obtener regiones sinténicas para sitios poli (A) humanos. Los archivos de alineación del genoma de ocho vías contienen genomas de Homo sapiens (humano), Pan trogloditas (chimpancé), Canis familiaris (perro), Mus musculus (ratón), Rattus norvegicus (rata), Gallus gallus (pollo), Danio rerio (pez cebra) y Takifugu rubripes (pez globo). Primero analizamos los bloques de alineación que se superponen a la región de -300 a +300 nt que rodea los sitios poli (A) humanos e identificamos las posiciones correspondientes en otros genomas si tenían secuencias alineadas con la región. Luego recuperamos secuencias genómicas de todas las especies alineadas, incluida la humana, y realineamos las secuencias con CLUSTALW (23). También anotamos todos los cDNA / EST de las especies de alineación cuyos extremos de secuencia se encuentran dentro de los 24 nt de los sitios poli (A) humanos en las alineaciones. Esta información puede respaldar la conservación de sitios poli (A).

Base de datos y sitio web

Los datos de la base de datos se almacenan en una base de datos relacional, implementada con MySQL. PHP y Perl se utilizan para la interfaz web. Los módulos de Bioperl se utilizan para la representación gráfica de secuencias (24). Las consultas se basan en ID de genes, ID de UniGene, ID de CLUB e ID de sitio. Las descargas de lotes grandes están disponibles a pedido.


Métodos

Materiales vegetales y condiciones de crecimiento.

los P. trichocarpa El clon Nisqually-1 se mantuvo en un invernadero como se describe [29]. Para tratamientos de temperatura, los cortes asépticos de P. trichocharpa (8-10 cm) se mantuvieron en el medio de enraizamiento [30] durante aproximadamente 30 días antes de los tratamientos. La cámara de crecimiento estaba en condiciones de día largo (16 h de luz / 8 h de oscuridad) a 24 ° C y 40% de humedad. Para realizar el tratamiento a baja temperatura, se controló un congelador mediante un sensor de temperatura (PURUI G6000, Ningbo, China). Para realizar el tratamiento a alta temperatura, se fijó una incubadora a la temperatura adecuada antes del experimento para estabilizar la temperatura interna. Se recolectaron plántulas enteras de al menos tres individuos para la preparación de muestras.

Construcción, secuenciación y procesamiento de datos de bibliotecas PAS-seq

Para la construcción de la biblioteca de secuenciación, se trató el ARN total con RQ1 DNasa (Promega, Madison, EE. UU.) Para eliminar el ADN. La calidad y cantidad del ARN purificado se determinaron midiendo la absorbancia a 260 nm / 280 nm (A260 / A280) usando smartspec plus (BioRad, Munich, Alemania). La integridad del ARN se verificó adicionalmente mediante electroforesis en gel de agarosa al 1,5%. Para cada muestra, se utilizaron 5 μg de ARN total para la preparación de la biblioteca PAS-seq utilizando el sistema SMART RT. En resumen, los ARNm poliadenilados se purificaron con perlas magnéticas conjugadas con oligo (dT) (Invitrogen, EE. UU.). Se fragmentó el ARN purificado y se realizó la transcripción inversa con un cebador de RT modificado que albergaba dT18 y dos nucleótidos de anclaje adicionales en el extremo 3 '. A continuación, se sintetizó el ADN con oligo ADN de marcado terminal usando el kit de preparación de bibliotecas ScriptSeq ™ v2 RNA-Seq (Illumina, EE. UU.). Los ADNc se purificaron y amplificaron, y los productos de PCR correspondientes a 300-500 pb se purificaron, cuantificaron y almacenaron a -80 ° C antes de la secuenciación. Para la secuenciación de alto rendimiento, las bibliotecas se prepararon siguiendo las instrucciones del fabricante y se aplicaron al sistema Illunima HiSeq X Ten para una secuenciación de extremo emparejado de 150 nt. Las lecturas se filtraron para comprobar la calidad y solo se utilizaron las secuencias finales 1 de lecturas limpias para los análisis posteriores. La secuenciación y el procesamiento de lecturas iniciales fueron realizados por ABlife Inc. (Wuhan, provincia de Hubei, China). Todos los datos de secuenciación se depositaron bajo el acceso PRJNA61765 del Centro Nacional de Información Biotecnológica Bioproyecto.

Mapeo de secuencias e identificación de PAC

El genoma de referencia de Populus trichocarpa (versión 3.1) se descargó de Phytozome [31] https://phytozome.jgi.doe.gov). El mapeo de lecturas fue realizado por TopHat2 permitiendo 2 desajustes [32]. Para obtener la expresión de abundancia, se calculó el valor de RPKM (lecturas por kilobase de un gen por millón de lecturas) [33].

Para la identificación del grupo de sitios poliA (PAC), las lecturas de poliA mapeadas en 3 ′ se determinaron inicialmente como sitios poliA y luego se cuantificaron según el método Tag Per Million (TPM) [TPM (PAC) = lecturas mapeadas en el sitio polyA (PAC) * 1,000,000 / lecturas totales]. La identificación de PAC se realizó utilizando el paquete CAGEr [34] en resumen, los sitios poliA dentro de 20 nt con TPM sobre 0,5 se agruparon. El PAC dentro de 100 nt en diferentes bibliotecas de PAS-Seq se agruparon adicionalmente para generar las secuencias de PAC (Conjunto de datos suplementario 1). Para el análisis de APA, se filtraron las secuencias de PAC con un solo sitio poliA o TPM menor de 3. Los sitios de PAC totales se determinaron de forma independiente combinando las lecturas de secuenciación con un límite de TPM de 5. Para identificar genes con PAC desplazados, CAGEr calculó la diferencia de ubicaciones de PAC para obtener la puntuación de desplazamiento (Conjunto de datos suplementario 2, 3). La prueba de Kolmogorov-Smirnov se realizó para identificar cambios significativos de PAC con pag-valor & lt 0.01 (Conjunto de datos suplementario 2, 3).

Composición de nucleótidos y análisis de firma de secuencia

Los PAC mencionados anteriormente para cada muestra se utilizaron para el análisis de motivos. Y se extrajeron las secuencias de 50 pb aguas arriba y aguas abajo de cada PAS. Para el análisis de distribución de nucleótidos, se calculó la composición de cada PAS en cada posición. Y los motivos de secuencia se analizaron utilizando SignalSleuth2 [28] con las siguientes opciones: k = 6 (donde k es la longitud del motivo) y los 30 motivos principales.

Para el análisis inducido por estrés, las secuencias de genes con PAC desplazadas se extrajeron de acuerdo con la información de posición (Supple. Dataset 4, 5) utilizando un script de Python interno. Los PAC para cada tratamiento se dividieron en dos grupos: uno fue el PAC bajo condición de control y otro bajo la condición de tratamiento. El análisis de motivo de secuencia se realizó usando SignalSleuth2 como se mencionó anteriormente, y solo se usaron para el análisis la distancia de cambio de PAC por encima de 50.

Análisis de enriquecimiento funcional

Para el análisis funcional de genes desplazados, la información de anotación de Gene Ontology y Kyoto Encyclopedia of Genes and Genomes of P. trichocarpa se obtuvieron genes. El enriquecimiento de los términos GO y la vía KEGG se identificó en función de la importancia de las pruebas hipergeométricas y posteriormente se corrigió mediante FDR (Hochberg). El corregido pag-Los valores inferiores a 0,05 se determinaron como enriquecimiento significativo. Los términos GO significativamente enriquecidos se clasificaron en función molecular, proceso biológico y componente celular como se enumera en Supple. Conjunto de datos 6. Para el análisis de KEGG, la proporción de enriquecimiento se calculó como: Proporción de enriquecimiento de cada vía de KEGG = subconjunto de genes / número total de genes de la vía.


Descubrimiento de genes para la biosíntesis de ginsenósidos mediante análisis de etiquetas de secuencia expresadas en ginseng

Las etiquetas de secuencia expresada (EST) proporcionan una herramienta valiosa que se puede utilizar para identificar genes en la biosíntesis de metabolitos secundarios. GinsengPanax ginseng C.A Meyer) es una planta medicinal que acumula ginsenósidos en las raíces. Secuenciamos 11.636 tecnologías ecológicamente racionales de cinco bibliotecas de ginseng con el fin de crear un recurso genético para la biosíntesis de ginsenósidos, que se cree que son el principal componente activo de las raíces. Sólo el 59% de las tecnologías ecológicamente racionales de ginseng mostraron una homología significativa con las secuencias de polipéptidos previamente conocidas. Las proteínas de respuesta al estrés y a los patógenos fueron más abundantes en las raíces de ginseng de 4 años. Las tecnologías ecológicamente racionales implicadas en la biosíntesis de ginsenósidos se identificaron mediante una búsqueda de palabras clave de los resultados de BLASTX y una búsqueda de dominio de las tecnologías ecológicamente racionales de ginseng. Identificamos 4 candidatos a oxidoscualeno ciclasa implicados en la reacción de ciclación del 2,3-oxidoscualeno, 9 nueve candidatos al citocromo P450 y 12 candidatos a glucosiltransferencia, que pueden estar implicados en la modificación de la estructura del triterpeno.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


Datos extendidos Fig. 1 Caracterización adicional del estancamiento de ribosomas in vitro.

a, Un segundo ejemplo de productos de cadena naciente que resultan de la traducción in vitro de codones de lisina AAG o AAA iterados en lisado de células humanas, como en la Fig. 1a. Se indican las posiciones de los productos de la cadena naciente que contienen 4, 9 o 12 residuos de lisina. B, Análisis de codones AAG iterados versus AAA para estancamiento en lisado de reticulocitos de conejo. La reacción de traducción se realizó durante 20 minutos, después de lo cual se evaluó la proporción de productos estancados mediante las cantidades relativas de peptidil-ARNt frente al polipéptido de longitud completa. El "trasfondo" de

El 20% de peptidil-ARNt, incluso en ausencia de estancamiento, se debe a una terminación fallida en el codón de terminación, que se encuentra dentro de unos pocos nucleótidos del extremo 3 'del ARNm. Los experimentos de estancamiento in vitro posteriores con un 3'UTR más largo que sobresale fuera del canal de ARNm mostraron una eficiencia de terminación mejorada (

95%). Un 3'UTR demasiado corto presumiblemente hace que el ARNm sea más flexible en el canal del ARNm y menos capaz de reclutar eRF1. Se cuantificaron múltiples experimentos como éste para producir el gráfico que se muestra en la Fig. 1b. C, Evolución temporal de la aparición del producto de longitud completa (FL) para construcciones que contienen el número indicado de codones AAG o AAA iterados. La traducción se sincronizó pausando primero el ribosoma en una serie de codones de leucina raros justo antes de la secuencia codificante poli-básica, y luego reiniciando la traducción en el tiempo 0 mediante la adición de tRNA. Se representa la media ± SEM para cada punto de tiempo calculado a partir de dos experimentos.

Datos extendidos Fig. 2 Análisis crio-EM de ribosomas estancados en poli (A).

a, Micrografía representativa de ribosomas de poli (A) estancados utilizados para análisis de partículas individuales. La barra de escala es de 50 nm. B, Esquema de procesamiento de datos utilizado para la determinación de la estructura en Relion 3.0. La clasificación 3D revela que

El 90% de los ribosomas activos se encuentran en estado canónico con ARNt P / P mientras que

El 10% se ve en el estado rotado con ARNt de estado híbrido A / P y P / E. La mayoría de los ribosomas en estado rotado también contienen densidad para un ribosoma precedente y, por lo tanto, representan ribosomas que han chocado con un ribosoma con poli (A) estancado. C, Curva de correlación de capa de Fourier (FSC) del mapa final que ilustra una resolución general de 2.8 Å.

Datos extendidos Fig. 3 Caracterización del mapa crio-EM.

a, Resolución local del ribosoma bloqueado con poli (A) cortado a través del centro. Se indican las posiciones de los elementos clave. PTC: centro de peptidiltransferasa. El recuadro (derecha) destaca la alta resolución local en el PTC y el centro de decodificación. B, Corta el mapa de densidad en el plano del túnel de salida del polipéptido (izquierda) y el canal de ARNm (derecha). La densidad de cadena naciente continua correspondiente a una mezcla de longitudes de poli-Lys y posiciones Cα se contornea a un nivel diferente al resto del mapa y se muestra en magenta, y la densidad de ARNm se muestra en rojo. El ARNt del sitio P es verde, la subunidad 40 S en amarillo y la subunidad 60 S en azul claro.

Datos extendidos Fig.4 Densidad EM experimental para el sitio P Lys-tRNALys, 3.

Ajustes de mapa a modelo para el Lys-tRNA del sitio P (lys, 3) con el codón AAA del mRNA en el sitio P y el primer aminoácido (lisina) del polipéptido naciente. Las modificaciones de base en las posiciones 34 y 37 del ARNt se muestran dentro de la densidad crio-EM.

Datos extendidos Fig. 5 Vistas de la densidad del ARNm en el mapa EM del ribosoma estancado con poli (A).

El mapa de densidad se corta a través del ribosoma en un plano que revela el centro de decodificación y muestra el ARNm dentro de la subunidad pequeña. Las subunidades grandes y pequeñas (azul y amarillo, respectivamente), el ARNt del sitio P (verde) y el ARNm (rojo) están coloreadas. El recuadro muestra una región ampliada del canal de ARNm, lo que ilustra que el ARNm poli (A) se ordena a través de la mayor parte del canal. El panel inferior muestra la densidad de ARNm en los sitios P ​​y A en el mapa final refinado y afilado. El ARNm está bien ordenado en el sitio P debido al emparejamiento de bases con el ARNt del sitio P, y está ordenado en el sitio A debido a las interacciones estabilizadoras con el ARNr, como se muestra en la Fig. 3.

Datos extendidos Fig. 6 La guanosina interrumpe la propensión helicoidal intrínseca de poli (A).

Se representan los espectros de dicroísmo circular (CD) de oligonucleótidos de ARN AAAAAA (rojo), AAGAAG (azul) y AAGGAA (verde). Estos espectros se promedian a partir de 9 mediciones independientes realizadas en las mismas muestras. El oligo AAAAAA muestra una característica de firma de CD para la conformación helicoidal de poli (A), como se describió anteriormente 52. La introducción de guanosinas altera significativamente esta estructura helicoidal.

Datos extendidos Fig. 7 Comparación de la geometría de peptidil-tRNA en diferentes estructuras de RNC de mamíferos.

Se muestran los mapas de densidad EM para la región de peptidil-tRNA en el PTC para las estructuras indicadas. Los modelos ajustados se muestran para el ribosoma bloqueado con poli (A) y el RNC bloqueado en el codón de terminación con un mutante eRF1 AAQ dominante negativo (código PDB 5LZV). El 5LZV RNC tiene una geometría competente para la transferencia de peptidilo (o en este caso, la liberación de péptidos por eRF1). La estructura de los RNC estancados con didemnin-B contiene una mezcla de cadenas nacientes estancadas en diferentes posiciones. Por tanto, la densidad de la cadena naciente representa un promedio de una variedad de peptidil-tRNA. Tenga en cuenta que el modelo de cadena naciente de 5LZV encaja bien en el mapa de densidad, lo que indica que la mayoría de los peptidil-ARNt asumen esta configuración durante el alargamiento activo. La geometría del poli (A) peptidil-ARNt es claramente diferente de esta geometría óptima. Lys y Val se refieren a las cadenas laterales de lisina y valina de cadenas nacientes modeladas. Los asteriscos indican la densidad de las cadenas laterales que no se muestran.


3 y cola Poly-A principal

Mientras que la ARN polimerasa II todavía se transcribe aguas abajo del extremo adecuado de un gen, el pre-ARNm es escindido por un complejo proteico que contiene endonucleasas entre una secuencia consenso de AAUAAA y una secuencia rica en GU. Esto libera el pre-ARNm funcional del resto de la transcripción, que todavía está unido a la ARN polimerasa. Una enzima llamada poli (A) polimerasa (PAP) es parte del mismo complejo de proteínas que escinde el pre-ARNm e inmediatamente agrega una cadena de aproximadamente 200 nucleótidos A, llamada cola poli (A), al extremo 3 & principal del pre-ARNm recién escindido. La cola poli (A) protege el ARNm de la degradación, ayuda a exportar el ARNm maduro al citoplasma y participa en la unión de proteínas implicadas en el inicio de la traducción.

Figura ( PageIndex <1> ): La polimerasa de poli (A) agrega una cola de poli (A) 3 & prime al pre-ARNm.: El pre-ARNm se escinde del resto del transcrito en crecimiento antes de que la ARN polimerasa II deje de transcribir. Esta escisión se realiza mediante un complejo proteico que contiene endonucleasas que se une a una secuencia AAUAAA cadena arriba del sitio de escisión y a una secuencia rica en GU cadena abajo del sitio de corte. Inmediatamente después de la escisión, la poli (A) polimerasa (PAP), que también es parte del complejo de proteínas, cataliza la adición de hasta 200 nucleótidos A al extremo 3 & principal del pre-mRNA recién escindido.


¿Pueden las colas de PolyA estar dentro de las etiquetas de secuencia expresada? - biología

Del análisis de secuencia de péptidos antigénicos al posible mecanismo de escisión del proteasoma

Yael Altuvia y Hanah Margalit
La Universidad Hebrea, Jerusalén, Israel

La escisión proteasomal de proteínas es el primer paso en el procesamiento de la mayoría de los péptidos antigénicos que se presentan a las células T citotóxicas. Aún así, su especificidad y mecanismo no se comprenden completamente. Para identificar las señales de secuencia preferidas que se utilizan para la generación de péptidos antigénicos por el proteasoma, realizamos un análisis riguroso de los residuos en las regiones terminales y flanqueantes de péptidos procesados ​​naturalmente eluidos de moléculas de MHC de clase I. Nuestros resultados sugieren que tanto el extremo C (posición P1 del sitio de escisión) como su posición de flanqueo inmediata (P1 ') poseen señales de escisión y que sus contribuciones son aditivas. Los extremos N-terminales de los péptidos muestran estas señales sólo débilmente, de acuerdo con hallazgos previos de que los péptidos antigénicos pueden ser escindidos por el proteasoma con extensiones N-terminales. Sin embargo, logramos demostrar indirectamente que los sitios de escisión N-terminal muestran las mismas señales preferidas en la posición P1 '. Esto implica que los residuos en la posición P1 'de un sitio de escisión participan en la determinación de la especificidad de escisión, además de la contribución ya conocida de la posición P1. Nuestros resultados se aplican a la generación de péptidos antigénicos y desnudan implicaciones directas para el mecanismo de escisión proteasomal. Proponemos un modelo para el mecanismo de escisión proteasómica mediante el cual ambos extremos de los fragmentos escindidos se determinan mediante las mismas señales de escisión, que implican residuos preferidos en las posiciones P1 y P1 'de un sitio de escisión. Se demuestra la compatibilidad de este modelo con datos experimentales sobre productos de degradación de proteínas y generación de péptidos antigénicos.


La base de datos de la red de interacción biomolecular (BIND) como recurso y herramienta de investigación

G.D. Bader, T. Pawson y C.W.V. Hogue
Instituto de Investigación Samuel Lunenfeld / Universidad de Toronto, Toronto, Ontario, Canadá

Cada proteína expresada en una célula puede interactuar con varias proteínas diferentes y otras moléculas en el curso de su función. Las interacciones proteína-proteína a menudo están mediadas por dominios proteicos modulares. Un ejemplo es el dominio SH3 que se une a un motivo rico en prolina. Estas "redes de interacción" forman cascadas de señalización convencionales, complejos de activación de la transcripción, mecanismos de control de vesículas, sistemas de crecimiento y diferenciación celular, entre otra maquinaria celular. Las interacciones de proteínas celulares conocidas eventualmente comprenderán más información que el Proyecto Genoma Humano. Presentamos una especificación de datos para una nueva base de datos de presentación pública llamada BIND (Biomolecular Interaction Network Database). Esta base de datos abarcará la complejidad de la información de interacción recopilada a través de estudios experimentales de interacciones biomoleculares. La información de interacción vendrá de la literatura, los remitentes y otras bases de datos. BIND contiene registros de interacciones, complejos moleculares y vías. Un registro de interacción se basa en la interacción entre dos objetos. Un objeto puede ser una proteína, ADN, ARN, ligando o complejo molecular. La descripción de una interacción abarca la ubicación celular, las condiciones experimentales utilizadas para observar la interacción, la secuencia conservada, la ubicación molecular de la interacción, la acción química, la cinética, la termodinámica y el estado químico. Los complejos moleculares se definen como colecciones de más de dos interacciones que forman un complejo, con información extra descriptiva como la topología compleja. Las vías se definen como colecciones de más de dos interacciones que forman una vía, con información descriptiva adicional, como la etapa del ciclo celular.


Un análisis comparativo automatizado de diecisiete genomas microbianos completos

Arvind K. Bansal
Departamento de Matemáticas e Informática, Universidad Estatal de Kent, Kent, Ohio, EE. UU.

A medida que los genomas secuenciados se hacen más grandes y la secuenciación se vuelve más rápida, existe la necesidad de desarrollar bases de datos y técnicas de comparación de genoma automatizadas precisas para facilitar la derivación de la identificación de la funcionalidad del genoma de enzimas, supuestos operones y vías metabólicas y para derivar la clasificación filogenética de microbios. Este artículo [3] modifica y amplía una técnica de comparación del genoma por pares automatizada [1, 2] utilizada para identificar ortólogos y grupos de genes para derivar genes ortólogos en un grupo de genomas, identificar genes con funcionalidad conservada e identificar genes específico de grupos de genomas.Se han comparado diecisiete genomas microbianos archivados en ftp://ncbi.nlm.nih.gov/genbank / genomes utilizando la técnica extendida para derivar ortólogos, grupos de genes ortólogos, duplicaciones, fusiones de genes, genes con funcionalidad conservada y genes específicos. a grupos de genomas.

Los resultados de la comparación [3] para E. coli y B. subtilis, dos de los microbios explorados a fondo en laboratorios húmedos, son consistentes con las anotaciones del NCBI. Los resultados revelan que los genomas dentro de la misma familia tienen un mayor porcentaje de ortólogos y grupos de genes ortólogos en términos de tamaño de los genomas más pequeños en los pares de genomas. Sin embargo, los pares de genomas con un gran número de genes comparten un gran número de ortólogos y grupos de genes ortólogos. Hay un gran número de duplicaciones de grupos de genes y duplicaciones de genes individuales. La duplicación de grupos de genes depende en gran medida del tamaño del genoma y, en menor medida, de que los genomas pertenezcan a la misma familia. La duplicación de genes individuales es aleatoria para algunos genomas. Los genes fusionados son pequeños. Alrededor de 85 genes tienen función conservada. Se conservan las funciones de muchos genes implicados en la transcripción y traducción. 21 genes correspondientes a proteínas ribosomales no tienen ortólogos en microbios de arqueas. Los genomas de Archaea comparten un porcentaje relativamente mayor de ortólogos entre ellos. Hay varios genes que son específicos de E. coli y varios subconjuntos de ocho patógenos.

Referencias
[1] Bansal, A. K., Bork, P., y Stuckey, P., "Comparaciones automatizadas por pares de genomas microbianos completos", Modelado matemático y Computación científica, 9, 1 - 23, (1998).
[2] Bansal A. K. y Bork, P., "Aplicación de la programación lógica para derivar información funcional novedosa en genomas microbianos", notas de la conferencia en informática, Springer Verlag, 1551, 274 - 289, (1999).
[3] Bansal, A. K., "Un análisis comparativo automatizado de diecisiete genomas microbianos completos", Bioinformatics, en prensa.


Enfoque heurístico para la construcción de modelos de Markov para la predicción de genes

John Besemer y Mark Borodovsky
Escuela de Biología, Instituto de Tecnología de Georgia, Atlanta

Hemos desarrollado un enfoque simple para construir modelos de Markov no homogéneos de regiones codificantes de proteínas que requieren solo un pequeño fragmento de ADN no anotado en contraposición a los grandes conjuntos de genes validados experimentalmente o secuencias de ADN anónimas utilizadas anteriormente. Este nuevo método crea modelos "sobre la marcha" a través de nuestro servidor web para cualquier secuencia de más de 400 nt. Las pruebas de este método en 10 genomas bacterianos completos utilizando el programa GeneMark.hmm han demostrado que los nuevos modelos predicen el 93,1% de los genes anotados en promedio, mientras que los modelos construidos con métodos tradicionales predicen un 93,9% comparable. Los modelos derivados mediante el método heurístico se pueden utilizar en los casos en que no hay suficiente secuencia de codificación disponible para producir modelos sólidos, como los genomas extremadamente pequeños de virus, plásmidos y orgánulos, así como proyectos de secuenciación al principio. Una aplicación adicional de este método es en genomas altamente heterogéneos, donde es ventajoso optimizar el modelo para que se ajuste a la composición de la secuencia local. También se presentarán la extensión de este enfoque para su uso con eucariotas y las implicaciones del método sobre los posibles mecanismos de evolución del patrón de uso de codones.


GeneMark.hmm: una herramienta de búsqueda de genes para genomas eucariotas

Mark Borodovsky1, John Besemer1, Natalia Milshina2 #, George Tarasenko2 y Alexander Lukashin1 *
1- Escuela de Biología, Instituto de Tecnología de Georgia, Atlanta, GA, EE. UU.
2 - Gene Pro, Inc. Atlanta, GA, EE. UU.
# - actualmente en Celera Genomics, Rockville, MD, EE. UU.
* - actualmente en Biogene, Cambridge, MA, EE. UU.

Las herramientas de predicción de genes desarrolladas para genomas procarióticos son generalmente inadecuadas para la predicción de estructuras génicas exón-intrón en genomas eucarióticos. El algoritmo GeneMark.hmm, descrito anteriormente para la búsqueda de genes en ADN procariótico y que utiliza modelos de Markov no homogéneos en un modelo de Markov oculto con marco de duración, se ha ampliado para analizar ADN eucariótico y encontrar genes divididos. La gramática más compleja del ADN eucariota requiere utilizar, además de los modelos de secuencia codificante y no codificante de Markov específicos de la especie, el uso de modelos de sitio como modelos para sitios donantes y aceptores y para contextos de codones de inicio y finalización. Para utilizar correctamente el modelo de Hidden Markov con duración, se derivaron y utilizaron también las distribuciones de probabilidad para las longitudes de exón, intrón y región intergénica. El programa GeneMark.hmm se probó para secuencias genómicas largas de varias especies eucariotas como Human, A. thaliana, C. elegans, C.reinhardtti, D. melanogaster y Rice. Se observó que el rendimiento del programa estaba al mismo nivel o superior al de otros buscadores de genes de uso frecuente para eucariotas.


Relaciones funcionales y evolutivas de las proteínas HSP60

Luciano Brocchieri y Samuel Karlin *
Departamento de Matemáticas, Universidad de Stanford, Stanford, CA 94305-2125, EE. UU.

* Compatible en parte con Grant NIH-5R01GM10452-34, NIH-5R01HG00335-11 y NSF-DMS9704552

Las proteínas HSP60 (GroEL) se expresan de forma ubicua en eubacterias y orgánulos eucariotas. Examinamos las similitudes de HSP60 utilizando nuestro nuevo método SSPA (Alineación de pares de segmentos significativos) y el programa ITERALIGN de ​​secuencia múltiple, y las interpretamos con respecto a la función y la evolución. Las proteínas HSP60 se conservan en gran medida, con segmentos N-terminales no alineados en secuencias organelares (péptidos líderes) y elementos repetitivos no alineados en el C-terminal. Las regiones no alineadas entre bloques de alineación, los tres más largos de aproximadamente cinco residuos, generalmente están expuestos a la pared externa del complejo de jaulas de Anfinsen. Entre las regiones más conservadas se encuentra la primera capa de residuos que rodea los sitios de unión de ATP y Mg ++. La conservación declina en el segundo caparazón. Los residuos hidrófobos que interaccionan supuestamente con el sustrato están altamente conservados, lo que afirma su importante papel funcional. Sin embargo, un segundo conjunto de residuos que se observa que entran en contacto con un péptido rico en histidina en un cristal de minicapaperona está mal conservado y aparentemente es menos relevante. Una gran cantidad de residuos de carga recubren la cavidad central del complejo GroEL-GroES en la conformación de liberación de sustrato (cis). Estos residuos abarcan un grupo de carga estructural intramonomérico estadísticamente significativo que está altamente conservado entre las secuencias y es probable que juegue un papel funcional importante al interactuar con el sustrato. En la conformación de unión al sustrato (trans), la mayoría de estos residuos quedan enterrados entre los monómeros del anillo heptamérico, donde establecen agrupaciones de cargas mixtas entre monómeros. Las comparaciones de similitud entre secuencias y el análisis de la alineación múltiple implican que las secuencias de HSP60 no apoyan la hipótesis de que las mitocondrias animales surgieron de un endosimbionte bacteriano Rickettsial. En particular, Rickettsia es fuertemente divergente en el dominio apical de unión al sustrato, mientras que Ehrlichia es principalmente divergente en el dominio ecuatorial de unión de ATP / ensamblaje multimérico. Una secuencia de Plasmodium falciparum, previamente caracterizada como mitocondrial, aparece en cambio como el remanente no funcional de una secuencia de cloroplasto simbionte secundaria.


Establecimiento del papel de los residuos variables importantes para la especificidad funcional dentro de la familia CheY

Sean Bulloch (2), Robert B. Bourret (2) e Igor B. Zhulin (1)
(1) Departamento de Microbiología y Genética Molecular, Universidad de Loma Linda, Loma Linda, California 92350, EE. UU.
(2) Departamento de Microbiología e Inmunología, Universidad de Carolina del Norte, Chapel Hill 27599, EE. UU.

La proteína CheY es un miembro prototípico de la superfamilia funcional de reguladores de la respuesta bacteriana y la superfamilia estructural del pliegue de Rossman. En E. coli, funciona como un regulador, que tras la fosforilación por una quimotaxis quinasa se une al motor flagelar. CheY es una proteína de dominio único, sin embargo, se ha informado recientemente como un dominio en proteínas de quimiotaxis híbridas (un dominio similar a CheY). En algunas alfa-proteobacterias, se encontró más de una copia de la proteína CheY. Se demostró que una de las dos proteínas CheY en S. meliloti tiene una función diferente: no se une a los motores flagelares y juega un papel de "fosfatasa" compitiendo con una proteína CheY principal por un fosfato. Para analizar la diversidad dentro de la familia CheY, hemos construido una alineación múltiple de todas las proteínas CheY conocidas y putativas y dominios similares a CheY. El cálculo de un consenso identificó residuos altamente conservados, que junto con los residuos de CoC conocidos se mapearon en el modelo 3D de E. coli CheY. Todos ellos estaban ubicados dentro del "sitio activo". Los residuos implicados en la fosforilación y la interacción con otras proteínas de quimiotaxis se mapearon primero en la alineación y se examinó su conservación dentro de subconjuntos de secuencias. Los residuos implicados en la fosforilación de CheY se encuentran entre los más conservados, lo que refleja una función común para todas las proteínas de la superfamilia.

En muchas secuencias de CheY, algunos de los residuos requeridos para la unión de CheY a la proteína de cambio flagelar FliM en E. coli no se conservaron. Esto provocó un análisis similar de FliM. Hemos demostrado que la interfaz de la proteína FliM, que interactúa con CheY, también es variable en muchas especies. La variación mutua de las superficies que interactúan de dos proteínas puede ajustar la vía de la quimiotaxis a tipos particulares de motores flagelares. Hemos encontrado que entre múltiples proteínas CheY dentro de un genoma dado, hay una proteína CheY, que tiene siete residuos de unión a FliM conservados (presumiblemente un homólogo CheY real), mientras que en otras proteínas CheY dos de estos siete residuos son variables. Sin embargo, estos dos residuos están muy conservados entre las proteínas CheY de "copias múltiples" y los dominios similares a CheY que se sabe que no interactúan con FliM. Los residuos CheY implicados en la interacción con la fosfatasa CheZ en E. coli se conservaron sólo en bacterias gamma-proteo. La búsqueda BLAST de la base de datos no redundante (incluidos los genomas microbianos sin terminar) reveló que la fosfatasa CheZ está presente solo en gamma-proteobacterias. Los residuos variables responsables de la diversidad funcional dentro de la familia CheY se mapearon en la estructura 3D de E. coli CheY y se encontraron agrupaciones en la superficie de dos hélices alfa expuestas.

Pequeños cambios en posiciones críticas en las secuencias de proteínas que aparentemente causaron un cambio dramático en la función parecen ocurrir en el contexto de cambios similares a lo largo de la longitud de la proteína. El análisis filogenético colocó las proteínas CheY que interactúan con CheZ, que interactúan con FliM y que no interactúan con FliM en grupos distintos.


Predecir la función, la estructura local y el pliegue global de la familia de proteínas mediante la comparación de motivos de secuencia local

Bob Chan, Gila Lithwick, Einat Sitbon, Victor Kunin y Shmuel Pietrokovski
Fred Hutchinson Cancer Research Center, Seattle, EE. UU. Y
El Instituto de Ciencias Weizmann, Rehovot, Israel

Presentamos un método para identificar similitudes funcionales y estructurales entre familias de proteínas utilizando similitud de secuencia de motivos. El método se basa en la descripción de cada familia de proteínas mediante un conjunto de alineaciones múltiples locales sin espacios (bloques) y en sofisticados programas de análisis de secuencias. Una comparación de bloque a bloque muy sensible (LAMA) es seguida por un análisis de consistencia altamente selectivo (CYRCA). Este análisis identifica grupos de bloques con relaciones coherentes y transitivas entre sí. Una inspección cuidadosa de muchos de estos grupos muestra que cada uno contiene familias de proteínas con la misma función, motivos estructurales específicos o incluso pliegues estructurales globales. La mayoría de estas relaciones no pueden identificarse mediante otras comparaciones avanzadas de secuencia a secuencia y secuencia a múltiples alineaciones. Por lo tanto, nuestro método permite la predicción de la función, la estructura local y el pliegue global a partir de la comparación de secuencias de proteínas alineadas de forma múltiple. Nuestro cartel describirá el método y presentará ejemplos representativos. Se pueden encontrar más detalles sobre el enfoque y se publicarán en el sitio WWW de Blocks (http://blocks.fhcrc.org).


Identificación y cálculo automático de estructuras centrales homólogas

Jie Chen, Marchler-Bauer Aron y Stephen H. Bryant
NCBI, NIH, Bethesda, Maryland, EE. UU.

Utilizando una gran base de datos de alineaciones de estructura-estructura y secuencia-secuencia de proteínas, probamos un nuevo método para distinguir vecinos estructurales homólogos y análogos. Los vecinos homólogos en el conjunto de prueba no muestran similitud de secuencia detectable, pero pueden estar bien superpuestos y pertenecer a la misma superfamilia según la base de datos SCOP (Murzin et al, JMB 247: 536-540). Los vecinos análogos tampoco muestran similitud de secuencia y pueden estar bien superpuestos, pero su similitud estructural puede ser el resultado de una evolución convergente. En nuestra investigación anterior, definimos la estructura del núcleo homólogo (HCS) como el subconjunto de coordenadas de carbono alfa que pueden superponerse bien a vecinos homólogos. En un ensayo con validación cruzada, mostramos que una prueba para la presencia de HCS puede distinguir bien vecinos homólogos y análogos (Matsuo y Bryant, Proteins 35: 70-790, 1999). En este trabajo anterior, los vecinos homólogos fueron identificados por sus clasificaciones SCOP, que se basan en el examen manual. Sin embargo, nos gustaría automatizar la definición de la HCS para permitir una clasificación completamente automática de los vecinos estructurales de acuerdo con el grado de conservación de la HCS, como un indicador de la distancia evolutiva. Aquí investigamos si esto puede lograrse mediante una especie de procedimiento "bootstrap": 1) Un conjunto inicial de vecinos estructurales homólogos se identifica mediante PSI-BLAST (Altschul et al, NAR 25: 3389-3402) 2) Un HCS inicial es definido de estos vecinos. 3) Otros vecinos estructurales se identifican como homólogos basándose en la presencia del HCS. 4) Se actualiza la definición de HCS, seguida de la iteración (con límites) de los pasos 3 y 4. En el póster presentamos los resultados hasta la fecha de esta investigación.


Detección de exones por comparación entre dos secuencias genómicas de vertebrados distantes

H. Roest Crollius (1), O. Jaillon (1), C. Dasilva (1), L. Bouneau (1), C. Fizames (1), A. Billault (2), A. Bernot (1), F. Quetier (1), J. Weissenbach (1), W. Saurin (1)
(1) Genoscopio, 2 rue Gaston Cremieux, CP 5706, 91057 Evry Cedex, Francia
(2) CEPH, 27 rue Juliette Dodu, 75010 París, Francia

La conservación de la información de codificación entre dos genomas está impulsada por su importancia como elemento funcional, y generalmente disminuye a medida que avanza la evolución y las especies se separan. Sin embargo, las regiones de menor o nula relevancia funcional mutan y cambian a un ritmo más rápido. Esta característica se ha aprovechado con éxito para detectar regiones codificantes en la secuencia genómica. Para lograr esto, es necesario comparar la secuencia de dos genomas que han divergido lo suficiente hasta un punto en el que las regiones codificantes y no codificantes están claramente separadas. Esto debería revelar elementos funcionalmente importantes, como exones y elementos reguladores, y proporcionar una gran cantidad de información secundaria sobre la evolución, la estructura y la organización de los genes dentro de un genoma.

Hemos probado este enfoque en un conjunto de genes homólogos seleccionados en el genoma humano y tetraodondiforme de Fugu rubripes respectivamente. A partir de los 17 genes que se han secuenciado y anotado en ambos genomas (204 exones humanos) y depositados en bases de datos públicas, hemos conservado los que muestran más del 40% de similitud de proteínas en toda su longitud (13 genes). Primero hemos realizado comparaciones por pares entre exones homólogos, luego entre genes homólogos, luego entre regiones genómicas homólogas que contienen los genes y finalmente entre ambas muestras del genoma. Este aumento gradual en la secuencia no codificante y la complejidad en el conjunto utilizado para la comparación nos permitió calibrar los parámetros de los algoritmos para alcanzar la máxima sensibilidad mientras se controlaba la aparición de una pérdida potencial de especificidad. Se utilizaron diversos métodos de comparación, todos basados ​​en el algoritmo BLAST. La máxima sensibilidad y especificidad se obtienen con alineaciones TBLASTX utilizando una matriz de puntuación que no permite sustituciones de aminoácidos. Por lo tanto, el valor de T que especifica la puntuación umbral para la construcción del diccionario de palabras de búsqueda iniciales se puede ajustar a la puntuación de una coincidencia exacta de longitud W (la longitud de la palabra de búsqueda inicial). Este esquema de puntuación elimina la construcción y el uso de una lista de palabras de búsqueda vecinas. Por tanto, la velocidad de las búsquedas TBLASTX aumenta aproximadamente dos órdenes de magnitud en comparación con las búsquedas realizadas con matrices de sustitución como BLOSUM. Este aspecto es fundamental cuando se trata de grandes fracciones de genomas de vertebrados.

Este trabajo es la base de un programa de secuenciación iniciado en Genoscope, que tiene como objetivo secuenciar una gran fracción del genoma de otro tetraodondiforme, Tetraodon nigroviridis (400 Mb) para ayudar a identificar regiones codificantes en el genoma humano y de otros vertebrados. Tetraodon tiene un genoma compacto aproximadamente 8 veces más pequeño que el humano o el ratón, mientras que contiene un complemento genético similar. Por lo tanto, está particularmente adaptado para servir como base para la genómica comparativa a nivel de secuencia, y está situado a una distancia evolutiva adecuada para asegurar que los tramos de aminoácidos conservados tengan alguna importancia funcional. Hemos secuenciado el 20% de este genoma de una manera mayoritariamente no redundante y aleatoria (http://genoscope.cns.fr). Esta muestra, la más grande disponible para un vertebrado después de un humano, se ha comparado con un conjunto de varios cientos de genes humanos. Los resultados preliminares sugieren que el 20% de los exones humanos, distribuidos en el 50% de los genes, pueden ser detectables con una especificidad superior al 95%.


Facilitación de análisis de genómica comparativa mediante la integración de YPD y WormPD

Michael E. Cusick, Maria C. Costanzo, Peter D. Hodges, Jennifer D. Hogan, Jodi Lew-Smith, Kevin J. Roberg-Perez y James I. Garrels
Proteome Inc., 100 Cummings Center, Beverly, MA 01915, EE. UU.

Dos bases de datos de proteomas altamente integradas de organismos modelo están ahora disponibles públicamente en la BioKnowledge Library producida por Proteome, Inc. en. La base de datos de proteomas de levadura (YPD) para la levadura Saccharomyces cerevisiae fue la primera base de datos de organismos modelo cuidadosamente seleccionada. Su presentación fácil, información detallada sobre todos los aspectos de la biología de la levadura y la curación en profundidad de la literatura de investigación completa sobre la levadura ha sido de gran ayuda para los investigadores en muchos campos. Ahora YPD se une a WormPD que cubre la biología de C. elegans con presentaciones y detalles paralelos. YPD y WormPD se presentan como informes de proteínas lúcidos que contienen líneas de título, propiedades de proteínas experimentales y predichas, anotaciones detalladas de texto libre y referencias. Los vínculos entre las dos especies están disponibles en cualquier Informe de proteínas y se basan en similitudes de Blast, membresías de familias de proteínas y anotaciones con referencias cruzadas. YPD y WormPD están disponibles gratuitamente para laboratorios académicos y para entidades corporativas mediante suscripción con licencia.

Con dos bases de datos cuidadosamente seleccionadas ahora disponibles, por primera vez los investigadores de bioinformática pueden hacer comparaciones detalladas entre especies de vías, complejos, familias de proteínas y regulación.Como ejemplo de lo que se puede hacer, se llevó a cabo un análisis comparativo de los complejos de proteínas utilizando las descripciones detalladas de los complejos de proteínas dentro de YPD. Los complejos para los que todos los miembros se conservan en C. elegans (más de 50 complejos) definen una maquinaria celular común. Con otros complejos de levadura, ningún miembro tiene una coincidencia significativa con una proteína de C. elegans, lo que indica que el complejo probablemente sea específico de hongos. Se mostrarán análisis comparativos similares para la localización subcelular. La amplia información disponible para las proteínas de levadura en YPD se ha utilizado para predecir las propiedades y funciones de los ortólogos no caracterizados en C. elegans y, de ahí en adelante, a otras especies superiores, incluida la humana.

Un cuello de botella importante en la interpretación de la inmensa cantidad de datos genómicos funcionales que ahora están disponibles es comprender los miles de pistas de investigación que se generan. La anotación de alta calidad presente en YPD y WormPD proporciona un paso rápido a través de este cuello de botella. Dos características son especialmente útiles cuando YPD, y pronto WormPD, se utilizan como plataforma para la presentación de resultados de genómica funcional. 1) La línea de título de cada informe de proteínas proporciona una descripción concisa de una línea de la proteína. Las líneas de título se actualizan continuamente y, como tales, reflejan la mejor sinopsis de lo que se conoce actualmente sobre la proteína. 2) Cada proteína se clasifica por función bioquímica y rol celular, en virtud de un vocabulario controlado construido para esas dos propiedades.


Modelo para el estado desplegado de las proteínas

Howard J. Feldman, Mark A. Kotowycz, Thanh-Van T. Le y Christopher W. V. Hogue
Instituto de Investigación Samuel Lunenfeld, Hospital Mount Sinai / Departamento de Bioquímica, Universidad de Toronto, Toronto, Ontario, Canadá

Se ha desarrollado un método para generar confórmeros de proteínas de composición arbitraria de aminoácidos en tiempo O (NlogN), tomando solo la secuencia primaria como entrada. Estos confórmeros poseen cadenas principales física y quiralmente válidas con todas las longitudes de enlace, ángulos y diedros dentro de las tolerancias permitidas. El método se basa en una función de distribución de probabilidad 2-D para la colocación de Ca denominada "gráfica de trayectoria", descrita anteriormente.

Se ha demostrado que el algoritmo es útil tanto para reconstruir la columna vertebral de proteínas reales como para generar proteínas aleatorias. Estos modos se pueden mezclar, lo que hace posible muestrear estructuras de dominio desconocidas y regiones enlazadoras mientras se reconstruyen dominios con estructura conocida simultáneamente.

Para determinar cuán precisas pueden ser las estructuras aleatorias, se generaron 10,000 confórmeros aleatorios de proteínas que representan una amplia variedad de pliegues. Reportamos la estructura con el RMSD más pequeño a la estructura cristalina en cada caso.

El generador de conformadores aleatorios también se puede utilizar para generar puntos de partida para simulaciones de dinámica molecular o conjuntos de una proteína para compararlos con estudios experimentales de estructuras desordenadas. También se pueden agregar restricciones de distancia experimentales, como NOE o enlaces de hidrógeno, para sesgar la caminata aleatoria, si se conoce.

Además, hemos desarrollado un sistema que nos permite calcular las trayectorias dinámicas de las proteínas, sobre la base de un modelo físico del movimiento de la columna vertebral de las proteínas. Mostramos películas de desarrollo de proteínas y las energías calculadas para estas en cada paso, utilizando un potencial basado en un átomo. Por analogía con un gas 2-D, se ha establecido una relación entre esta puntuación de energía y el movimiento de un residuo dado.


Predecir las restricciones de distancia de las proteínas con un rendimiento mejorado utilizando motivos de secuencia y redes neuronales

J. Gorodkin, O. Lund, C. A. Andersen y S. Brunak
Departamento de Ecología y Genética, Instituto de Ciencias Biológicas, Universidad de Aarhus, Dinamarca

Para cada separación de secuencia (en residuos) de cualquier par de aminoácidos en cadenas polipeptídicas donde se conoce la estructura tridimensional, investigamos la predictibilidad de la distancia física (en Angstroms). Se encuentra que las distribuciones de distancia para separaciones de secuencia pequeña son bimodales, mientras que para separaciones de secuencia grandes convergen hacia una forma universal, aunque el valor medio de las distancias aumenta a medida que aumenta la separación de secuencia. De manera similar al cambio en las distribuciones de distancia, los motivos de secuencia también cambian para aumentar la separación de secuencias. Se construye un motivo de secuencia para los residuos para los que la distancia entre los átomos de C-alfa es menor que el valor medio en esa separación. Cuando la separación es pequeña, el motivo consiste en un solo pico ubicado entre los dos residuos. A medida que aumenta la separación de la secuencia, aparecen picos adicionales alrededor de los dos residuos separados, y cuando la separación es grande, el pico central se difumina. Este análisis muestra por qué un esquema de predicción de redes neuronales funciona mejor para esta tarea que los enfoques basados ​​en datos estadísticos simples, como las funciones de densidad de probabilidad de pares. Utilizando el conocimiento de la investigación para el diseño de una nueva arquitectura de red neuronal se obtiene una gran mejora en el rendimiento para la separación de secuencias de 10 a 30 residuos. El cambio de los motivos de secuencia y la forma de las distribuciones de distancia explican cualitativamente el rendimiento de la red con una separación de secuencias cada vez mayor. Un servidor WWW está disponible en http://www.cbs.dtu.dk/services/ distanceP /.


Caracterización computacional de frases de control de procesamiento en el extremo 3 '

Joel H. Graber, Charles R. Cantor, Scott C. Mohr y Temple F. Smith
Centro de Biotecnología Avanzada de la Universidad de Boston, Boston, MA, EE. UU.

Las secuencias de control de ácidos nucleicos (frases) son difíciles de reconocer porque son relativamente pequeñas y muestran una amplia variación en fidelidad y complejidad. Hemos demostrado que los controles de procesamiento del extremo 3 'constan de múltiples elementos, donde los elementos individuales pueden variar ampliamente de una secuencia de consenso y, sin embargo, siguen siendo funcionales como parte del todo. Tal variabilidad, común entre las frases de control, hace que el análisis bioinformático sea un enfoque natural para la caracterización. Las grandes bases de datos de secuencias actualmente disponibles proporcionan datos suficientes para tales investigaciones, dada una hipótesis biológica adecuada para la selección de secuencias candidatas.

Casi todos los ARNm de eucariotas maduros terminan en colas de poliadenilato (poli (A)). El sitio de procesamiento del extremo 3 '(escisión y poliadenilación) se determina mediante frases de control dentro de la secuencia de ARN inmadura. Los estudios experimentales han demostrado una amplia gama de frases funcionales de procesamiento del extremo 3 'dentro de muchos organismos y solo una conservación débil cuando se examinan en múltiples especies. Hemos buscado frases de procesamiento en el extremo 3 'dentro de las etiquetas de secuencia expresada (EST), secuencias de ADNc que se generan típicamente a partir de cebadores de oligotimidilato que se hibridan ostensiblemente con la cola de ARNm poli (A). El extremo 3 'de la secuencia EST identifica el sitio de procesamiento del extremo 3'.

Hemos recogido grandes (> 1000) grupos de secuencias EST de levadura, arroz, arabidopsis, mosca de la fruta, ratón y humano que se considera muy probable que se hayan originado en el extremo 3 'de la EST. Hemos identificado varios motivos con abundancia estadísticamente significativa, lo que indica una función biológica probable. La comparación entre especies revela que el uso y la conservación del elemento canónico AAUAAA varía ampliamente entre las seis especies y es especialmente débil en plantas y levaduras. En todas las especies examinadas, el control completo del procesamiento del extremo 3 'parece consistir en un agregado complejo de múltiples elementos. Presentamos un modelo ampliado de frases de control de procesamiento del extremo 3 'para explicar los diversos fenómenos observados tanto en nuestros resultados como en investigaciones anteriores.


Análisis filogenético a escala de genoma completo utilizando distribuciones de tasas evolutivas entre proteínas

Nick V. Grishin, Yuri I. Wolf, Eugene V. Koonin
Centro Nacional de Información Biotecnológica, Biblioteca Nacional de Medicina, Institutos Nacionales de Salud, Bethesda, MD 20894, EE. UU.

La acumulación de secuencias del genoma completo de diversos organismos crea nuevas posibilidades para inferencias evolutivas a partir de comparaciones de genoma completo. Aquí analizamos las distribuciones de tasas de sustitución entre proteínas codificadas en 19 genomas completos (la distribución de tasas entre proteínas). Para estimar estas tasas, fue necesario emplear otra distribución fundamental, la de las tasas de sustitución entre sitios en proteínas individuales (la distribución intraproteica). Utilizando dos enfoques independientes, mostramos que la variabilidad de la tasa de sustitución intraproteica parece ser significativamente mayor de lo generalmente aceptado. Demostramos que las distribuciones de tasas entre proteínas inferidas de las comparaciones de genoma a genoma son similares entre sí y pueden aproximarse mediante una distribución única con un hombro exponencial largo. Esto sugiere que la hipótesis del reloj molecular puede ser válida a escala del genoma. Usamos el parámetro de escala de esta distribución para construir un árbol filogenético de genoma completo enraizado cuya topología es en gran medida compatible con la de los árboles basados ​​en rRNA globales.


FramePlus: un algoritmo sensible para alinear el ADN con las secuencias de proteínas

Eran Halperin, Simchon Faigler y Raveh Gill-More
Compugen Ltd., 72 Pinchas Rosen Street, Tel Aviv 69512, Israel

Los algoritmos de alineación de secuencias biológicas se han vuelto extremadamente populares en los últimos años y ahora están siendo utilizados por miles de investigadores como posiblemente la herramienta de anotación más importante en bioinformática. Sin embargo, el algoritmo de búsqueda utilizado puede tener un efecto crucial en el éxito de un proyecto de anotación: diferentes algoritmos encontrarán (y perderán) diferentes resultados en diferentes circunstancias.

Los algoritmos de marco son un caso especial de algoritmos de alineación de secuencias, cuando se desea comparar una secuencia de ácido nucleico con una secuencia de aminoácidos. Son particularmente útiles para anotar etiquetas de secuencia expresada (EST). El primer algoritmo de fotogramas desarrollado fue la búsqueda traducida (también conocida como traducción de seis fotogramas) y se basa directamente en el algoritmo de Smith-Waterman. Los paquetes de búsqueda de bases de datos heurísticas (como BLAST y FASTA) han incorporado algoritmos de tramas desde el principio. Sin embargo, los primeros algoritmos de tramas no eran muy tolerantes a los errores, especialmente cuando los errores provocan cambios de tramas. FrameSearch presentó una solución a esto.

En este trabajo presentamos un nuevo algoritmo de marco llamado FramePlus, que es una extensión de FrameSearch, donde modelamos los errores de secuenciación por separado de los indeles de aminoácidos causados ​​por la evolución. Dado que estos son dos fenómenos diferentes, es razonable esperar que este mejor modelado resulte en una mayor sensibilidad. Para probar esta conjetura, hemos utilizado y personalizado ideas de Brenner et al. para la evaluación comparativa de algoritmos basada en la base de datos SCOP de proteínas clasificadas estructuralmente, e implementó un marco general para los algoritmos de marcos de evaluación comparativa. Usamos este marco para comparar todos los algoritmos mencionados anteriormente.

Nuestros resultados sugieren que FramePlus es significativamente más sensible que otros algoritmos y, en casos de baja identidad de secuencia, puede encontrar hasta un 13% más de aciertos verdaderos que cualquiera de los otros algoritmos probados. Aunque FramePlus es más lento que los algoritmos heurísticos como BlastX cuando se implementa en una computadora estándar, puede acelerarse hasta en 3 órdenes de magnitud en hardware de propósito especial. El código fuente de FramePlus está disponible gratuitamente en ftp.compugen.co.il/pub.


Pruebas comparativas de métodos para detectar la violación de la tasa neutra en genes codificadores de proteínas

A. P. Jason de Koning y Caro-Beth Stewart
Departamento de Ciencias Biológicas, Universidad de Albany, SUNY, Albany, NY 12222, EE. UU.

Un desafío importante, pero abrumador, en la genómica comparada es identificar las diferencias genéticas entre especies que se fijaron mediante la selección darwiniana positiva para una nueva función, en lugar de una deriva genética neutra. La teoría neutral predice que los genes que no están bajo presión selectiva evolucionarán de tal manera que la tasa de sustitución de nucleótidos no sinónima (dN) será aproximadamente igual a la tasa de sustitución sinónima (dS). La elevación significativa de dN en relación con la tasa de sustitución neutra del locus, medida por dS del gen, se toma como una fuerte evidencia de selección positiva para cambios en la secuencia de la proteína.

Aunque se han propuesto numerosos métodos para estimar dN y dS, se sabe poco acerca de sus fortalezas y debilidades relativas cuando se aplican a datos de secuencias de ADN reales. Una razón de esta escasez de estudios comparativos es que la mayoría de los métodos dN / dS disponibles se implementan en diferentes plataformas informáticas, utilizan diferentes archivos de entrada y muestran los resultados de manera que dificultan las comparaciones directas.

Para facilitar los estudios comparativos de dN / dS, estamos desarrollando un nuevo programa informático, FENS (Estimaciones facilitadas de sustituciones de nucleótidos), que calcula dN y dS entre genes codificadores de proteínas homólogos mediante una variedad de métodos publicados y recientemente desarrollados. Los métodos de análisis actualmente implementados incluyen los de Li et al. (1985), Nei y Gojobori (1986) [como se describe en la publicación original, no como se programó en MEGA], Pamilo & Bianchi (1993) y Li (1993) [como se implementó en el programa de computadora, Li93, que corrige una error en las publicaciones originales], e Ina (1995) [por ambos métodos 1 y 2]. Hay opciones adicionales disponibles, incluida una corrección gamma para la variación de la tasa entre sitios y un ajuste a los métodos Nei-Gojobori e Ina para los casos en los que los codones de terminación podrían alcanzarse fácilmente mediante mutaciones puntuales. FENS también calcula pruebas t para diferencias significativas entre dN y dS, según lo propuesto por Hughes y Nei (1988). Los resultados de todos los métodos se muestran en matrices compactas, con salida opcional de todos los cálculos.

Aquí presentaremos análisis de grandes conjuntos de datos de pseudogenes por todos los métodos implementados en FENS, comparando los comportamientos de los métodos con respecto a la expectativa neutral (dN = dS, en promedio). Combinados con estudios de simulación, estos estudios comparativos que utilizan secuencias de ADN reales deberían ayudarnos a comprender cuál de los diversos métodos es el más apropiado para la detección de la evolución molecular adaptativa.

FENS se lanzará como una edición beta y estará disponible en la sesión de pósteres. El programa se ejecuta actualmente en computadoras Power Mac, aunque se admitirán otras plataformas en el futuro. Los archivos de entrada utilizan un formato Nexus estándar, por lo que los datos se pueden transferir fácilmente a otros programas de análisis evolutivo de uso común.

Damos las gracias a M. Nachman por las secuencias no publicadas y a la NSF por su apoyo.


Uso de modelos de Markov ocultos del estado de la estructura secundaria para la identificación de genes y el reconocimiento de pliegues de proteínas

Peter J. Lammers, John B. Spalding y Steven P. Duran
Universidad Estatal de Nuevo México, Las Cruces, NM, EE. UU.

Hemos probado la hipótesis simple de que las estructuras secundarias de proteínas predichas a partir de secuencias de aminoácidos pueden usarse como base para identificar homólogos estructurales en el Protein Data Bank (PDB). Al concentrarse en grupos de proteínas estrechamente relacionadas, se mejora la precisión de la predicción de la estructura secundaria y los resultados se pueden utilizar para construir un modelo de Markov oculto (HMM) de perfil para cada grupo basado únicamente en las designaciones de hélice, hoja o bobina. El HMM resultante proporciona una herramienta sensible para buscar el recurso PDB. La validez de este enfoque se probó con 37 grupos de secuencias de proteínas relacionadas en diversos grados con proteínas homólogas en el PDB. Se utilizó una única secuencia de consulta para crear cada grupo de secuencias relacionadas mediante un proceso totalmente automatizado. Se predijeron las estructuras secundarias para cada conjunto de proteínas de entrenamiento utilizando dos métodos: Predator y DSC. Los HMM se construyeron para cada grupo utilizando HMMER 2.1.1 y se puntuaron contra la base de datos STRIDE de estructuras secundarias derivadas de PDB. El método Predator demostró ser superior, ya que la proteína con la puntuación más alta fue un verdadero positivo para 31/37 modelos (84%). Los modelos derivados de las estructuras secundarias predichas por el método DSC fueron correctos en 23/37 casos (62%). La probabilidad de éxito no se correlacionó con el grado de identidad de secuencia entre la proteína de consulta inicial y su homólogo de PDB más cercano, o la longitud de la proteína. Sin embargo, el tamaño del conjunto de entrenamiento utilizado para construir el HMM sí tuvo un efecto. Cuatro de las seis fallas de los modelos derivados de Predator provienen de series de entrenamiento con 13 proteínas o menos.


Enraizamiento de la superfamilia de kinesinas: un análisis filogenómico completo

Lawrence, C.J. (1), Malmberg, R.L. (1), Muszynski, M.G. (2) y Dawe, R.K. (1 y 3)
(1) Universidad de Georgia, Departamento de Botánica, Athens, GA, EE. UU.
(2) Pioneer Hi-Bred Intl., Inc. Atenas, GA, EE. UU.
(3) Universidad de Georgia, Departamento de Genética, Athens, GA, EE. UU.

Las kinesinas constituyen una superfamilia diversa, de origen antiguo, de proteínas motoras basadas en microtúbulos. Mediante la construcción de árboles filogenéticos y la función de mapeo en clados monofiléticos, esperamos reconstruir la evolución de funciones únicas dentro de la superfamilia de kinesinas. Incluimos dos secuencias bacterianas para MukB, el ancestro procariótico de kinesinUs, y cuatro secuencias de kinesin de Giardia lamblia, un protista de amitocondriato divergente en la antigüedad, para enraizar el árbol de pan-kinesin. Además de clasificar las quinesinas descritas anteriormente de protistas, hongos y animales, clasificamos 13 quinesinas únicas que secuenciamos de la monocotiledónea Zea mays, así como muchas secuencias de dicotiledóneas recientemente reportadas como representantes del reino vegetal. Los resultados preliminares de nuestro análisis filogenético indican que (1) las plantas tienen quinesinas dirigidas tanto en el extremo positivo como en el extremo negativo, (2) las quinesinas dirigidas en el extremo negativo forman un clado monofilético, lo que sugiere que un solo evento evolutivo explica el origen de la direccionalidad motora inversa , y (3) las plantas pueden tener una copia nuclear de MukB, presumiblemente necesaria para la replicación del cloroplasto o la mitocondria.

Lee, D. A., Pearl, F. M. G. y Orengo, C. A.
Grupo de Modelado y Estructura Biomolecular, University College London, Gower Street, Londres WC1E 6BT, Reino Unido.

CATH (1) es un sistema de clasificación de las estructuras de proteínas que se han depositado en el AP (2, 3). Es una clasificación jerárquica por dominio, cuyos cuatro niveles principales son: Arquitectura de clases, Topología y Homología. PSI-BLAST (4) es una herramienta eficaz y poderosa para la detección de similitudes de secuencia significativas entre proteínas. En este estudio, CATH y PSI-BLAST se han utilizado juntos para ayudar a investigar la relación entre la secuencia y la estructura de las proteínas. Un aspecto secundario del estudio es la validación de las clasificaciones CATH.

El estudio se divide en dos secciones principales. La sección uno se refiere al cribado, utilizando PSI-BLAST, de secuencias con estructura desconocida frente al conjunto de datos de la secuencia CATH. Los resultados se analizan a la luz de la estructura asociada con cada secuencia CATH.

En la sección dos, se examinan las secuencias de un representante de cada familia CATH, utilizando PSI-BLAST, frente a la última versión del conjunto de datos de secuencias de proteínas no redundantes GENBANK (5). Se describe un procedimiento para el reclutamiento de supuestos homólogos de familias CATH.

Un servidor CATH-PSI-BLAST está en construcción en
http://www.biochem.ucl.ac.uk/

1) Orengo, C. A. et al. 1997. Estructura. 5: 1093-1108.
2) Abola, E. E. et al. 1987.En: Bases de datos cristalográficas: contenido de información, sistemas de software, aplicaciones científicas, F. H. Allen, G. Bergerhoff y R. Sievers, eds. Comisión de Datos de la Unión Internacional de Cristalografía, Bonn / Cambridge / Chester. pp 107-132.
3) Abola, E. E. et al. 1997. En: Methods in Enzymology, C. W. Carter Jr. y R. M. Sweets, eds. Prensa académica, San Diego. Vol. 277, págs. 556-571.
4) Altschul, S. F. et al. 1997. Investigación de ácidos nucleicos. 25: 3389-3402.
5) Baskin, Y. 1983. Science Digest. 91: 94-95.


Modelo de efectos jerárquicos (HEM) para el descubrimiento de genes contra el cáncer utilizando la cadena de Markov Monte Carlo y el desarrollo basado en la web de herramientas de análisis bioinformático y estadístico

Jae K. Lee
Laboratorio de Farmacología Molecular, Instituto Nacional del Cáncer, Instituto Nacional de Salud, Bethesda, MD, EE. UU.

Desde finales de la última década, el NCI ha estado experimentando y recopilando un amplio conjunto de datos de medicamentos contra el cáncer basados ​​en un conjunto de 60 líneas de varios tipos de cáncer. Paralelamente a esta enorme base de datos de fármacos, ahora se encuentran disponibles varias grandes bases de datos de microarrays y datos de expresión de ADNc de oligonucleótidos y algunas dianas moleculares en las 60 líneas de células cancerosas. Para investigar de manera rigurosa y eficaz estos datos de varios GB, necesitamos desarrollar métodos innovadores de investigación bioinformática y estadística. Propongo un enfoque de modelado estadístico novedoso para estimar rigurosamente los efectos, especialmente los efectos de interacción, de varios factores biológicos simultáneamente e identificar fármacos y genes interesantes, potencialmente importantes desde el punto de vista clínico. Este enfoque se basa en la construcción de un modelo de efectos jerárquicos (HEM) y la estimación de los parámetros del modelo utilizando Markov Chain Monte Carlo, una técnica estadística avanzada con uso intensivo de computadoras. La vitalidad de tal desarrollo estadístico / bioinformático en grandes cantidades de datos biológicos y clínicos depende en gran medida tanto de la interacción y colaboración intensivas entre investigadores estadísticos y biológicos como de la flexibilidad de nuestras herramientas de investigación para interpretar los datos desde varias perspectivas. Utilizando al máximo paquetes estadísticos modernos, como S-PLUS, hemos desarrollado un sistema basado en la web para proporcionar nuestras herramientas de análisis estadístico directamente a los investigadores biológicos y clínicos.


¿Cuánta precisión puede aportar el modelo RBS al reconocimiento de inicio de traducción?

Ping Li y Mark Borodovsky
Escuela de Biología, Instituto de Tecnología de Georgia, Atlanta, GA 30332-0230, EE. UU.

La predicción precisa de los sitios de inicio de la traducción sigue siendo un problema abierto. El programa GeneMark, un software de predicción de genes, utiliza modelos de cadena de Markov. La predicción del inicio de la traducción es difícil utilizando únicamente modelos de regiones codificantes y no codificantes de proteínas. El sitio de unión al ribosoma (RBS) generalmente se encuentra en una región de -19 a -4 aguas arriba del sitio de inicio de la traducción. La última versión de GeneMark utiliza el modelo RBS para ayudar a que la traducción inicie el reconocimiento. Conocer la distribución de las tasas de error de dicha predicción es fundamental para interpretar las predicciones de GeneMark. En este estudio, se generó una gran cantidad de secuencias de modelos artificiales mediante modelos de cadena de Markov y modelos RBS. Se sugirió un nuevo algoritmo, en el que se calcularon dos puntuaciones para distinguir el inicio de la traducción real de las falsas en lugar de una puntuación utilizada en el GeneMark actual. La dependencia de la tasa de error de predicción de los parámetros del modelo, representada por la distancia de Kullback-Liebler, se determinó para proporcionar una guía para la predicción de genes de diferentes genomas procarióticos. Se demostró que el nuevo algoritmo tiene potencialmente una mayor precisión de predicción que el procedimiento de predicción del sitio de inicio que se utiliza actualmente en GeneMark.


La calidad de merC, un módulo del mosaico mer

Cynthia A. Liebert, Alice L. Watson y Anne O. Summers
Departamento de Microbiología, Universidad de Georgia, Athens, GA 30602-2605, EE. UU.

Examinamos una región de alta variabilidad en el operón mosaico de resistencia al mercurio (mer) de aislados bacterianos naturales de la microbiota intestinal de primates. Se secuenció la región entre los genes merP y merA (PA) de nueve loci mer y el gen merC, merF o no estaba presente. Se identificaron dos nuevos genes merC. La diversidad de nucleótidos global, p (por 100 sitios), del gen merC fue mayor (49,63) que los genes adyacentes merP (35,82) y merA (32,58). Sin embargo, las consecuencias de esta variabilidad para la estructura predicha de la proteína MerC son limitadas y, con dos excepciones, los elementos funcionales putativos (ligandos de unión a metales y dominios transmembrana) están fuertemente conservados. Los posibles agentes de la diversidad en la región PA incluyen recombinación homóloga mediada por sitios Chi en y cerca del mer. También hay evidencia de secuencias vestigiales que sugieren las actividades de recombinasas específicas de sitio en y cerca de algunos de los mer operones.


Agrupación de receptores acoplados a proteína G por descubrimiento de patrones jerárquicos

Agatha H. Liu, Gustavo Stolovitzky, Ajay Royyuru, Andrea Califano
Centro de Biología Computacional, IBM TJ Watson Research Center, EE. UU.

La superfamilia de receptores acoplados a proteínas G es probablemente la familia de genes más grande y más funcionalmente diferenciada de nuestro genoma. Sus miembros pueden exhibir un sorprendente nivel de similitud de secuencia, pero aún así tienen una función radicalmente diferente. Un ejemplo de esto se puede encontrar en paratiroides y calcitoninas. Como consecuencia, desde una perspectiva de Genómica Comparada, identificar los elementos de secuencia que confieren rasgos funcionales específicos a los miembros de las familias de GPCR sigue siendo una cuestión abierta. Esto es aún más cierto en ausencia de una línea de base verdadera para los modelos estructurales de estas proteínas transmembrana, que exponen una gran área hidrófoba y, por lo tanto, son extremadamente difíciles de cristalizar.

Este artículo presenta un enfoque de arriba hacia abajo no supervisado que permite a los investigadores identificar de manera eficiente las regiones de secuencia que confieren progresivamente más especificidad a la función de cada una de las proteínas GPCR en SWISS-PROT Release 36. Este método se basa en la identificación recursiva de conservados estadísticamente significativos regiones a través del descubrimiento determinista de patrones dispersos a través del algoritmo Splash.

Se estudian dos enfoques. En el primero, en cada paso, el patrón (o patrones) que se conservan más en un conjunto de proteínas A0 se descubren y se utilizan para construir una representación HMM local. Este último se utiliza para dividir el conjunto en dos subconjuntos: un conjunto A01 que puntúa por encima de la significación estadística con respecto al HMM, y un conjunto A00 que no lo hace. Después de eliminar la región HMM de las proteínas en el conjunto A01, el procedimiento se repite tanto para A01 como para A00 (produciendo los conjuntos A011, A010, A001 y A000) hasta que se obtiene un árbol de clasificación completo y ya no se pueden identificar patrones estadísticamente significativos. .

En el segundo enfoque, el procedimiento se repite pero los conjuntos no se dividen inmediatamente. Es decir, la región HMM está enmascarada en todas las secuencias en A0 que también están en A01 y luego el descubrimiento del patrón se repite en todo el conjunto A0, produciendo el conjunto A02, A03, etc. Cuando ya no se pueden descubrir patrones estadísticamente significativos en A0, el procedimiento se repite para cada uno de los subconjuntos A01, A02, etc. hasta que ya no se pueden descubrir patrones estadísticamente significativos. Finalmente, al determinar la cantidad de superposición en las secuencias que puntúan por encima del umbral de significación para cada par de HMM, se construye un gráfico completo de las relaciones de los grupos de proteínas. Cada método es interesante por sus propios méritos y produce resultados biológicamente significativos.

Debido a la eficiencia del algoritmo de descubrimiento de patrones, todo el procedimiento se puede completar en minutos en una estación de trabajo para más de 1000 GPCR. Esto hace que esta metodología sea útil para agrupar grandes bases de datos de proteínas, como el SWISS-PROT completo.

Se reporta un análisis comparativo de los resultados con respecto a la técnica anterior. También se discutirán varios grupos de proteínas funcionales interesantes, no reportados previamente. Algunos HMM generados por este enfoque se han utilizado para filtrar la base de datos dbEST produciendo varios candidatos GPCR nuevos en varios niveles de granularidad.


Alineación de secuencia múltiple local mediante eliminación de callejón sin salida

Alexander V. Lukashin y Joseph J. Rosa
Biogen, Inc., 14 Cambridge Center, Cambridge, MA 02142, EE. UU.

El alineamiento de secuencia múltiple local es una herramienta básica para extraer regiones funcionalmente importantes compartidas por una familia de secuencias de proteínas. Presentamos un algoritmo para resolver rigurosamente el problema de alineación múltiple local. El algoritmo se basa en el procedimiento de eliminación de callejón sin salida que permite evitar una búsqueda exhaustiva. Se derivan ciertos criterios de rechazo para eliminar aquellos segmentos de secuencia y pares de segmentos que pueden demostrarse matemáticamente como inconsistentes (sin salida) con la alineación óptima globalmente. La aplicación iterativa de los criterios de eliminación da como resultado una rápida reducción de las posibilidades combinatorias sin considerarlas explícitamente. En la gran mayoría de los casos, el procedimiento converge en una solución única y óptima a nivel mundial. A diferencia de la búsqueda exhaustiva, cuya complejidad computacional es combinatoria, el algoritmo es computacionalmente factible porque el número de operaciones necesarias para eliminar los segmentos sin salida y los pares de segmentos crece cuadrática y cúbicamente, respectivamente, con el número total de elementos de secuencia. El método se ilustra en un conjunto de familias de proteínas para las que se reconocen bien las alineaciones óptimas a nivel mundial.


Desplazamiento de genes xenólogos en arqueas y bacterias

Kira S. Makarova, L. Aravind y E. V. Koonin
Centro Nacional de Información Biotecnológica
Biblioteca Nacional de Medicina
Institutos Nacionales de Salud, Bldg. 38A
Bethesda, MD 20894, EE. UU.

Quizás el resultado más inesperado del análisis comparativo de genomas completamente secuenciados de bacterias y arqueas es la aparente alta tasa de transferencia horizontal de genes, que parece ocurrir incluso entre microbios filogenéticamente distantes. Uno de los posibles resultados de la transferencia horizontal de genes es el reemplazo de un gen por su ortólogo de una especie distante que se supone que procede a través de una etapa intermedia cuando ambos genes están presentes en el genoma. A este fenómeno evolutivo lo denominamos desplazamiento xenólogo de genes (XGD). Utilizando los conjuntos completos de proteínas codificadas en 5 genomas Archaeal y 15 bacterianos, intentamos evaluar la contribución de los eventos XGD a la evolución de estos procariotas. Para detectar casos relativamente recientes de XGD, se compararon grupos de genomas estrechamente relacionados, como E. coli-Haemophilus influenzae-Rickettsia prowazekii, Treponema pallidum-Borrelia burgdorferi, Chlamydia pneumoniae-C.trachomatis y Mycoplasma genitalium-M.pneumoniae . Descubrimos que ciertos organismos, como R.prowazekii entre las Proteobacterias y dos espiroquetas, B.burgdorferi y T.pallidum, son particularmente propensos a XGD. Para detectar posibles eventos antiguos de XGD, buscamos genes "arqueales" en bacterias y, a la inversa, genes "bacterianos" en arqueas. Varios casos de XGD en diferentes grupos de Archaea y Bacteria fueron respaldados de manera convincente por análisis filogenéticos. En general, los resultados sugieren que la cantidad de XGD es aproximadamente proporcional a la distancia evolutiva entre los genomas comparados. Las fuentes de adquisición de genes varían en cada caso, pero existe una clara conexión con el estilo de vida del organismo. Por ejemplo, las espiroquetas adquieren principalmente genes eucariotas o genes de otras bacterias patógenas, mientras que en las bacterias hipertermófilas existe una fuerte tendencia hacia la adquisición de genes de arqueas.


LÚPULO: Optimizador híbrido de la estructura de las proteínas

Alberto Maria Segre y Sean Forman University of Iowa, Iowa City, Iowa, EE. UU.

Componer el problema del plegamiento de proteínas como un modelo informático es muy difícil debido a la cantidad de conformaciones potenciales. Muchas técnicas utilizan un modelo de proteína simplificado y permiten que el modelo se mueva libremente. Hemos desarrollado un método de predicción de estructuras utilizando una representación de proteínas completa. En lugar de permitir que el modelo se mueva libremente, la representación completa se pliega de una manera mayoritariamente discreta. Los ángulos y longitudes de enlace son fijos y un número discreto de pares de ángulos phi / psi se seleccionan fuera de línea utilizando el diagrama de Ramachandran de cada aminoácido y un algoritmo de agrupamiento.

Los pares de ángulos phi / psi elegidos forman un árbol de búsqueda de conformaciones potenciales. El algoritmo de búsqueda pliega la proteína de izquierda a derecha intentando encontrar un valor mínimo para nuestra función de puntuación. Se puntúa un pliegue parcial utilizando el área de superficie accesible de cada aminoácido (calculada de forma incremental), el número de enlaces de hidrógeno formados en el pliegue parcial y una contribución estimada de la porción desplegada de la proteína. Si el pliegue parcial tiene una puntuación suficientemente buena, el algoritmo avanza y establece los valores del ángulo phi / psi para el siguiente aminoácido. Los pliegues parciales que dan lugar a choques estéricos o puntuaciones desfavorables se eliminan, y la búsqueda retrocede al aminoácido anterior o establece una nueva combinación de ángulo phi / psi en el aminoácido actual.

Las técnicas de partición en paralelo rara vez proporcionan un factor de aceleración elevado para la solución de árboles de búsqueda. Implementamos HOPS de manera paralela, pero usamos una nueva técnica llamada regaño. El tiempo de solución en los árboles de búsqueda a menudo varía con el orden en que se buscan las variables. El regaño se aprovecha de esta variación buscando en el árbol en una variedad de órdenes.


DBAli: una colección de alineaciones y herramientas para la comparación de estructuras y secuencias de proteínas

Marc A. Mart-Renom y Andrej Sali
Laboratorios de Biofísica Molecular
Centro de la familia Pels de bioquímica y biología estructural
La Universidad Rockefeller
1230 York Ave, Nueva York, NY 10021, EE. UU.

El análisis de muchas comparaciones de estructuras proteicas conocidas es esencial para mejorar el alineamiento de secuencias proteicas con estructuras relacionadas. El objetivo de DBAli es facilitar dicho análisis. DBAli consta de muchas alineaciones y programas Perl para derivar distribuciones y correlaciones entre una serie de propiedades de secuencia y estructura de proteínas. Actualmente, DBAli incluye

2000 alineaciones por pares de referencia de SCOP [1] y

125 alineaciones estructurales múltiples de HOMSTRAD [2]. DBAli también tiene enlaces a otros recursos internos y externos. Por ejemplo, el subprograma Compare3D [3] se utiliza para visualizar alineaciones de secuencias y superposiciones de estructuras. Se describen tres aplicaciones de DBAli. En primer lugar, se han caracterizado los entornos estructurales de inserciones y deleciones. Esta información se utilizará para diseñar una mejor función de penalización de huecos para la alineación secuencia-estructura en el modelado comparativo de estructuras de proteínas. En segundo lugar, se han utilizado múltiples alineamientos estructurales de estructuras similares para construir diversas matrices para sustituciones dipéptido-dipéptido. Estas nuevas matrices de sustitución serán evaluadas por su desempeño en la alineación secuencia-estructura. En tercer lugar, para conocer las dificultades encontradas por varios programas de alineación de secuencias, estos programas volvieron a alinear las secuencias de las alineaciones de referencia. Las nuevas alineaciones también forman parte de DBAli. Para alineaciones por pares, se utilizaron los programas ALIGN [4], ALIGN2D [4], CLUSTALW [5] y PSI-BLAST [6]. Para múltiples alineaciones, se utilizaron MALIGN [4] y CLUSTALW. Se describen los errores de alineación cometidos por estos programas.
Referencias

[1] Hubbard, T., Murzin, A., Brenner, S. y Chothia, C. Nucleic Acids Res 25, 236-9 (1997).
[2] Mizuguchi, K., Deane, C., Blundell, T. y Overington, J. Protein Sci 7, 24 69 - 71 (1998).
[3] Shindyalov, I. y Bourne, P. http://www.sdsc.edu/pb/ Software.htm.
[4] Sali, A., Selnchez, R., Badretdinov, A., Fiser, A., Melo, F., Overington, J., Feyfant, E. y Mart-Renom, MA http: // guitar. rockefeller.edu/modeller/ (1999).
[5] Thompson, J., Higgins, D. y Gibson, T. Nucleic Acids Res 22, 4673-80 (1994).
[6] Altschul, S., Madden, T., Schaffer, A., Zhang, J., Zhang, Z., Miller, W. y Lipman, D. Nucleic Acids Res 25, 3389-402 (1997).



Encontrar errores de secuenciación en la secuencia de ADN según las propiedades intrínsecas de las regiones de codificación: ¿qué pasa con los genomas procarióticos completos disponibles?

Claudine M digue (1,2), Alain Viari (3) y Antoine Danchin (1)
(1) Institut Pasteur- REG - 28 rue du Docteur Roux, 75724 Paris Cedex 15, Francia
(2) GENOPOLE- Lab. d'Annotation des G nomes - 7 rue Montespan, 91000 Evry, Francia
(3) Atelier de BioInformatique - Universit Paris VI - 12 rue Cuvier 75005, París, Francia

Durante la determinación de una secuencia de ADN, la introducción de cambios de marco artificiales y / o codones de parada en marco en los CDS putativos puede conducir a una mala traducción y la terminación prematura de las transcripciones inferidas. La detección de tales errores utilizando un método basado en la similitud de proteínas sólo es posible cuando las secuencias relacionadas están disponibles en las bases de datos [1, 2]. Hemos desarrollado un nuevo método para detectar errores de desplazamiento de marco en genomas parciales o completos. El método, llamado ProFED (Detección de errores de desplazamiento procariótico) se basa en las propiedades intrínsecas de las secuencias codificantes y combina los resultados de dos análisis de ADN complementarios: la búsqueda de sitios de iniciación / terminación de la traducción y la predicción de regiones codificantes mediante el método GeneMark [ 3]. El método ProFED está integrado en nuestra plataforma Imagene dedicada a la anotación y análisis de secuencias [4]. En un primer paso, el método se utilizó para seleccionar la secuencia completa del genoma de Bacillus subtilis y se realizaron verificaciones experimentales (es decir, re-secuenciación) en las regiones erróneas predichas. Este procedimiento valida la calidad general de los datos y permite corregir la secuencia en consecuencia. Curiosamente, en varios casos, los codones de terminación en marco o los cambios de marco no fueron errores de secuenciación, pero se confirmó que estaban presentes en el cromosoma, lo que indica que los genes no son funcionales (pseudogenes) o están sujetos a procesos reguladores como cambios de marco de traducción programados. En el segundo paso, se utilizó el método ProFED para seleccionar otras veinte secuencias genómicas procarióticas disponibles. Los errores de secuenciación predichos no han sido, en estos casos, validados por un procedimiento de nueva secuenciación. El análisis de los resultados obtenidos muestra que nuestra estrategia parece ser una herramienta confiable para evaluar la calidad de las secuencias finales para nuevos proyectos de genoma. Se está construyendo un sitio web que incluye los resultados de nuestro análisis. Esperamos que tal compilación de supuestos errores de secuenciación ayude a los biólogos a corregir las anotaciones genómicas actuales.

Referencias:
[1] Claverie, J.-M. 1993. Detección de cambios de marco por comparación de secuencias de aminoácidos. J. Mol. Biol. 234: 1140-1157.
[2] Brown, N.P., C. Sander y P. Bork. 1998. Cuadro: detección de errores de secuenciación genómica. Bioinformática 14: 367-371.
[3] Borodovsky, M. y J.D. McIninch. 1993. GeneMark: reconocimiento de genes en paralelo para ambas cadenas de ADN. Comp. Chem. 17: 123-133.
[4] M digue, C., F. Rechenmann, A. Danchin y A. Viari. 1999. Imagene: un entorno informático integrado para anotación y análisis de secuencias. Bioinformática 15: 2-15.


Potenciales estadísticos para la evaluación de pliegues en el modelado comparativo

Francisco Melo, Roberto Sanchez y Andrej Sali
La Universidad Rockefeller, Laboratorio de Biofísica Molecular, 1230 York Avenue, # 270, Nueva York, 10021, EE. UU.

Es importante evaluar un modelo comparativo antes de que se utilice para abordar el problema para el que fue construido. Es útil evaluar primero si el modelo tiene al menos el pliegue correcto. El modelo tendrá el pliegue correcto (buen modelo) solo si la plantilla tiene el pliegue correcto. Además, la alineación entre la plantilla y la secuencia modelada debe ser sustancialmente correcta. La evaluación del modelo objetivo es especialmente importante en el modelado automatizado a gran escala de genomas completos donde no es posible la intervención del usuario. Se ha creado un conjunto de pruebas de aproximadamente 10.000 modelos correctos e incorrectos mediante un modelo comparativo automatizado para todas las proteínas no redundantes en el banco de datos de proteínas. Los modelos de prueba abarcan una amplia gama de tamaños y tipos de pliegues. Se espera que la distribución de la precisión del modelo sea similar a la de los cálculos de modelado de todo el genoma. Se ha probado una variedad de criterios de calidad de modelos y métodos de discriminación para determinar su capacidad para distinguir entre modelos buenos y malos. Los criterios han incluido potenciales estadísticos de uno y dos residuos de fuerza media, el número de residuos en el modelo, el porcentaje de identidad de secuencia entre la secuencia objetivo y la estructura de la plantilla, la compacidad del modelo, la puntuación de significancia para la alineación de la plantilla objetivo y la número de heteroátomos en la estructura de la plantilla. Los métodos de discriminación han incluido el análisis discriminante lineal y no lineal, algoritmos genéticos y modelos bayesianos. Se ha explorado la interdependencia, complementariedad y relaciones entre los criterios de calidad. Este análisis nos permitió mejorar la precisión de la clasificación del modelo. El método actual evalúa correctamente el 95% de los modelos en el conjunto de prueba, con 5,0 y 5,9% de falsos positivos y falsos negativos, respectivamente. El método funciona bien en una amplia gama de sensibilidad y especificidad.


Sistema de base de datos de secuencia integrado con una interfaz de programación HTTP

Katerina Michalickova y Christopher W.V. Hogue
Instituto de Investigación Samuel Lunenfeld, Hospital Mount Sinai,
600 University Avenue, Toronto, Ontario, Canadá
Departamento de Bioquímica, Universidad de Toronto, Facultad de Medicina, Edificio de Ciencias Médicas, Toronto, Ontario, Canadá

Nuestra investigación bioinformática requirió un sistema de base de datos interno rápido, simple y confiable que contenga la misma información que se encuentra en las bases de datos públicas de secuencias biológicas. Aprovechamos los recursos disponibles en el sitio ftp del Centro Nacional de Información Biotecnológica que contiene todas las secuencias de GenBank, SwissProt y PDB en forma binaria Asn.1. Analizamos los archivos Asn.1 para indexar información y los almacenamos junto con los datos binarios Asn.1 originales en el software CodeBase (Sequiter Software Inc., Alberta). El sistema de base de datos CodeBase nos permite mantener todos los datos de nucleótidos, proteínas y 3-D internamente en unas pocas bases de datos individuales. El contenido es el mismo que el de la última versión de GenBank y se puede actualizar diariamente desde el sitio ftp de NCBI. En la etapa actual, la interfaz web facilita la búsqueda de secuencias en bases de datos basadas en identificadores únicos de geninfo (GI), números de acceso de GenBank, nombres de secuencias originales, identificadores de taxonomía NCBI, identificadores de líneas medianas, identificadores de bases de datos de modelos moleculares (MMDB) y bancos de datos de proteínas (PDB). identificadores. Todas las secuencias y estructuras 3-D se pueden mostrar en varios formatos, como línea de definición, formato FastA, formato de impresión Asn.1, archivo plano GenBank, archivo plano PDB. La consulta también desencadena una búsqueda de proteínas o ácidos nucleicos vinculados. Las búsquedas de taxonomía y Medline ofrecen un enlace directo al NCBI para obtener información completa sobre un taxón en particular o un artículo publicado sobre la secuencia de interés. Desarrollamos nuestra propia interfaz de programación de aplicaciones (API) que utiliza las bases de datos internas para recuperar datos tanto de un disco local como de forma remota a través de una interfaz http. La API realiza algunas operaciones que no se abordan en Entrez, como la obtención de un conjunto de secuencias no redundantes de un taxón determinado, un mejor control de los subconjuntos de secuencias de proteínas, compatibilidad con el formato de archivo Clustal e información sobre las composiciones de aminoácidos de proteínas.


Posiciones universalmente conservadas en los pliegues de proteínas: lectura de señales evolutivas sobre estabilidad, cinética de plegamiento y función

Leonid Mirny y Eugene Shakhnovich
Departamento de Química,
Universidad de Harvard, Cambridge, MA, EE. UU.

En este trabajo proporcionamos el análisis de la evolución molecular de los cinco pliegues de proteínas más poblados: pliegue de inmunoglobulina, pliegue de unión de oligonucleótidos, pliegue de Rossman, trenza alfa / beta y barriles TIM. Para distinguir entre razones "históricas", funcionales y estructurales para la conservación de aminoácidos, consideramos proteínas que adquieren el mismo pliegue y no tienen una homología de secuencia evidente. Para cada pliegue identificamos posiciones que se conservan dentro de cada familia individual y coinciden cuando las proteínas no homólogas se superponen estructuralmente. Como base para la evaluación estadística utilizamos el conservadurismo esperado de acuerdo con la accesibilidad del solvente. El análisis se basa en un nuevo concepto de "conservadurismo del conservadurismo". Este enfoque permite identificar las características estructurales que se estabilizan en todas las proteínas que tienen un pliegue dado a pesar del hecho de que las interacciones reales que proporcionan tal estabilización pueden variar de una proteína a otra. La comparación con datos experimentales sobre termodinámica, cinética de plegamiento y función de las proteínas revelan que tales grupos universalmente conservados corresponden a (i) super-sitios o (ii) núcleos de plegamiento cuya estabilidad es un determinante importante de la tasa de plegamiento, o ambos (en caso de del pliegue de Rossman). El análisis presentado también ayuda a aclarar la relación entre el plegado y la función, que es evidente para algunos pliegues.


Enhebrado con modelos explícitos para la conservación evolutiva de la estructura y la secuencia
Anna R. Panchenko, Aron Marchler-Bauer y Stephen H. Bryant
Rama de Biología Computacional, Centro Nacional de Información Biotecnológica, Institutos Nacionales de Salud, Bethesda, MD 20894, EE. UU.

Debido a la rápida evolución de las secuencias de proteínas, la similitud entre proteínas a veces no es evidente a nivel de secuencia, aunque sus estructuras pueden ser bastante similares. Estos ejemplos de homólogos y análogos remotos comprenden la mayoría de los posibles objetivos del reconocimiento de veces. Para reconocer las relaciones distantes, hemos intentado combinar el potencial basado en el contacto físicamente plausible con las descripciones cuantitativas de la conservación evolutiva dentro de las familias de proteínas. Primero, construimos deliberadamente el punto de referencia, que contenía casos de diferentes rangos de dificultad para el reconocimiento de pliegues. Luego, para cada proteína de nuestro conjunto de prueba, definimos la matriz de puntuación específica de la posición en función de las múltiples alineaciones de secuencia y los elementos centrales conservados de las múltiples superposiciones estructura-estructura. El subproceso se realizó utilizando el algoritmo de subprocesamiento de elementos centrales, que no permitía espacios dentro de los elementos centrales. El rendimiento de la función de puntuación combinada se midió en relación con la contribución de los términos de conservación de secuencia y contacto para analizar la importancia de las señales físicas y evolutivas. Demostramos que la mayor mejora de la importancia del enhebrado, así como la precisión de la alineación, se observa cuando los términos de contacto y motivo se combinan en proporciones iguales en la región del porcentaje de identidad que excede el 15% y la fracción de contactos conservados es superior al 50%. Esto, a su vez, implica que las funciones de puntuación de coincidencia de motivos y basadas en el contacto se complementan entre sí, ya que las interacciones codificadas en los potenciales de contacto determinan la topología de la proteína general, mientras que los motivos de secuencia específicos de la familia definen la estructura de la proteína única.


Combinando evidencia de diferentes programas de predicción de la estructura genética

Sanja Rogic (1) Francis Ouellette (2) Alan Mackworth (1)
(1) Departamento de Ciencias de la Computación, Universidad de Columbia Británica, Vancouver, Canadá
(2) Centro de Medicina y Terapéutica Molecular, Universidad de Columbia Británica, Vancouver, Canadá

Durante la última década se han desarrollado muchos programas para la búsqueda computacional de genes. Utilizan diferentes métodos para identificar la estructura genética, desde la búsqueda básica de marcos de lectura abiertos hasta sofisticados métodos estadísticos y de aprendizaje automático. Se ha observado [1] que estas diferentes técnicas a menudo predecirán correctamente diferentes elementos del gen, lo que sugiere que podrían complementarse entre sí, produciendo una mejor predicción.

El objetivo de nuestra investigación en curso es probar esta hipótesis mediante la combinación de predicciones de dos programas de búsqueda de genes, GENSCAN [2] y FGENES [3]. Los programas se han probado en un conjunto de datos independiente y sus predicciones se utilizan para construir árboles de decisión, que clasifican los exones predichos de acuerdo con su precisión esperada. Los exones de alta puntuación se integran aún más en la estructura del gen plausible. Los experimentos preliminares muestran que la extracción de exones predichos correctamente de las predicciones de estos dos programas podría aumentar el porcentaje de exones correctamente identificados en un 10% (actualmente ese porcentaje para cada programa es de alrededor del 75%).

Con el fin de mejorar aún más la identificación de genes, especialmente en las secuencias con múltiples genes, planeamos integrar NNPP [4], un programa de búsqueda de promotores, en nuestro sistema. El bajo contenido de información alrededor del sitio de inicio de ATG dificulta que los buscadores de genes identifiquen correctamente los exones iniciales (generalmente los predice como parte de los exones internos) y, por lo tanto, no identifican los límites de los genes, lo que lleva a la unión de los genes. La predicción del promotor de NNPP proporcionaría evidencia adicional donde debería estar el extremo 5 'del gen.

Una parte importante de nuestro proyecto es la generación de un conjunto de datos no redundante que excluye las secuencias utilizadas para el entrenamiento de GENSCAN o FGENES. Contiene 579 secuencias humanas y de ratón con genes completos o parciales que han pasado todos los procedimientos de filtrado estándar para conjuntos de datos de búsqueda de genes.

Referencias:
[1] K. Murakami y T.Takagi. Reconocimiento de genes mediante la combinación de varios programas de búsqueda de genes. Bioinformática, vol. 14, número 8: 665-675, 1998.
[2] C. Burge y S. Karlin. Predicción de estructuras genéticas completas en ADN genómico humano. Revista de Biología Molecular 268: 78-94, 1997.
[3] http://genomic.sanger.ac.uk/gf/gf.html
[4] M. Reese y F. Eeckman. Redes neuronales de retardo de tiempo para la predicción de promotores eucariotas. En preparación, 1999.


Anotación de secuencia por Splash

Ajay K. Royyuru (1), Andrea Califano (1), Gustavo Stolovitzky (1) y Lawrence Shapiro (2)
(1) Centro de Biología Computacional, IBM Thomas J. Watson Research Center, PO Box 704, Yorktown Heights, NY 10598, EE. UU.
(2) Programa de Biología Estructural, Departamento de Fisiología y Biofísica, Escuela de Medicina Mount Sinai, 1425 Madison Avenue, Nueva York, NY 10029, EE. UU.

El principal objetivo del Proyecto Genoma Humano es obtener las secuencias de todos los genes del genoma humano. La estrategia de secuenciación de la etiqueta de secuencia expresada (EST) proporciona un medio eficaz para identificar el "transcriptoma" humano. Sin embargo, esto proporciona solo una lectura de secuencia sin procesar y deja sin abordar la formidable tarea de adjuntar una anotación funcional a cada nueva secuencia.

Splash es un algoritmo para descubrir los conjuntos de patrones de secuencia que caracterizan una familia dada de secuencias de proteínas relacionadas [1]. Es muy adecuado para el descubrimiento de firmas de secuencia en proteínas relacionadas funcionalmente.

Aquí describimos un protocolo para anotar tecnologías ecológicamente racionales utilizando Splash. El protocolo consta de los siguientes pasos:
1. Reúna un conjunto de secuencias de proteínas relacionadas funcionalmente,
2. Utilice Splash para identificar el conjunto de patrones de secuencia estadísticamente significativos que caracterizan a esta familia de proteínas relacionada funcionalmente,
3. Analizar e identificar el orden relativo y la posición de los patrones de secuencia en todas las ocurrencias en la base de datos de secuencias,
4. Escanee la base de datos EST (dbEST) para identificar secuencias EST que contengan estos patrones de secuencia en el orden y la posición relativos prescritos.

Hemos aplicado este protocolo a varias familias de proteínas y hemos identificado con éxito nuevos candidatos en dbEST. Por ejemplo, partiendo de una base de datos de 68 secuencias pertenecientes a la superfamilia C1q / TNF [2], Splash encuentra dos patrones de secuencia estadísticamente significativos que caracterizan a esta familia:
[ILMFV]. G [ILMFV] Y. [ILMFV] .. [RQEHK]
[ILMV] [ILMFV] .L. [DQEK] [RQEHK] [ILMV]
Estos patrones se superponen exactamente con las regiones identificadas como el núcleo estructural responsable de la similitud estructural entre las familias no homólogas de proteínas C1q y TNF. Al escanear dbEST para la aparición de estos patrones, encontramos 17 secuencias ya anotadas como miembros de la superfamilia C1q / TNF. Además, identificamos 6 secuencias nuevas (previamente no anotadas) como miembros potenciales de la superfamilia C1q / TNF.

La eficiencia y la naturaleza determinista de Splash permite el uso de este protocolo para anotaciones rápidas en proyectos de secuenciación de alto rendimiento.

[1] A. Califano. SPLASH: Análisis de localización de patrones estructurales mediante histogramas secuenciales. Bioinformática (Comunicado, 1999).
[2] L. Shapiro y P. E. Scherer. La estructura cristalina de una proteína de la familia del complemento 1q sugiere un vínculo evolutivo con el factor de necrosis tumoral. Current Biology, 8: 335 - 338 (1998).


Un programa informático para la predicción del dominio genético en la secuencia del genoma del arroz

Katsumi Sakata (1), Hideki Nagasaki (2), Atsuko Idonuma (2), Kazunori Waki ​​(2), Masaki Kise (3) y Takuji Sasaki (1)
(1) Programa de Investigación del Genoma del Arroz (RGP), Instituto Nacional de Recursos Agrobiológicos, Tsukuba, Japón
(2) Instituto de la Sociedad para la Tecnoinnovación de la Agricultura, la Silvicultura y la Pesca, Tsukuba, Japón
(3) Mitsubishi Space Software Co., Ltd., Tokio, Japón

El arroz es uno de los principales cultivos de cereales y la principal fuente de alimentación de aproximadamente la mitad de la población mundial. En términos de análisis del genoma, tiene una ventaja entre otros cereales porque tiene el tamaño de genoma más pequeño estimado en 430 Mb. En el Rice Genome Research Program (RGP), se lanzó la secuenciación de todo el genoma en 1998 y casi 1 Mb de la secuencia del genoma ya se terminó y se puso a disposición del dominio público a través del DNA Data Bank of Japan (DDBJ) y RGP home. página (http://www.dna.affrc.go.jp:82/). Las secuencias terminadas se anotaron para determinar los posibles genes codificadores de proteínas y / o segmentos de genes. Como parte del esquema de anotación, se utilizaron programas de predicción de dominio de genes para predecir las regiones codificantes y / o señales biológicas como los sitios de empalme. Se evaluaron algunos programas representativos, como GENSCAN para maíz y Arabidopsis, que resultaron ser comparativamente útiles para las secuencias del genoma del arroz. Sin embargo, los resultados no fueron completamente satisfactorios porque no se pudieron predecir algunas regiones candidatas a genes con similitudes con los ADNc de arroz. Hemos estado desarrollando un nuevo programa informático para predecir dominios de genes en la secuencia del genoma del arroz basado en un modelo probabilístico utilizando un catálogo de tecnologías ecológicamente racionales de arroz desarrollado en RGP. Este catálogo está compuesto por casi 15.000 ADNc correspondientes a aproximadamente un tercio del total de todos los genes del arroz. Se ha completado y evaluado una versión prototipo. El programa predice regiones candidatas a genes mediante cálculo utilizando el esquema probabilístico del modelo de Markov oculto (HMM). Entre las principales características del programa se encuentran: (i) un modelo detallado para la región no traducida 3 'que utiliza más de 5000 secuencias de ADNc, y (ii) un algoritmo que incorpora algunas características de la secuencia del genoma como medio de transmisión y almacenamiento de datos.


EuGene: un buscador de genes simple pero efectivo para organismos eucarióticos (Arabidopsis thaliana)

Thomas Schiex, Annick Moisan, Lucien Duret, Pierre Rouze
INRA, Chemin de Borde Rouge, BP 27, Castanet-Tolosan, 31326 Cedex, Francia

Es estándar, en una anotación de secuencia minuciosa, tener en cuenta varias fuentes de información para intentar localizar con precisión genes (exones / intrones) en secuencias eucarióticas. Las fuentes de información explotadas suelen incluir coincidencias con bases de datos (EST o bases de datos de proteínas), salida de software de predicción de señales como NetGene2 o Netstart (www.cbs. Dtu.dk/services/) y un software de búsqueda de genes "integrado" más o menos sofisticado como GeneMark.hmm (genemark.biology.gatech.edu/GeneMark/) y / o GENESCAN (gnomic.stanford.edu/

En esta línea de idea, hemos diseñado un enfoque basado en gráficos simple, general, eficiente y, sin embargo, efectivo para la búsqueda de genes que permite a los investigadores combinar varias fuentes de evidencia. Para una secuencia dada, la idea básica es construir un gráfico ponderado acíclico dirigido de modo que todas las posibles estructuras de genes estén representadas por una ruta en el gráfico. Los pesos de los bordes del gráfico se definen utilizando la evidencia disponible de tal manera que los caminos más cortos en el gráfico corresponden a la estructura del gen que "respeta mejor" esta evidencia. Un algoritmo simple de tiempo lineal, espacio lineal de ruta más corta, como el algoritmo de Bellman, simplemente genera la mejor estructura genética posible. El enfoque es comparable (aunque no equivalente) a un modelo de Markov oculto de duración de estado explícito con densidades de duración uniformes.

Se ha construido un primer prototipo llamado EuGene que integra las siguientes fuentes de información para Arabidopsis thaliana:
- Salida de cinco modelos de Markov interpolados (IMM) para los exones, intrones y secuencias intergénicas del marco 1, 2, 3 respectivamente (estimado en el conjunto de datos AraClean v1.1, www.cbs.dtu.dk/databases/ARACLEAN).
- la salida de NetPlantGene y NetGene2 para la resistencia del sitio de empalme (algunos parámetros utilizados para calcular los pesos de la salida se han estimado en AraClean).
- la salida de NetStart para la fuerza de ATG (algunos parámetros utilizados para calcular los pesos de la salida se han estimado en AraClean).

La estructura y los pesos del gráfico se pueden definir / modificar usando un lenguaje muy simple que permite declaraciones como "inicio f1371 0.4" (un inicio hacia adelante ocurre en la posición 1371 con fuerza 0.4). Oraciones similares permiten la inclusión de información sobre aceptores, donantes, fortalezas del estado exónico / intrónico / intergénico por nucleótido. En realidad, esto se crea automáticamente mediante un script de Perl. Este archivo y el script de Perl pueden ser simplemente modificados por el usuario para incluir otras fuentes de información si así lo desea.

Una segunda versión se suma a estos resultados de información básica de EST y búsquedas en bases de datos de proteínas. El uso actual de esta información es todavía muy preliminar: los golpes de EST simplemente eliminan los bordes intrónicos y los golpes de proteínas mejoran ligeramente las fuerzas exónicas.

Este enfoque ha sido evaluado en "AraSet" (¡no AraClean!), Un conjunto de datos reciente de secuencias de ADN anotadas con precisión de Arabidopsis thaliana que ya se ha utilizado para evaluar varios programas de búsqueda de señales / genes existentes (ver http: // sphinx. rug.ac.be:8080/biocomp/GeneComp/index.html, documento completo presentado en esta conferencia).En este conjunto de datos, GeneMark.hmm fue el mejor software disponible con una sensibilidad genética del 40% y una especificidad genética del 32%. La primera versión de EuGene produce directamente una sensibilidad genética del 57% con una especificidad del 48%. Además, teniendo en cuenta los golpes de EST y proteínas (SPTR) BLAST, se obtiene una sensibilidad genética del 67% con una especificidad del 54%.

Este informe es muy preliminar y esperamos mejorar significativamente la eficacia de EuGene en un futuro próximo (y aplicarlo a otros organismos). En realidad, en comparación con otros algoritmos de búsqueda de genes, EuGene es extremadamente simple: utiliza un algoritmo de tiempo lineal, un único conjunto de modelos de Markov y no tiene en cuenta la longitud de exones / intrones u otras señales como poliA o promotores. Esto debería dejar espacio para muchas mejoras.


Aprendizaje de la topología del modelo de Markov oculto para el análisis de secuencias

Alexander Schliep
ZAIK / ZPR, Universidad de Colonia, Colonia, Alemania

Los modelos ocultos de Markov (HMM) son una herramienta ampliamente utilizada y con éxito en el modelado estadístico y el reconocimiento de patrones estadísticos, siendo la búsqueda de genes uno de los principales ejemplos en biología computacional. Un problema fundamental en la aplicación de los modelos ocultos de Markov es encontrar la arquitectura o topología subyacente de los HMM, especialmente cuando no hay evidencia sólida hacia una elección específica del dominio de la aplicación (por ejemplo, cuando se hace un modelado de caja negra). O de manera similar, si la existencia de estados que se usan con poca frecuencia o con demasiada frecuencia después del entrenamiento sugiere que la topología elegida no se ajusta bien a los datos.

La topología es importante con respecto a las buenas estimaciones de parámetros y con respecto al rendimiento: un modelo con "demasiados" estados, y por lo tanto, demasiados parámetros, requiere demasiados datos de entrenamiento, mientras que un modelo con "no suficientes" estados prohíbe al HMM capturar sutiles patrones estadísticos.

Para determinar la topología "óptima", se utiliza el conocimiento del dominio de aplicación o se emplea un procedimiento de prueba y error con métodos ad-hoc (es decir, cirugía modelo), rara vez se han considerado procedimientos sistemáticos (p. Ej., Fusión de modelos bayesianos, Stolcke y Omohundro ). Hemos desarrollado un algoritmo novedoso que inferirá una representación HMM del proceso (ergódico) generando una secuencia, sin especificar previamente la topología del modelo. Es decir, inferimos el número de estados ocultos, las transiciones permitidas y las probabilidades de transición y emisión. Usamos un enfoque bayesiano en el que un a priori adecuado en un parámetro crucial fuerza la generalización (y por lo tanto reduce necesariamente la probabilidad de los datos) del modelo de máxima verosimilitud.

Presentaremos el algoritmo, algunos de nuestros resultados teóricos y los resultados de experimentos numéricos sobre ADN biológico y datos de secuencia de proteínas.


La identificación de nuevas señales que regulan la traducción de ARNm: efectos del contexto genético

Mark Schreiber y Chris Brown
Departamento de Bioquímica, Universidad de Otago, P.O. Box 56 Dunedin, Nueva Zelanda

Es bien sabido que el contexto de un gen regula la eficiencia y precisión de su traducción de ARNm a proteína. Ya se han identificado varios elementos. El inicio de la traducción está regulado por el sitio de unión del ribosoma Shine-Dalgarno y la caja corriente abajo en muchas bacterias, o el consenso de Kozaks en eucariotas. Se ha demostrado que el uso de un subconjunto sesgado de codones mejora la traducción en muchos organismos. La eficacia de la terminación también se ve afectada por la identidad de los nucleótidos circundantes, como el residuo que sigue a los codones de terminación de Escherichia coli. Utilizando la base de datos TransTerm desarrollada en la Universidad de Otago, hemos identificado dos nuevas señales putativas en Synechocystis sp. PCC6803 que puede regular la traducción. Inesperadamente, los genes de Synechocystis parecen carecer de la caja bacteriana convencional Shine-Dalgarno. En cambio, una secuencia de consenso previamente no observada empareda el codón de inicio (CYAUGR) con un fuerte sesgo en la posición -2. El contenido de información de las alineaciones con los codones de inicio muestra que este elemento puede ser suficiente para el reconocimiento por parte del ribosoma. El contexto de terminación de Synechocystis también es inusual. En Escherichia coli, la identidad del nucleótido +1 (cuarta base) está muy sesgada y afecta la eficiencia de terminación en los codones de terminación. Por el contrario, el nucleótido +1 de Synechocystis está sesgado. Se están diseñando sistemas informadores genéticos para estudiar los efectos de estos elementos in vivo.


Modelado de estructuras terciarias de proteínas con SWISS-MODEL y SwissPdbViewer

Torsten F. Schwede, Nicolas Guex y Manuel C. Peitsch
GlaxoWellcome Experimental Research SA, 16 Chemin des Aulx, 1228 Plan-les-Ouates, Ginebra, Suiza

Los conocimientos que puede proporcionar una estructura tridimensional de una proteína son de gran ayuda durante el diseño racional de los experimentos de mutagénesis. Los métodos experimentales de determinación de la estructura de la proteína a menudo se ven obstaculizados por dificultades técnicas y requieren mucho tiempo y recursos. Por tanto, el número de estructuras de proteínas conocidas en 3-D sólo representa una pequeña fracción de las secuencias de proteínas conocidas. En este contexto, no es sorprendente que se hayan explorado enfoques teóricos, de los cuales el modelado comparativo de proteínas es, con mucho, el más confiable.

SWISS-MODEL y Swiss-PdbViewer
Hemos desarrollado un entorno para el modelado comparativo de proteínas que consta de SWISS-MODEL (http://www.expasy.ch/swissmod/), un servidor para el modelado comparativo de proteínas automatizado y del SwissPdbViewer (http: // www.expasy. ch / spdbv /) [1]. Swiss-PdbViewer no solo actúa como cliente de SWISS-MODEL, sino que también proporciona una amplia selección de herramientas de visualización y análisis de estructuras. El marco de software del servidor SWISS-MODEL se puede utilizar para generar grandes colecciones de modelos de proteínas. Durante el 3DCrunch de 1997, un experimento de modelado a gran escala, SWISS-MODEL [2] ha modelado 64.000 secuencias de las bases de datos SWISS-PROT y trEMBL, y se reciben más de 30.000 solicitudes al año a través de la interfaz WWW. Al hacer que estas herramientas estén disponibles gratuitamente para la comunidad científica, esperamos que el modelado de proteínas sea accesible para los bioquímicos y biólogos moleculares de todo el mundo.

Mejoras recientes (versión 3.5)
La versión 3.5 del servidor SwissModel proporciona una mejor estabilidad y supera varias limitaciones de versiones anteriores de la base de datos de plantillas ExPDB. A petición, las solicitudes se pueden reenviar al servidor de predicción de estructura secundaria PredictProtein [3] o al servidor de reconocimiento de pliegues 3DPSSM (http://www.bmm.icnet.uk/

3dpssm /). WhatCheck [4] evalúa la calidad del modelo final y se envía un informe detallado, así como un archivo de proyecto, que contiene las estructuras de la plantilla y la alineación estructural subyacente. La estrecha integración de SPDBV y SwissModel permite una gran flexibilidad en las solicitudes enviadas, incluido el uso de sus propias estructuras de plantilla. Se ha ampliado la funcionalidad de Swiss PdbViewer, que se utiliza como interfaz gráfica de usuario para SwissModel. Proporciona una pantalla gráfica clara (OpenGL, estéreo de hardware compatible) y varias herramientas para la construcción y el análisis de modelos, p. Ej. minimización de energía y representaciones de superficie. La conexión directa al servidor permite la importación de estructuras y secuencias de diferentes bases de datos. SPDBV es una secuencia completa para estructurar el banco de trabajo, que se ejecuta en PC, Linux, Macintosh y SGI [5].
1. Guex, N. y Peitsch, M.C. (1997). SWISS-MODEL y Swiss-PdbViewer: un entorno para el modelado comparativo de proteínas. Electroforesis, 18, 2714-2723.
2. Peitsch M.C. & Guex N. (1997) Modelado comparativo de proteínas a gran escala. en: Investigación de proteomas: nuevas fronteras en genómica funcional, p. 177-186, Wilkins MR, Williams KL, Appel RO, Hochstrasser DF eds., Springer.
3. Rost, B. (1996). PHD: predicción de la estructura proteica unidimensional mediante redes neuronales basadas en perfiles. Metanfetamina en Enzym., 266, 525-539.
4. Hooft, R.W.W., Vriend, G., Sander, C. y Abola, E.E., (1996). Errores en las estructuras de las proteínas. Nature 381, 272-272.
5. Guex N, Diemand A y Peitsch M.C. (1999) Modelado de proteínas para todos. TiBS, 24, 364-367.


Una base de datos de clústeres de homólogos remotos

Lorenzo Segovia y Ricardo Ciria
Instituto de Biotecnología. UNAM, México

Motivación:
Se han emprendido varios enfoques para estudiar las relaciones de estructura y función en proteínas. Koonin y col. han creado una base de datos de ortólogos (Clusters of Orthologous Groups, COG), clasificados por similitud y función, basados ​​en diferentes genomas de 6 grupos filogenéticos principales. Este esfuerzo se ha complementado con análisis como el enfoque GeneCensus de Gerstein et al. que han estudiado las relaciones de estructura y función en el banco de datos PDB en busca de correlaciones entre las clasificaciones SCOP y EC.

Método y resultados:
Hay alrededor de 1400 entradas diferentes en el banco de datos PDB correspondientes a proteínas de estructura conocida con menos del 90% de identidad entre ellas debido al gran número de estructuras mutantes depositadas. Usamos este subconjunto para centrar nuestro análisis. Teniendo en cuenta que los homólogos comparten el mismo pliegue, el análisis de los grupos de secuencias debería permitirnos sacar conclusiones generales sobre cada pliegue en particular. Buscamos en Swissprot37 usando Psi-blast, buscando grupos convergentes (30 iteraciones con parámetros predeterminados) y luego purgamos los hits para dejar solo secuencias con menos del 90% de identidad (usando el script perl nrdb90 de L. Holm). Luego buscamos motivos comunes en cada grupo usando MEME 2.0 (-mod OOPS -nmotifs 5) y anotamos los motivos usando las correspondientes entradas de Swissprot.

Estamos analizando los resultados bajo dos puntos de vista diferentes. Uno es determinar qué catalizadores coexisten más comúnmente y en qué pliegues y el otro es la conservación de motivos funcionales en cada grupo y el mapeo de aminoácidos posiblemente relevantes en homólogos remotos no anotados. Algunos beneficios adicionales son la creación de una base de datos que podría usarse para "salto de secuencia" para usarla en el reconocimiento de pliegues y, a la inversa, la identificación de aciertos nulos que podrían ser candidatos para nuevos pliegues. Presentaremos los resultados encontrados hasta el momento y algunos ejemplos de clusters.


Encontrar genes procarióticos mediante el algoritmo "fotograma a fotograma": dirigirse a inicios genéticos y genes superpuestos

Anton M. Shmatkov, Arik A. Melikyan, Felix L. Chernousko y Mark Borodovsky1
Academia de Ciencias de Rusia, Instituto de Problemas de Mecánica, Moscú 11526, Rusia
1Escuela de Biología, Instituto de Tecnología de Georgia, Atlanta, GA 30332-0230, EE. UU.

Los genes procariotas fuertemente empaquetados con frecuencia se superponen entre sí. Esta característica, rara vez vista en el ADN eucariótico, hace que la detección de los sitios de inicio de la traducción y, por lo tanto, las predicciones exactas de genes procarióticos sean notoriamente difíciles. La mejora de la precisión de la predicción génica precisa en el ADN genómico procariótico sigue siendo un importante problema abierto. Se desarrolló un programa de software que implementa un nuevo algoritmo que utiliza un modelo uniforme de Hidden Markov para la predicción de genes procariotas. El algoritmo analiza una secuencia de ADN determinada en cada uno de los seis posibles marcos de lectura globales de forma independiente. Se analizaron doce genomas procarióticos completos utilizando la nueva herramienta. La precisión de la búsqueda de genes, la predicción de ubicaciones de los ORF que codifican proteínas, así como la precisión de la predicción de genes precisa, detectando el gen completo, incluido el codón de inicio de la traducción, se evaluaron mediante comparación con la anotación existente. Se demostró que, en términos de búsqueda de genes, el programa funciona al menos tan bien como las herramientas desarrolladas anteriormente, como GeneMark y GLIMMER. En términos de predicción genética precisa, el nuevo programa demostró ser más preciso, en varios puntos porcentuales, que las herramientas desarrolladas anteriormente, como GeneMark.hmm, ECOPARSE y ORPHEUS. Los resultados de las pruebas del programa indicaron la posibilidad de un sesgo sistemático en la anotación del codón de inicio en varios genomas procarióticos de secuencia temprana. Se puede acceder al nuevo programa de búsqueda de genes a través del sitio web: http://dixie.biology.gatech.edu/GeneMark/fbf.cgi


MetaFam: una unificación de familias de proteínas

Elizabeth Shoop
Centro de Salud Académico, Centros de Biología Computacional de la Universidad de Minnesota, Minneapolis, MN, EE. UU.

Describimos MetaFam, una caracterización de la familia de proteínas derivada de una comparación teórica completa de 10 bases de datos de familias de proteínas de acceso público (BLOCKS, DOMO, Pfam, PIR, PRINTS, PROSITE, ProDom, PROTOMAP, SBASE y SYSTERS). Las familias de una base de datos se comparan con las de otra cuando la superposición de sus miembros es máxima. Las coincidencias de familias por pares se unen de forma transitiva para crear una nueva lista de superconjuntos de familias de proteínas. Estos superconjuntos tienen varias ventajas: (1) Nuestros superconjuntos contienen la mayoría de los miembros, porque cada una de las bases de datos de la familia de componentes trabaja con un subconjunto de nuestro conjunto completo no redundante de proteínas (2) Se pueden encontrar rápidamente asignaciones cuestionables de bases de datos de familias individuales, dado que nuestro análisis identifica miembros individuales que están en conflicto con el consenso de la mayoría (3) ahora se pueden asignar descripciones de familias que pueden estar ausentes en las bases de datos automatizadas (4) se han calculado estadísticas comparando límites de dominio, relaciones familiares de superconjuntos / subconjuntos y asociaciones de dominios (5) los superconjuntos se han cargado en una base de datos de Oracle para permitir consultas complejas y visualización de las conexiones entre familias en un superconjunto y el consenso de los miembros individuales. El acceso público a los datos está disponible a través de nuestro sitio web http://metafam.ahc.umn.edu/.


Un nuevo gen dentro del grupo de genes de síntesis de la pared celular y división de Neisseria

Lori A. Snyder (1) y William M. Shafer (1,2)
(1) Departamento de Microbiología e Inmunología, Facultad de Medicina de la Universidad Emory, Atlanta, GA, 30322, EE. UU.
(2) Laboratorios de patogénesis microbiana, VA Medical Center, Decatur, GA, 30033, EE. UU.

Durante una pantalla de la base de datos del Proyecto de secuenciación del genoma gonocócico de la Universidad de Oklahoma para sitios de unión adicionales del regulador transcripcional MtrR, se identificó un sitio de unión putativo asociado con el grupo de síntesis de división y pared celular (DCW) de Neisseria gonorrhoeae. El análisis de secuencia del grupo de genes DCW gonocócicos reveló su fuerte homología con los grupos DCW descritos previamente en Escherichia coli, Haemophilus influenzae y Bacillus subtilis. Las diferencias entre estos grupos y el grupo DCW ubicado dentro de la cepa de secuencia del serogrupo A de Neisseria meningitidis Z2491, del Proyecto de secuenciación del genoma de Neisseria meningitidis del Centro Sanger, se presentan aquí. La comparación de secuencias reveló diferencias notables entre los grupos de DCW gonocócicos y meningocócicos y los de otras bacterias. Estos incluyen la adición de al menos tres marcos de lectura abiertos, el más grande de los cuales, orfA, ha sido seleccionado para un estudio adicional. La comparación de la secuencia del genoma resalta este marco de lectura como inusual, ya que se inserta en una región que normalmente está muy conservada en términos de homología, organización de genes y función presuntamente esencial en las especies Gram-negativas y Gram-negativas. Se presentarán los resultados del análisis de secuencia comparativo, la clonación y expresión de la proteína codificada por orfA y los resultados de los experimentos de desactivación.


WEIGHBOR: Reconstrucción de filogenia basada en la distancia rápida y más precisa

Nicholas D. Socci [1], Aaron L. Halpern [2] y William J. Bruno [3].
[1] The Rockefeller University, Nueva York, NY 10021, EE. UU.
[2] Universidad de Nuevo México, Albuquerque, NM 87131, EE. UU.
[3] Laboratorio Nacional de Los Alamos, Los Alamos, NM 87574, EE. UU.

El análisis de secuencias que utiliza múltiples secuencias presupone que se requieren relaciones entre las secuencias. Cualquier análisis estadístico riguroso requiere que se reconstruya el árbol evolutivo para que pueda tenerse en cuenta. Idealmente, la reconstrucción del árbol de máxima verosimilitud se usaría para construir el árbol, pero es demasiado lenta para usarse en alineaciones grandes.

Introducimos un nuevo método de unión de vecinos ponderado llamado WEIGHBOR. Este método utiliza ponderaciones que reflejan con precisión el aumento exponencial de varianzas y covarianzas con la distancia. Los pesos se utilizan tanto para determinar qué par se une como para calcular las longitudes de las ramas.

Las pruebas muestran que WEIGHBOR es superior a otros métodos (máxima parsimonia, unión de vecinos, BIONJ y Fitch-Margoliash) para evitar el sesgo de "atracción de ramas largas". WEIGHBOR tampoco sufre de "distracciones de ramas largas", lo que provoca errores innecesarios en los árboles construidos por Neighbor Joining y BIONJ. WEIGHBOR es mucho más rápido que los métodos de Fitch-Margoliash o de máxima verosimilitud en problemas grandes y puede manejar fácilmente cientos de secuencias. WEIGHBOR es mucho más eficiente que la unión de vecinos y BIONJ, y en nuestras pruebas es de 80% a 95% tan eficiente como la probabilidad máxima.

Visite www.t10.lanl.gov/billb/weighbor para descargar el programa.


Firma genómica: los fragmentos cortos de ADN son elegibles

Alexandra Vaury, Alain Giron, Joseph Vilain, Bernard Fertil y Patrick Deschavanne
INSERM - U 494 - CHU Piti -Salp tri re, 91 boulevard de l'h pital, 75634 Paris cedex 13 - Francia

La reciente disponibilidad de secuencias genómicas largas e incluso completas abre un nuevo campo de investigación dedicado al análisis general de su estructura global, sin tener en cuenta la interpretación de genes. Nuestro enfoque aprovecha la CGR (Representación del juego del caos), modificada aquí para permitir la cuantificación, que produce imágenes que muestran el uso, en términos de frecuencias, de palabras (pequeñas secuencias de hasta 8 nucleótidos) y revelan patrones anidados en secuencias de ADN. Ha demostrado ser un método rápido y robusto para extraer información de largas secuencias de ADN, lo que permite la comparación de secuencias y la detección de anomalías en la frecuencia de las palabras. Observamos que las subsecuencias de un genoma exhiben las principales características de todo el genoma de tal manera que una imagen específica puede asociarse con cada especie y por lo tanto puede considerarse una firma genómica. La distancia entre imágenes puede cuantificar la proximidad filogenética. Los eucariotas y procariotas, por ejemplo, pueden discriminarse por la mera base de su estructura de ADN. Este trabajo aborda dos cuestiones relacionadas con la firma genómica. i / la longitud que debe tener el fragmento de ADN para obtener una firma digna ii / ¿existe una longitud óptima para las palabras a analizar? Se cortaron dieciséis genomas completos (o secuencias genómicas muy largas) en subsecuencias de 100 kb hasta 1 kb de longitud. Las imágenes obtenidas de los fragmentos se compararon y clasificaron utilizando un análisis de componentes principales como un paso de preprocesamiento (para reducir la cantidad de información) seguido de un algoritmo de agrupamiento no supervisado. Se encontró que el origen de la mayoría de los fragmentos de ADN se puede determinar correctamente. Como regla general, el reconocimiento de fragmentos aumenta con el tamaño de los fragmentos y la longitud de las palabras para alcanzar un resultado casi perfecto con fragmentos de 25 kb y palabras de 5 letras. Por tanto, parece posible realizar una comparación global de especies mediante fragmentos de genoma encontrados en bases de datos.


Del genoma a la secuencia de proteínas a la estructura 3D: proteínas vecinas en los genomas de Entrez

Yanli Wang, Tatiana Tatusova, Roman Tatusov, Steven Bryant
Centro Nacional de Información Biotecnológica,
Biblioteca Nacional de Medicina,
Institutos Nacionales de Salud, Bethesda, MD, EE. UU.

Se presenta una nueva aplicación WWW que proporciona los vínculos entre las secuencias de proteínas genómicas y las estructuras 3D utilizando información de similitud de secuencias de proteínas de la búsqueda BLAST. Este sitio WWW es un recurso bioinformático altamente integrado. Los resultados se calcularon previamente para todas las proteínas de genomas microbianos completos en la base de datos Entrez Genomes. Se detectaron relaciones vecinas a las proteínas con estructuras tridimensionales conocidas. Las alineaciones por pares de secuencias se presentan gráficamente y se vinculan al visor Cn3D, que permite mostrar estructuras tridimensionales, secuencias y alineación de secuencias de texto simultáneamente. Además, los enlaces a MMDB (The Molecular Modeling Database) -La base de datos 3D de Entrez proporciona a los usuarios una estructura vecina precalculada con VAST (The Vector Alignment Search Tool), la base de datos de estructuras vecinas que a menudo identifican homólogos distantes. Los avances recientes en los esfuerzos de secuenciación dieron como resultado 22 genomas microbianos completos. La mayoría de los genes no tienen anotaciones funcionales fiables. La búsqueda de homólogos bien anotados en la base de datos, particularmente en las bases de datos de estructura, es una forma importante de comprender las funciones de estas proteínas. En nuestro sistema vecino actual, entre los más de 20 genomas completos, aproximadamente el 20% de los genes tienen vecinos en la base de datos de estructura de MMDB detectados simplemente por el algoritmo BLAST con criterios estrictos. El visor 3D 3D de Entrez ofrece una gran facilidad para el análisis y visualización de la alineación secuencia-estructura. Las comparaciones de secuencia y estructura tomadas en conjunto pueden proporcionar una metodología poderosa para la anotación funcional de proteínas microbianas. Planeamos realizar este análisis para genomas eucariotas completos en el futuro.


GI (TM): software basado en Java para análisis de gel

Mark Welsh, Hong Guo y Martin D. Leach
Bioinformática, CuraGen Corporation, New Haven, CT, EE. UU.

Los proyectos de secuenciación a gran escala requieren un análisis de gel de alta calidad sin comprometer la velocidad. Para satisfacer tales necesidades, CuraGen ha desarrollado OGI (TM) (Open Genome Initiative), una aplicación cliente-servidor basada en web en Java para análisis de gel de alto rendimiento. Este diseño cliente-servidor permite que un operador, utilizando cualquier navegador web, controle el procesamiento en muchos servidores OGI, cada uno de los cuales toma la salida de varios secuenciadores. Actualmente, OGI admite la secuenciación en las máquinas ABI 377 (TM) y MegaBACE (TM) 1000. Dentro de un navegador web, el subprograma Java se comunica con el servidor mediante RMI (Invocación de método remoto). Una aplicación Java de subprocesos múltiples en el servidor programa los pasos de procesamiento de imágenes que requieren un uso intensivo de la CPU. Las trazas de secuencia se analizan usando el versátil procesador de trazas DOLPHIN (TM) de CuraGen, y luego se denominan como base usando PHRED (Ewing et al., 1998). OGI ha sido diseñado como un marco abierto y extensible, que aceptará nuevos pasos de procesamiento y flujos de datos completamente nuevos con facilidad. La capacidad de OGI para coordinar el procesamiento y análisis de datos a través de Internet lo hace ideal para instalaciones de secuenciación de alto rendimiento. Los ejecutables Java y ANSI-C de OGI estarán disponibles a través de nuestro sitio web: www.curagen.com.

Esta investigación fue apoyada por una subvención de los NIH.


GeneHacker Plus: un HMM integrado para la búsqueda de genes bacterianos

Tetsushi Yada, Yasushi Totoki (1) Kenta Nakai (2)
(1) Centro de Ciencias del Genoma, RIKEN, Japón
(2) Centro del Genoma Humano, IMS, Universidad de Tokio, Japón


Ver el vídeo: Método de Pólya (Febrero 2023).