Información

Casos de uso de predicción de estructuras secundarias de ARN

Casos de uso de predicción de estructuras secundarias de ARN


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Soy un estudiante que actualmente está escribiendo una tesis sobre la predicción de la estructura secundaria del ARN, específicamente basada en el análisis realizado por el Estructura de RNA y Unafold paquetes de software modificando ciertos algoritmos aquí y allá. Sin embargo, en realidad no soy biólogo. Tomé todas mis clases de física e informática, y en cierto modo tropecé con mi investigación actual, y como parecía encajar bien con mi conjunto de habilidades, me mantuve firme. Sin embargo, esto me deja curioso acerca de una motivación para mi trabajo actual. ¿Por qué es importante la predicción de la estructura secundaria del ARN y cuáles son algunas de sus aplicaciones?


Respuesta corta

Puedo pensar en al menos una docena de aplicaciones para las que sería útil conocer la estructura secundaria de una secuencia dada de ARN fuera de mi cabeza. Sin ningún orden en particular:

  • Simulación / visualización de ARN
  • Riboswitches
  • MicroARN
  • Interferencia de ARN (ARNi)
  • Interacciones ARN-ARN
  • Interacciones ARN-ADN
  • Interacciones ARN-proteína
  • Expresión de proteína ribosomal
  • Ribozimas
  • Evolución forzada de aptámeros de ARN
  • ARNt sintéticos con codones de cuatro y cinco pares de bases
  • Terminación de la transcripción (el proceso que produce el ARNm a partir del ADN)

Básicamente, cualquier cosa que tenga que ver con el ARN, que es uno de los bloques de construcción fundamentales de todas las criaturas vivientes.

Más en profundidad

Simulación / visualización de ARN

La estructura secundaria (2 °) forma el segundo (sí) nivel en la jerarquía estándar de 4 niveles de estructura macromolecular, y consta de interacciones de corto alcance entre residuos. En el ARN, generalmente se piensa que 2 ° es ligeramente idéntico a las interacciones de emparejamiento de bases. Para hacer una simulación / visualización adecuada, probablemente también necesite al menos la información de 3 °, pero 2 ° también es importante.

Riboswitches

A medida que un ARNm es traducido por un ribosoma, en muchos casos puede formar una estructura 3D compleja que afectará el proceso de traducción. Por ejemplo, algunos de los ARNm que codifican proteínas relacionadas con el metabolismo de los iones metálicos tienen un riboswitch que se unirá a los iones metálicos e inhibirá / regulará positivamente la expresión de la proteína relacionada. Por varias razones, generalmente es extremadamente difícil obtener la estructura 3D completa de un riboswitch, por lo que conocer el 2 ° sigue siendo una fuente importante de información sobre ellos.


Conocer la estructura secundaria de los ácidos nucleicos es muy útil en muchos casos a la hora de trabajar con ellos. El caso más simple, y probablemente el que se usa con más frecuencia, es cuando ordena o sintetiza un ARN o ADN pequeño y, en realidad, no desea que tenga una estructura secundaria estable. Hay muchos métodos en los que se usa un ácido nucleico pequeño que puede unirse a una parte complementaria de otro ácido nucleico (hibridación).

Por ejemplo, en la PCR, que se usa para amplificar pequeñas cantidades de ADN, se usan ADN pequeños llamados cebadores que se unen a partes específicas de una plantilla de ADN más grande. Si esos cebadores pueden formar estructuras secundarias estables por sí mismos, esas estructuras tendrían que romperse antes de que el cebador pueda unirse a la plantilla. Tales estructuras competitivas pueden reducir drásticamente la eficiencia de tales experimentos y son algo que la gente intenta evitar, p. Ej. prediciendo estructuras secundarias antes de elegir cebadores.

También existen métodos que utilizan ácidos nucleicos cortos con etiquetas adjuntas, como los fluoróforos. Esas sondas etiquetadas se unen a secuencias diana específicas y, por ejemplo, puede, p. determinar con un microscopio dónde se unen esas sondas. En todas estas técnicas, realmente no desea estructuras secundarias en sus sondas, ya que interfieren con la unión al objetivo real.

Cuando el ARN se introduce primero, a menudo se dice que es monocatenario y ni siquiera se menciona la estructura secundaria. Pero incluso cuando actúa como ARN mensajero, la estructura secundaria del ARN juega un papel. Un mecanismo para la terminación de la transcripción funciona formando un tallo-bucle dentro de un cierto rango de estabilidad, y es necesario predecirlos para predecir el sitio donde termina la transcripción.

También hay muchos tipos de ARN reguladores, este es un tema muy activo y candente en este momento. Los más conocidos son probablemente el ARN de interferencia (ARNip y miARN), pero también existen muchas ribozimas y especialmente en las bacterias también los riboconmutadores. No intentaré enumerar los diferentes tipos de ARN reguladores aquí, hay una gran cantidad de clases diferentes que se conocen y aún se descubren otras nuevas. Para comprenderlos, a menudo es necesario conocer la estructura secundaria o terciaria de los ARN.

A menudo, al menos puede crear algunas hipótesis sobre cómo podría funcionar un ARN mirando la estructura secundaria. En los conmutadores ribereños, por ejemplo, normalmente tiene una conformación activada y desactivada, y esas a menudo se pueden explicar por estructuras secundarias.

Si bien la estructura secundaria a menudo no es suficiente para comprender cómo funciona un ARN específico, aún comienza por predecirlo en la mayoría de los casos. En muchos casos, utilizaría además datos experimentales para verificar la predicción (por ejemplo, SHAPE o sondeo en línea).

Determinar la estructura tridimensional real del ARN es bastante difícil. La dificultad depende en gran medida del ARN exacto, pero esto puede llevar años fácilmente. Si tiene suerte, puede cristalizarlo fácilmente, pero los ARN con partes flexibles tienden a no cristalizar bien. En ese caso, puede hacer RMN para determinar la estructura, pero eso tiene una limitación de tamaño bastante severa y puede llevar años fácilmente para ARN más grandes.

En el caso de la RMN, conocer la estructura secundaria es muy útil en casi todos los casos. Necesita asignar sus señales a bases específicas, y esto es mucho más fácil si conoce la estructura secundaria. También puede utilizar la RMN para respaldar o refutar predicciones específicas de estructuras secundarias.

Una predicción de estructura secundaria más confiable sería bastante buena, los métodos actuales aún fallan con la suficiente frecuencia. Aunque probablemente haya un límite en la calidad de estos métodos para los ARN con una estructura terciaria extensa.


Abstracto

La predicción de la estructura secundaria es un problema importante en la bioinformática del ARN porque el conocimiento de la estructura es fundamental para comprender las funciones de las secuencias de ARN. Recientemente se han demostrado mejoras significativas en la precisión de la predicción mediante la incorporación de información estructural obtenida experimentalmente, por ejemplo, usando acilación selectiva de 2'-hidroxilo analizada por mapeo de extensión de cebadores (SHAPE). Sin embargo, estos datos de mapeo están disponibles actualmente solo para un número limitado de secuencias de ARN. En este artículo, presentamos un método para extender el beneficio de los datos de mapeo experimental en la predicción de estructuras secundarias a secuencias homólogas. Específicamente, proponemos un método para integrar datos de mapeo experimental en un algoritmo de análisis de secuencia comparativo para la predicción de estructura secundaria de múltiples homólogos, mediante el cual los datos de mapeo benefician no solo la predicción de la secuencia específica que fue mapeada sino también a otros homólogos. El método propuesto se realiza modificando el algoritmo TurboFold II para la predicción de estructuras secundarias de ARN para utilizar probabilidades de emparejamiento de bases guiadas por datos experimentales de SHAPE cuando dichos datos están disponibles. Las probabilidades de emparejamiento de bases guiadas por el mapeo de SHAPE se obtienen utilizando el método RSample. Los resultados demuestran que los datos de mapeo de SHAPE para una secuencia mejoran la precisión de predicción de la estructura de otras secuencias homólogas más allá de la precisión obtenida por comparación de secuencias sola (TurboFold II). La versión actualizada de TurboFold II está disponible gratuitamente como parte del paquete de software RNAstructure.


Introducción

El ARN y la proteína son dos macromoléculas biológicas principales y su interacción puede tener efectos profundos en diferentes campos, incluida la regulación de la expresión génica [[1], [2], [3], [4]], la síntesis de proteínas [5,6], replicación viral y mecanismo de defensa celular [[7], [8], [9], [10]]. A pesar de la importancia de estas estructuras, es difícil identificar su interacción utilizando métodos experimentales, ya que son costosos y consumen mucho tiempo. Por lo tanto, existe una necesidad creciente de tener enfoques de aprendizaje automático para predecir con precisión estas interacciones [[11], [12], [13], [14], [15], [16]]. La extracción de características estructurales es uno de los pasos de preprocesamiento más importantes en esta área. Los recientes avances en la clarificación de las características estructurales de las proteínas y el ARN han aumentado la necesidad de diseñar diferentes herramientas, con el objetivo de investigar las interacciones entre el ARN y la proteína. A pesar de varios estudios sobre el tema, todavía no se ha diseñado una herramienta de extracción de características estructurales adecuada.


Casos de uso de predicción de estructuras secundarias de ARN - Biología

Aplicaciones de ciencia de datos y aprendizaje automático en la industria

Este repositorio se actualizaría una vez al año. Durante los últimos 6 meses y todos los enlaces futuros, se ha creado en su lugar un repositorio colaborativo. Para unirse, debe enviar dos repositorios, verifique la unicidad con las URL de Google Sheets. Proyectando 100 nuevas presentaciones para fines del próximo mes.

Además, en lugar de "mirar", puedes entrar la carta de enlace, ya hay alrededor de 600 suscripciones, el primer correo electrónico se enviará en febrero de 2020. Lista mensual para compartir enlaces: https://mailchi.mp/ec4942d52cc5/firmai.

Si disfruta de este repositorio, también le gustaría google-colab-notebooks: Google Colaboratory End-to-End Notebooks and Repositories https://google-colab.com/

Agregue sus herramientas y cuadernos a esta hoja de Google. O simplemente agréguelo a este subreddit, r / datascienceproject

Resaltar en AMARILLO para agregar su paquete, también puede agregarlo usted mismo con un solicitud de extracción.

Una lista seleccionada de libretas y librerías de ciencia de datos y aprendizaje automático aplicado en diferentes industrias. El código en este repositorio está en Python (principalmente usando cuadernos jupyter) a menos que se indique lo contrario. El catálogo está inspirado en el asombroso aprendizaje automático. r / datascienceproject es un subreddit donde puedes compartir todos tus proyectos de ciencia de datos.

Precaución: Este es un trabajo en progreso, contribuya, especialmente si es un experto en la materia en cualquiera de las industrias que se enumeran a continuación. Si eres un [analítico, computacional, estadístico, cuantitativo] investigador / analista de campo X o un campo X [ingeniero de aprendizaje automático, científico de datos, modelador, programador] entonces su contribución será muy apreciada.

Si desea contribuir a esta lista (por favor hágalo), envíeme una solicitud de extracción o contácteme en @dereknow o en linkedin o póngase en contacto en el sitio web FirmAI. Además, un repositorio listado debería quedar obsoleto si:

  • El propietario del repositorio dice explícitamente que "esta biblioteca no se mantiene".
  • No comprometido durante mucho tiempo (2

Se necesita ayuda: Si hay algún colaborador dispuesto a ayudar primero a completar y luego mantener una sección de análisis de Python en cualquiera de las siguientes subindustrias, por favor ponte en contacto conmigo. También contáctame para agregar industrias adicionales.


Algoritmo de optimización inspirado en la naturaleza para la predicción de "energía libre mínima" "estructura secundaria de ARN"

En los últimos años, se han desarrollado muchos algoritmos de optimización para predecir la estructura secundaria óptima del ácido ribonucleico (ARN) con “energía libre mínima” (MFE). Estos algoritmos están inspirados en la programación dinámica o en técnicas metaheurísticas. El ARN participa en varias actividades biológicas en el organismo. Estas actividades involucran síntesis de proteínas, comprensión del comportamiento funcional de moléculas de ARN, codificación, decodificación y expresión génica, portadora de transferencia de información genética, formación de proteína, catalizador en reacciones biomédicas y molécula estructural en orgánulos celulares, transcripción, etc. , el papel principal del ARN es desarrollar nuevos fármacos y comprender varias enfermedades que se producen debido a trastornos genéticos y virus. Para las actividades mencionadas anteriormente, se requiere predecir la estructura secundaria de ARN correcta que tiene energía libre mínima con la precisión de predicción deseada. Este artículo presenta un algoritmo de optimización metaheurística para obtener la estructura secundaria óptima de ARN con la funcionalidad requerida y requiere menos tiempo que los demás en la literatura. El rendimiento del algoritmo propuesto se verifica con diferentes técnicas de vanguardia existentes. Se encuentra que el algoritmo propuesto da mejores resultados frente a las otras técnicas.

Esta es una vista previa del contenido de la suscripción, acceda a través de su institución.


GLASSgo - Detección automatizada y confiable de homólogos de sRNA a partir de una secuencia de entrada única

Los ARN pequeños bacterianos (ARNs) son importantes reguladores postranscripcionales de la expresión génica. La caracterización funcional y evolutiva de los ARNs requiere la identificación de homólogos, lo que con frecuencia es un desafío debido a su heterogeneidad, corta longitud y, en parte, poca conservación de secuencia. Desarrollamos el algoritmo GLobal Automatic Small RNA Search go (GLASSgo) para identificar homólogos de sRNA en bases de datos genómicas complejas a partir de una única secuencia. GLASSgo combina una estrategia BLAST iterativa con filtrado de identidad por pares y un método de agrupamiento basado en gráficos que utiliza información de estructura secundaria de ARN. Probamos la especificidad, la sensibilidad y el tiempo de ejecución de GLASSgo, BLAST y la combinación RNAlien / cmsearch en un escenario de caso de uso típico en 40 familias de ARNs bacterianos. La sensibilidad de los métodos probados fue similar, mientras que la especificidad de GLASSgo y RNAlien / cmsearch fue significativamente mayor que la de BLAST. GLASSgo fue en promedio ∼87 veces más rápido que RNAlien / cmsearch, y solo ∼7,5 veces más lento que BLAST, lo que demuestra que GLASSgo optimiza el equilibrio entre velocidad y precisión en la tarea de encontrar homólogos de sRNA. GLASSgo está completamente automatizado, mientras que BLAST a menudo recupera solo partes de homólogos y RNAlien / cmsearch requiere un extenso trabajo bioinformático adicional para obtener un conjunto completo de homólogos. GLASSgo está disponible como un servidor web fácil de usar para encontrar ARNs homólogos en grandes bases de datos.

Palabras clave: Rfam bacteria genómica comparativa basada en gráficos homología de agrupamiento búsqueda ncRNA predicción sRNA.

Cifras

Número de verdaderos positivos (TP)…

Número de aciertos de verdadero positivo (TP) y falso positivo (FP) por ARNs de Rfam ...

Valores predictivos positivos (VPP) para…

Valores predictivos positivos (PPV) para todas las predicciones de GLASSgo, RNAlien / cmsearch y BLAST. Los…

Análisis de Synteny de tres homólogos ...

Análisis Synteny de tres homólogos de RF00111 / SdsR que se clasifican como TP y ...

Diversidad de homólogos de ...

Diversidad de los homólogos de las 40 familias de ARNs de referencia en GLASSgo,…

Comparación de los tiempos de ejecución de ...

Comparación de los tiempos de ejecución de GLASSgo, RNAlien / cmsearch y BLAST para el índice de referencia 40 ...


Conclusión

Para concluir, hemos desarrollado un método que es fácil de entrenar y desplegar para cualquier clase de pequeños loci genómicos de ARN. Utilizando la novedosa selección de fondo iterativa, nuestro método puede elegir los "casos difíciles" de fondo específicos para cada entrenamiento, mejorando el rendimiento. Demostramos que nuestro método supera a los métodos específicos de clase, tanto en precisión como en rendimiento computacional. Logramos la identificación de especies cruzadas de ARN pequeños más allá de la homología, y también destacamos un caso de uso realista en la identificación de pre-miARN de picos pequeños de ARN-Seq.


ReadXplorer 2.2.3

:: DESCRIPCION

ReadXplorer es una herramienta de exploración y evaluación integral disponible de forma gratuita para datos NGS. Extrae y agrega medidas de cantidad y calidad a cada alineación para clasificar las lecturas mapeadas. Luego, esta clasificación se tiene en cuenta para las diferentes vistas de datos y todas las funciones de análisis automático compatibles.

:: CAPTURAS DE PANTALLA

:: REQUISITOS

:: MÁS INFORMACIÓN

Bioinformática. 30 de abril de 2014. [Publicación electrónica antes de la impresión]
ReadXplorer: visualización y análisis de secuencias mapeadas.
Hilker R, Stadermann KB, Doppmeier D, Kalinowski J, Stoye J, Straube J, Winnebald J, Goesmann A.


Implementación

Conceptos básicos

Debido a la necesidad de formatos de datos comunes, hemos identificado varios tipos de datos básicos utilizados en toda la comunidad bioinformática y hemos creado descripciones de formato elemental (ver tabla & # x200B tabla2), 2), especificadas formalmente por esquemas XML, y una biblioteca (BioDOM) para crear archivos XML de acuerdo con estos esquemas y, además, convertirlos de los formatos predominantes a los formatos XML y viceversa. Estos formatos XML se utilizan ampliamente dentro del proyecto HOBIT para facilitar la interoperación entre los servicios web bioinformáticos proporcionados por los miembros del proyecto en varias universidades e institutos de investigación diferentes en toda Alemania. No obstante, nos gustaría destacar especialmente el hecho de que, si bien los formatos se han definido inicialmente dentro del proyecto HOBIT, su uso no se limita en modo alguno a este contexto. Por el contrario, se han diseñado explícitamente para ser bloques de construcción útiles para cualquier usuario de la comunidad bioinformática, y se recomienda encarecidamente su uso para el intercambio de datos entre herramientas bioinformáticas. A continuación, describimos algunos de estos esquemas XML y mostramos ejemplos de su aplicación.

Tabla 2

Comparación de formatos nativos y sus homólogos XML de HOBIT

Formatos de secuencia
FASTASequenceMLinformación de secuencia simple para nucleicos y aminoácidos
GCGSequenceAnnotationMLsecuencia de información con funciones adicionales para anotaciones
STADEN
Formatos de alineación de secuencia
FASTAAlignmentML(múltiples) alineaciones para nucleicos y aminoácidos
CLUSTAL
MSF
Formatos de estructura secundaria de ARN
mFOLDRNAStructMLInformación de la estructura secundaria del ARN
DotBracket estilo Viena
Formatos de alineación de estructuras secundarias de ARN
DotBracket alineado al estilo de VienaRNAStructAlignmentML(múltiples) alineaciones de estructuras secundarias de ARN

La tabla muestra una comparación de algunos formatos de archivos bioinformáticos nativos (primera columna) y sus contrapartes XML de HOBIT (segunda columna). Estos formatos XML cubren los formatos de secuencia, alineación, estructura secundaria de ARN y alineación de estructura secundaria de ARN en una forma que es independiente de cualquier programa específico. El uso de formatos XML conduce a una disminución significativa en el número de formatos de archivo necesarios.

Estructura del esquema XML

Se definieron algunas pautas de implementación para los diferentes esquemas XML de HOBIT para garantizar la coherencia en el desarrollo y los resultados. Estas pautas son las siguientes:

Los esquemas XML otorgan la capacidad de validar los datos de la carga útil, lo que no es el caso en las DTD. Dado que esta capacidad es importante en entornos de flujo de trabajo, las definiciones de formato basadas en esquemas XML son un requisito. Otro requisito que se origina en el escenario del flujo de trabajo distribuido es la estabilidad. Por lo tanto, solo se pueden utilizar especificaciones estables. De acuerdo con las pautas de HOBIT, es obligatorio que el formato no esté sujeto a una restricción de licencia cerrada, sino que se pueda utilizar y ampliar libremente.

El mantenimiento activo de los formatos también es fundamental, ya que esto es especialmente importante en un área de rápido desarrollo como la bioinformática. Asimismo, debería ser posible ampliar el formato para adaptarse a casos de uso especiales.

Dos características adicionales de los formatos que recomendamos, pero que no requerimos, son la simplicidad y el uso de bloques de construcción. Ambas características mejoran la usabilidad del formato.

No necesariamente queremos reemplazar los esquemas existentes. Se desarrolló un nuevo esquema solo si ningún esquema disponible era adecuado para los requisitos dados. Todos los esquemas hacen un uso extensivo de la herencia. Las descripciones del formato XML de HOBIT se basan en dos esquemas XML, que contienen tipos elementales: Los tipos biológicos básicos, como las secuencias de aminoácidos, se definen en una colección denominada BioTipos [31]. El uso de estos tipos en los esquemas XML recientemente desarrollados se ilustra en la figura & # x200B figura 1. 1. Más elementos técnicos, p. Ej. Los parámetros de una aplicación de línea de comandos, a menudo necesarios en los esquemas XML, se recopilan en los HobitTypes [32]. Para permitir un uso generalizado y diversificado de los esquemas, se incorporaron algunos puntos de extensión en los esquemas. La información no contabilizada en una versión determinada de un esquema se puede agregar fácilmente como atributo. Esto se logra agregando declaraciones XSD anyAttribute a las etiquetas centrales.

Concepto básico de esquemas XML HOBIT. El concepto básico de los esquemas XML de HOBIT se explica paso a paso utilizando SequenceML como ejemplo. Primero, una secuencia de aminoácidos con id y descripción en el conocido formato FASTA se convierte en SequenceML. La codificación de colores resalta el contenido transformado. En SequenceML es posible diferenciar entre varios tipos de secuencia (en este caso una secuencia de aminoácidos), definida por el esquema SequenceML. El esquema SequenceML deriva su información de tipo básica de BioTypes.

Dado que esto abre la posibilidad de una extensión incorrecta de un esquema dado, pero se deben considerar extensiones razonables durante la validación, era necesario un mecanismo para respaldar el desarrollo continuo. Para cumplir con este requisito, se instaló una página Wiki pública [33]. Se invita a todas las personas interesadas a hacer sugerencias para la mejora de los esquemas directamente en la Wiki, trabajando en cooperación con otras personas para mejorar las definiciones de los esquemas. Los esquemas XML se pueden obtener del repositorio de subversion ubicado en [34]. Para fines de control de calidad, los cambios solo pueden ser realizados por miembros registrados del proyecto SourceForge [35] BioSchema [36].

Formatos de secuencia

SequenceML

SequenceML trata con todo tipo de información de secuencia simple que a menudo se utiliza como entrada para varias herramientas bioinformáticas comunes. Está diseñado para ser utilizado como un reemplazo XML del formato FASTA [17], que contiene toda la información de FASTA y evita los problemas de consistencia de ese formato antes mencionados. SequenceML diferencia entre secuencias nucleicas y de aminoácidos siguiendo el estándar IUPAC y también permite al usuario agregar información de secuencia libre basada en tipos básicos definidos por BioTypes [31] (figura & # x200B (figura1). 1). SequenceML también admite una identificación de secuencia obligatoria y una descripción de secuencia detallada opcional. SequenceML no contiene ninguna información de anotación.

SequenceAnnotationML

SequenceAnnotationML se basa en SequenceML. Mientras que SequenceML contiene información de secuencia sin procesar, SequenceAnnotationML permite anotaciones adicionales. Por lo tanto, mientras que SequenceML se usa a menudo como entrada para herramientas bioinformáticas, SequenceAnnotationML se puede usar para almacenar el resultado. SequenceAnnotationML permite modelar sitios de interés de pequeñas secuencias (ADN, ARN o proteína). Además, es posible encapsular anotaciones del genoma completo debido a su estructura recursiva.

AlignmentML

AlignmentML es un formato que describe información de alineación (múltiple) que puede producir cualquier programa de alineación como CLUSTALW [18], DCA [37] y Dialign [38]. Al igual que en SequenceML, se admiten diferentes tipos de secuencia.

Formatos de estructura secundaria de ARN

RNAStructML

RNAStructML es un formato para almacenar información de estructura secundaria de ARN. La aplicación más utilizada para herramientas de ARN, como RNAshapes [39], RNAfold [19] y Mfold [40] es la proprosal de estructuras secundarias de ARN, basadas en principios termodinámicos. RNAStructML está inspirado en SequenceML y utiliza cadenas DotBracket de estilo Viena para almacenar información sobre estructuras secundarias de ARN.

RNAStructAlignmentML

RNAStructAlignmentML es un formato para almacenar alineaciones de estructuras secundarias de ARN calculadas por ej. RNAforester [41] o RNAalifold [42]. RNAStructAlignmentML utiliza una arquitectura similar a RNAStructML, pero se basa en AlignmentML en lugar de SequenceML.

BioDOM

Para simplificar el uso de los formatos XML de HOBIT, se ha desarrollado una biblioteca Java (BioDOM) fácil de usar. BioDOM proporciona una manera fácil de crear archivos XML siguiendo las descripciones del formato HOBIT desde el interior de los propios programas del usuario. Está diseñado para ser un sistema modular que se puede ampliar fácilmente según sea necesario para adaptarse a nuevos formatos. Además, BioDOM proporciona funciones para convertir la salida nativa no XML de varias herramientas bioinformáticas a los formatos XML de HOBIT.

La biblioteca BioDOM contiene una clase Java para cada formato XML soportado de forma nativa, que implementa métodos para crear la estructura de datos correspondiente agregando las partes necesarias al nuevo documento o importando datos de formatos de datos ordinarios a elementos XML.

Cada una de estas clases se basa en la clase abstracta AbstractBioDOM, que proporciona métodos comúnmente requeridos para todos los convertidores, p. Ej. para configurar y obtener el contenido del modelo de objetos de documentos (DOM), validar el documento con un esquema XML o crear una representación de cadena de los datos XML contenidos en el objeto. AbstractBioDOM también proporciona un mecanismo general para la conversión de formato XML a XML mediante scripts XSLT [43]. Finalmente, se integran algunos métodos para acceder a las funciones de registro y manejo de errores / excepciones de la biblioteca BioDOM. Esto permite una degradación elegante del sistema y la notificación al usuario en caso de datos de entrada erróneos o circunstancias imprevistas durante la creación o conversión de datos.

La versión actual 1.2 de BioDOM es compatible con los formatos XML de HOBIT SequenceML, AlignmentML, RNAStructML y RNAStructAlignmentML, lo que permite la creación de documentos en estos formatos y, además, la conversión desde y hacia (múltiples) FASTA, CLUSTALW y el formato DotBracket estilo Viena. También se proporcionan convertidores XSLT para TinySeq [44], INSDseq [45] y EMBLxml [45]. Debido a su diseño modular, BioDOM se puede ampliar muy fácilmente con scripts XSL de terceros o clases Java propias. Además, está en constante desarrollo y prueba para admitir formatos de datos adicionales.


Kellis Lab en MIT Computer Science y Broad Institute

    Genómica unicelular: La traducción de los hallazgos genéticos en terapéutica sigue siendo un desafío sin resolver, en parte porque en el 93% de los casos, las variantes comunes asociadas a la enfermedad no alteran las proteínas directamente, sino que alteran sus elementos de control genómico. Nuestro grupo desarrolla y utiliza mapas epigenómicos de elementos reguladores y circuitos celulares que los vinculan con sus reguladores y genes diana, con el fin de comprender cómo la variación genética humana contribuye a la enfermedad y el cáncer. Hemos desarrollado recursos y métodos para estudiar cómo la variación genética afecta la expresión génica, la actividad de la región reguladora, los fenotipos celulares y, en última instancia, las enfermedades humanas. Hemos aplicado estos métodos a la obesidad, la enfermedad de Alzheimer, los rasgos cardiovasculares, los trastornos psiquiátricos y el cáncer, lo que ha dado lugar a múltiples conocimientos. Además de diseccionar estos circuitos, hemos utilizado la manipulación de genes y la edición del genoma para revertir las firmas fenotípicas de la enfermedad de individuos de riesgo y sin riesgo, allanando el camino para la terapéutica basada en la genómica.
    Más sobre: ​​genómica unicelular

Artículos de noticias sobre nuestro trabajo

Publicaciones Seleccionadas

Ruzicka, Mohammadi, Davila-Velderrain, Subburaju, Tso, Hourihan, Kellis

La esquizofrenia es un trastorno mental devastador con una alta carga social, una fisiopatología compleja y diversos factores de riesgo genéticos y ambientales. Su complejidad, poligenicidad y contribuyentes de tamaño de efecto pequeño y tipo celular específico han obstaculizado la elucidación mecanicista y la búsqueda de nuevas terapias. A continuación, presentamos la primera disección de una sola célula de la esquizofrenia, en más de 500.000 células de 48 muestras de corteza prefrontal humana post mortem, incluidos 24 casos de esquizofrenia y 24 controles. Anotamos 20 tipos / estados de células, proporcionando un atlas de alta resolución de genes y vías alterados por la esquizofrenia en cada uno. Encontramos que las neuronas son el tipo de célula más afectado, con neuronas de proyección corticocortical de capa profunda y neuronas inhibidoras que expresan parvalbúmina que muestran cambios transcripcionales significativos que convergen en regiones genéticamente implicadas. Descubrimos un nuevo estado de células de neuronas excitadoras indicativo de resiliencia transcripcional y enriquecido en sujetos con esquizofrenia con firmas transcripcionales menos perturbadas. Identificamos factores clave de acción trans como impulsores candidatos de las perturbaciones transcripcionales observadas, incluidos MEF2C, TCF4, SOX5 y SATB2, y mapeamos sus patrones de unión en neuronas humanas post mortem. Estos factores regulan distintos conjuntos de genes que subyacen al neurodesarrollo fetal y la función sináptica del adulto, uniendo dos modelos principales de patogénesis de la esquizofrenia. Nuestros resultados proporcionan el mapa más detallado hasta la fecha para la comprensión mecanicista y el desarrollo terapéutico en los trastornos neuropsiquiátricos.

Park, él, Davila-Velderrain, Hou, Mohammadi, Mathys, Peng, Bennett, Tsai, Kellis

Miles de variantes genéticas que actúan en múltiples tipos de células subyacen a trastornos complejos, sin embargo, la mayoría de los estudios de expresión génica solo describen los tejidos a granel, lo que dificulta la resolución de dónde actúan los contribuyentes genéticos y no genéticos. Esto es particularmente importante para los trastornos psiquiátricos y neurodegenerativos que afectan a múltiples tipos de células cerebrales con patrones y proporciones de expresión génica muy distintos. Para abordar este desafío, desarrollamos un nuevo marco, SPLITR, que integra datos de secuencia de ARN de un solo núcleo y a granel, lo que permite la deconvolución consciente del fenotipo y corrige las discrepancias sistemáticas entre los datos a granel y de una sola célula. Desconvolucionamos 3.387 muestras de cerebro post-mortem en 1.127 individuos y en múltiples regiones del cerebro. Encontramos que la proporción de células varía entre las regiones del cerebro, los individuos, el estado de la enfermedad y el genotipo, incluidas las variantes genéticas en TMEM106B que afectan la fracción de neuronas inhibidoras y 4757 eQTL específicos del tipo de célula. Nuestros resultados demuestran el poder de analizar conjuntamente la secuencia de ARN a granel y unicelular para proporcionar información sobre los mecanismos específicos del tipo de célula para trastornos cerebrales complejos.

Boix, James, Parque, Meuleman, Kellis

Anotar la base molecular de la enfermedad humana sigue siendo un desafío sin resolver, ya que el 93% de los loci de la enfermedad no son codificantes y las anotaciones reguladoras de genes son muy incompletas. Aquí presentamos EpiMap, un compendio que comprende 10,000 mapas epigenómicos en 800 muestras, que usamos para definir estados de cromatina, potenciadores de alta resolución, módulos potenciadores, reguladores ascendentes y genes diana descendentes. Utilizamos este recurso para anotar 30.000 loci genéticos que se asociaron con 540 rasgos, prediciendo tejidos relevantes para el rasgo, variantes de nucleótidos causales putativas en potenciadores de tejido enriquecidos y genes diana candidatos específicos de tejido para cada uno. Dividimos los rasgos multifactoriales en factores contribuyentes específicos de tejido con distintos enriquecimientos funcionales y patrones de comorbilidad de la enfermedad, y revelamos loci pleiotrópicos monotrópicos y multifactoriales de un solo factor. Los loci de puntuación más alta con frecuencia tenían múltiples variantes impulsoras predichas, que convergen a través de múltiples potenciadores con un gen diana común, múltiples genes en tejidos comunes o múltiples genes y múltiples tejidos, lo que indica una pleiotropía extensa. Nuestros resultados demuestran la importancia de las anotaciones epigenómicas densas, ricas y de alta resolución para la investigación de rasgos complejos.

Shi, Kasumova, Michaud, Cintolo-González, Díaz-Martínez, Ohmura, Mehta, Chien, Frederick, Cohen, Plana, Johnson, Flaherty, Sullivan, Kellis, Boland

Los inhibidores de puntos de control inmunológico (ICI) son prometedores, pero la mayoría de los pacientes no responden. Identificamos y validamos biomarcadores de vesículas extracelulares (VE), lo que permite un seguimiento no invasivo del estado inmunitario intrínseco del tumor y del huésped, así como una predicción de la respuesta ICI. Realizamos un perfil transcriptómico de EVs derivados de plasma y tumores de 50 pacientes con melanoma metastásico que recibieron ICI, y validamos con una cohorte independiente de EV solo de 30 pacientes. El EV derivado de plasma y los transcriptomas tumorales se correlacionan. Los perfiles EV revelan los impulsores de la resistencia a la ICI y la progresión del melanoma, exhiben genes / vías expresados ​​de manera diferencial y se correlacionan con la respuesta clínica a la ICI. Creamos un modelo de deconvolución probabilístico bayesiano para estimar las contribuciones de fuentes tumorales y no tumorales, lo que permite la interpretación de genes / vías expresados ​​diferencialmente. Las mutaciones de EV RNA-seq también segregaron la respuesta de ICI. Los EV sirven como un biomarcador no invasivo para sondear conjuntamente los cambios inmunitarios e intrínsecos del tumor a la ICI, funcionan como marcadores predictivos de la capacidad de respuesta de la ICI y monitorean la persistencia del tumor y la activación inmune.

Mohammadi, Davila-Velderrain, Kellis

La disección de la heterogeneidad celular incrustada en los datos transcriptómicos unicelulares es un desafío. Aunque existen muchos métodos y enfoques, identificar los estados de las células y su topología subyacente sigue siendo un desafío importante. Aquí, presentamos el concepto de descomposición de estado de celda multiresolución como un enfoque práctico para capturar simultáneamente patrones de variabilidad de grano fino y grueso. Implementamos este concepto en ACTIONet, un marco integral que combina el análisis arquetípico y el aprendizaje múltiple para proporcionar un enfoque analítico listo para usar para la caracterización del estado de una sola celda de múltiples resoluciones. ACTIONet proporciona una plataforma de análisis unicelular robusta, reproducible y altamente interpretable que combina el descubrimiento de patrones dominantes con una representación estructural correspondiente del panorama del estado celular. Utilizando múltiples conjuntos de datos sintéticos y reales, demostramos el rendimiento superior de ACTIONet en relación con las alternativas existentes. Usamos ACTIONet para integrar y anotar células en tres conjuntos de datos de la corteza humana. A través del análisis comparativo integrador, definimos un vocabulario de consenso y un conjunto consistente de firmas genéticas que discriminan los tipos y subtipos de células transcriptómicas de la corteza prefrontal humana.

A pesar de su abrumadora importancia clínica, el conjunto de genes del SARS-CoV-2 sigue sin resolverse, lo que dificulta la disección de la biología de COVID-19. Aquí, utilizamos genómica comparativa para proporcionar un conjunto de genes codificadores de proteínas de alta confianza, caracterizar la restricción evolutiva a nivel de proteína y a nivel de nucleótido, y priorizar mutaciones funcionales de la pandemia de COVID-19 en curso. Seleccionamos 44 genomas completos de Sarbecovirus a distancias evolutivas ideales para la identificación de elementos codificantes y no codificantes de proteínas, creamos alineaciones de genoma completo y cuantificamos las firmas evolutivas codificantes de proteínas y la restricción de superposición. Encontramos firmas de codificación de proteínas fuertes para todos los genes nombrados y para 3a, 6, 7a, 7b, 8, 9b, y también ORF3c, un nuevo gen de marco alternativo. Por el contrario, el ORF10 y los ORF superpuestos 9c, 3b y 3d carecen de firmas de codificación de proteínas o evidencia experimental convincente y no codifican proteínas. Además, mostramos que no quedan por descubrir otros genes codificadores de proteínas. Las presiones evolutivas entre cepas y dentro de cepas concuerdan en gran medida en los niveles de genes, aminoácidos y nucleótidos, con algunas excepciones notables, incluidas menos mutaciones de las esperadas en nsp3 y la subunidad S1 de Spike, y mutaciones más de las esperadas en Nucleocápside. Este último también muestra un grupo de variantes que cambian de aminoácidos en residuos conservados de otro modo en un epítopo de células B predicho, lo que puede indicar una selección positiva para la evitación inmunitaria. Varias mutaciones de la proteína Spike, incluida la D614G, que se ha asociado con un aumento de la transmisión, interrumpen los aminoácidos que de otro modo se conservarían perfectamente y podrían ser nuevas adaptaciones para los huéspedes humanos. El conjunto de genes de alta confianza resultante y las anotaciones de la historia evolutiva proporcionan valiosos recursos y conocimientos sobre la biología, las mutaciones y la evolución de COVID-19.

Marco, Meharena, Dileep, Raju, Davila-Velderrain, Zhang, Adaikkan, Young, Gao, Kellis, Tsai

El epigenoma y la arquitectura genómica tridimensional (3D) están emergiendo como factores clave en la regulación dinámica de diferentes programas transcripcionales necesarios para las funciones neuronales. En este estudio, utilizamos un sistema de etiquetado dependiente de la actividad en ratones para determinar el estado epigenético, la arquitectura del genoma en 3D y el paisaje transcripcional de las células de engrama durante la vida útil de la formación y el recuerdo de la memoria. Nuestros hallazgos revelan que la codificación de la memoria conduce a un evento de cebado epigenético, marcado por una mayor accesibilidad de los potenciadores sin los correspondientes cambios transcripcionales. Posteriormente, la consolidación de la memoria da como resultado la reorganización espacial de grandes segmentos de cromatina y las interacciones promotor-potenciador. Finalmente, con la reactivación, las neuronas de engrama utilizan un subconjunto de interacciones de novo de largo alcance, donde los potenciadores cebados se ponen en contacto con sus respectivos promotores para regular al alza los genes implicados en la traducción de proteínas locales en los compartimentos sinápticos. En conjunto, nuestro trabajo aclara el panorama transcripcional y epigenómico integral a lo largo de la vida útil de la formación de la memoria y el recuerdo en el conjunto de engramas del hipocampo.

Blanchard, Bula, Davila-Velderrain, Akay, Zhu, Frank, Victor, Bonner, Mathys, Lin, Ko, Bennett, Cam, Kellis, Tsai

En la enfermedad de Alzheimer, los depósitos de amiloide a lo largo de la vasculatura cerebral conducen a una afección conocida como angiopatía amiloide cerebral (CAA), que altera la función de la barrera hematoencefálica (BBB) ​​y acelera la degeneración cognitiva. La apolipoproteína (APOE4) es el factor de riesgo más fuerte de CAA, sin embargo, se desconocen los mecanismos subyacentes a esta susceptibilidad genética. Aquí desarrollamos un modelo tridimensional basado en células madre pluripotentes inducidas que recapitula las propiedades anatómicas y fisiológicas de la BBB humana in vitro. De manera similar a CAA, nuestra BBB in vitro mostró una acumulación de amiloide significativamente mayor en APOE4 en comparación con APOE3. Los experimentos combinatorios revelaron que la desregulación de la señalización del factor nuclear de calcineurina de las células T activadas (NFAT) y APOE en células murales similares a pericitos induce patología de CAA asociada a APOE4. En el cerebro humano, APOE y NFAT se desregulan selectivamente en los pericitos de los portadores de APOE4, y la inhibición de la señalización de calcineurina-NFAT reduce la patología de CAA asociada a APOE4 in vitro e in vivo. Nuestro estudio revela el papel de los pericitos en la CAA mediada por APOE4 y destaca la señalización de calcineurina-NFAT como un objetivo terapéutico en la CAA y la enfermedad de Alzheimer.

Li, Nair, Lu, Wen, Wang, Dehaghi, Miao, Liu, Ordog, Biernacka, Ryu, Olson, Frye, Liu, Guo, Marelli, Ahuja, Davila-Velderrain, Kellis

Los registros de salud electrónicos (HCE) son colecciones ricas y heterogéneas de información sobre la salud del paciente, cuya amplia adopción brinda a los médicos e investigadores oportunidades sin precedentes para la informática de la salud, la predicción del riesgo de enfermedades, las recomendaciones clínicas procesables y la medicina de precisión. Sin embargo, los HCE presentan varios desafíos de modelado, que incluyen matrices de datos muy escasas, notas clínicas irregulares y ruidosas, sesgos arbitrarios en la asignación de códigos de facturación, pruebas de laboratorio basadas en diagnósticos y tipos de datos heterogéneos. Para abordar estos desafíos, presentamos MixEHR, un modelo de temas bayesianos de múltiples vistas. Demostramos MixEHR en MIMIC-III, Mayo Clinic Bipolar Disorder y Quebec Congenital Heart Disease EHR datasets. Cualitativamente, los temas de enfermedades de MixEHR revelan combinaciones significativas de características clínicas en tipos de datos heterogéneos. Cuantitativamente, observamos una precisión de predicción superior de los códigos de diagnóstico y las imputaciones de pruebas de laboratorio en comparación con los métodos de última generación. Aprovechamos las mezclas de temas de pacientes inferidos para clasificar las enfermedades objetivo y predecir la mortalidad de los pacientes en condiciones críticas. En toda comparación, MixEHR confiere un rendimiento competitivo y revela temas significativos relacionados con enfermedades.

Khan, Jungreis, Wright, Mudge, Choudhary, Firth, Kellis

Antecedentes: POLG, ubicado en el cromosoma 15 nuclear, codifica la ADN polimerasa gamma (Pol gamma). Pol gamma es responsable de la replicación y reparación del ADN mitocondrial (ADNmt). Pol gamma es la única ADN polimerasa que se encuentra en las mitocondrias para la mayoría de las células animales. Las mutaciones en POLG son la causa de un solo gen más común de enfermedades de las mitocondrias y se han cartografiado sobre la región codificante del ORF de POLG. Resultados: Utilizando PhyloCSF para examinar marcos de lectura alternativos, encontramos una firma de codificación conservada en un marco alternativo en los exones 2 y 3 de POLG, en el presente documento ORF-Y que surgió de novo en mamíferos placentarios. Usando el programa synplot2, se encontró conservación de sitios sinónimos entre mamíferos en la región del ORF de POLG que se superpone con ORF-Y. Los datos de perfiles de ribosomas revelaron que ORF-Y se traduce y que es probable que la iniciación se produzca en un codón CUG. La inspección de una alineación de secuencias de mamíferos que contienen ORF-Y reveló que el codón CUG tiene un fuerte contexto de iniciación y que un tallo-bucle de ARN predicho bien conservado comienza 14 nucleótidos cadena abajo. Tales características están asociadas con una iniciación mejorada en codones no AUG casi afines. Reanálisis de Kim et al. (2014) el borrador del conjunto de datos del proteoma humano produjo dos péptidos únicos que se asignan de manera inequívoca a ORF-Y. También se encontró un uORF conservado adicional, denominado aquí ORF-Z, en el exón 2 de POLG. Por último, encuestamos variantes de Clinvar que son sinónimos con respecto al ORF de POLG y encontramos que la mayoría de estas variantes causan cambios de aminoácidos en ORF-Y o ORF-Z. Conclusiones: Proporcionamos evidencia de una secuencia de codificación novedosa, ORF-Y, que se superpone al ORF de POLG. Los datos de espectrometría de masas y perfiles de ribosomas muestran que se expresa ORF-Y. Los análisis PhyloCSF y synplot2 muestran que ORF-Y está sujeto a una fuerte selección purificadora. Una abundancia de mutaciones correlacionadas con la enfermedad que se asignan a los exones 2 y 3 de POLG pero que también afectan a ORF-Y proporciona una importancia clínica potencial a este hallazgo.

Mohammadi, Davila-Velderrain, Kellis

El interactoma humano es fundamental en el estudio a nivel de sistemas de la célula y la contextualización de las perturbaciones genéticas asociadas a la enfermedad. Sin embargo, los interactomas del organismo de referencia no capturan el contexto específico del tipo de célula en el que las proteínas y los módulos actúan preferentemente. Aquí, presentamos SCINET, un marco computacional que reconstruye un conjunto de interactomas específicos del tipo de célula mediante la integración de un interactoma de referencia global e independiente del contexto con un perfil de expresión génica de una sola célula. SCINET aborda los desafíos técnicos de los datos de una sola celda al imputar, transformar y normalizar de manera sólida la expresión de datos inicialmente ruidosa y dispersa. Las probabilidades inferidas de interacción de genes a nivel celular y las fortalezas de interacción a nivel de grupo definen interactomas específicos del tipo de célula. Usamos SCINET para reconstruir y analizar interactomas de los principales tipos de células inmunes y del cerebro humano, revelando la especificidad y modularidad de las perturbaciones asociadas con trastornos neurodegenerativos, neuropsiquiátricos y autoinmunes. Divulgamos interactomas de tipo celular para el cerebro y los tipos de células inmunes, junto con el paquete SCINET.

Parque, Sarkar, Nguyen, Kellis

Las estadísticas resumidas de los estudios de asociación de todo el genoma (GWAS) enseñan la relación causal entre millones de marcadores genéticos y decenas y miles de fenotipos. Sin embargo, aún no se han esclarecido los mecanismos biológicos subyacentes. Podemos lograr la interpretación necesaria de GWAS en un marco de mediación causal, buscando establecer un conjunto disperso de mediadores entre las variables genéticas y posteriores, pero existen varios desafíos. A diferencia de los métodos existentes que se basan en suposiciones sólidas y poco realistas, abordamos los desafíos prácticos dentro de un marco de inferencia causal basado en un resumen de principios. Analizamos los métodos propuestos en extensas simulaciones generadas a partir de datos genéticos del mundo real. Demostramos que solo nuestro enfoque puede redimir con precisión genes causales, incluso sin conocer datos reales a nivel individual, a pesar de la presencia de pistas no causales en competencia.

Los registros de salud electrónicos (HCE) son una colección rica y heterogénea de información de salud del paciente, cuya amplia adopción brinda grandes oportunidades para la extracción sistemática de datos de salud. Sin embargo, los tipos de datos heterogéneos de HCE y la verificación sesgada imponen desafíos computacionales. Aquí, presentamos mixEHR, un modelo generativo no supervisado que integra el filtrado colaborativo y los modelos de temas latentes, que modela conjuntamente las distribuciones discretas del sesgo de observación de datos y los datos reales utilizando distribuciones latentes de enfermedades y temas. Aplicamos mixEHR en 12,8 millones de observaciones fenotípicas del conjunto de datos MIMIC y lo usamos para revelar temas de enfermedades latentes, interpretar resultados de EHR, imputar datos faltantes y predecir la mortalidad en unidades de cuidados intensivos. Utilizando tanto la simulación como los datos reales, mostramos que mixEHR supera a los métodos anteriores y revela información significativa sobre múltiples enfermedades.

Park, Sarkar, He, Davila-Velderrain, De Jager, Kellis

Menon, Mohammadi, Davila-Velderrain, Mercancías, Cadwell, Xing, Stemmer-Rachamimov, Shalek, Love, Kellis, Hafler

Los estudios de asociación de todo el genoma (GWAS) han identificado variantes genéticas asociadas con la degeneración macular relacionada con la edad (AMD), una de las principales causas de ceguera en los ancianos. Sin embargo, ha sido un desafío identificar los tipos de células asociados con la DMAE dada la complejidad genética de la enfermedad. Aquí realizamos una secuenciación masivamente paralela de ARN unicelular (scRNA-seq) de retinas humanas utilizando dos plataformas independientes, y presentamos el primer atlas transcriptómico unicelular de la retina humana. Utilizando un análisis basado en red de múltiples resoluciones, identificamos todos los principales tipos de células de la retina y sus correspondientes firmas de expresión génica. Se observa heterogeneidad dentro de la macroglia, lo que sugiere que la glía retiniana humana es más diversa de lo que se pensaba anteriormente. Finalmente, el análisis de enriquecimiento basado en GWAS identifica la glía, las células vasculares y los fotorreceptores de cono que se asocian con el riesgo de AMD. Estos datos proporcionan un análisis detallado de la retina humana y muestran cómo scRNA-seq puede proporcionar información sobre los tipos de células involucradas en enfermedades genéticas inflamatorias complejas.

Mudge, Jungreis, Hunt, González, Wright, Kay, Davidson, Fitzgerald, Seal, Tweedie, Él, Waterhouse, Li, Bruford, Choudhary, Frankish, Kellis

La función más apreciada del ADN es la de codificar proteínas; sin embargo, queda por determinar la parte exacta del genoma humano que se traduce. Anteriormente desarrollamos PhyloCSF, una herramienta ampliamente utilizada para identificar firmas evolutivas de regiones codificantes de proteínas utilizando alineaciones genómicas de múltiples especies. Aquí, presentamos las primeras pistas de predicción PhyloCSF de genoma completo para humanos, ratones, pollos, moscas, gusanos y mosquitos. Desarrollamos un flujo de trabajo que utiliza el aprendizaje automático para predecir nuevas regiones codificantes de proteínas conservadas y guiar de manera eficiente su curación manual. Analizamos más de 1000 regiones PhyloCSF humanas de alta puntuación y agregamos con confianza 144 genes codificadores de proteínas conservados al conjunto de genes GENCODE, así como regiones codificantes adicionales dentro de 236 genes codificadores de proteínas previamente anotados y 169 pseudogenes, la mayoría de ellos deshabilitados después de que los primates divergieran. La mayoría de estos representan nuevos descubrimientos, incluidos 70 genes codificadores de proteínas no detectados previamente. Los genes codificadores novedosos están respaldados adicionalmente por pruebas de variantes de un solo nucleótido que indican una selección purificadora continua en el linaje humano, pruebas de empalme de exones codificadores de nuevas transcripciones GENCODE utilizando conjuntos de datos transcriptómicos de próxima generación y pruebas de espectrometría de masas de traducción para varios genes nuevos. Nuestros descubrimientos requirieron la anotación comparativa simultánea de otros genomas de vertebrados, que mostramos es esencial para eliminar los ORF falsos y para distinguir la codificación de las regiones pseudogénicas. Nuestras nuevas regiones codificantes ayudan a dilucidar las regiones asociadas a enfermedades, al revelar que 118 variantes de GWAS que antes se pensaba que no codificaban, de hecho, alteran las proteínas. En conjunto, nuestros conjuntos de datos y algoritmos PhyloCSF ayudarán a los investigadores que buscan interpretar estos genomas, mientras que nuestras nuevas anotaciones presentan loci emocionantes para una mayor caracterización experimental.

Li, Liu, Zhang, Kubo, Yu, Fang, Kellis, Ren

Divulgamos un ensayo molecular, Metil-HiC, que puede capturar simultáneamente la conformación del cromosoma y el metiloma del ADN en una célula. Metil-HiC revela el estado coordinado de metilación del ADN entre los segmentos genómicos distales que se encuentran en proximidad espacial en el núcleo y delimita la heterogeneidad tanto de la arquitectura de la cromatina como del metiloma del ADN en una población mixta. Permite la caracterización simultánea de la organización de la cromatina y el epigenoma específicos del tipo celular en tejidos complejos.

Liu, Davila-Velderrain, Zhang, Kellis

A pesar de los grandes esfuerzos experimentales y computacionales destinados a diseccionar los mecanismos subyacentes al riesgo de enfermedad, el mapeo de los elementos reguladores cis para los genes diana sigue siendo un desafío. Aquí, presentamos un marco de factorización matricial para integrar datos de interacción física y funcional de segmentos genómicos. El marco se utilizó para predecir una red reguladora de bordes de interacción de cromatina que vinculan a más de 20000 promotores y 1,8 millones de potenciadores en 127 epigenomas de referencia humanos, incluidos los bordes que están presentes en cualquiera de los conjuntos de datos de entrada. Nuestra red integra evidencia funcional de patrones de actividad correlacionados de datos epigenómicos y evidencia física de interacciones de cromatina. Una contribución importante de este trabajo es la representación de datos heterogéneos con diferentes calidades como redes. Mostramos que la integración imparcial de fuentes de datos independientes que sugieren interacciones regulatorias produce asociaciones significativas respaldadas por evidencia funcional y física existente, que se correlaciona con características biológicas independientes esperadas.

Novoa, Jungreis, Jaillon, Kellis

Debido a la degeneración del código genético, múltiples codones se traducen en el mismo aminoácido. A pesar de ser "sinónimos", estos codones no se utilizan por igual. Se cree que las presiones selectivas impulsan la elección entre codones sinónimos dentro de un genoma, mientras que el contenido de GC, que generalmente se atribuye a la deriva mutacional, es el principal determinante de la variación entre especies. Aquí encontramos que, además del contenido de GC, también se pueden detectar firmas de uso de codones entre especies. Más específicamente, mostramos que un solo aminoácido, la arginina, es el principal contribuyente a las diferencias de sesgo de uso de codones en los dominios de la vida. Luego explotamos este hallazgo y mostramos que las firmas de sesgo de codón específico de dominio se pueden usar para clasificar una secuencia dada en su dominio de vida correspondiente con alta precisión. Luego nos preguntamos si la inclusión de patrones de autocorrelación de codones de uso de codones, que refleja la distribución no aleatoria de ocurrencias de codones a lo largo de una transcripción, podría mejorar el rendimiento de clasificación de nuestro algoritmo. Sin embargo, encontramos que los patrones de autocorrelación no son específicos de dominio y, sorprendentemente, no están relacionados con la reutilización de tRNA, en contraste con informes anteriores. En cambio, nuestros resultados sugieren que los patrones de autocorrelación de codones son un subproducto de la optimización de codones a lo largo de una secuencia, donde los genes altamente expresados ​​muestran codones "óptimos" autocorrelacionados, mientras que los genes de baja expresión muestran codones "no óptimos" autocorrelacionados.

Glorioso, Pfenning, Lee, Bennett, Sibille, Kellis, Guarente

La edad avanzada y el alelo APOE e4 son los dos mayores factores de riesgo de la enfermedad de Alzheimer (EA) y el deterioro de la función cognitiva. Describimos un indicador universal para medir la edad molecular del cerebro mediante el análisis del transcriptoma de cuatro cohortes humanas post mortem (n = 673, edades 25-97) libres de enfermedad neurológica. En una quinta cohorte de sujetos mayores con o sin enfermedad neurológica (n = 438, edades 67-108), mostramos que los sujetos con cerebros que se desvían en la dirección más avanzada de lo que se esperaría según la edad cronológica muestran un aumento en la EA, Parkinson enfermedad y deterioro cognitivo. Sorprendentemente, una edad molecular más joven (-5 años que la edad cronológica) protege contra la EA incluso en presencia de APOE e4. Un indicador de metilación del ADN establecido para la edad se correlaciona bien con el indicador del transcriptoma para determinar la edad molecular y asignar desviaciones de lo esperado. Nuestros resultados sugieren que el envejecimiento cerebral rápido y APOE e4 son factores de riesgo sinérgicos, y las intervenciones que retrasan el envejecimiento pueden reducir sustancialmente el riesgo de enfermedad neurológica y disminuir incluso en presencia de APOE e4

Mathys *, Davila-Velderrain *, Peng, Gao, Mohammadi, Young, Menon, He, Abdurrob, Jiang, Martorell, Ransohoff, Hafler, Bennett, Kellis *, Tsai *

La enfermedad de Alzheimer es un trastorno neurodegenerativo generalizado, cuya complejidad molecular sigue siendo poco conocida. Aquí, analizamos 80,660 transcriptomas de núcleo único de la corteza prefrontal de 48 individuos con diversos grados de patología de la enfermedad de Alzheimer. En seis tipos principales de células cerebrales, identificamos subpoblaciones transcripcionalmente distintas, incluidas aquellas asociadas con patología y caracterizadas por reguladores de mielinización, inflamación y supervivencia neuronal. Los cambios más fuertes asociados a la enfermedad aparecieron temprano en la progresión patológica y fueron altamente específicos del tipo de célula, mientras que los genes regulados positivamente en etapas tardías fueron comunes en todos los tipos de células y estaban involucrados principalmente en la respuesta global al estrés. En particular, encontramos que las células femeninas estaban sobrerrepresentadas en subpoblaciones asociadas a enfermedades y que las respuestas transcripcionales eran sustancialmente diferentes entre sexos en varios tipos de células, incluidos los oligodendrocitos. En general, los procesos relacionados con la mielinización se alteraron de forma recurrente en múltiples tipos de células, lo que sugiere que la mielinización tiene un papel clave en la fisiopatología de la enfermedad de Alzheimer. Nuestro recurso transcriptómico unicelular proporciona un modelo para interrogar la base molecular y celular de la enfermedad de Alzheimer.

Wang, él, Goggin, Saadat, Wang, Sinnott-Armstrong, Claussnitzer *, Kellis *

Los mapas epigenómicos de todo el genoma han revelado millones de potenciadores y promotores putativos, pero la validación experimental de su función y la disección de alta resolución de sus nucleótidos impulsores siguen siendo limitadas. Aquí, presentamos HiDRA (Disección de alta resolución de la actividad reguladora), un método combinado experimental y computacional para pruebas de alta resolución en todo el genoma y disección de supuestas regiones reguladoras. Probamos

7 millones de fragmentos de ADN accesibles en un solo experimento, mediante el acoplamiento de la extracción de cromatina accesible con reporteros episomales de autotranscripción (ATAC-STARR-seq). Por diseño, los fragmentos se superponen en gran medida en regiones accesibles densamente muestreadas, lo que nos permite identificar los nucleótidos reguladores impulsores mediante la explotación de las diferencias en la actividad entre los fragmentos que se superponen parcialmente mediante un modelo de aprendizaje automático (SHARPR-RE). En las células linfoblastoides GM12878, encontramos

65.000 regiones que muestran la función potenciadora y señalan

13.000 elementos de controlador de alta resolución. Estos están enriquecidos por motivos reguladores, nucleótidos conservados evolutivamente y variantes genéticas asociadas a enfermedades de estudios de asociación de todo el genoma. En general, HiDRA proporciona un enfoque de alta resolución y alto rendimiento para diseccionar regiones reguladoras y nucleótidos impulsores.

Onuchic, Lurie, Carrero, Pawliczek, Patel, Rozowsky, Galeev, Huang, Altshuler, Zhang, Harris, Coarfa, Ashmore, Bertol, Fakhouri, Yu, Kellis, Gerstein, Milosavljevic

Para evaluar el impacto de la variación genética en los loci reguladores en la salud humana, construimos un mapa de alta resolución de desequilibrios alélicos en la metilación del ADN, las marcas de histonas y la transcripción de genes en 71 epigenomas de 36 tipos distintos de células y tejidos de 13 donantes. La secuenciación profunda de bisulfito del genoma completo de 49 metilomas reveló desequilibrios de metilación de CpG dependientes de la secuencia en miles de loci reguladores heterocigotos. Dichos loci se enriquecen para la conmutación estocástica, que se define como transiciones aleatorias entre estados de ADN completamente metilados y no metilados. Los desequilibrios de metilación en miles de loci se pueden explicar por diferentes frecuencias relativas de los estados metilado y no metilado para los dos alelos. Los análisis adicionales proporcionaron un modelo unificador que vincula los desequilibrios alélicos dependientes de la secuencia del epigenoma, el cambio estocástico en los loci reguladores de genes y la variación genética asociada a la enfermedad.

Beaudoin, Novoa, Vejnar, Yartseva, Takacs, Kellis, Giraldez

El plegamiento del ARN juega un papel crucial en la función del ARN. Sin embargo, el conocimiento de la estructura global del transcriptoma se limita a los sistemas celulares en estado estable, lo que dificulta la comprensión de la dinámica de la estructura del ARN durante las transiciones biológicas y cómo influye en la función de los genes. Aquí, caracterizamos la dinámica de la estructura del ARNm durante el desarrollo del pez cebra. Observamos que, a nivel global, las guías de traducción estructuran en lugar de estructurar las guías de traducción. Detectamos una disminución en la estructura en las regiones traducidas e identificamos al ribosoma como un remodelador importante de la estructura del ARN in vivo. En contraste, encontramos que las regiones 3 'no traducidas (UTR) forman estructuras altamente plegadas in vivo, que pueden afectar la expresión génica al modular la actividad de microARN. Además, las estructuras dinámicas de 3'-UTR contienen elementos de desintegración de ARN, como los elementos reguladores en nanog y ccna1, dos genes que codifican factores maternos clave que orquestan la transición de la madre al cigótico. Estos resultados revelan un papel central de la dinámica de la estructura del ARN en los programas de regulación de genes.

Juul, Madsen, Guo, Bertl, Hobolth, Kellis, Pedersen

Comprender los procesos mutacionales que actúan durante el desarrollo del cáncer es un tema clave de la biología del cáncer. Sin embargo, queda mucho por aprender, ya que una interacción compleja de procesos con dependencias de una serie de características genómicas crea genomas de cáncer muy heterogéneos.La detección precisa del controlador se basa en modelos no sesgados de la tasa de mutación que también capturan la variación de la tasa no caracterizada. Aquí, analizamos patrones de recuentos de mutaciones observadas a esperadas en 505 genomas de cáncer completos y encontramos que las características genómicas que faltan en nuestro modelo de tasa de mutación probablemente operen en una escala de longitud de megabase. Extendemos nuestro modelo específico de sitio de la tasa de mutación para incluir la variación adicional de estas fuentes, lo que conduce a una evaluación sólida de la importancia de los impulsores del cáncer candidatos. Por lo tanto, presentamos ncdDetect v.2, con una especificidad de detección de impulsores de cáncer muy mejorada. Finalmente, mostramos que clasificar a los candidatos por su valor medio posterior de sus tamaños de efecto ofrece una alternativa equivalente y más eficiente desde el punto de vista computacional que clasificar por sus valores p. ncdDetect v.2 se implementa como un paquete R y está disponible gratuitamente en http://github.com/TobiasMadsen/ncdDetect2

Loughran, Jungreis, Tzani, Poder, Dmitriev, Ivanov, Kellis, Atkins

Aunque los virus utilizan ampliamente la lectura completa del codón de parada para expandir su expresión génica, sólo recientemente se han descubierto casos verificados de lectura completa en mamíferos mediante enfoques de biología de sistemas y genómica comparativa. Anteriormente, nuestro análisis de las firmas de codificación de proteínas conservadas que se extienden más allá de los codones de terminación anotados predijo la lectura del codón de terminación de varios genes de mamíferos, todos los cuales han sido validados experimentalmente. Cuatro ARNm muestran una lectura de codón de terminación altamente eficiente, y estos ARNm tienen un codón de terminación UGA seguido inmediatamente por CUAG ​​(UGA_CUAG) que se conserva en todos los vertebrados. Ampliando la identificación de este motivo de lectura, investigamos aquí la lectura del codón de parada, utilizando ensayos de reportero de cultivo de tejidos, para todos los genes humanos no probados previamente que contienen UGA_CUAG. La eficiencia de lectura del codón de terminación anotado para la secuencia que codifica el receptor de vitamina D (VDR) fue del 6,7%. Fue el más alto de los probados, pero todos mostraron niveles notables de lectura completa. El VDR es un miembro de la superfamilia de receptores nucleares de factores de transcripción inducibles por ligando y se une a su ligando principal, calcitriol, a través de su dominio de unión al ligando C-terminal. La lectura completa del ARNm de VDR anotado da como resultado una extensión C-terminal de 67 aminoácidos de longitud que genera una proteoforma de VDR llamada VDRx. VDRx puede formar homodímeros y heterodímeros con VDR pero, en comparación con VDR, VDRx mostró una respuesta transcripcional reducida al calcitriol incluso en presencia de su receptor X retinoide asociado.

Las regiones de ADN no codificantes tienen un papel central en la biología, la evolución y las enfermedades humanas. ChromHMM ayuda a anotar el genoma no codificante utilizando información epigenómica en uno o varios tipos de células. Combina múltiples mapas epigenómicos de todo el genoma y utiliza patrones de marcas combinatorios y espaciales para inferir una anotación completa para cada tipo de célula. ChromHMM aprende firmas de estado de cromatina mediante un modelo de Markov oculto multivariante (HMM) que modela explícitamente la presencia o ausencia combinatoria de cada marca. ChromHMM utiliza estas firmas para generar una anotación de todo el genoma para cada tipo de célula calculando el estado más probable para cada segmento genómico. ChromHMM proporciona un análisis de enriquecimiento automatizado de las anotaciones resultantes para facilitar las interpretaciones funcionales de cada estado de cromatina. ChromHMM se distingue por su énfasis en el modelado de combinaciones de marcas, su estrecha integración con análisis de enriquecimiento funcional posteriores, su velocidad y su facilidad de uso. Los estados de cromatina se aprenden, se producen anotaciones y los enriquecimientos se calculan en 1 día.

Liu, Sarkar, Kheradpour, Ernst, Kellis

La tasa de recombinación no se distribuye uniformemente en todo el genoma humano. La variación de la tasa de recombinación a escalas tanto fina como grande no puede explicarse completamente por las secuencias de ADN solamente. Recientemente se ha propuesto que los factores epigenéticos, en particular la metilación del ADN, influyen en la variación en la tasa de recombinación. Estudiamos la relación entre la tasa de recombinación y los dominios reguladores de genes, definidos por un gen y sus elementos de control vinculados. Definimos estos vínculos utilizando loci de rasgos cuantitativos de expresión (eQTL), loci de rasgos cuantitativos de metilación (meQTL), conformación de cromatina de conjuntos de datos disponibles públicamente (Hi-C y ChIA-PET) y vínculos de actividad correlacionada que inferimos a través de tipos de células. Cada tipo de enlace muestra un "valle de tasa de recombinación" de tasa de recombinación significativamente reducida en comparación con las regiones de control emparejadas. Este valle de la tasa de recombinación es más pronunciado para los dominios reguladores de genes de genes de desarrollo embrionario temprano, genes de mantenimiento y elementos reguladores constitutivos, que se sabe que muestran una mayor restricción evolutiva entre especies. Los valles de tasa de recombinación muestran un aumento de la metilación del ADN, una reducción de la iniciación de ruptura de doble hebra y una mayor eficiencia de reparación, específicamente en el linaje que conduce a la línea germinal. Además, utilizando solo la superposición de enlaces funcionales y la metilación del ADN en las células germinales, podemos predecir la tasa de recombinación con alta precisión. Nuestros resultados sugieren la existencia de un valle de la tasa de recombinación en los dominios reguladores y proporcionan un mecanismo molecular potencial para interpretar la interacción entre las variaciones genéticas y epigenéticas.

Consorcio eGTEx Stranger, Brigham, Hasz, Hunter, Johns, Johnson, Kopen, Leinweber, Lonsdale, McDonald, Mestichelli, Myer, Roe, Salvatore, Shad, Thomas, Walters, Washington, Wheeler, Bridge, Foster, Gillard, Karasik, Kumar, Miklos, Moser, Jewell, Montroy, Rohrer, Valley, Davis, Mash, Gould, Guan, Koester, Little, Martin, Moore, Rao, Struewing, Volpi, Hansen, Hickey, Rizzardi, Hou, Liu, Molinie, Park, Rinaldi, Wang, Van, Claussnitzer, Gelfand, Li, Linder, Zhang, Smith, Tsang, Chen, Demanelis, Doherty, Jasmine, Kibriya, Jiang, Lin, Wang, Jian, Li, Chan, Bates, Diegel, Halow, Haugen, Johnson, Kaul, Lee, Maurano, Nelson, Neri, Sandstrom, Fernando, Linke, Oliva, Skol, Wu, Akey, Feinberg, Li, Pierce, Stamatoyannopoulos, Tang, Ardlie, Kellis, Snyder, Montgomery

Las variantes genéticas se han asociado con una miríada de fenotipos moleculares que proporcionan una nueva comprensión de la gama de mecanismos que subyacen a las enfermedades y los rasgos genéticos. Identificar la cascada de efectos de cualquier variante genética en particular, desde la molécula hasta el individuo, requiere analizar múltiples capas de complejidad molecular. Presentamos el proyecto Enhancing GTEx (eGTEx) que amplía el proyecto GTEx para combinar la expresión génica con mediciones moleculares intermedias adicionales en los mismos tejidos para proporcionar un recurso para estudiar cómo las diferencias genéticas caen en cascada a través de fenotipos moleculares para impactar la salud humana.

Ernst, Melnikov, Zhang, Wang, Rogov, Mikkelsen, Kellis

Los ensayos informadores masivamente paralelos (MPRA) permiten la disección con resolución de nucleótidos de las regiones reguladoras de la transcripción, como los potenciadores, pero solo unas pocas regiones a la vez. Aquí presentamos un enfoque combinado experimental y computacional, perfilado sistemático de activación y represión de alta resolución con mosaico de reportero usando MPRA (Sharpr-MPRA), que permite el análisis de alta resolución de miles de regiones simultáneamente. Sharpr-MPRA combina un denso mosaico de construcciones MPRA superpuestas con un modelo gráfico probabilístico para reconocer nucleótidos reguladores funcionales y para distinguir nucleótidos activadores y represores, utilizando su contribución inferida a la expresión del gen informador. Usamos Sharpr-MPRA para probar 4,6 millones de nucleótidos que abarcan 15.000 supuestas regiones reguladoras en mosaico con una resolución de 5 nucleótidos en dos tipos de células humanas. Nuestros resultados recuperaron motivos reguladores específicos de tipo celular conocidos y nucleótidos conservados evolutivamente, y distinguieron motivos activadores y represores conocidos. Nuestros resultados también mostraron que el estado de la cromatina endógena y la accesibilidad del ADN predicen la función reguladora en los ensayos de reportero, identificaron elementos retrovirales con roles activadores y descubrieron motivos 'atenuadores' con roles represivos en la cromatina activa.

Jungreis, Chan, Waterhouse, Campos, Lin, Kellis

La lectura del codón de terminación traslacional surgió como un importante mecanismo regulador que afecta a cientos de genes en genomas animales, basándose en pruebas recientes de genómica comparativa y perfiles ribosómicos, pero sus propiedades evolutivas siguen siendo desconocidas. Aquí, aprovechamos la evidencia genómica comparativa en 21 mosquitos Anopheles para anotar sistemáticamente genes de lectura en el vector de la malaria Anopheles gambiae, y para proporcionar el primer estudio de evolución de lectura abundante, en comparación con 20 especies de Drosophila. Utilizando métodos de genómica comparativa mejorados para detectar la lectura, identificamos las firmas evolutivas de la lectura funcional conservada de 353 codones de parada en el vector de la malaria, Anopheles gambiae, y de 51 codones de parada adicionales de Drosophila melanogaster, incluidos varios casos de lectura doble y triple y de lectura completa. de dos codones de terminación adyacentes. Descubrimos que la mayoría de las diferencias entre los repertorios de lectura directa de las dos especies surgieron de la ganancia o pérdida de lectura completa en genes existentes, en lugar del nacimiento de nuevos genes o la muerte genética, ya que las estructuras de ARN asociadas a la lectura a veces se ganan o se pierden mientras persiste la lectura completa que la lectura completa es más Es probable que se pierda en los codones de terminación TAA y TAG y que la lectura continua se encuentre bajo una selección evolutiva purificadora continua en el mosquito, según la evidencia genética de la población. También determinamos las propiedades de genes asociados a la lectura directa que son anteriores a la lectura directa e identificamos las diferencias en las propiedades características de los genes de lectura directa entre clados. Estimamos más de 600 codones de parada de lectura funcionales en mosquitos y 900 en moscas de la fruta, proporcionamos evidencia de control de lectura de la orientación peroxisomal y refinamos la extensión filogenética de la lectura abundante según la divergencia del ciempiés.

Los estudios de asociación de todo el genoma (GWAS) proporcionan un enfoque poderoso para descubrir variantes asociadas a enfermedades en humanos, pero el mapeo fino de las variantes causales sigue siendo un desafío. Esto se remedia en parte mediante la priorización de las variantes asociadas a la enfermedad que se superponen a las anotaciones epigenómicas enriquecidas con GWAS. Aquí, presentamos un nuevo modelo bayesiano RiVIERA (Inferencia de variantes de riesgo usando anotaciones de referencia epigenómicas) para la inferencia de variantes de controladores a partir de estadísticas resumidas en múltiples rasgos usando cientos de anotaciones epigenómicas. En la simulación, el poder prometedor de RiVIERA para detectar variantes causales y anotaciones causales, la inferencia conjunta de múltiples rasgos mejoró aún más el poder de detección. Aplicamos RiVIERA para modelar las estadísticas de resumen de GWAS existentes de 9 enfermedades autoinmunes y esquizofrenia aprovechando conjuntamente los potenciales enriquecimientos causales entre 848 anotaciones epigenómicas específicas de tejido del consorcio ENCODE / Roadmap que cubre 127 tipos de células / tejidos y 8 marcas epigenómicas principales. RiVIERA identificó enriquecimientos específicos de tejido significativos para las regiones potenciadoras definidas por H3K4me1 y H3K27ac para células T sanguíneas específicamente en las nueve enfermedades autoinmunes y actividades potenciadoras específicas del cerebro exclusivamente en la esquizofrenia. Además, las variantes de los conjuntos 95% creíbles exhibieron una alta conservación y enriquecimiento para los eQTL de sangre completa GTEx ubicados dentro de los sitios de unión al factor de transcripción y los sitios de hipersensibilidad al ADN. Además, el modelado conjunto de los nueve rasgos inmunes al inferir y explotar simultáneamente la correlación epigenómica subyacente entre los rasgos mejoró aún más los enriquecimientos funcionales en comparación con los modelos de rasgo único.

Wang, Tucker, Rizki, Mills, Krijger, de Wit, Subramanian, Bartell, Nguyen, Ye, Leyton-Mange, Dolmatova, van der Harst, de Laat, Ellinor, Newton-Cheh, Milán, Kellis, Boyer

Las variantes genéticas identificadas por estudios de asociación de todo el genoma explican solo una modesta proporción de heredabilidad, lo que sugiere que las asociaciones significativas se encuentran "ocultas" por debajo de los umbrales actuales. Aquí, integramos información de estudios de asociación con mapas epigenómicos para demostrar que los potenciadores se superponen significativamente con los loci conocidos asociados con el intervalo QT cardíaco y la duración del QRS. Aplicamos criterios funcionales para identificar loci asociados con el intervalo QT que no cumplen con la significación de todo el genoma y no se encuentran en los estudios existentes. Demostramos que estas señales de "sub-umbral" representan nuevos loci, y que los mapas epigenómicos son eficaces para discriminar las verdaderas señales biológicas del ruido. Validamos experimentalmente los fenotipos moleculares, reguladores de genes, celulares y de organismos de estos loci subumbrales, demostrando que la mayoría de los loci subumbrales tienen consecuencias reguladoras y que la perturbación genética de genes cercanos causa fenotipos cardíacos en ratones. Nuestro trabajo proporciona un enfoque general para mejorar la detección de nuevos loci asociados con rasgos humanos complejos.

Más del 90% de las variantes comunes asociadas con rasgos complejos no afectan directamente a las proteínas, sino a los circuitos que controlan la expresión génica. Esto ha aumentado la urgencia de comprender el genoma regulador como un componente clave para traducir los resultados genéticos en conocimientos mecanicistas y, en última instancia, terapéuticos. Para abordar este desafío, desarrollamos HaploReg (http://compbio.mit.edu/HaploReg) para ayudar a la disección funcional de los resultados del estudio de asociación de todo el genoma (GWAS), la predicción de variantes causales putativas en bloques de haplotipos, la predicción de probables tipos de acción celular, y la predicción de genes objetivo candidatos mediante la extracción sistemática de anotaciones comparativas, epigenómicas y reguladoras. Desde el lanzamiento del sitio web por primera vez en 2011, hemos expandido enormemente HaploReg, aumentando el número de mapas de estado de cromatina a 127 epigenomas de referencia de ENCODE 2012 y Roadmap Epigenomics, incorporando datos de enlace de reguladores, expandiendo anotaciones de interrupción de motivos regulatorios e integrando locus de rasgos cuantitativos de expresión ( eQTL) y sus genes diana específicos de tejido de GTEx, Geuvadis y otros estudios recientes. Presentamos estas actualizaciones como HaploReg v4 e ilustramos un caso de uso de HaploReg para SNP asociados al trastorno por déficit de atención con hiperactividad (TDAH) con supuestos mecanismos reguladores del cerebro.

Claussnitzer, Dankel, Kim, Quon, Meuleman, Haugen, Glunk, Sousa, Beaudry, Puviindran, Abdennur, Liu, Svensson, Hsu, Drucker, Mellgren, Hui, Hauner, Kellis

Los estudios de asociación de todo el genoma se pueden utilizar para identificar regiones genómicas relevantes para la enfermedad, pero la interpretación de los datos es un desafío. La región FTO alberga la asociación genética más fuerte con la obesidad, sin embargo, la base mecanicista de esta asociación sigue siendo difícil de alcanzar. Examinamos los datos epigenómicos, la actividad alélica, la conservación del motivo, la expresión del regulador y los patrones de coexpresión de genes, con el objetivo de diseccionar el circuito regulador y la base mecanicista de la asociación entre la región FTO y la obesidad. Validamos nuestras predicciones con el uso de perturbaciones dirigidas en muestras de pacientes y de ratones y con la edición endógena del genoma CRISPR-Cas9 en muestras de pacientes. Nuestros datos indican que el alelo FTO asociado con la obesidad reprime la termogénesis mitocondrial en las células precursoras de adipocitos de manera autónoma en el tejido. La variante de un solo nucleótido rs1421085 T-to-C interrumpe un motivo conservado para el represor ARID5B, lo que conduce a la desrepresión de un potente potenciador de preadipocitos y una duplicación de la expresión de IRX3 e IRX5 durante la diferenciación temprana de adipocitos. Esto da como resultado un cambio en el desarrollo autónomo de las células de adipocitos beige (brite) que disipan energía a adipocitos blancos que almacenan energía, con una reducción de la termogénesis mitocondrial en un factor de 5, así como un aumento en el almacenamiento de lípidos. La inhibición de Irx3 en el tejido adiposo de ratones redujo el peso corporal y aumentó la disipación de energía sin un cambio en la actividad física o el apetito. La eliminación de IRX3 o IRX5 en adipocitos primarios de participantes con el alelo de riesgo restauró la termogénesis, incrementándola en un factor de 7, y la sobreexpresión de estos genes tuvo el efecto opuesto en los adipocitos de los portadores de alelos sin riesgo. La reparación del motivo ARID5B mediante edición CRISPR-Cas9 de rs1421085 en adipocitos primarios de un paciente con el alelo de riesgo restauró la represión de IRX3 e IRX5, activó los programas de expresión de pardeamiento y restauró la termogénesis, incrementándola en un factor de 7. Nuestros resultados apuntan a una Vía para la regulación de la termogénesis de los adipocitos que involucra ARID5B, rs1421085, IRX3 e IRX5, que, cuando se manipularon, tuvieron efectos pronunciados a favor y en contra de la obesidad.

Los conjuntos de datos epigenómicos proporcionan información crítica sobre el papel dinámico de los estados de la cromatina en la regulación génica, pero una cuestión clave de cómo varían las segmentaciones del estado de la cromatina en diferentes condiciones en todo el genoma no se ha abordado. Aquí presentamos ChromDiff, un método de comparación del estado de la cromatina por grupos que genera una representación teórica de la información de los epigenomas y corrige los factores de covariables externos para aislar mejor los cambios relevantes del estado de la cromatina. Al aplicar ChromDiff a los 127 epigenomas de los proyectos Roadmap Epigenomics y ENCODE, proporcionamos nuevos análisis comparativos grupales por sexo, tipo de tejido, estado y edad de desarrollo. Sorprendentemente, encontramos que distintos conjuntos de características epigenómicas son máximamente discriminativos para diferentes comparaciones grupales, en cada caso revelando distintas vías enriquecidas, muchas de las cuales no muestran diferencias en la expresión génica. Nuestra metodología debería ser ampliamente aplicable para las comparaciones epigenómicas y proporciona una nueva y poderosa herramienta para estudiar las diferencias de estado de la cromatina a escala del genoma.

Una unidad fundamental del control de la regulación genética es el contacto entre una proteína reguladora y su molécula de ADN o ARN diana. Los modelos biofísicos que predicen directamente estas interacciones están incompletos y se limitan a tipos específicos de estructuras, pero el análisis computacional de conjuntos de datos experimentales a gran escala permite identificar motivos reguladores por su sobrerrepresentación en secuencias diana. En este número, Alipanahi et al describen el uso de una estrategia de aprendizaje profundo para calcular las interacciones proteína-ácido nucleico a partir de diversos conjuntos de datos experimentales. Demuestran que su algoritmo, llamado DeepBind, es ampliamente aplicable y da como resultado un mayor poder predictivo en comparación con los métodos tradicionales de dominio único, y utilizan sus predicciones para descubrir motivos reguladores, para predecir la edición de ARN y el empalme alternativo e interpretar variantes genéticas. Más allá de los motivos regulatorios, los resultados actuales ilustran el poder del aprendizaje profundo para el análisis de datos biológicos en general. El enfoque puede aumentar el poder predictivo para tareas específicas, integrar diversos conjuntos de datos a través de tipos de datos y proporcionar una mayor generalización dado el enfoque en el aprendizaje de la representación y no simplemente en la precisión de la clasificación. La visualización y exploración sistemáticas de las representaciones internas en cada capa pueden generar conocimientos mecanicistas y orientar nuevos experimentos y direcciones de investigación. En términos más generales, el aprendizaje profundo puede servir como un principio rector para organizar tanto la investigación basada en hipótesis como la investigación exploratoria.Para que este potencial se haga realidad, las tareas estadísticas y biológicas deben integrarse en todos los niveles, incluido el diseño de estudios, la planificación de experimentos, la construcción y perfeccionamiento de modelos y la interpretación de datos. e interpretar variantes genéticas

Madabhushi, Gao, Pfenning, Pan, Yamakawa, Seo, Rueda, Phan, Yamakawa, Pao, Stott, Gjoneska, Nott, Cho, Kellis, Tsai.

La actividad neuronal provoca la rápida expresión de genes tempranos inmediatos que son cruciales para los cambios impulsados ​​por la experiencia en las sinapsis, el aprendizaje y la memoria. Aquí, utilizando métodos de secuenciación de próxima generación tanto moleculares como genómicos, informamos que la estimulación de la actividad neuronal desencadena la formación de roturas de doble hebra de ADN (DSB) en los promotores de un subconjunto de genes de respuesta temprana, incluidos Fos, Npas4 y Egr1. La generación de DSB de ADN dirigidos dentro de los promotores Fos y Npas4 es suficiente para inducir su expresión incluso en ausencia de un estímulo externo. La formación de DSB dependiente de la actividad probablemente esté mediada por la topoisomerasa de tipo II, Topoisomerasa IIbeta (Topo IIbeta), y la eliminación de Topo IIbeta atenúa tanto la formación de DSB como la expresión génica de respuesta temprana después de la estimulación neuronal. Nuestros resultados sugieren que la formación de DSB es un evento fisiológico que resuelve rápidamente las limitaciones topológicas de la expresión génica de respuesta temprana en las neuronas.

Consorcio GTEx Ardlie, Deluca, Segr , Sullivan, Young, Gelfand, Trowbridge, Maller, Tukiainen, Lek, Ward, Kheradpour, Iriarte, Meng, Palmer, Esko, Winckler, Hirschhorn, Kellis, MacArthur, Getz, Shabalin, Li, Zhou , Nobel, Rusyn, Wright, Lappalainen, Ferreira, Ongen, Rivas, Battle, Mostafavi, Monlong, Sammeth, Mel , Reverter, Goldmann, Koller, Guig , McCarthy, Dermitzakis, Gamazon, Im, Konkashbaev, Nicolae, Cox, Flutre , Wen, Stephens, Pritchard, Tu, Zhang, Huang, Long, Lin, Yang, Zhu, Liu, Brown, Mestichelli, Tidwell, Lo, Salvatore, Shad, Thomas, Lonsdale, Moser, Gillard, Karasik, Ramsey, Choi, Foster Syron, Fleming, Magazine, Hasz, Walters, Bridge, Miklos, Sullivan, Barker, Traino, Mosavel, Siminoff, Valley, Rohrer, Jewell, Branton, Sobin, Barcus, Qi, McLean, Hariharan, Um, Wu, Tabor, Shive , Smith, Buia, Undale, Robinson, Roche, Valentino, Britton, Burges, Bradbury, Hambright, Seleski, Korzeniewski, Erickson, Marcus, Tejada, Taherian, Lu, Basile, Mash, Volpi, Struewing, Temple, Boyer, Colantuoni, Pequeño, Koester, Carithers, Moore, Guan, Compton, Sawyer, Demchok, Vaught, Rabiner, Lockhart, Ardlie, Getz, Wright, Kellis, Volpi, Dermitzakis

Comprender las consecuencias funcionales de la variación genética y cómo afecta a las enfermedades humanas complejas y los rasgos cuantitativos sigue siendo un desafío fundamental para la biomedicina. Presentamos un análisis de los datos de secuenciación de ARN de 1641 muestras en 43 tejidos de 175 individuos, generados como parte de la fase piloto del proyecto Genotype-Tissue Expression (GTEx). Describimos el panorama de la expresión génica en los tejidos, catalogamos miles de variantes de loci de rasgos cuantitativos de expresión reguladora compartida (eQTL) específicas de tejido, describimos relaciones de red complejas e identificamos señales de estudios de asociación de todo el genoma explicados por eQTL. Estos hallazgos proporcionan una comprensión sistemática de las consecuencias celulares y biológicas de la variación genética humana y de la heterogeneidad de tales efectos entre un conjunto diverso de tejidos humanos.

Sealfon, Lin, Jungreis, Wolf, Kellis, Sabeti

La creciente disponibilidad de datos de secuencia para muchos virus proporciona el poder de detectar regiones con limitaciones evolutivas inusuales a alta resolución. Un enfoque aprovecha la tasa de sustitución de sinónimos como una firma para identificar regiones génicas que codifican elementos funcionales superpuestos o incrustados. Las regiones codificantes de proteínas en los genomas virales a menudo contienen elementos estructurales de ARN superpuestos, marcos de lectura, elementos reguladores, microARN y señales de empaquetamiento. Las sustituciones de sinónimos en estas regiones se desfavorecerían selectivamente y, por lo tanto, estas regiones se caracterizan por un exceso de restricción de sinónimos. La elección de codones también puede modular la eficiencia transcripcional, la precisión de la traducción y el plegamiento de proteínas. Desarrollamos un marco basado en el modelo de codón filogenético, FRESCo, diseñado para encontrar regiones de restricción de sinónimos en exceso en alineaciones cortas y profundas, como genes virales individuales en muchos aislamientos secuenciados. Demostramos la alta especificidad de nuestro enfoque en datos simulados y aplicamos nuestro marco a las regiones de codificación de proteínas de aproximadamente 30 especies distintas de virus con diversas arquitecturas de genoma. FRESCo recupera regiones multifuncionales conocidas en virus bien caracterizados como el virus de la hepatitis B, el poliovirus y el virus del Nilo Occidental, a menudo con una resolución de un solo codón, y predice muchos elementos funcionales nuevos que se superponen con genes virales, incluidos los virus Lassa y Ébola. En varios virus, las regiones sinónimamente restringidas que identificamos también muestran estructuras de ARN predichas estables y conservadas, que incluyen elementos novedosos putativos en múltiples especies virales.

Roadmap Epigenomics Consortium, Kundaje, Meuleman, Ernst, Bilenky, Yen, Heravi-Moussavi, Kheradpour, Zhang, Wang, Ziller, Amin, Whitaker, Schultz, Ward, Sarkar, Quon, Sandstrom, Eaton, Wu, Pfenning, Wang, Claussnitzer, Liu, Coarfa, Harris, Shoresh, Epstein, Gjoneska, Leung, Xie, Hawkins, Lister, Hong, Gascard, Mungall, Moore, Chuah, Tam, Canfield, Hansen, Kaul, Sabo, Bansal, Carles, Dixon, Farh, Feizi, Karlic, Kim, Kulkarni, Li, Lowdon, Elliott, Mercer, Neph, Onuchic, Polak, Rajagopal, Ray, Sallari, Siebenthall, Sinnott-Armstrong, Stevens, Thurman, Wu, Zhang, Zhou, Beaudet, Boyer, De Jager, Farnham Fisher, Haussler, Jones, Li, Marra, McManus, Sunyaev, Thomson, Tlsty, Tsai, Wang, Waterland, Zhang, Chadwick, Bernstein, Costello, Ecker, Hirst, Meissner, Milosavljevic, Ren, Stamatoyannopoulos, Wang, Kellis

La secuencia del genoma humano de referencia sentó las bases para los estudios de variación genética y su asociación con enfermedades humanas, pero los estudios epigenómicos carecen de una referencia similar. Para abordar esta necesidad, el Consorcio de Epigenómica Roadmap de los NIH generó la colección más grande hasta ahora de epigenomas humanos para células y tejidos primarios. Aquí describimos el análisis integrador de 111 epigenomas humanos de referencia generados como parte del programa, perfilados para patrones de modificación de histonas, accesibilidad del ADN, metilación del ADN y expresión del ARN. Establecemos mapas globales de elementos reguladores, definimos módulos reguladores de actividad coordinada y sus probables activadores y represores. Mostramos que las variantes genéticas asociadas a enfermedades y rasgos están enriquecidas en marcas epigenómicas específicas de tejido, revelando tipos de células biológicamente relevantes para diversos rasgos humanos y proporcionando un recurso para interpretar la base molecular de la enfermedad humana. Nuestros resultados demuestran el papel central de la información epigenómica para comprender la regulación genética, la diferenciación celular y las enfermedades humanas.

Gjoneska, Pfenning, Mathys, Quon, Kundaje, Tsai, Kellis

La enfermedad de Alzheimer (EA) es un trastorno neurodegenerativo grave relacionado con la edad que se caracteriza por la acumulación de placas de beta amiloide y ovillos neurofibrilares, pérdida sináptica y neuronal y deterioro cognitivo. Se han implicado varios genes en la EA, pero las alteraciones del estado de la cromatina durante la neurodegeneración siguen sin caracterizarse. Aquí perfilamos la dinámica transcripcional y del estado de la cromatina a través de la patología temprana y tardía en el hipocampo de un modelo de ratón inducible de neurodegeneración similar a la EA. Encontramos una regulación a la baja coordinada de genes de plasticidad sináptica y regiones reguladoras, y una regulación al alza de genes de respuesta inmune y regiones reguladoras, que son el objetivo de factores que pertenecen a la familia ETS de reguladores transcripcionales, incluido PU.1. Las regiones humanas ortólogas a potenciadores de nivel creciente muestran firmas potenciadoras específicas de células inmunitarias, así como loci de rasgos cuantitativos de expresión de células inmunitarias, mientras que los ortólogos potenciadores de nivel decreciente muestran actividad potenciadora específica del cerebro fetal. En particular, las variantes genéticas asociadas a la EA se enriquecen específicamente en ortólogos potenciadores de nivel creciente, lo que implica procesos inmunes en la predisposición a la EA. De hecho, los potenciadores crecientes se superponen con los loci de AD conocidos que carecen de variantes que alteran las proteínas e implican loci adicionales que no alcanzan un significado en todo el genoma. Nuestros resultados revelan nuevos conocimientos sobre los mecanismos de la neurodegeneración y establecen al ratón como un modelo útil para los estudios funcionales de las regiones reguladoras de la EA.

Con cientos de mapas epigenómicos, surge la oportunidad de explotar la naturaleza correlacionada de las señales epigenéticas, tanto en marcas como en muestras, para la predicción a gran escala de conjuntos de datos adicionales. Aquí, realizamos la imputación del epigenoma aprovechando tales correlaciones a través de un conjunto de árboles de regresión. Imputamos 4.315 mapas de señales de alta resolución, de los cuales el 26% también se observan experimentalmente. Las pistas de señales imputadas muestran una similitud general con las señales observadas y superan los conjuntos de datos experimentales en consistencia, recuperación de anotaciones genéticas y enriquecimiento de variantes asociadas a enfermedades. Usamos los datos imputados para detectar conjuntos de datos experimentales de baja calidad, para encontrar sitios genómicos con señales epigenómicas inesperadas, para definir marcas de alta prioridad para nuevos experimentos y para delinear estados de cromatina en 127 epigenomas de referencia que abarcan diversos tejidos y tipos de células. Nuestros conjuntos de datos imputados proporcionan la anotación de región reguladora humana más completa hasta la fecha, y nuestro enfoque y el software ChromImpute constituyen un complemento útil para el mapeo experimental a gran escala de información epigenómica.

La inferencia precisa de árboles genéticos es un paso necesario en muchos estudios evolutivos. Si bien el problema de la inferencia precisa del árbol genético ha recibido una atención considerable, la mayoría de los métodos existentes solo son aplicables a familias de genes que no se ven afectadas por la transferencia horizontal de genes. Como resultado, la inferencia precisa de los árboles genéticos afectados por la transferencia horizontal de genes sigue siendo un problema en gran parte sin resolver. En este trabajo, presentamos un método nuevo y altamente efectivo para la corrección de errores del árbol de genes en presencia de transferencia horizontal de genes. Nuestro método modela de manera eficiente transferencias de genes horizontales, duplicaciones de genes y pérdidas, y utiliza un marco de prueba de hipótesis estadísticas (prueba de Shimodaira-Hasegawa) para equilibrar la probabilidad de secuencia con información topológica de un árbol de especies conocidas. Mediante un estudio de simulación exhaustivo, mostramos que los métodos filogenéticos existentes producen árboles genéticos inexactos cuando se aplican a familias de genes transferidos horizontalmente y que nuestro método mejora drásticamente la precisión del árbol genético. Aplicamos nuestro método a un conjunto de datos de 11 especies de cianobacterias y demostramos el gran impacto de la precisión del árbol genético en los análisis evolutivos posteriores. Una implementación de nuestro método está disponible en http://compbio.mit.edu/treefix-dtl/

Boyle, Araya, Brdlik, Cayting, Cheng, Cheng, Gardner, Hillier, Janette, Jiang, Kasper, Kawli, Kheradpour, Kundaje, Li, Ma, Niu, Rehm, Rozowsky, Slattery, Spokony, Terrell, Vafeados, Wang, Weisdepp, Wu, Xie, Yan, Feingold, Bueno, Pazin, Huang, Bickel, Brenner, Reinke, Waterston, Gerstein, Blanco, Kellis, Snyder

A pesar de las grandes distancias evolutivas entre las especies de metazoos, pueden mostrar notables puntos en común en su biología, y esto ha ayudado a establecer moscas y gusanos como organismos modelo para la biología humana. Aunque los estudios de elementos y factores individuales han explorado similitudes en la regulación genética, falta un análisis comparativo a gran escala de los principios básicos de las características reguladoras de la transcripción. Aquí mapeamos las ubicaciones de unión de todo el genoma de 165 factores reguladores de transcripción humanos, 93 gusanos y 52 moscas, generando un total de 1.019 conjuntos de datos de diversos tipos de células, etapas de desarrollo o condiciones en las tres especies, de las cuales 498 (48,9% ) se presentan aquí por primera vez. Encontramos que las propiedades estructurales de las redes reguladoras se conservan notablemente y que las familias de factores reguladores ortólogos reconocen motivos de unión similares in vivo y muestran algunas coasociaciones similares. Nuestros resultados sugieren que las propiedades reguladoras de genes previamente observadas para factores individuales son principios generales de regulación de metazoos que están notablemente bien conservados a pesar de la amplia divergencia funcional de las conexiones de red individuales. Los mapas comparativos de los circuitos reguladores proporcionados aquí impulsarán una mejor comprensión de los fundamentos regulatorios de la biología de los organismos modelo y cómo estos se relacionan con la biología humana, el desarrollo y la enfermedad.

Slattery, Ma, Spokony, Arthur, Kheradpour, Kundaje, N gre, Crofts, Ptashkin, Zieba, Ostapenko, Suchy, Victorsen, Jameel, Grundstad, Gao, Moran, Rehm, Grossman, Kellis, White.

La anotación de los elementos reguladores y la identificación de los factores relacionados con la transcripción (TRF) que se dirigen a estos elementos son pasos clave para comprender cómo las células interpretan su modelo genético y su entorno durante el desarrollo, y cómo ese proceso sale mal en el caso de una enfermedad. Uno de los objetivos del proyecto modENCODE (organismo modelo ENCyclopedia of DNA Elements) es estudiar una muestra diversa de TRF, tanto factores de unión al ADN como factores no vinculantes al ADN, para proporcionar un marco para el estudio posterior de los mecanismos mediante los cuales los reguladores transcripcionales apuntar al genoma. Aquí proporcionamos un mapa actualizado del genoma regulador de Drosophila melanogaster basado en la ubicación de 84 TRF en diversas etapas de desarrollo. Este mapa regulador revela una variedad de patrones de orientación genómica, incluidos factores con fuertes preferencias hacia la unión del promotor proximal, factores que se dirigen al ADN intergénico e intrónico y factores con distintas preferencias de estado de cromatina. Los datos también destacan la rigurosidad de la red reguladora Polycomb y muestran la asociación de la proteína similar a Trithorax (Trl) con puntos críticos de unión al ADN durante todo el desarrollo. Además, los datos identifican más de 5800 casos en los que los TRF se dirigen a regiones de ADN con actividad potenciadora demostrada. Es más probable que las regiones de alta co-ocupación de TRF estén asociadas con potenciadores abiertos utilizados en todos los tipos de células, mientras que las regiones de menor ocupación de TRF están asociadas con potenciadores complejos que también están regulados a nivel epigenético. Juntos, estos datos sirven como un recurso para la comunidad de investigadores en el esfuerzo continuo por diseccionar los mecanismos reguladores transcripcionales que dirigen el desarrollo de Drosophila.

Libeskind-Hadas, Wu, Bansal, Kellis

La reconciliación de árboles filogenéticos es un método ampliamente utilizado para reconstruir las historias evolutivas de familias y especies de genes, huéspedes y parásitos y otros pares de entidades dependientes. La conciliación se realiza típicamente utilizando la máxima parsimonia, en la que a cada tipo de evento evolutivo se le asigna un costo y el objetivo es encontrar una conciliación del costo total mínimo. En general, se entiende que las conciliaciones son sensibles a los costos de los eventos, pero se comprende poco sobre la relación entre los costos de los eventos y las soluciones. Además, elegir los costos de eventos adecuados es un problema notoriamente difícil. Abordamos este problema proporcionando un algoritmo eficiente para calcular conjuntos de conciliaciones óptimos de Pareto, proporcionando así el primer método sistemático para comprender la relación entre los costos de eventos y las conciliaciones. Esto, a su vez, da como resultado nuevas técnicas para calcular los valores de soporte de eventos y, para los análisis cofilogénicos, realizar pruebas estadísticas sólidas. Proporcionamos nuevas herramientas de software y demostramos su uso en una serie de conjuntos de datos de estudios genómicos y cofilogénicos evolutivos. Disponibilidad e implementación: Nuestras herramientas de Python están disponibles gratuitamente en www.cs.hmc.edu/

Kellis, Wold, Snyder, Bernstein, Kundaje, Marinov, Ward, Birney, Crawford, Dekker, Dunham, Elnitski, Farnham, Feingold, Gerstein, Giddings, Gilbert, Gingeras, Green, Guigo, Hubbard, Kent, Lieb, Myers, Pazin, Ren, Stamatoyannopoulos, Weng, Blanco, Hardison

Con la finalización de la secuencia del genoma humano, la atención se centró en identificar y anotar sus elementos funcionales de ADN. Como complemento a los enfoques genéticos y de genómica comparativa, se lanzó el Proyecto Enciclopedia de Elementos de ADN para contribuir con mapas de transcripciones de ARN, sitios de unión de reguladores de la transcripción y estados de cromatina en muchos tipos de células. Los datos resultantes de todo el genoma revelan sitios de actividad bioquímica con alta resolución posicional y especificidad de tipo celular que facilitan los estudios de regulación génica e interpretación de variantes no codificantes asociadas con enfermedades humanas. Sin embargo, las regiones bioquímicamente activas cubren una fracción mucho mayor del genoma que las regiones conservadas evolutivamente, lo que plantea la cuestión de si las regiones no conservadas pero bioquímicamente activas son verdaderamente funcionales. Aquí, revisamos las fortalezas y limitaciones de los enfoques bioquímicos, evolutivos y genéticos para definir segmentos funcionales de ADN, fuentes potenciales de las diferencias observadas en la cobertura genómica estimada y las implicaciones biológicas de estas discrepancias. También analizamos la relación entre la intensidad de la señal, la cobertura genómica y la conservación evolutiva. Nuestros resultados refuerzan el principio de que cada enfoque proporciona información complementaria y que necesitamos utilizar combinaciones de los tres para dilucidar la función del genoma en la biología y la enfermedad humanas.

Los ARN no codificantes intergénicos largos (lincRNA) desempeñan diversas funciones reguladoras en el desarrollo humano y las enfermedades, pero se sabe poco sobre su historia evolutiva y sus limitaciones. Aquí, caracterizamos los patrones de expresión de ARNlinc humano en nueve tejidos de seis especies de mamíferos y múltiples individuos. De los 1898 lincRNA humanos expresados ​​en estos tejidos, encontramos transcripciones ortólogas en un 80% en chimpancés, un 63% en rhesus, un 39% en vacas, un 38% en ratones y un 35% en ratas. Los lincRNA expresados ​​en mamíferos muestran una conservación notablemente fuerte de la especificidad del tejido, lo que sugiere que se mantiene de forma selectiva. Por el contrario, la abundante renovación del sitio de empalme sugiere que los sitios de empalme exactos no son críticos. En relación con los lincRNA evolutivamente jóvenes, los lincRNA expresados ​​en mamíferos muestran una mayor conservación de la secuencia primaria en sus promotores y exones, mayor proximidad a genes codificadores de proteínas enriquecidos para funciones específicas de tejido, menos elementos repetidos y transcripciones de un solo exón más frecuentes. Sorprendentemente, encontramos que

El 20% de los lincRNA humanos no se expresan más allá del chimpancé y son indetectables incluso en rhesus. Estos lincRNA específicos de homínidos son más específicos de tejido, están enriquecidos para los testículos y evolucionan más rápidamente dentro del linaje humano.

Muchas estructuras de ARN biológicamente importantes se conservan en la evolución, lo que da lugar a patrones mutacionales característicos. RNAalifold es un programa ampliamente utilizado para predecir estructuras secundarias de consenso en múltiples alineaciones combinando información evolutiva con algoritmos tradicionales de plegamiento de ARN basados ​​en energía. Aquí describimos la teoría y aplicaciones del algoritmo RNAalifold.La predicción de la estructura secundaria por consenso no solo conduce a modelos de estructura significativamente más precisos, sino que también permite estudiar la conservación estructural de los ARN funcionales.

Rouskin, Zubradt, Washietl, Kellis, Weissman

El ARN tiene un papel dual como molécula informativa y efector directo de tareas biológicas. Esta última función está habilitada por la capacidad del ARN para adoptar pliegues secundarios y terciarios complejos y, por lo tanto, ha motivado extensos esfuerzos computacionales1, 2 y experimentales3, 4, 5, 6, 7, 8 para determinar las estructuras del ARN. Los enfoques existentes para evaluar la estructura del ARN se han limitado en gran medida a los sistemas in vitro, sin embargo, las fuerzas termodinámicas que impulsan el plegamiento del ARN in vitro pueden no ser suficientes para predecir estructuras de ARN estables in vivo5. De hecho, la presencia de proteínas de unión a ARN y helicasas dependientes de ATP puede influir en qué estructuras están presentes dentro de las células. Aquí presentamos un enfoque para monitorear globalmente la estructura del ARN en condiciones nativas in vivo con precisión de un solo nucleótido. Este método se basa en la modificación in vivo con dimetilsulfato (DMS), que reacciona con residuos de adenina y citosina no apareados9, seguido de una secuenciación profunda para controlar las modificaciones. Nuestros datos de células de levadura y de mamíferos están en excelente acuerdo con las estructuras conocidas de ARN mensajero y con la estructura cristalina de alta resolución del ribosoma de Saccharomyces cerevisiae10. La comparación entre los datos in vivo e in vitro revela que en las células que se dividen rápidamente hay muchas menos regiones de ARNm estructurado in vivo que in vitro. Incluso las estructuras de ARN termoestable a menudo se desnaturalizan en las células, lo que destaca la importancia de los procesos celulares en la regulación de la estructura del ARN. De hecho, el análisis de la estructura del ARNm en condiciones de depleción de ATP en levadura muestra que los procesos dependientes de la energía contribuyen en gran medida al estado predominantemente desplegado de los ARNm dentro de las células. Nuestros estudios permiten ampliamente el análisis funcional de las estructuras fisiológicas del ARN y revelan que, en contraste con la visión de Anfinsen del plegamiento de proteínas, según la cual la estructura formada es la más termodinámicamente favorable, la termodinámica tiene un papel incompleto en la determinación de la estructura del ARNm in vivo.

Los recientes avances en tecnología han llevado a un aumento dramático en el número de conjuntos de datos de factores de transcripción ChIP-seq y ChIP-chip disponibles. Comprender el contenido del motivo de estos conjuntos de datos es un paso importante para comprender los mecanismos subyacentes de regulación. Aquí proporcionamos un análisis de motivo sistemático para 427 conjuntos de datos de ChIP-seq humanos utilizando motivos seleccionados de la literatura y también descubiertos de novo utilizando cinco herramientas de descubrimiento de motivos establecidas. Utilizamos una canalización sistemática para calcular el enriquecimiento de motivos en cada conjunto de datos, lo que proporciona una forma basada en principios para elegir entre las variantes de motivos que se encuentran en la literatura y para marcar conjuntos de datos potencialmente problemáticos. Nuestro análisis confirma la especificidad conocida de 41 de los 56 grupos de factores analizados y revela motivos de cofactores potenciales. También utilizamos la unión específica del tipo de célula para encontrar factores activos en condiciones específicas. El recurso que proporcionamos es accesible tanto para examinar una pequeña cantidad de factores como para realizar análisis sistemáticos a gran escala. Proporcionamos matrices de motivos, instancias y enriquecimientos en cada uno de los conjuntos de datos ENCODE. Los motivos descubiertos aquí se han utilizado en estudios paralelos para validar la especificidad de los anticuerpos, comprender la cooperación entre conjuntos de datos y medir la variación de la unión del motivo entre individuos y especies.

Wu, Rasmussen, Bansal, Kellis

La reconciliación exacta de árboles genéticos y árboles de especies es fundamental para inferir la historia evolutiva de una familia de genes. Sin embargo, aunque durante mucho tiempo se ha apreciado que los efectos relacionados con la población, como la clasificación de linaje incompleto (ILS) pueden afectar drásticamente al árbol genético, muchos de los métodos de reconciliación más populares consideran la discordancia solo debido a la duplicación y pérdida de genes (y, a veces, a la transferencia horizontal de genes). ). Los métodos que modelan ILS están altamente parametrizados o consideran un conjunto restringido de historias, lo que limita su aplicabilidad y precisión. Para abordar estos desafíos, presentamos un nuevo algoritmo DLCpar para inferir una historia más parsimoniosa (MP) de una familia de genes en presencia de duplicaciones, pérdidas e ILS. Nuestro algoritmo se basa en una nueva estructura de reconciliación, el árbol coalescente etiquetado (LCT), que describe simultáneamente el historial de pérdidas por duplicación y coalescente. Mostramos que la representación LCT permite una búsqueda exhaustiva y eficiente en el espacio de reconciliaciones y, para la mayoría de las familias de genes, el mapeo del ancestro menos común (LCA) es una solución óptima para el mapeo de especies entre el árbol de genes y el árbol de especies en un MP LCT. Al aplicar nuestro algoritmo a una variedad de clados, que incluyen moscas, hongos y primates, así como a filogenias simuladas, logramos una alta precisión, comparable a los métodos sofisticados de reconciliación probabilística, en un tiempo de ejecución reducido y con muchos menos parámetros. Estas propiedades permiten la inferencia de la evolución compleja de familias de genes en una amplia gama de especies y grandes conjuntos de datos.

Kasowski, Kyriazopoulou-Panagiotopoulou, Grubert, Zaugg, Kundaje, Liu, Boyle, Zhang, Zakharia, Spacek, Li, Xie, Olarerin-George, Steinmetz, Hogenesch, Kellis, Batzoglou, Snyder

La mayoría de las variantes asociadas a la enfermedad se encuentran fuera de las regiones codificantes de proteínas, lo que sugiere un vínculo entre la variación en las regiones reguladoras y la predisposición a la enfermedad. Estudiamos las diferencias en los estados de la cromatina utilizando cinco modificaciones de histonas, cohesina y CTCF en líneas linfoblastoides de 19 individuos de ascendencia diversa. Encontramos una amplia variación de señal en las regiones reguladoras, que a menudo cambian entre estados activos y reprimidos entre individuos. La actividad potenciadora es particularmente diversa entre los individuos, mientras que la expresión génica permanece relativamente estable. La variabilidad de la cromatina muestra una herencia genética en tríos, se correlaciona con la variación genética y la divergencia de la población y se asocia con alteraciones de los motivos de unión del factor de transcripción. En general, nuestros resultados proporcionan información sobre la variación de la cromatina entre los seres humanos.

La reconciliación del árbol filogenético es un enfoque poderoso para inferir eventos evolutivos como la duplicación de genes, la transferencia horizontal de genes y la pérdida de genes, que son fundamentales para nuestra comprensión de la evolución molecular. Si bien la reconciliación de duplicación-pérdida (DL) conduce a una solución única de máxima parsimonia, la reconciliación de duplicación-transferencia-pérdida (DTL) produce una multitud de soluciones óptimas, lo que dificulta inferir la verdadera historia evolutiva de la familia de genes. Este problema se ve agravado aún más por el hecho de que diferentes asignaciones de costos de eventos producen diferentes conjuntos de conciliaciones óptimas. A continuación, presentamos un método eficaz, eficiente y escalable para abordar estos problemas fundamentales en la reconciliación DTL. Nuestro enfoque funciona muestreando el espacio de conciliaciones óptimas de manera uniforme al azar y agregando los resultados. Mostramos que incluso los árboles genéticos con solo unas pocas docenas de genes a menudo tienen millones de reconciliaciones óptimas y presentan un algoritmo para muestrear eficientemente el espacio de reconciliaciones óptimas de manera uniforme al azar en O (mn (2)) tiempo por muestra, donde myn denotan el número de genes y especies, respectivamente. Usamos estas muestras para comprender cómo las diferentes conciliaciones óptimas varían en sus asignaciones de nodos y asignaciones de eventos y para investigar el impacto de los costos de eventos variables. Aplicamos nuestro método a un conjunto de datos biológicos de aproximadamente 4700 árboles genéticos de 100 taxones y observamos que el 93% de las asignaciones de eventos y el 73% de las asignaciones permanecen consistentes en diferentes óptimos múltiples. Nuestro análisis representa la primera investigación sistemática del espacio de conciliaciones DTL óptimas y tiene muchas implicaciones importantes para el estudio de la evolución de la familia de genes.

Feizi, Marbach, Medard, Kellis

El reconocimiento de las relaciones directas entre las variables conectadas en una red es un problema generalizado en las ciencias biológicas, sociales y de la información, ya que las redes basadas en correlaciones contienen numerosas relaciones indirectas. Aquí presentamos un método general para inferir efectos directos de una matriz de correlación observada que contiene tanto efectos directos como indirectos. Formulamos el problema como el inverso de la convolución de la red e introducimos un algoritmo que elimina el efecto combinado de todos los caminos indirectos de longitud arbitraria en una solución de forma cerrada explotando la descomposición propia y las sumas de series infinitas. Demostramos la efectividad de nuestro enfoque en varias aplicaciones de red: distinguir objetivos directos en redes reguladoras de expresión génica, reconocer residuos de aminoácidos que interactúan directamente para la predicción de la estructura de proteínas a partir de alineaciones de secuencias y distinguir colaboraciones fuertes en redes sociales de coautoría utilizando solo información de conectividad. Además de su impacto teórico como herramienta fundamental de teoría de grafos, nuestros resultados sugieren que la deconvolución de redes es ampliamente aplicable para calcular dependencias directas en la ciencia de redes en diversas disciplinas.

Kheradpour, Ernst, Melnikov, Rogov, Wang, Zhang, Alston, Mikkelsen, Kellis

Los mapas de cromatina de todo el genoma han permitido el mapeo sistemático de elementos reguladores putativos en múltiples tipos de células humanas, revelando decenas de miles de regiones potenciadoras distales candidatas. Sin embargo, hasta hace poco, su disección experimental mediante la alteración de motivos reguladores dirigidos ha permanecido inviable a escala del genoma, debido al retraso tecnológico en la síntesis de ADN a gran escala. Aquí, empleamos un ensayo informador masivamente paralelo (MPRA) para medir los niveles de transcripción inducidos por segmentos de ADN de 145 pb centrados en instancias de motivos reguladores conservados evolutivamente y que se encuentran en estados de cromatina potenciadores. Seleccionamos cinco activadores predichos (HNF1, HNF4, FOXA, GATA, NFE2L2) y dos represores predichos (GFI1, ZFP161) y medimos la expresión del indicador en líneas celulares de eritroleucemia (K562) y carcinoma de hígado (HepG2). Probamos 2.104 secuencias de tipo salvaje y 3.314 variantes potenciadoras adicionales que contienen alteraciones de motivos dirigidos, cada una con 10 etiquetas de código de barras en dos líneas celulares y 2 réplicas. Los datos resultantes confirman fuertemente la actividad potenciadora y la especificidad del tipo celular de los estados de la cromatina potenciadora, la capacidad de los segmentos de 145 pb para recapitular ambos, el papel necesario de los motivos reguladores en la función potenciadora y los papeles complementarios de los motivos activador y represor. Encontramos evidencia estadísticamente sólida de que (1) mezclar, eliminar o interrumpir los motivos activadores predichos suprime la función potenciadora, mientras que los cambios silenciosos o que mejoran el motivo mantienen la actividad potenciadora (2) conservación evolutiva, exclusión de nucleosomas, unión de otros factores y fuerza de la coincidencia de motivos están todos asociados con la actividad potenciadora de tipo salvaje (3) los motivos represores de codificación conducen a una expresión del informador aberrante en líneas celulares donde los potenciadores normalmente no están activos. Nuestros resultados sugieren una estrategia general para descifrar los elementos reguladores cis mediante la manipulación experimental sistemática a gran escala, y proporcionan mediciones cuantitativas de la actividad del potenciador en miles de construcciones que pueden extraerse para generar y probar modelos predictivos de expresión génica.

Los estudios de asociación proporcionan información de todo el genoma sobre la base genética de una enfermedad compleja, pero la investigación médica se ha centrado principalmente en las variantes que codifican proteínas, debido a la dificultad de interpretar las mutaciones no codificantes. Esta imagen ha cambiado con los avances en la anotación sistemática de elementos funcionales no codificantes. La conservación evolutiva, la genómica funcional, el estado de la cromatina, los motivos de secuencia y los loci de rasgos cuantitativos moleculares proporcionan información complementaria sobre la función de las secuencias no codificantes. Estos mapas funcionales pueden ayudar a priorizar variantes en haplotipos de riesgo, filtrar mutaciones encontradas en la clínica y realizar análisis a nivel de sistemas para revelar los procesos subyacentes a las asociaciones de enfermedades. Los avances en el modelado predictivo pueden permitir la integración de conjuntos de datos para revelar vías compartidas entre loci y alelos, y los modelos regulatorios más ricos pueden guiar la búsqueda de interacciones epistáticas. Por último, los nuevos experimentos de reporteros masivamente paralelos pueden validar sistemáticamente las predicciones regulatorias. En última instancia, los avances en la genómica regulatoria y de sistemas pueden ayudar a liberar el valor de la secuenciación del genoma completo para la evaluación, el diagnóstico y el tratamiento personalizados del riesgo genómico.

Aunque solo el 5% del genoma humano se conserva en los mamíferos, una porción sustancialmente mayor es bioquímicamente activa, lo que plantea la cuestión de si los elementos adicionales evolucionan de forma neutral o confieren una ventaja de aptitud específica de linaje. Para abordar esta pregunta, integramos información de variación humana del Proyecto 1000 Genomas y datos de actividad del Proyecto ENCODE. Una amplia gama de elementos no conservados transcritos y reguladores muestra una disminución de la diversidad humana, lo que sugiere una selección purificadora específica de linaje. Por el contrario, los elementos conservados que carecen de actividad muestran una mayor diversidad humana, lo que sugiere que algunos recientemente dejaron de funcionar. Se encontraron elementos reguladores bajo restricción humana en regiones no conservadas cerca de la visión del color y genes de crecimiento nervioso, consistentes con la selección purificadora para funciones recientemente desarrolladas. Nuestros resultados sugieren una rotación continua en las regiones reguladoras, con al menos un 4% adicional del genoma humano sujeto a restricciones específicas de linaje.

Consorcio del Proyecto ENCODE

El genoma humano codifica el modelo de la vida, pero se desconoce la función de la gran mayoría de sus casi tres mil millones de bases. El proyecto Encyclopedia of DNA Elements (ENCODE) ha mapeado sistemáticamente regiones de transcripción, asociación de factores de transcripción, estructura de cromatina y modificación de histonas. Estos datos nos permitieron asignar funciones bioquímicas para el 80% del genoma, en particular fuera de las regiones codificantes de proteínas bien estudiadas. Muchos elementos reguladores candidatos descubiertos están asociados físicamente entre sí y con genes expresados, lo que proporciona nuevos conocimientos sobre los mecanismos de regulación génica. Los elementos recientemente identificados también muestran una correspondencia estadística con las variantes de secuencia vinculadas a la enfermedad humana y, por lo tanto, pueden orientar la interpretación de esta variación. En general, el proyecto proporciona nuevos conocimientos sobre la organización y regulación de nuestros genes y genoma, y ​​es un recurso expansivo de anotaciones funcionales para la investigación biomédica.

Lindblad-Toh, Garber, Zuk, Lin, Parker, Washietl, Kheradpour, Ernst, Jordan, Mauceli, Ward, Lowe, Holloway, Clamp, Gnerre, Alfoldi, Beal, Chang, Clawson, Palma, Fitzgerald, Flicek, Guttman, Hubisz, Jaffe, Jungreis, Kostka, Lara, Martins, Massingham, Moltke, Raney, Rasmussen, Stark, Vilella, Wen, Xie, Zody, Worley, Kovar, Muzny, Gibbs, Warren, Mardis, Weinstock, Wilson, Birney, Margulies, Herrero, Verde, Haussler, Siepel, Goldman, Pollard, Pedersen, Lander, Kellis

La comparación de genomas relacionados ha surgido como una lente poderosa para la interpretación del genoma. Aquí presentamos la secuenciación y el análisis comparativo de 29 genomas euterios. Confirmamos que al menos el 5,5% del genoma humano se ha sometido a una selección de purificación y localizamos elementos restringidos que cubren el 4,2% del genoma. Usamos firmas evolutivas y comparaciones con conjuntos de datos experimentales para sugerir funciones candidatas para el 60% de las bases restringidas. Estos elementos revelan una pequeña cantidad de nuevos exones codificantes, eventos de lectura del codón de terminación candidato y más de 10,000 regiones de restricción sinónima superpuesta dentro de los exones que codifican proteínas. Encontramos 220 familias estructurales de ARN candidatas y casi un millón de elementos que se superponen a las regiones promotoras, potenciadoras y aislantes potenciales. Divulgamos residuos de aminoácidos específicos que han sufrido una selección positiva, 280.000 elementos no codificantes extraídos de elementos móviles y más de 1.000 elementos acelerados por primates y humanos. La superposición con variantes asociadas a enfermedades indica que nuestros hallazgos serán relevantes para estudios de biología, salud y enfermedades humanas.

Ernst, Kheradpour, Mikkelsen, Shoresh, Ward, Epstein, Zhang, Wang, Issner, Coyne, Ku, Durham, Kellis *, Bernstein *

El perfil de cromatina ha surgido como un medio poderoso para anotar elementos genómicos y detectar actividad reguladora. Aquí generamos y analizamos un compendio de mapas epigenómicos para nueve marcas de cromatina en nueve tipos de células, con el fin de caracterizar sistemáticamente los elementos reguladores cis, sus especificidades de tipo celular y sus interacciones funcionales. Primero identificamos combinaciones recurrentes de modificaciones de histonas y las usamos para anotar diversos elementos reguladores, incluidos promotores, potenciadores, transcripciones y aislantes en cada tipo de célula. A continuación, caracterizamos la dinámica de estos elementos, revelando patrones significativos de actividad para los estados promotores y una exquisita selectividad de tipo celular para los estados potenciadores. Definimos perfiles de actividad multicelular que reflejan los patrones de actividad del estado del potenciador en todos los tipos de células, así como perfiles análogos para la expresión génica, el enriquecimiento de motivos reguladores y la expresión de los reguladores correspondientes. Usamos correlaciones entre estos perfiles para vincular potenciadores candidatos a genes diana putativos, para inferir activadores y represores específicos del tipo celular, y para predecir y validar motivos de unión de reguladores funcionales en estados específicos de cromatina. Estas anotaciones funcionales y predicciones reguladoras nos permiten revisar los polimorfismos intergénicos de un solo nucleótido (SNP) asociados con enfermedades humanas en estudios de asociación de todo el genoma (GWAS). Encontramos que para varias enfermedades, los SNP de puntaje máximo se posicionan con precisión dentro de elementos potenciadores específicamente activos en tipos de células relevantes. En varios casos, una variante de la enfermedad afecta una instancia de motivo para uno de los reguladores causales predichos, proporcionando así una explicación mecanicista potencial para la asociación de la enfermedad. Nuestro estudio presenta un marco general para aplicar el análisis del estado de la cromatina multicelular para descifrar las conexiones cis-reguladoras y su papel en la salud y la enfermedad.

Negre, Brown, Ma, Bristow, Miller, Kheradpour, Loriaux, Sealfon, Li, Ishii, Spokony, Chen, Hwang, Wagner, Auburn, Domanus, Shah, Morrison, Zieba, Suchy, Senderowicz, Victorsen, Bild, Grundstad, Hanley, Mannervik, Venken, Bellen, Blanco, Russell, Grossman, Ren, Posakony, Kellis, Blanco

Tras la secuenciación de genomas humanos y de organismos modelo, la anotación de información reguladora en todo el genoma se ha convertido en un desafío importante. Aquí describimos un mapa inicial del genoma regulador de Drosophila melanogaster basado en la dinámica del desarrollo de modificaciones de cromatina y enzimas modificadoras de cromatina, en la ocupación de los promotores por polimerasa, en la unión dinámica de proteínas asociadas a potenciadores como el cofactor transcripcional CBP, y sobre la localización de cuarenta y un factores de transcripción específicos de sitio en diferentes etapas de desarrollo.El conjunto de datos completo proporciona modificaciones de proteínas y anotaciones de unión en el 94% del genoma junto con la predicción y validación de 4 clases de elementos reguladores: aislantes, promotores, silenciadores y potenciadores. Este mapa regulador revela varias propiedades recientemente descubiertas de la regulación del genoma, incluida la falta de marcas epigenéticas en los promotores de genes expresados ​​de forma transitoria, la asociación de histonas desacetilasas específicas (HDAC) con elementos de respuesta de Polycomb, el papel temprano de la CBP como marcador de potenciadores y la aparición de sitios de unión de factores de transcripción de alta ocupación que se correlacionan con la expresión génica. Utilizando estos datos, también generamos un análisis combinatorio de factores de transcripción y motivos de secuencia de ADN que están asociados con diferentes conjuntos de genes coexpresados ​​en el desarrollo, proporcionando una base de datos para descubrir los conjuntos de entradas reguladoras que controlan la función de los elementos reguladores. Juntas, estas anotaciones cis-reguladoras sirven como base para análisis más detallados del código regulador genómico en Drosophila.

El consorcio modENCODE, Roy, Ernst, Kharchenko, Kheradpour, Negre, Eaton, Landolin, Bristow, Ma, Lin, Washietl, Arshinoff, Ay, Meyer, Robine, Washington, Di Stefano, Berezikov, Brown, Brown, Candeias, Carlson, Carr , Jungreis, Marbach, Sealfon, Tolstorukov, Alekseyenko, Artieri, Boley, Booth, Brooks, Dai, Davis, Duff, Feng, Gorchakov, Gu, Henikoff, Kapranov, Li, Li, MacAlpine, Malone, Minoda, Nordman, Okamura, Perry Powell, Riddle, Sakai, Samsonova, Sandler, Schwartz, Sher, Spokony, Sturgill, van Baren, Will, Wan, Yang, Yu, Feingold, Good, Guyer, Lowdon, Ahmad, Andrews, Berger, Bickel, Brenner, Brent, Cherbas, Elgin, Gingeras, Grossman, Hoskins, Kaufman, Kent, Kuroda, Orr-Weaver, Perrimon, Pirrotta, Posakony, Ren, Russell, Cherbas, Graveley, Lewis, Micklem, Oliver, Park, Celniker, Henikoff, Karpen, Lai, MacAlpine, Stein, Blanco, Kellis

Varios años después de la secuenciación inicial de los genomas de organismos humanos y otros, la gran mayoría de cada genoma permanece sin anotar, y aún no está claro cómo traducir la información genómica en un mapa funcional de programas celulares y de desarrollo. Para abordar esta pregunta, el proyecto Drosophila modENCODE ha emprendido un esfuerzo a gran escala para mapear de manera integral la transcripción, la unión del regulador, el estado de la cromatina, la replicación y las propiedades de los nucleosomas a lo largo de un curso de tiempo de desarrollo y en múltiples líneas celulares. Aquí, informamos nuestro análisis integrador inicial de la primera fase del proyecto, que abarca más de 1000 conjuntos de datos generados durante cuatro años en seis centros de producción. Nuestra anotación integrada permitió el descubrimiento de nuevos elementos de codificación proteica, no codificantes, reguladores de ARN, replicación y cromatina que más del triple de la porción anotada del genoma. Estudiamos patrones de actividad correlacionados de estos elementos para inferir una red reguladora funcional, que usamos para predecir funciones putativas para nuevos genes, revelar reguladores específicos de etapa y tejido e inferir modelos predictivos de expresión génica. Nuestros resultados proporcionan una anotación de referencia que puede informar estudios experimentales y computacionales dirigidos en Drosophila y especies relacionadas, y proporcionar un modelo para la integración sistemática de datos hacia la anotación genómica y funcional integral de cualquier genoma, incluido el humano.

Se ha descrito una plétora de modificaciones epigenéticas en el genoma humano y se ha demostrado que desempeñan diversas funciones en la regulación génica, la diferenciación celular y la aparición de enfermedades. Aunque las modificaciones individuales se han relacionado con los niveles de actividad de varios elementos funcionales genéticos, sus patrones combinatorios aún no se han resuelto y su potencial para la anotación sistemática del genoma de novo permanece sin explotar. Aquí, utilizamos un modelo de Markov oculto multivariado para revelar 'estados de cromatina' en células T humanas, basado en combinaciones de marcas de cromatina recurrentes y espacialmente coherentes. Definimos 51 estados de cromatina distintos, incluidos los estados asociados con el promotor, asociados con la transcripción, intergénicos activos, reprimidos a gran escala y asociados con la repetición. Cada estado de la cromatina muestra enriquecimientos específicos en anotaciones funcionales, motivos de secuencia y características específicas observadas experimentalmente, lo que sugiere distintas funciones biológicas. Este enfoque proporciona una anotación funcional complementaria del genoma humano que revela las ubicaciones de todo el genoma de diversas clases de función epigenética.

Mayordomo, Rasmussen, Lin, Santos, Sakthikumar, Munro, Rheinbay, Grabherr, Forche, Reedy, Agrafioti, Arnaud, Bates, Brown, Brunke, Costanzo, Fitzpatrick, de, Harris, Hoyer, Hube, Klis, Kodira, Lennard, Logue, Martin, Neiman, Nikolaou, Quail, Quinn, Santos, Schmitzberger, Sherlock, Shah, Silverstein, Skrzypek, Soll, Staggs, Stansfield, Stumpf, Sudbery, Srikantha, Zeng, Berman, Berriman, Heitman, Gow, Lorenz, Birren, Kellis, Cuomo

Las especies de Candida son la causa más común de infecciones micóticas oportunistas en todo el mundo. Aquí informamos las secuencias del genoma de seis especies de Candida y comparamos estos y los patógenos y no patógenos relacionados. Hay expansiones significativas de la pared celular, familias de genes transportadores y secretados en especies patógenas, lo que sugiere adaptaciones asociadas con la virulencia. Los grandes tractos genómicos son homocigotos en tres especies diploides, posiblemente como resultado de recientes eventos de recombinación. Sorprendentemente, en varias especies faltan componentes clave de las vías de apareamiento y meiosis. Estos incluyen diferencias importantes en los loci de tipo de apareamiento (MTL). Lodderomyces elongisporus carece de MTL, y los componentes del determinante de identidad celular a1 / 2 se perdieron en otras especies, lo que plantea interrogantes sobre cómo se controlan el apareamiento y los tipos de células. El análisis del cambio de código genético de leucina a serina de CUG revela que el 99% de los codones CUG ancestrales se borraron y surgieron otros nuevos en otros lugares. Por último, revisamos el catálogo de genes de Candida albicans, identificando muchos genes nuevos.

Heintzman, Hon, Hawkins, Kheradpour, Stark, Arpa, Ye, Lee, Stuart, Ching, Ching, Antosiewicz-Bourget, Liu, Zhang, Verde, Lobanenkov, Stewart, Thomson, Crawford, Kellis, Ren

El cuerpo humano está compuesto por diversos tipos de células con distintas funciones. Aunque se sabe que la especificación del linaje depende de la expresión génica específica de la célula, que a su vez es impulsada por promotores, potenciadores, aislantes y otras secuencias de ADN reguladoras en cis para cada gen, las funciones relativas de estos elementos reguladores en este proceso no están claras. . Hemos desarrollado previamente un método de microarrays basado en inmunoprecipitación de cromatina (chip-chip) para localizar promotores, potenciadores y aislantes en el genoma humano. Aquí utilizamos el mismo enfoque para identificar estos elementos en múltiples tipos de células e investigar sus funciones en la expresión génica específica del tipo de célula. Observamos que el estado de la cromatina en los promotores y la unión de CTCF en los aislantes es en gran medida invariante en diversos tipos de células. Por el contrario, los potenciadores están marcados con patrones de modificación de histonas altamente específicos del tipo celular, se correlacionan fuertemente con los programas de expresión génica específicos del tipo celular a escala global y son funcionalmente activos de una manera específica del tipo celular. Nuestros resultados definen más de 55.000 potenciadores transcripcionales potenciales en el genoma humano, ampliando significativamente el catálogo actual de potenciadores humanos y destacando el papel de estos elementos en la expresión génica específica del tipo celular.

Guttman, Amit, Garber, francés, Lin, Feldser, Huarte, Zuk, Carey, Cassady, Cabili, Jaenisch, Mikkelsen, Jacks, Hacohen, Bernstein, Kellis, Regev, Rinn, Lander

Existe un creciente reconocimiento de que las células de mamíferos producen muchos miles de grandes transcripciones intergénicas. Sin embargo, el significado funcional de estas transcripciones ha sido particularmente controvertido. Aunque hay algunos ejemplos bien caracterizados, la mayoría (> 95%) muestran poca evidencia de conservación evolutiva y se ha sugerido que representan ruido transcripcional. Aquí presentamos un nuevo enfoque para identificar grandes ARN no codificantes utilizando mapas de estado de cromatina para descubrir unidades transcripcionales discretas que intervienen en loci codificadores de proteínas conocidos. Nuestro enfoque identificó aproximadamente 1.600 ARN multiexónicos grandes en cuatro tipos de células de ratón. En marcado contraste con las colecciones anteriores, estos grandes ARN no codificantes intervinientes (lincRNA) muestran una fuerte selección purificadora en sus loci genómicos, secuencias exónicas y regiones promotoras, con más del 95% mostrando una clara conservación evolutiva. También desarrollamos un enfoque de genómica funcional que asigna funciones putativas a cada lincRNA, lo que demuestra una amplia gama de funciones para los lincRNA en procesos que van desde la pluripotencia de las células madre embrionarias hasta la proliferación celular. Obtuvimos una validación funcional independiente para las predicciones de más de 100 lincRNA, utilizando ensayos basados ​​en células. En particular, demostramos que los lincRNA específicos están regulados transcripcionalmente por factores de transcripción clave en estos procesos como p53, NFkappaB, Sox2, Oct4 (también conocido como Pou5f1) y Nanog. Juntos, estos resultados definen una colección única de lincRNA funcionales que están altamente conservados e implicados en diversos procesos biológicos.

Lin, Deoras, Rasmussen, Kellis

    Stark, Lin, Kheradpour, Pedersen, Parts, Carlson, Crosby, Rasmussen, Roy, Deoras, Ruby, Brennecke, curadores de FlyBase, Berkeley Drosophila Genome Project, Hodges, et al, Pachter, Kent, Haussler, Lai, Bartel, Hannon, Kaufman , Eisen, Clark, Smith, Celniker, Gelbart, Kellis
    Nature, 8 de noviembre de 2007 450: 203-218, 14 páginas

Lin, Carlson, Crosby, Matthews, Yu, Park, Wan, Schroeder, Gramates, St, Roark, Wiley, Kulathinal, Zhang, Myrick, Antone, Celniker, Gelbart, Kellis

La disponibilidad de genomas secuenciados de 12 especies de Drosophila ha permitido el uso de genómica comparativa para el descubrimiento sistemático de elementos funcionales conservados dentro de este género. Hemos desarrollado métricas cuantitativas para las firmas evolutivas específicas de las regiones codificantes de proteínas y las aplicamos en todo el genoma, lo que resultó en 1193 nuevos exones codificadores de proteínas candidatos en el genoma de D. melanogaster. Hemos revisado estas predicciones mediante curación manual y validado un subconjunto mediante cribado y secuenciación de ADNc dirigido, revelando tanto nuevos genes como nuevas formas alternativas de empalme de genes conocidos. También utilizamos estas firmas evolutivas para evaluar las anotaciones de genes existentes, lo que resultó en la validación del 87% de los genes que carecen de nombres descriptivos e identificamos 414 genes mal conservados que probablemente sean predicciones falsas, no codificantes o genes específicos de la especie. Además, nuestros métodos sugieren una variedad de mejoras en cientos de modelos de genes existentes, como modificaciones en los codones de inicio de la traducción y los límites de empalme de exones. Finalmente, realizamos búsquedas dirigidas en todo el genoma de estructuras codificantes de proteínas inusuales, descubriendo 149 posibles ejemplos de lectura de codones de parada, 125 nuevos ORF candidatos de ARNm policistrónicos y varios cambios de marco traduccionales candidatos. Estos resultados afectan a> 10% de los genes de mosca anotados y demuestran el poder de la genómica comparativa para mejorar nuestra comprensión de la organización del genoma, incluso en un organismo modelo tan estudiado como Drosophila melanogaster.

La duplicación del genoma completo seguida de la pérdida masiva de genes y la especialización se ha postulado durante mucho tiempo como un poderoso mecanismo de innovación evolutiva. Recientemente, ha sido posible probar esta noción buscando en la secuencia completa del genoma signos de duplicación antigua. Aquí, mostramos que la levadura Saccharomyces cerevisiae surgió de una antigua duplicación del genoma completo, mediante la secuenciación y el análisis de Kluyveromyces waltii, una especie de levadura relacionada que divergió antes de la duplicación. Los dos genomas están relacionados mediante un mapeo 1: 2, con cada región de K. waltii correspondiente a dos regiones de S. cerevisiae, como se esperaba para la duplicación del genoma completo. Esto resuelve la controversia de larga data sobre la ascendencia del genoma de la levadura y permite estudiar directamente el destino de los genes duplicados. Sorprendentemente, el 95% de los casos de evolución acelerada involucran solo a un miembro de un par de genes, lo que proporciona un fuerte apoyo para un modelo específico de evolución y nos permite distinguir funciones ancestrales y derivadas.

Kellis, Patterson, Endrizzi, Birren, Lander

La identificación de los elementos funcionales codificados en un genoma es uno de los principales desafíos de la biología moderna. La genómica comparada debería ofrecer un enfoque general poderoso. A continuación, presentamos un análisis comparativo de la levadura Saccharomyces cerevisiae basado en secuencias de borrador de alta calidad de tres especies relacionadas (S. paradoxus, S. mikatae y S. bayanus). Primero alineamos los genomas y caracterizamos su evolución, definiendo las regiones y mecanismos de cambio. Luego desarrollamos métodos para la identificación directa de genes y motivos reguladores. El análisis de genes produjo una revisión importante del catálogo de genes de levadura, que afectó aproximadamente al 15% de todos los genes y redujo el recuento total en aproximadamente 500 genes. El análisis de motivos identificó automáticamente 72 elementos de todo el genoma, incluidos los motivos reguladores más conocidos y numerosos motivos nuevos. Inferimos una función putativa para la mayoría de estos motivos y proporcionamos información sobre sus interacciones combinatorias. Los resultados tienen implicaciones para el análisis del genoma de diversos organismos, incluido el humano.

Amenta, Berna, Kellis (Kamvysselis)

Describimos nuestra experiencia con un nuevo algoritmo para la reconstrucción de superficies a partir de puntos de muestra desorganizados en 3D. El algoritmo es el primero para este problema con garantías demostrables. Dada una "buena muestra" de una superficie lisa, se garantiza que la salida sea topológicamente correcta y convergente a la superficie original a medida que aumenta la densidad de muestreo. La definición de una buena muestra es en sí misma interesante: la densidad de muestreo requerida varía localmente, capturando rigurosamente la noción intuitiva de que las áreas sin rasgos distintivos se pueden reconstruir a partir de menos muestras. La malla de salida interpola, en lugar de aproximar, los puntos de entrada. Nuestro algoritmo se basa en el diagrama de Voronoi tridimensional. Dado un buen programa para esta subrutina fundamental, el algoritmo es bastante fácil de implementar.


Ver el vídeo: Ejercicio: Transcripción de una cadena de ADN a ARNm (Diciembre 2022).