Información

¿Cómo secuencian, ensamblan y anotan los genomas de plantas los científicos?

¿Cómo secuencian, ensamblan y anotan los genomas de plantas los científicos?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Anteriormente leí esta pregunta y este documento y aprendí cosas buenas sobre este tema. mi pregunta actual es que los científicos usan qué herramientas, algoritmos, productos blandos ... para secuenciar, ensamblar y anotar genomas de plantas. Para cada proyecto de genoma, ¿desarrollan nuevas herramientas y algoritmos o existen algunas herramientas que son útiles para (casi) todos los proyectos de genoma? ¿Existe algún sitio, libro o documento completo que tenga protocolos de secuenciación y anotación del genoma vegetal?


Intentemos responder las tres partes de su pregunta.

Secuenciación El método general es el mismo. La secuenciación es simplemente secuenciar. Pero al igual que para cada secuenciación, hay factores a considerar y protocolos a seleccionar. Una cosa importante es que es posible que desee lecturas comparativamente largas para hacer frente a las repeticiones y al gran tamaño general de los genomas de las plantas. Para obtener lecturas largas, necesita secuencias de ADN de entrada largas. Por lo tanto, querrá seguir un protocolo adecuado para el ADN vegetal de alto peso molecular. Eso puede ser difícil, porque el ADN de la planta puede ser difícil de extraer en función de la planta y el tejido que tiene, ya que es más fácil "abrir" la pared celular desde el principio. Después de eso, es la secuenciación general. Aunque, como ya dije, podrías optar por lecturas largas (PacBio) y / o una buena cobertura. Si eso no es en absoluto factible, puede optar por realizar una secuenciación dirigida y capturar solo todo el exoma (o solo los genes que le interesan) para reducir tanto el costo como la complejidad del análisis.

Montaje Ahora probablemente haya acumulado una gran cantidad de secuencia y también una secuencia potencialmente larga. Hay varias herramientas que puede usar para el ensamblaje y, en general, puede usar las mismas para las plantas que podría querer usar, por ejemplo, para un ensamblaje del genoma humano. Un ejemplo que funciona bien en genomas de plantas grandes es MaSuRCA, otro es Allpaths-LG. Hay algunos ensambladores diseñados para hacer frente a repeticiones largas, pero muy a menudo simplemente ensambla y luego intenta descubrir las regiones de repetición más tarde, por ejemplo, mejorando un ensamblaje de lectura de escopeta con lecturas largas de otra técnica.

Anotación Este definitivamente tiene herramientas específicas para genomas de plantas. Bueno, genomas grandes. Lo principal en la anotación es encontrar genes potenciales y compararlos con bases de datos para anotarlos con función. Las plantas se empalman y las plantas pueden tener intrones largos, incluso los que incluyen repeticiones largas. Un ejemplo de software de predicción de genes que funciona en plantas es Augustus, pero para algunos organismos modelo existen incluso canales y herramientas específicos del organismo para esta tarea. Y, por supuesto, en la parte de la base de datos, elegiría confiar en una base de datos específica de la planta (si no usa NCBI-NR de todos modos). También pueden ser especies o géneros específicos, como los que se encuentran en el proyecto TAIR (Arapidopsis).

TLDR: De hecho, es complicado. Por un lado, existe la necesidad de herramientas y bases de datos específicas; por otro, es posible que le vaya bien con las herramientas estándar, pero tendría que adaptar parámetros, realizar pasos adicionales de preprocesamiento o posprocesamiento, etc.


Secuencias del genoma vegetal: pasado, presente, futuro

Casi 600 conjuntos completos de genomas vegetales están ahora disponibles en repositorios públicos.

Las nuevas tecnologías de secuenciación están produciendo conjuntos genómicos de calidad cada vez mayor.

El genoma de la planta secuenciado más grande tiene un tamaño de 28 Gb.

La secuenciación del genoma se utiliza cada vez más en el mejoramiento, la conservación y la identificación.

Se están llevando a cabo proyectos para completar nuestro conocimiento de la diversidad genómica de las plantas a nivel de especie.

Las plantas verdes (Viridiplantae) son un reino esencial de la vida, responsable a través de la fotosíntesis de la mayor parte de la producción primaria mundial y utilizado directamente por la humanidad para la nutrición, la alimentación animal, el combustible, la ropa, la medicina y otros fines. Se estima que hay 391 000 especies de plantas terrestres, además de 8000 especies de algas verdes. Sus genomas son inusualmente diversos en comparación con los de otros reinos, con un tamaño que oscila entre ∼10 Mb y más de 100 Gb. El conocimiento de los genomas de las plantas inicialmente estaba a la zaga de los de otros reinos, pero ha aumentado enormemente con el desarrollo de nuevas tecnologías para el análisis bioinformático de secuenciación de ADN, en lugar de la producción de datos, es cada vez más el cuello de botella para un mayor conocimiento. Las propuestas recientes ahora contemplan la secuenciación, el ensamblaje y la anotación de los genomas de todas las especies de plantas del mundo, mientras que la secuenciación de baja cobertura para medir la diversidad entre colecciones y poblaciones silvestres ya se ha convertido en un lugar común para muchas especies, especialmente las que se utilizan como cultivos.


Objetivos del proyecto

La escala de la secuencia y la acumulación de otros datos en la genómica vegetal está superando nuestra capacidad de anotar esos genomas de manera efectiva. El objetivo de este proyecto es desarrollar enfoques novedosos, altamente automatizados, escalables, integrales y precisos para la anotación del genoma para abordar este problema. Los entregables del proyecto incluyen (1) software que implementa los nuevos algoritmos de predicción, (2) portales de visualización y acceso a datos, y (3) una implementación de entorno de ciberinfraestructura de las herramientas desarrolladas para computación distribuida, uso compartido de protocolos y registro de procedencia de análisis. A largo plazo, el proyecto busca explorar hasta qué punto la biología genómica puede pasar de una ciencia ampliamente descriptiva a una altamente predictiva impulsada por mediciones cuantitativas, con algoritmos y computación como lenguaje adaptado al dominio. Obtenga más información sobre los objetivos y enfoques del proyecto.


2. Extraer ADN de alta calidad

Las propiedades intrínsecas del genoma no son la única consideración antes de la secuenciación. También hay otros aspectos que necesitan una planificación cuidadosa. La extracción de ADN de alta calidad es uno de esos aspectos que es de suma importancia. Discutimos la extracción de ADN con cierto detalle a continuación, pero también terminamos esta sección con una breve lista de otras consideraciones previas al ensamblaje importantes a tener en cuenta al comenzar un proyecto de ensamblaje.

Requisitos de calidad del ADN para de novo secuenciación

Pocos investigadores son conscientes de que para obtener un buen genoma de referencia hay que empezar con material de buena calidad. Debe señalarse de inmediato que el ADN con calidad de PCR y el ADN con calidad de NGS son dos cosas completamente diferentes 7.

En general, recomendamos el uso de tecnologías de lectura larga (consulte también la Sección 3 a continuación) al realizar el ensamblaje del genoma. Para estas tecnologías, es fundamental utilizar ADN de alto peso molecular (HMW) de la mejor calidad, que se obtiene principalmente de material fresco. La falta de un buen material de partida limitará la elección de la tecnología de secuenciación y afectará la calidad de los datos obtenidos.

Los parámetros de calidad del ADN más importantes para NGS son la pureza química y la integridad estructural de la muestra.

Pureza química

Los extractos de ADN a menudo contienen contaminantes remanentes que se originan en el material de partida o en el propio procedimiento de extracción de ADN. Ejemplos de contaminantes relacionados con la muestra son polisacáridos, proteoglicanos, proteínas, metabolitos secundarios, polifenoles, ácidos húmicos, pigmentos, etc. Por ejemplo, las muestras de hongos, plantas y bacterias pueden contener altos niveles de polisacáridos, las plantas son conocidas por sus polifenoles e insectos. las muestras suelen estar contaminadas por polisacáridos, proteínas y pigmentos, etc. Todos estos contaminantes pueden afectar la eficacia de la preparación de bibliotecas en cualquier tecnología, pero esto es especialmente cierto para las bibliotecas Illumina Mate Pair y las bibliotecas libres de PCR (tanto PacBio como ONT). Para la secuenciación de tecnología de lectura corta convencional donde un paso de PCR está involucrado en la preparación de la biblioteca, este obstáculo se supera en parte por el paso de amplificación durante la construcción de la biblioteca. Sin embargo, puede suceder que la complejidad de la biblioteca de una muestra contaminada pueda reducirse debido a una menor eficacia de la reacción. Es ampliamente conocido en la comunidad PacBio que las muestras ricas en contaminantes pueden fallar o tener un desempeño inferior en el proceso de secuenciación, ya que no hay un paso de PCR en el flujo de trabajo de preparación y secuenciación de la biblioteca.

La forma de abordar el problema de la contaminación es utilizar un protocolo de extracción de ADN adecuado que tenga en cuenta el tipo esperado de contaminantes presentes en la muestra (contaminantes nativos). La extracción con CTAB (bromuro de cetil trimetilamonio) es muy recomendable para la extracción de ADN de hongos, moluscos y plantas a una determinada concentración de sal. CTAB ayuda a extraer de manera diferencial el ADN de soluciones que contienen un alto nivel de polisacáridos 8. Para tejidos ricos en proteínas, se recomienda agregar beta-mercaptoetanol (que interrumpe los enlaces disulfuro en las moléculas de proteína) y optimizar el tratamiento con proteinasa K 9. Para las plantas, es importante utilizar siempre una combinación de beta-mercaptoetanol (para evitar que los polifenoles se oxiden y se unan al ADN) y PVPP (polivinil polipirrolidona para absorber polifenoles y otros compuestos aromáticos) 10. Para muestras de animales y humanos, se recomienda utilizar tejidos con bajo contenido de grasa y tejido conectivo.

Integridad estructural del ADN

Además de los contaminantes nativos, se pueden introducir fenol, etanol y sales durante el procedimiento de extracción de ADN. La eliminación incompleta de fenol, o no usar fenol fresco dañará el ADN (por ejemplo, la introducción de mellas que hacen que el ácido nucleico sea más frágil) también puede dañar las enzimas utilizadas en los procedimientos posteriores, al igual que el etanol eliminado de manera incompleta. Las concentraciones altas de sal (por ejemplo, el arrastre de EDTA) pueden reducir potencialmente la eficacia de cualquier reacción enzimática posterior.

Un segundo tema importante es la integridad estructural del ADN, que es especialmente importante para las tecnologías de secuenciación de lectura larga. El ADN puede volverse frágil debido a los cortes introducidos durante la extracción del ADN o al usar un tampón de almacenamiento con un pH inadecuado. No se recomienda el almacenamiento prolongado de ADN en agua y por encima de -20 ° C, ya que aumenta el riesgo de degradación del ADN debido a la hidrólisis. El ADN de alto peso molecular es frágil, por lo que se recomienda un manejo suave (agitación con vórtex a velocidad mínima, pipeteo con puntas de pipeta de calibre ancho, transporte en una etapa sólida congelada). También es aconsejable mantener al mínimo el número de ciclos de congelación-descongelación, ya que los cristales de hielo pueden dañar mecánicamente el ADN. Por la misma razón, se deben evitar los protocolos de extracción de ADN que impliquen un tratamiento severo de golpes de cuentas durante la homogeneización del tejido.

También debe señalarse que debe evitarse la contaminación por ARN de las muestras de ADN. La mayoría de las preparaciones de bibliotecas de ADN de NGS solo pueden utilizar de manera eficiente ADN de doble hebra. Tener contaminación de ARN en la muestra sobrestimará la concentración de moléculas de ácido nucleico de la biblioteca. Eso es especialmente cierto para las bibliotecas PacBio y 10X Chromium.

Para resumir, siempre vale la pena invertir tiempo en obtener una preparación de ADN de alta calidad; puede ahorrar mucho tiempo y dinero que de otro modo se gastaría en la resolución de problemas de secuenciación, pedir más datos o, si no es posible pedir más datos, intentarlo. para ensamblar un genoma con una cobertura inferior a la esperada.

Otras Consideraciones

Agrupación de individuos: para algunos organismos puede resultar difícil extraer una cantidad suficiente de ADN y, en estos casos, puede resultar tentador agrupar varios individuos antes de la extracción. Tenga en cuenta que esto aumentará la variabilidad genética de la extracción y puede conducir a un ensamblaje más fragmentado, al igual que lo harían los altos niveles de heterocigosidad. En general, se debe evitar la combinación, pero si se hace, se recomienda el uso de individuos estrechamente relacionados y / o consanguíneos.

Amplificación del genoma completo (WGA): en los casos en los que quizás solo estén disponibles unas pocas células, es necesario amplificar el ADN genómico para secuenciarlo. Esto a menudo dará como resultado una cobertura desigual, y en el caso de los métodos de amplificación que se basan en el desplazamiento de múltiples cadenas, se pueden crear las llamadas secuencias quiméricas artificiales que consisten en secuencias fusionadas no relacionadas 11. Tenga en cuenta que esto puede causar ensamblajes incorrectos. Si es posible, utilice una herramienta de ensamblaje diseñada para trabajar con ADN amplificado, por ejemplo, SPAdes 12.

Presencia de otros organismos: la contaminación siempre es un riesgo cuando se trabaja con ADN. Para el ensamblaje del genoma, se puede introducir contaminación en el laboratorio en la etapa de extracción de ADN, o pueden estar presentes otros organismos en el tejido utilizado, p. Ej. contaminantes y / o simbiontes. Se debe tener cuidado para asegurarse de que el ADN de otros organismos no se encuentre en concentraciones más altas que el ADN de interés, ya que muchas lecturas serán del contaminante en lugar del genoma del organismo estudiado. Las pequeñas cantidades de contaminación rara vez son un problema, ya que estas lecturas se pueden filtrar en el paso de control de calidad de la lectura o después del ensamblaje, a menos que los contaminantes sean muy similares al organismo estudiado.

ADN de orgánulos: algunos tejidos son tan ricos en mitocondrias o cloroplastos que el ADN de orgánulos se encuentra en concentraciones más altas que el ADN nuclear. Esto puede conducir a una menor cobertura del genoma nuclear en sus secuencias. Si tiene la opción, elija un tejido con una proporción más alta de ADN nuclear que de organelos.


MONTAJE DEL GENOMA

Ensamblar un genoma es como resolver un rompecabezas, pero extremadamente difícil. Hay dos enfoques de ensamblaje, basados ​​en el gráfico de Bruijn (DBG) o en Overlap-Layout-Consensus (OLC). El método de ensamblaje de OLC primero encuentra las superposiciones entre todas las lecturas de secuencia, desde donde se crea un gráfico de cadena para diseñar los contigs. Luego, OLC toma todas las lecturas que constituyen cada contig para crear una secuencia de consenso. Las lecturas largas de PacBio o Nanopore se ensamblan mejor por los ensambladores de OLC, como Canu (Koren et al., 2017), FALCON (Chin et al., 2016) y miniasm (Li, 2016). En particular, al aprovechar las lecturas largas, FALCON-Unzip (Chin et al., 2016) puede potencialmente fase y ensamblar haplotipos individuales y sería particularmente útil para genomas altamente heterocigotos. OLC, por otro lado, no está diseñado para lecturas cortas, ya que las superposiciones entre secuencias cortas podrían ser incorrectas y es computacionalmente imposible calcular las superposiciones por pares entre miles de millones de lecturas. DBG es más adecuado para tratar con datos masivos de lectura corta. DBG adopta un enfoque contrario a la intuición para resolver el problema del ensamblaje del genoma, primero triturando las lecturas ya cortas en lecturas aún más cortas k-mers. El fundamento es que las conexiones entre k-mers se pueden construir mucho más fácilmente, y el gráfico de Bruijn resultante se puede atravesar para derivar los contigs. Se han desarrollado numerosos ensambladores basados ​​en DBG, como SOAPdenovo (Luo et al., 2012), ALLPATH-LG (MacCallum et al., 2009), Velvet (Zerbino y Birney, 2008), ABySS (Jackman et al., 2017 ) y Platanus (Kajitani et al., 2014).

No siempre es posible obtener una cobertura de PacBio o Nanopore lo suficientemente alta para un genoma grande, pero se puede reducir el costo generando datos baratos de lectura corta y adoptando un enfoque de ensamblaje híbrido. Esto se puede hacer en MaSuRCA (Zimin et al., 2017b), que primero extiende las lecturas cortas a "súper lecturas" y las usa para convertir las lecturas largas en "mega lecturas". Estas lecturas procesadas pueden luego ser ensambladas por OLC. De esta manera se han ensamblado varios genomas de plantas del tamaño de una base de giga (Zimin et al., 2017b, 2017c).


Materiales y métodos de amplificación

Secuenciación y ensamblaje del genoma

ADN genómico de una paloma hembra danesa (hermano completo del pájaro macho utilizado para el ensamblaje original de Cliv_1.0 Shapiro et al. 2013) se extrajo de la sangre mediante un protocolo modificado de "salado" (Miller et al. 1988 modificaciones de http://www.protocol-online.org/prot/Protocols/Extraction-of-genomic-DNA-from-whole-blood-3171.html, consultado el 6 de febrero de 2018). La sangre se congeló inmediatamente después de la recogida y se almacenó a -80 °, y el ADN purificado se resuspendió en Tris-HCl 10 mM. La muestra pasó por 2 ciclos de congelación-descongelación antes de ser utilizada para construir las bibliotecas que se describen a continuación.

El ADN extraído se utilizó para producir bibliotecas de secuenciación de largo alcance utilizando el método "Chicago" (Putnam et al. 2016) por Dovetail Genomics (Santa Cruz, CA). Se prepararon y secuenciaron dos bibliotecas de Chicago en la plataforma Illumina HiSeq hasta una cobertura física final (pares de 1 a 50 kb) de 390x.

El andamiaje fue realizado por Dovetail Genomics utilizando el software de ensamblaje HiRise y el ensamblaje Cliv_1.0 como entrada. Brevemente, las lecturas de Chicago se alinearon con el ensamblaje de entrada para identificar y enmascarar regiones repetitivas, y luego se aplicó un modelo de probabilidad para identificar las uniones incorrectas y puntuar las uniones potenciales para el andamiaje. Luego, el conjunto final se filtró para determinar la longitud y los espacios de acuerdo con las especificaciones de presentación del NCBI.

Biblioteca de repetición personalizada

Una biblioteca repetida para C. livia fue construido combinando bibliotecas de ensamblajes de genoma aviar existentes (Zhang et al. 2014a) junto con las repeticiones identificadas de novo para el ensamblaje Cliv_2.1. De novo La identificación repetida se realizó utilizando RepeatScout (Price et al. 2005) con parámetros predeterminados (copias & gt3) para generar secuencias de repetición de consenso. Las repeticiones identificadas con más del 90% de identidad de secuencia y un solapamiento mínimo de 100 pb se ensamblaron usando Sequencher (Gene Codes Corporation, Ann Arbor, MI). Las repeticiones se clasificaron en familias de elementos transponibles (TE) utilizando múltiples líneas de evidencia, incluida la homología con elementos conocidos, la presencia de repeticiones terminales invertidas (TIR) ​​y la detección de duplicaciones de sitios de destino (TSD). Se obtuvo evidencia basada en homología usando RepeatMasker (Smit et al. 1996), así como el módulo de homología de la herramienta de clasificación TE RepClass (Feschotte et al. 2009). RepClass también se utilizó para identificar firmas de elementos transponibles (TIR, TSD). Luego, eliminamos las repeticiones que no eran de TE (repeticiones simples o familias de genes) utilizando scripts de Perl personalizados (disponibles en https://github.com/4ureliek/ReannTE).

Nuestro análisis de repetición personalizado utilizó el script ReannTE_FilterLow.pl para etiquetar secuencias de consenso como repeticiones simples o repeticiones de baja complejidad si el 80% de su longitud podía anotarse como tal por RepeatMasker (la biblioteca estaba enmascarada con la opción -noint). A continuación, usamos el script ReannTE_Filter-mRNA.pl para comparar las secuencias de consenso con RefSeq (Pruitt et al. 2007) ARNm (a partir del 7 de marzo de 2016) con TBLASTX (Altschul et al. 1990). Las secuencias se eliminaron de la biblioteca cuando: (i) el valor e del hit era inferior a 1E-10 (ii) la secuencia de consenso no se anotó como un TE y (iii) el hit no se anotó como una transposasa o un proteína no clasificada. El script ReannTE_MergeFasta.pl se usó luego para fusionar nuestra biblioteca con una biblioteca que combina resultados de RepeatModeler (Smit y Hubley 2008) de 45 especies de aves (Kapusta et al. 2017) y complementado con anotaciones adicionales de TE aviar (Consorcio Internacional de Secuenciación del Genoma de Pollo 2004 Warren et al. 2010 Bao et al. 2015). Los resultados combinados se inspeccionaron manualmente para eliminar la redundancia, y todos los elementos transponibles de clase de ADN y RTE se eliminaron y reemplazaron con secuencias de consenso curadas manualmente, que eran nuevas (elementos de ADN) o generadas previamente (RTE) (Suh et al. 2016).

Repetir paisaje

Usamos el software RepeatMasker v4.0.7 (Smit et al. 2015) y nuestra biblioteca personalizada para anotar las repeticiones en Cliv_2.1. RepeatMasker se ejecutó con el motor de búsqueda NCBI / RMBLAST v2.6.0 + (-e ncbi), la opción sensible (-s), la opción -a para obtener el archivo de alineación y sin las bibliotecas predeterminadas de RepeatMasker. Luego usamos el script parseRM.pl v5.7 (disponible en https://github.com/4ureliek/Parsing-RepeatMasker-Outputs Kapusta et al. 2017), en los archivos de alineación de RepeatMasker, con la opción -l y una tasa de sustitución de 0,002068 sustituciones por sitio por millón de años (Zhang et al. 2014b). El script recopila el porcentaje de divergencia del consenso para cada fragmento de TE, después de la corrección para una tasa de mutación más alta en los sitios CpG y la métrica de divergencia de 2 parámetros de Kimura (proporcionada en los archivos de alineación de RepeatMasker). El porcentaje de divergencia con el consenso es un proxy de la edad (cuanto más antigua sea la invasión de TE, más mutaciones se acumularán en los fragmentos de TE), al que el script aplica la tasa de sustitución para dividir los fragmentos de TE en contenedores de 1 My.

Transcriptómica

Se extrajo ARN de tejidos adultos (cerebro, retina, subepidermis, conducto coclear, bazo, epitelio olfatorio) de la raza homer de carreras y un embrión completo de un homer de carreras y un rodillo de salón (aproximadamente estadio embrionario 25 Hamburger y Hamilton 1951) . Se prepararon y secuenciaron bibliotecas de RNA-seq utilizando secuenciación de extremos emparejados de 100 pb en la plataforma Illumina HiSeq 2000 en el Instituto de Investigación de Patología Molecular, Viena (tejidos adultos), y el Instituto del Genoma en la Universidad de Washington, St. Louis (embriones) . Los datos de RNA-seq generados para la anotación Cliv_1.0 también se descargaron del repositorio público de NCBI para de novo reensamblaje. Los números de acceso para estos datos públicos son SRR521357 (corazón de vaso danés), SRR521358 (hígado de vaso danés), SRR521359 (corazón de volante oriental), SRR521360 (hígado de volante oriental), SRR521361 (corazón de jonrón de carreras) y SRR521362 (hígado de jonrón de carreras).

Cada archivo FASTQ se procesó con FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) para evaluar la calidad. Cuando FastQC informó sobre una representación excesiva de las secuencias del adaptador de Illumina, recortamos estas secuencias con fastx_clipper de FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/). Usamos FASTX-Toolkit para dos funciones adicionales: las ejecuciones de bases de baja calidad al inicio de las lecturas se recortaron con fastx_trimmer cuando fue necesario (corte de calidad de -Q 33), y luego las lecturas se recortaron con fastq_quality_trimmer (-Q 33). Finalmente, cada par de archivos de secuencia se ensambló con Trinity (Grabherr et al. 2011) versión r20131110 usando la opción –jaccard_clip.

Anotación del genoma

La referencia preexistente Gnomon (Souvorov et al. 2010), los modelos de genes derivados para el ensamblaje Cliv_1.0 (GCA_000337935.1) se mapearon en el ensamblaje de referencia Cliv_2.1 actualizado utilizando la alineación directa de las entradas de transcripción FASTA. Esto se hizo utilizando el flujo de trabajo de alineación de la canalización de anotación del genoma MAKER (Cantarel et al. 2008 Holt y Yandell 2011), que primero siembra alineaciones usando BLASTN (Altschul et al. 1990) y luego pule las alineaciones alrededor de los sitios de empalme usando Exonerate (Slater y Birney 2005). A continuación, se filtraron los resultados para eliminar las alineaciones que tenían una coincidencia general de menos del 90% del modelo original (la coincidencia se calcula como el porcentaje de identidad multiplicado por el porcentaje de cobertura de un extremo a otro).

Para la anotación final, MAKER pudo identificar de novo modelos de genes que no se superponen con los modelos de Gnomon alineados. Los conjuntos de pruebas de proteínas utilizados por MAKER incluían proteínas anotadas de Pterocles gutturalis (Ganga de garganta amarilla Zhang et al. 2014a) y Gallus gallus (Chicken International Chicken Genome Sequencing Consortium 2004) junto con todas las proteínas de la base de datos UniProt / Swiss-Prot (Bairoch and Apweiler 2000 UniProt Consortium 2007). Los conjuntos de pruebas del transcriptoma para MAKER incluían ensamblajes de ARNm-seq de Trinity de múltiples C. livia razas y tejidos (los métodos para el ensamblaje del transcriptoma se describen arriba). Las predicciones genéticas fueron producidas dentro de MAKER por Augustus (Stanke y Waack 2003 Stanke et al. 2008). Augustus fue entrenado usando 1000 modelos de genes Cliv_1.0 Gnomon que fueron divididos usando el script randomSplit.pl en conjuntos para entrenamiento y evaluación. Seguimos un protocolo de entrenamiento semiautomático (https://vcru.wisc.edu/simonlab/bioinformatics/programs/augustus/docs/tutorial2015/training.html, consultado el 9 de febrero de 2018). Los elementos repetitivos en el genoma se identificaron utilizando la biblioteca de repetición personalizada descrita anteriormente.

Construcción de mapas de vinculación y anclaje al ensamblaje actual

Los datos de genotipado por secuenciación (GBS) se generaron, recortaron y filtraron como se describió anteriormente (Domyan et al. 2016). Las lecturas se asignaron al ensamblado Cliv_2.1 utilizando Bowtie2 (Langmead y Salzberg 2012). Los genotipos se llamaron usando Stacks v1.46 (Catchen et al. 2011), con un límite mínimo de profundidad de lectura de 10. Los umbrales para las correcciones automáticas se establecieron utilizando los parámetros –min_hom_sequations 10, –min_het_seqs 0.01, –max_het_seqs 0.15. La cobertura de secuenciación y la tasa de genotipado variaron entre los individuos, y las aves con tasas de genotipado en el 25% inferior fueron excluidas del ensamblaje del mapa.

La construcción del mapa genético se realizó utilizando R / qtl v1.41-6 (www.rqtl.org Broman et al. 2003). Para los marcadores autosómicos, los marcadores que muestran distorsión por segregación (Chi-cuadrado, PAG & lt 0.01) fueron eliminadas. Los andamios ligados al sexo se ensamblaron y ordenaron por separado, debido a las diferencias en el patrón de segregación del cromosoma Z. Los andamios ligados a Z se identificaron evaluando la similitud de secuencia y el contenido de genes entre los andamios de palomas y el cromosoma Z del genoma de pollo anotado (Ensembl Gallus_gallus-5.0).

Las fracciones de recombinación por pares se calcularon en R / qtl para todos los marcadores autosómicos y ligados a Z. Los datos faltantes se imputaron utilizando "fill.geno" con el método "no_dbl_XO". Se identificaron y eliminaron marcadores duplicados. Dentro de los andamios individuales, se utilizaron las funciones R / qtl “droponemarker” y “calc.errorlod” para evaluar el error de genotipado. Los marcadores se eliminaron si la caída del marcador conducía a un aumento de la puntuación LOD, o si la eliminación de un marcador no terminal conducía a una disminución en la longitud de & gt10 cM que no estaba respaldada por la distancia física. Los genotipos individuales se eliminaron si mostraban puntuaciones de error LOD & gt5 (Lincoln y Lander 1992). Los grupos de ligamiento se ensamblaron a partir de 2960 marcadores autosómicos y 232 marcadores ligados a Z utilizando los parámetros (rf máx. 0,1, lod mínimo 6). En el raro caso de que los andamios individuales se dividieran en múltiples grupos de enlace, los grupos de enlace se fusionaron si estaban respaldados por datos de fracciones de recombinación, estos casos típicamente reflejaban grandes espacios físicos entre marcadores en un solo andamio. Los andamios en el mismo grupo de ligamiento se ordenaron manualmente en función de las fracciones de recombinación calculadas y las puntuaciones LOD.

Para comparar el mapa de vinculación con el ensamblaje del genoma original (Cliv_1.0), cada locus de 90 pb que contenía un marcador genético se analizó del archivo de salida de Stacks “catalogXXX_tags.tsv” y se consultó al ensamblaje Cliv_1.0 usando BLASTN (v2. 6.0+) con los parámetros –max_target_sequations 1 –max_hsps 1. 3.175 de los 3.192 loci (99,47%) del nuevo ensamblaje tuvieron un impacto BLAST con un valor E & lt 4e-24 y se mantuvieron.

Comparaciones de ensamblajes

Archivos FASTA de Cliv_2.1 y colLiv2 (Damas et al. 2017) los ensamblajes del genoma se enmascararon mediante NCBI WindowMasker (Morgulis et al. 2006) y las alineaciones de todo el genoma se calcularon con LAST (Kielbasa et al. 2011). A partir de estas alineaciones, se generó una gráfica de puntos a escala del genoma que indica las regiones sinténicas utilizando SynMap (Lyons y Freeling 2008 Lyons et al. 2008).

Actualmente, el ensamblado colLiv2 no está anotado. Por lo tanto, para comparar el contenido de genes entre ensamblajes, estimamos el número de genes Cliv_2.1 anotados ausentes de colLiv2 basados ​​en coordenadas genéticas. Basándonos en la longitud de LAST alineaciones, calculamos el porcentaje de cada andamio Cliv_2.1 alineado con colLiv2. Los andamios se dividieron en cuatro grupos según las alineaciones: los andamios Cliv_2.1 que no se alinearon con colLiv2, los andamios Cliv_2.1 donde LAST alineaciones a colLiv2 cubrieron menos del 50% de la longitud total del andamio, los andamios Cliv_2.1 donde las ÚLTIMAS alineaciones a colLiv2 cubrió entre el 50% y el 75% de la longitud total del andamio, y los andamios Cliv_2.1 donde LAST alineaciones a colLiv2 cubrieron el 75% o más de la longitud total del andamio. Para cada uno de estos grupos, se cuantificó el número de andamios que contenían genes. Muchos de estos andamios son pequeños y algunos pueden faltar parcial o completamente en la alineación debido al enmascaramiento de elementos repetitivos. Si las coordenadas genéticas anotadas de los andamios Cliv_2.1 caían parcial o totalmente dentro de una región alineada con colLiv2, estos genes se consideraban "presentes" en colLiv2. Por tanto, el número de genes marcados como "ausentes" en colLiv2 podría ser una estimación conservadora.

Para comparar el mapa de vinculación con colLiv2, cada locus de 90 pb que contiene un marcador genético se analizó del archivo de salida de Stacks "catalogXXX_tags.tsv" y se consultó al ensamblaje colLiv2 usando BLASTN (v2.6.0 +) con los parámetros –max_target_seqs 1 - hsps máx. 1.

Disponibilidad de datos

Este proyecto Whole Genome Shotgun ha sido depositado en DDBJ / ENA / GenBank bajo la accesión AKCR00000000. La versión descrita en este documento es la versión AKCR02000000. El ensamblado, la anotación y los datos asociados de Cliv_2.1 están disponibles en ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/337/935/GCA_000337935.2_Cliv_2.1.

Los datos de RNA-seq se depositan en la base de datos SRA con los números de acceso de BioSample SAMN07417936-SAMN07417943, y accesos de secuencia SRR5878849-SRR5878856. Los datos de ensamblaje y RNA-seq están disponibles públicamente en las bases de datos del NCBI bajo BioProject PRJNA167554. El archivo S1 contiene las tablas S1 – S7. El archivo S2 y el archivo S3 contienen datos de fracciones de recombinación utilizados para construir las Figuras 5a y 5b, respectivamente.


Materiales y métodos

Ensamblaje y análisis del genoma

Se extrajo ADN genómico de tejido de hoja joven mediante el método CTAB (Saghai-Maroof et al. 1984), y se utilizó para construir tres bibliotecas de extremos emparejados compatibles con Illumina (Illumina, San Diego, CA) con tamaños de inserto estimados de 168, 291 y 519 pb (Material suplementario, Tabla S1 en Archivo S1), como se describió anteriormente ( Hardigan et al. 2016). Se construyeron cuatro bibliotecas de Nextera Mate Pair con distancias internas estimadas que van desde 2.7 a 8.8 kb según las instrucciones del fabricante (Tabla S1 en Archivo S1). Las bibliotecas se secuenciaron en un Illumina HiSeq 2500 para generar lecturas de extremos emparejados de 150 nt de longitud. La calidad de lectura se evaluó con FastQC (v0.11.5) (Andrews 2010) y adaptadores y bases de baja calidad (Q & lt 20) se eliminaron con Cutadapt (v1.11) (Martin 2011), conservando lecturas & gt81 nt de longitud. Las lecturas de la biblioteca de pares de parejas se procesaron más con NextClip (v1.3.1) (Leggett et al. 2014), conservando las lecturas emparejadas & gt36 nt en los grupos A, B y C (Tabla S1 en el Archivo S1). Los K-mers (17, 23, 33, 43 y 63) se contaron utilizando JellyFish2 (v2.2.6) (Marçais y Kingsford 2011) con ALLPATHS-LG (v52488) (Gnerre et al. 2011) lecturas corregidas de errores de todas las bibliotecas de fragmentos.

Dos ensambladores comunes capaces de manejar genomas heterocigotos, ALLPATHS-LG (Gnerre et al. 2011) y Platanus (Kajitani et al. 2014), se utilizaron para generar de novo ensamblajes del genoma. Como ALLPATHS-LG tiene una restricción de tamaño de biblioteca de fragmentos (menos de dos veces el tamaño de la inserción), solo se usaron las lecturas limpias de la biblioteca de extremo emparejado de 168 pb (con un número de 204,292,990) y todas las lecturas de biblioteca de pares de parejas procesadas (34,232,248) con el " opción haploidify ”en ALLPATHS-LG (v52488) (Gnerre et al. 2011), mientras que se usaron lecturas limpias de todas las bibliotecas (278,764,758) y todas las lecturas de bibliotecas de pares de parejas con las opciones predeterminadas en Platanus (v1.2.4) (Kajitani et al. 2014). Después de filtrar ambos conjuntos para andamios y gt1000 bp, BUSCO (v2.0) (Simão et al. 2015) se ejecutó con la base de datos Embryophyta en ambos conjuntos para determinar la representación de ortólogos de plantas conservadas.

Para reducir el número y el tamaño de los huecos, GapCloser (v1.12r6) de SOAPdenovo (Luo et al. 2012) se ejecutó con las lecturas de extremo emparejado de la biblioteca de fragmentos de 291 y 519 pb (148,943,536), con una longitud máxima de lectura de 150 pb y el parámetro de superposición establecido en 31. Para identificar cualquier contaminante en el ensamblaje, BLASTN (BLAST + v2.2.31) (Camacho et al. 2009) se utilizó para buscar el ensamblaje genómico cerrado por brecha en la base de datos nr del Centro Nacional de Información Biotecnológica (NCBI) (Coordinadores de Recursos NCBI 2016). BUSCO (v2.0) (Simão et al. 2015) se ejecutó posteriormente con la base de datos Embryophyta en el ensamblaje final del genoma.

Se utilizó BWA-MEM (v0.7.15) (Li y Durbin 2009) para alinear las lecturas limpias de todas las bibliotecas de fragmentos con el ensamblaje, marcando alineaciones secundarias (-M). Se utilizó Picard MarkDuplicates (v2.1.1 http://broadinstitute.github.io/picard) para marcar PCR y duplicados ópticos. Las alineaciones procesadas por Picard se realinearon alrededor de InDels utilizando las herramientas GATK RealignerTargetCreator e IndelRealigner (v3.7.0 McKenna et al. 2010) con opciones predeterminadas. La herramienta HaplotypeCaller se utilizó posteriormente para llamar variantes con las opciones standard_min_confidence_threshold_for_calling, min_base_quality, heterozygosity e indel_heterozygosity configuradas en 30, 20, 0.05 y 0.001, respectivamente (v3.7.0 McKenna et al. 2010). Las variantes pasaron el filtrado con la herramienta GATK VariantFitration si tenían una profundidad de lectura entre 50 y 200, una profundidad de calidad & gt7 y un valor de BaseQRankSum entre −5 y 5 (v3.7.0 McKenna et al. 2010). Las variantes heterocigotas se filtraron adicionalmente de modo que solo se incluyeron en los análisis las variantes con un 30% ≤ frecuencia alélica ≥ 70%.

Ensambles y análisis de transcriptomas

El ARN se extrajo de los tejidos de yema cerrada, sépalo y pétalo, hoja joven, pedúnculo y pedicelo, ginostegio y hojas maduras (Figura 1, B y C) a través del QIAGEN RNeasy Plant Mini Kit, de acuerdo con las instrucciones del fabricante (QIAGEN, Hilden, Alemania) y se trató con Turbo DNasa para eliminar cualquier ADN de las muestras. Se construyeron seis bibliotecas de cadenas de KAPA Biosystems (Wilmington, MA) con índices NEBNext (Ipswich, MA) para cada uno de los tejidos y se secuenciaron en una plataforma Illumina HiSeq 2500, generando 50 nt de lecturas de un solo extremo (Tabla S2 en Archivo S1). Las lecturas de RNA-seq se procesaron luego con FastQC (v0.11.5 Andrews 2010) y Cutadapt (v1.11 Martin 2011) como se describe anteriormente, conservando lecturas & gt30 nt de longitud.

De novoSe generaron transcriptomas ensamblados para cada biblioteca de RNA-seq usando Trinity (v2.3.2 Grabherr et al. 2011) en el modo específico de hebra, y las transcripciones de menos de 500 pb se eliminaron de los ensamblajes. Las transcripciones se alinearon con el ensamblaje del genoma usando GMAP (v20161107 Wu y Watanabe 2005) con una cobertura del 95% y un límite de identidad, y las transcripciones no alineadas se buscaron en la base de datos nr (NCBI Resource Coordinators 2016) usando BLASTN de BLAST + (v2.2.31 Camacho et al. 2009) con un mi-valor de corte de 1e −5. Las lecturas limpias de cada biblioteca también se alinearon con el ensamblaje del genoma utilizando TopHat2 (v2.1.1 Kim et al. 2013) y Bowtie2 (v2.2.9 Langmead y Salzberg 2012) en modo trenzado, con una longitud máxima de intrón de 30 kb.

Anotación del genoma

A C. gigantea- Se creó una biblioteca de repetición personalizada (CRL) específica con RepeatModeler (v1.0.8 http://repeatmasker.org) utilizando scaffolds & gt10 kb como entrada. La CRL se buscó en una biblioteca curada de genes y secuencias que codifican proteínas vegetales, eliminando coincidencias con ProtExcluder (v1.1 Campbell et al. 2014), y luego se combina con RepBase (v20150807 Jurka 1998) Viridiplantae se repite para crear una CRL final. El ensamblaje del genoma fue enmascarado con RepeatMasker (v4.0.6 http://repeatmasker.org) usando la CRL con la opción –s.

Se construyeron conjuntos de transcripciones guiadas por el genoma para cada biblioteca de RNA-seq utilizando Trinity (v2.3.2 Grabherr et al. 2011) y las transcripciones de menos de 500 pb se eliminaron de las asambleas. Ab initio La predicción genética se realizó entrenando a Augustus (v3.2.2 Stanke et al. 2006), utilizando las sugerencias proporcionadas por las alineaciones de la biblioteca de RNA-seq de hoja madura y el ensamblaje del genoma enmascarado suave. Las predicciones de genes se obtuvieron ejecutando Augustus (v3.2.2) en el ensamblaje del genoma enmascarado duro y se refinaron usando PASA2 (v2.0.2 Haas et al. 2003), utilizando como evidencia los conjuntos de transcripciones guiadas por el genoma. Para identificar modelos genéticos de alta confianza, se buscó el conjunto de trabajo de modelos genéticos frente a PFAM (v29 Finn et al. 2016) usando HMMER (v3.1b2 Mistry et al. 2013). Las abundancias de expresión también se calcularon utilizando Cufflinks2 (v2.21 Trapnell et al. 2010) con las alineaciones de RNA-seq descritas anteriormente. Los modelos de genes de alta confianza se definen como que contienen un acierto de PFAM y / o evidencia de expresión en al menos una biblioteca de RNA-seq. La anotación funcional se generó mediante la búsqueda de los modelos genéticos contra el Arabidopsis thaliana proteoma (TAIR10 Lamesch et al. 2012), Swiss-Prot (Bairoch y Apweiler 2000) y PFAM (v29 Finn et al. 2016), y asignando una función en el mismo orden.

Análisis de genómica comparativa

Genes ortólogos y parálogos en las tres especies de Apocynaceae, junto con los proteomas anotados de Amborella trichopoda (Proyecto Genoma Amborella 2013) y A. thaliana (Lamesch et al. 2012 Tabla S3 en Archivo S1), se determinaron usando OrthoFinder (v1.1.4 Emms y Kelly 2015) usando la configuración predeterminada. Para evaluar la sintencia entre las especies de la familia Apocynaceae, MCScanX (Wang et al. 2012) se utilizó con R. stricta, C. roseus, y C. gigantea. Los proteomas predichos para las tres especies se buscaron entre sí utilizando BLASTP de BLAST + (v2.5.0 Camacho et al. 2009), con un mi-valor de corte de 1e -5 y un máximo de cinco aciertos reportados.

Identificación de supuestas enzimas biosintéticas de cardenolida

los C. gigantea Se buscó el proteoma contra 3β-hidroxiesteroide deshidrogenasas funcionalmente caracterizadas (3βHSD Herl et al. 2007) y progesterona 5β-reductasas (P5βR Bauer et al. 2010) usando BLASTP de BLAST + (v2.5.0 Camacho et al. 2009) con un mi-valor de corte de 1e −5. Se conservaron las coincidencias con porcentaje de identidad & gt50% y cobertura de consultas & gt85%.El identificado C. gigantea Las proteínas se alinearon con las proteínas 3βHSD y P5βR caracterizadas usando MUSCLE (Edgar 2004) como se implementó en MEGA7 (Kumar et al. 2016). Los árboles de genes de unión de vecinos se construyeron utilizando parámetros predeterminados con eliminación por pares y 1000 réplicas de bootstrap en MEGA7 (Kumar et al. 2016). Fragmentos obtenidos previamente por modelo de exón kilobase por millón de valores de lecturas mapeadas (FPKM) de Cufflinks2 (v2.21 Trapnell et al. 2010) para los genes identificados se transformaron log2 y se agruparon jerárquicamente en R (v3.4.2) utilizando el paquete “gplots” (https://CRAN.R-project.org/package=gplots) función “heatmap.2”.

Disponibilidad de datos

Las lecturas de secuencia sin procesar se han depositado en el NCBI bajo BioProject PRJNA400797. La matriz de ensamblaje, anotación y expresión del genoma se ha depositado en el depósito digital Dryad (DOI: 10.5061 / dryad.fk41r) y en el recurso de genómica de plantas medicinales (http://medicinalplantgenomics.msu.edu/). Las tablas complementarias se incluyen en el archivo S1.


Resultados

Anotación de genomas de maíz usando GOMAP

El contenedor GOMAP se probó anotando términos GO a los genes que codifican proteínas de cuatro líneas endogámicas de maíz (B73, Mo17, W22 y PH207). El tamaño y el número de genes que codifican proteínas fueron similares entre las líneas de maíz como se esperaba (ver Tabla 1). La longitud total de codificación de la proteína predicha varió ligeramente entre las líneas endogámicas. W22 tiene la longitud total más alta y B73v4 tiene la más larga. Los genes más cortos que se anotaron tienen menos de cinco aminoácidos de longitud en todos los endogámicos excepto B73v3. Estos son posibles errores de anotación en la base de datos, pero se informan como modelos genéticos válidos. La mediana y la longitud media de los genes en las anotaciones son similares pero varían dentro de un rango estrecho, y PH207 tiene la mediana y la longitud media más bajas del gen. Tres líneas puras tienen genes más largos que tienen más de 5000 aminoácidos. Los genes que tienen menos de 50 aminoácidos presentan un desafío para predecir los términos de GO. Mo17 tenía la mayor proporción de genes de menos de 50 aminoácidos de longitud (& gt1300), que por cierto tiene el recuento de genes anotado más bajo. Todas las demás líneas endogámicas tienen menos del 1% de genes de menos de 50 aminoácidos (Tabla 2).

Tiempos de ejecución de los pasos de GOMAP para diferentes genomas de maíz

Los tiempos de ejecución de GOMAP se determinaron mediante el clúster PSC Bridges HPC. El proceso de anotación manual de maíz-GAMER es complejo con más de 40 pasos interdependientes necesarios para la anotación de un extremo a otro del genoma de una planta. Para hacer que el proceso de anotación sea intuitivo y conveniente, el proceso de anotación de GOMAP combinó los pasos de maíz-GAMER en solo siete pasos discretos (ver Tabla 3). Los primeros cuatro pasos, seqsim, fanngo, domain y mixmeth-blast, están configurados para ejecutarse simultáneamente como procesos independientes. Los últimos tres pasos, mixmeth-preproc, mixmeth y aggregate, dependen del resultado de los primeros cuatro pasos. El tiempo total necesario para completar la anotación de los genomas del maíz fue de entre treinta y tres y treinta y seis horas. La longitud total de la proteína predicha y el número de genes tuvieron un impacto insignificante en el tiempo de ejecución total de GOMAP para los genomas de maíz, aunque los tiempos de ejecución de los pasos se vieron afectados por la carga del grupo. Dos pasos paralelizados, dominio y mixmeth-blast, duraron más que otros pasos, pero el tiempo de ejecución se ha acortado considerablemente en comparación con las versiones no paralelizadas. El paso de dominio se ejecuta durante más de cinco días sin paralelización y mixmeth-blast se ejecuta durante más de diez días sin paralelización. En particular, la ejecución de los pasos 1-4 simultáneamente permite a GOMAP completar la anotación de los genomas de maíz en veinticuatro horas para cada genoma probado.

Evaluación y comparación de las métricas de análisis para anotaciones de maíz

Se calcularon la cobertura, el número de anotaciones y la especificidad (ver Tabla 4) para el GOMAP y los conjuntos de datos comunitarios. Se observa una alta cobertura de alrededor del 100% para todos los conjuntos de datos de GOMAP. En comparación, los conjuntos de datos de la comunidad para B73v4 y PH207 tienen una cobertura general de aproximadamente el 77% y el 45%, respectivamente. Los conjuntos de datos estándar de oro solo cubren alrededor del 3-4% de los genes y proporcionan solo un número menor de genes para calcular las métricas de evaluación de CAFA (Tabla 4). Las anotaciones se separaron por categoría para obtener una imagen más clara de la cobertura (ver Fig. 3). La cobertura cambia sustancialmente entre las categorías para todos los conjuntos de datos. Los conjuntos de datos de GOMAP tienen la cobertura más alta en la categoría de proceso biológico para todas las líneas endogámicas (es decir, ( sim ) 100%), y tienen una cobertura más baja en otras categorías (CC: 86–92% MF: 82–95%). Sin embargo, ambos conjuntos de datos comunitarios tienen la mayor cobertura en la categoría de función molecular. El conjunto de datos de la comunidad PH207 tuvo la cobertura más baja entre los conjuntos de datos de anotación en las tres categorías de GO, y el conjunto de datos de la comunidad PH207 cubrió solo alrededor de ( sim ) 10% de genes en la categoría de componente celular. El conjunto de datos de Gramene tenía una cobertura más alta que la comunidad PH207, pero tenía una cobertura más baja que GOMAP en todas las categorías de GO. Esto indica que GOMAP produce conjuntos de datos de mayor cobertura que los métodos de la comunidad Gramene o PH207.

Métricas de análisis calculadas para las anotaciones de maíz de la comunidad y anotaciones de GOMAP. Columna izquierda: Componente celular. Columna central: función molecular. Columna derecha: proceso biológico. Fila superior: porcentaje de genes con una anotación. Fila central: número de anotaciones por gen. Fila inferior: especificidad de las anotaciones. Las líneas endogámicas se indican a lo largo del eje x. Las anotaciones de GOMAP se indican con un círculo verde. Las anotaciones de la comunidad se indican con un triángulo naranja. La cobertura se muestra como un porcentaje general, pero tanto el número de anotaciones por gen como la especificidad se representan como valores medios en todas las anotaciones del conjunto de datos. Las barras de error indican un error estándar. El intervalo de confianza es muy pequeño, por lo que las barras de error alto y bajo se superponen entre sí para la mayoría de los conjuntos de datos.

El número de anotaciones se normalizó dividiendo el número total de anotaciones por el número de genes. Esta normalización permite la comparación entre diferentes conjuntos de datos para el mismo genoma y diferentes genomas. El número de anotaciones varía entre las líneas puras y los conjuntos de datos. B73v3 tiene el mayor número de anotaciones entre los conjuntos de datos de GOMAP, aunque W22 tenía el mayor número de genes codificadores de proteínas. Los conjuntos de datos de GOMAP tuvieron el mayor número de anotaciones en todas las líneas endogámicas, seguidos por los conjuntos de datos de la comunidad. Los conjuntos de datos estándar de oro tuvieron el menor número de anotaciones por un margen significativo (ver Tabla 4). En algunos endogámicos, como B73v4 y Mo17, GOMAP tenía nueve veces el número de anotaciones que el correspondiente conjunto de datos estándar de oro. Los conjuntos de datos de la comunidad también tienen un mayor número de anotaciones que los conjuntos de datos estándar de oro, pero la magnitud de la diferencia fue menor ( ( sim ) 1-3x). El número de anotaciones se separó por categoría GO y se comparó entre sí. Esto permitió comparar el número de anotaciones entre diferentes líneas endogámicas, fuentes de anotaciones y categorías GO. El mayor número de anotaciones se observó en los conjuntos de datos de GOMAP en la categoría BP ( ( sim ) 7 anotaciones por gen), que es significativamente mayor que los conjuntos de datos de la comunidad en BP (B73v4: ( sim ) 3x PH207 ( sim ) 6x) y conjuntos de datos de GOMAP en otras categorías de GO. Los conjuntos de datos de GOMAP tienen un mayor número de anotaciones en comparación con los conjuntos de datos de la comunidad en todas las categorías de GO, pero la magnitud de la diferencia no es tan alta en las categorías CC y MF. El conjunto de datos de la comunidad PH207 muestra el número más bajo de anotaciones en las tres categorías GO, y este número es especialmente bajo en la categoría CC. En comparación, GOMAP muestra el menor número de anotaciones en la categoría MF. Los conjuntos de datos de Gramene para B73v4 tienen el mayor número de anotaciones en MF y el menor en CC.

La especificidad indica el número de términos ancestrales para determinadas anotaciones dada la jerarquía de GO y la media de todas las anotaciones para un conjunto de datos en particular. La especificidad representa una medida de información proporcionada por un término específico. Esta métrica es más alta en los conjuntos de datos comunitarios y los conjuntos de datos estándar de oro en las tres categorías (ver Tabla 4), en comparación con la cobertura y el número de anotaciones. El conjunto de datos de Gramene para B73v4 tiene una especificidad más alta que incluso el conjunto de datos estándar de oro. Los conjuntos de datos de GOMAP también tenían menor especificidad que los conjuntos de datos estándar de oro. Un análisis más detallado separado por cada categoría GO permitió comparaciones similares para la cobertura y el número de anotaciones (ver Fig. 3). Todos los conjuntos de datos tenían una mayor especificidad en las categorías de BP y MF que CC. El conjunto de datos de Gramene B73v4 tiene la mayor especificidad en todas las categorías de GO, pero logró una especificidad significativamente mayor en la categoría de PA. El conjunto de datos de la comunidad PH207 tiene una mayor especificidad que GOMAP solo en la categoría BP, pero GOMAP tiene una cobertura ligeramente mayor en las categorías CC y MF.

Evaluación y comparación de las métricas de evaluación para anotaciones de maíz

Las métricas de evaluación se calcularon comparando las anotaciones previstas con los conjuntos de datos estándar de oro. Se utilizaron tres métricas de evaluación centradas en proteínas de CAFA para evaluar las anotaciones: Precisión (Pr), Recordar(Rc) y (F_). La precisión mide la proporción de anotaciones previstas que se superponen con el estándar de oro. Recall mide la proporción de anotaciones estándar de oro que se predicen correctamente. (F_) es la media armónica de Pr y Rc y proporciona un solo número para comparar entre diferentes métodos. Las métricas de evaluación se calcularon por separado para cada categoría de GO (ver Fig. 4). Un factor importante a tener en cuenta es el número total de anotaciones estándar de oro que están desequilibradas y sesgadas hacia la categoría CC (consulte la Tabla 5). Esta distribución sesgada de los datos estándar de oro afecta directamente el cálculo de las métricas de evaluación, y esto se indica mediante las barras de error estándar más amplias que se ven en las categorías MF y BP en la Fig. 4. Las métricas de evaluación comparan el rendimiento de los métodos utilizados para la anotación. por lo tanto, se utilizan las siguientes convenciones para describir los métodos de anotación para los conjuntos de datos de maíz. El método de comunidad utilizado para anotar B73v4 se llama "Gramene" y el método de comunidad utilizado para anotar PH207 se llama "PH207-comunidad" en la siguiente sección.

Todos los métodos tuvieron una precisión más alta en la categoría CC en comparación con otras categorías, mientras que la categoría BP tuvo la precisión más baja en general. El método PH207-community logró la mayor precisión entre todos los conjuntos de datos en las tres categorías de GO. Además, PH207-community tiene una precisión sustancialmente más alta que GOMAP en las categorías CC y BP. Gramene también obtuvo una mayor precisión para B73v4 que GOMAP en las tres categorías, aunque la magnitud de la diferencia fue menor. El método empleado por la comunidad PH207 es más preciso en comparación con otros métodos. Los valores de recuperación no mostraron una tendencia de rendimiento clara como se ve con Precision. El rendimiento de la recuperación varió entre los métodos, y ningún método se desempeñó mejor que otros métodos en todas las categorías de GO. GOMAP logró un mejor recuerdo en las categorías CC y BP, pero Gramene mostró un recuerdo ligeramente mejor (GOMAP = 0,8229433 Gramene = 0,8250246) que GOMAP en la categoría MF. Estaba claro que tanto GOMAP como Gramene superaron al método PH207-community en todas las categorías, y el recuerdo fue más de 5-10 veces mayor para GOMAP en las categorías CC y BP. GOMAP es el único método que logró un rendimiento superior o comparable a otros métodos en las tres categorías.

Métricas de evaluación calculadas para las anotaciones de maíz de la comunidad y GOMAP. Columna izquierda: Componente celular. Columna central: función molecular. Columna derecha: Proceso biológico. Fila superior: Precisión. Fila del medio: recordar. Fila inferior: (F_max ). Las líneas endogámicas se indican a lo largo del eje x. Las anotaciones de GOMAP se indican con un círculo verde. Las anotaciones de la comunidad se indican con un triángulo naranja. La precisión y la recuperación se muestran como el valor medio de todas las anotaciones con barras de error que indican un error estándar, pero (F_max ) se representa como un valor absoluto para un conjunto de datos específico

(F_) da un número único para la comparación del rendimiento de los tres métodos. Al igual que Recall, ningún método mostró un rendimiento más alto en las tres categorías de GO. Gramene mostró un desempeño más alto en las categorías de MF y BP, pero GOMAP tuvo un mayor (F_) en la categoría CC. La mayor precisión lograda por Gramene superó a Gramene por delante de GOMAP en ambas categorías, y una mayor recuperación llevó a GOMAP por delante en la categoría CC. El método PH207-community tuvo un (F_) en las tres categorías, y especialmente más bajo por un margen significativo en la categoría CC. El método PH07-community mostró un rendimiento comparable aunque ligeramente inferior al del GOMAP solo en la categoría MF. El rendimiento del método PH207-community se vio afectado por el menor recuerdo observado en todas las categorías.

Comparación de la comunidad con GOMAP y anotaciones seleccionadas

Se realizó una comparación de genes, términos de GO y anotaciones entre el conjunto de datos de GOMAP y el conjunto de datos de la comunidad para B73v4 y PH207 en cada categoría de GO. Esta comparación se limitó a los términos estándar de oro para proporcionar validez biológica a los datos que se estaban comparando. Los valores de recuperación de menos de uno observados en todos los conjuntos de datos en todas las categorías de GO indican que ningún método logró predecir todas las anotaciones en el conjunto de datos estándar de oro (Fig. 4). La comparación permitió la identificación de genes únicos y términos GO que solo fueron anotados por un método particular. Las proporciones comparativas de las comparaciones se presentan en la Figura 5 y los números absolutos se presentan en la Tabla 5.

Comparación del GOMAP y las anotaciones de la comunidad en función de si se anotaron los términos estándar de oro. Columna izquierda: Componente celular. Columna central: función molecular. Columna derecha: proceso biológico. Fila superior: porcentaje de genes con al menos una anotación. Fila central: proporción de términos GO únicos recuperados. Fila inferior: proporción de anotaciones GO expandidas recuperadas. Los genes estándar de oro o las anotaciones recuperadas tanto por la comunidad como por los métodos GOMAP se muestran en rosa. Los recuperados por GOMAP pero no el método comunitario se muestran en azul. Los recuperados por la anotación de la comunidad pero no GOMAP se muestran en verde. Aquellos anotados en el patrón oro que no fueron recuperados por ninguno de los métodos se muestran en lavanda.

GOMAP ha anotado más genes estándar de oro tanto en B73v4 como en PH207 en las tres categorías de GO que los métodos de comunidad de Gramene y PH207. La mayoría de los genes tienen anotaciones tanto de GOMAP como de Gramene para B73v3, pero los métodos de comunidad GOMAP y PH207 han anotado la mayoría de los genes solo en las categorías de MF y BP. Debido a la mayor cobertura observada en Gramene y GOMAP, la porción de genes estándar de oro es mayor en todas las categorías de GO en comparación con la proporción de genes anotados por GOMAP y el método de la comunidad PH207. Solo Gramene ha anotado unos pocos genes estándar de oro de las categorías CC y BP en B73v4, pero solo GOMAP ha anotado un número mayor de genes estándar de oro en CC y BP. No se anotaron genes mediante el método de la comunidad PH207 que no fueron anotados por GOMAP, y una proporción sustancialmente mayor de genes PH207 solo ha sido anotada por GOMAP. La misma tendencia también se observa en términos GO anotados por diferentes métodos. La mayoría de los términos de GO fueron anotados por ambos métodos para B73v4, pero GOMAP anota más términos para los genes estándar de oro que Gramene. Gramene ha anotado solo unos pocos términos en BP y un término en MF que no fueron anotados por GOMAP a ningún gen estándar de oro. Los términos GO anotados por el método PH207-community son un subconjunto de los términos GOMAP GO, y GOMAP ha anotado más del doble del número de términos GO anotados por el método PH207-community para los genes estándar de oro en las categorías CC y BP. Desafortunadamente, una proporción de los términos GO en los datos del estándar de oro no ha sido anotada por ningún método para ambos endogámicos. Este número varía entre las categorías de GO, pero es mayor en CC y BP que en MF. A continuación, la comparación se realizó utilizando las anotaciones estándar de oro (es decir, pares de términos Curated Gene-GO). GOMAP supera a Gramene en la proporción de anotaciones estándar de oro que se predicen correctamente en CC y BP, pero Gramene supera a GOMAP en MF. Aunque el número de anotaciones estándar de oro en MF que solo predice GOMAP (31) es similar al de Gramene (35), el (F_) la diferencia es significativa. Las anotaciones de la comunidad PH207 son un subconjunto de las anotaciones de GOMAP y una cantidad sustancial de anotaciones solo se encuentran en GOMAP. Esto se espera con base en los valores de recuperación que se ven en la Fig. 4. Ninguno de los métodos predice proporciones más pequeñas de anotaciones estándar de oro en CC ( ( sim ) 11%) y MF ( ( sim ) 8% ) categorías, pero este número aumenta a ( ( sim ) 40%) en la categoría BP.


Eudicots

Los eudicots son el grupo más grande de plantas con flores del planeta.

Aguileña

(genoma disponible pero no publicado)

ColumbineAquilegia sp.) proviene de un grupo de eudicots, los Ranunculales, cuyos antepasados ​​se separaron de los antepasados ​​de los principales grupos de eudicots (como rosids y asterids) hace mucho, mucho tiempo (en algún lugar en el vecindario de hace 115-130 millones de años). Comparar la secuencia del genoma de la columbina con otros genomas de eudicot debería ser muy interesante para varios grupos de biólogos de plantas (genomicistas comparativos y biólogos evolutivos en particular).

El genoma de la columbina fue secuenciado a una cobertura de 8 veces por JGI y una versión previa a la publicación del genoma está disponible para descargar desde phytozome (se requiere creación de cuenta / inicio de sesión). El ensamblaje actual es solo al nivel del andamio (sin pseudomoléculas) y consta de 302 megabases de secuencia distribuidas en 971 andamios. Las anotaciones de genes actuales identifican 25.784 genes identificados mediante una mezcla de secuenciación EST y homología con otros genomas secuenciados. Puede ver en CoGe con GenomeView

Al igual que con todos los genomas de angiospermas secuenciados, la aguileña tiene una antigua duplicación del genoma completo. Sin embargo, ¿es este el evento de paleohexaploidía compartido entre las rosidas y asteridas? Duplicación del genoma completo de Columbine

Loto sagrado

"El loto sagrado es un eudicot basal con importancia agrícola, medicinal, cultural y religiosa. Fue domesticado en Asia hace unos 7.000 años y cultivado por sus rizomas y semillas como cultivo alimenticio. Se destaca especialmente por su longevidad de semillas de 1.300 años y una repelencia al agua excepcional, conocida como efecto loto. Esta última propiedad se debe a las protuberancias nanoscópicas muy compactas de la superficie de la hoja autolimpiante, que se han adaptado para la fabricación de una pintura industrial autolimpiante, Lotusan. El genoma de la variedad China Antique del loto sagrado fue secuenciada con Illumina y tecnologías 454, a profundidades respectivas de 101 × y 5.2 ×.El ensamblaje final tiene un contig N50 de 38,8 kbp y un andamio N50 de 3,4 Mbp, y cubre el 86,5% del tamaño total estimado del genoma de 929 Mbp. El genoma carece notablemente de la paleo-triplicación observada en otros eudicots, pero revela una duplicación específica de linaje. El genoma tiene evidencia de evolución lenta, con una tasa de mutación de nucleótidos un 30% más lenta que la observada en la uva. Las comparaciones de los genomas secuenciados disponibles sugieren un conjunto mínimo de genes para plantas vasculares de 4.223 genes. Sorprendentemente, el loto sagrado tiene 16 proteínas de la familia de oxidasa de cobre múltiple COG2132 con expresión específica de la raíz, que están involucradas en la inanición de fosfato del meristemo de la raíz, lo que refleja la adaptación a la disponibilidad limitada de nutrientes en un ambiente acuático. La lenta tasa de sustitución de nucleótidos hace que el loto sagrado sea un mejor recurso que el estándar actual, la uva, para reconstruir el genoma pan-eudicot y, por lo tanto, debería acelerar el análisis comparativo entre eudicots y monocots ".

Remolacha azucarera

La remolacha azucarera - un cultivar de la remolacha común (Beta vulgaris) -- cuentas para

20% de la producción de azúcar en todo el mundo y es un cultivo favorecido en países demasiado fríos para sustentar una industria de caña de azúcar local, incluida Rusia, gran parte de la UE y la mayor parte de Estados Unidos. La remolacha azucarera es una innovación agrícola relativamente reciente con la cría selectiva de remolacha para obtener un alto contenido de azúcar que solo comenzó en 1784 y la producción no se adoptó a gran escala hasta las guerras napoleónicas, durante las cuales gran parte de Europa quedó esencialmente aislada del comercio con el Caribe. , hasta entonces la principal fuente de azúcar de Europa a partir de la caña de azúcar.

Las remolachas pertenecen a los Caryophyllales, un orden de plantas con flores que también incluye los verdaderos cactus y muchas plantas carnívoras. Actualmente se cree que los Caryophyllales están más estrechamente relacionados con los Asterids que con los Rosids, pero no están incluidos dentro de ninguno de los grupos.

El genoma de la remolacha se encuentra actualmente en la versión 0.9 y abarca 590 MB de datos de secuencia divididos en 82.305 andamios y contigs. El genoma se basa en una línea haploide doble llamada KWS2320. Se espera que la versión 1.0 incluya mejoras realizadas a partir de la corrección de errores de homopolímeros introducidos por la secuenciación de próxima generación, así como la integración de contigs usando un mapa genético.

Para obtener más información y descargar el genoma, visite el sitio web del grupo de secuenciación del genoma de la remolacha azucarera.

Asterides

Los asterides son un grupo de plantas dentro de los eudicots que incluyen especies como las verduras solanas (tabaco, tomate, papa, pimiento y berenjena) y los girasoles.

Tomate Domesticado

El tomate (Solanum lycopersicum) El artículo sobre el genoma se publicó en Nature en mayo de 2012. aún no está completo. La versión del genoma actualmente cargada en CoGe se ensambla en pseudomoléculas [1]. El ensamblaje más reciente es 2.40 que incluye 781 megabases de secuencia total (de un tamaño de genoma estimado de

El papel del genoma The Tomato Genome Consortium (2012) "La secuencia del genoma del tomate proporciona información sobre la evolución de la fruta carnosa". Naturaleza doi: [10.1038 / nature11119]

Tomates Salvajes

Solanum pennellii

"Solanum pennellii es una especie de tomate silvestre endémica de las regiones andinas de América del Sur, donde ha evolucionado para prosperar en hábitats áridos. Debido a su extrema tolerancia al estrés y su morfología inusual, es un importante donante de germoplasma para el tomate cultivado Solanum lycopersicum. Las líneas de introgresión (IL) en las que grandes regiones genómicas de S. lycopersicum se reemplazan con los segmentos correspondientes de S. pennellii pueden mostrar un rendimiento agronómico notablemente superior. Aquí describimos un ensamblaje del genoma de alta calidad de los padres de la población de IL. del genoma de S. pennellii al mapa genético, definimos genes candidatos para la tolerancia al estrés y proporcionamos evidencia de que los elementos transponibles tuvieron un papel en la evolución de estos rasgos. Nuestro trabajo allana el camino hacia una mayor mejora del tomate y para descifrar los mecanismos subyacentes a la miríada otros rasgos agronómicos que pueden mejorarse con germoplasma de S. pennellii ".

Solanum pimpinellifolium

Este es un genoma de prepublicación

"Solanum pimpinellifolium es el tomate silvestre que está más estrechamente relacionado con el Solanum lycopersicum domesticado. Fue secuenciado por un grupo de científicos del Laboratorio Cold Spring Harbor".

Solanum arcanum

Especie silvestre perenne relacionada con el tomate nativo del norte de Perú.

Solanum habrochaites

"Solanum habrochaites es una especie de tomate silvestre que se encuentra en las laderas occidentales de los Andes desde el centro de Ecuador hasta el centro de Perú. Se ha utilizado en numerosos estudios genómicos, como la identificación de QTL para rasgos de importancia agronómica (1) o análisis de un conjunto de 99 líneas casi isogénicas (NIL) y líneas endogámicas recombinantes retrocruzadas (BCRIL) que cubren más del 85% del genoma de Solanum habrochaites (2). También se ha utilizado en el análisis bioquímico de la acumulación de sacarosa en frutos (3) ". [De Solgenomics.net http://solgenomics.net/organism/938/view]

Patata

Las papas son posiblemente el segundo cultivo no herbáceo más importante que se cultiva en todo el mundo. Tanto el mejoramiento como el análisis genómico de la papa se han visto obstaculizados por el hecho de que la mayoría de las papas cultivadas son tetraploides recientes. El genoma de la papa fue publicado por un consorcio internacional con los autores correspondientes provenientes de los Estados Unidos, China y los Países Bajos en 2011. Es el primer genoma disponible públicamente dentro del clado asterid. Para evitar las complejidades introducidas por la tetraploidía, el consorcio del genoma se centró en una variedad de papa diploide y utilizó tecnología monoploide doble para crear una "línea endogámica instantánea". Este genoma ensamblado se usó como base para analizar más datos generados a partir de una línea heterocigota donde se detectó una gran cantidad de variación de presencia y ausencia. El linaje de la papa ha experimentado una tetraploidía adicional desde la antigua hexaploidía compartida por los asteridos y rosidos.

El ensamblaje actual del genoma contiene aproximadamente el 86% del genoma total de la papa, y el 74% del genoma total de la papa se ha ensamblado en 12 pseudomoléculas utilizando mapas genéticos y físicos. Se anotaron un total de 39.031 genes codificadores de proteínas en el ensamblaje actual.

El papel del genoma: Consorcio de secuenciación del genoma de la papa (2011). Secuencia del genoma y análisis de la papa de cultivo de tubérculos. Naturaleza, 475: 189–195 DOI 10.1038 / nature10158

Berenjena (Solanum melongena L.)

"A diferencia de otros cultivos importantes de solanáceas como el tomate, la papa, el ají y el tabaco, todos originarios de América del Sur y cultivados en todo el mundo, la berenjena (Solanum melongena L.) es autóctona del Viejo Mundo y en este sentido es filogenéticamente Para ampliar aún más nuestro conocimiento de la naturaleza genómica de las plantas solanáceas, diseccionamos el genoma de la berenjena y construimos un borrador del conjunto de datos del genoma con 33.873 andamios denominados SME_r2.5.1 que cubre 833,1 Mb, aproximadamente el 74% del genoma de la berenjena. Aproximadamente el 90% del espacio genético se estimó que estaba cubierto por SME_r2.5.1 y se predijeron 85.446 genes en el genoma. El análisis de agrupamiento de los genes predichos de la berenjena junto con los genes de otras tres plantas solanáceas, así como Arabidopsis thaliana, reveló que, de las 35.000 grupos generados, 4.018 estaban compuestos exclusivamente por genes de berenjena que quizás conferirían rasgos específicos de la berenjena. Entre la berenjena y el tomate, se dedujeron 16.573 pares de genes para ser ortólogo, y 9.489 andamios de berenjena podrían mapearse en el genoma del tomate. Además, se identificaron 56 bloques de synteny conservados entre las dos especies. El análisis comparativo detallado de los genomas de la berenjena y el tomate facilitará nuestra comprensión de la arquitectura genómica de las plantas solanáceas, lo que contribuirá al cultivo y una mayor utilización de estos cultivos ". Resumen de investigación del ADN

Pimiento rojo (Capsicum annuum)

Resulta que la guindilla / pimiento dulce es una de esas especies que demasiada gente quería secuenciar. Un grupo de investigación, compuesto principalmente por científicos coreanos, publicó su ensamblaje del genoma en Nature Genetics, mientras que un segundo grupo, que incluía a muchos científicos chinos, publicó su versión del genoma en PNAS poco tiempo después.

El genoma de la pimienta es grande, ya que las especies de plantas con genomas publicados llegan a 3,3 gigabases (1,5 veces el tamaño del maíz para las que llevan un registro en casa). Los investigadores que publicaron el genoma encontraron que gran parte de ese tamaño proviene de una sola floración de actividad de retrotransposones de repetición terminal larga que ocurrió hace solo 300.000 años.

Tabaco

"Nicotiana benthamiana es una especie de planta modelo ampliamente utilizada para el estudio de cuestiones fundamentales en las interacciones moleculares planta-microbio y otras áreas de la biología vegetal. Esta popularidad se deriva de su susceptibilidad bien caracterizada a diversos patógenos y, especialmente, su susceptibilidad a virus. métodos de expresión de proteínas transitorias y silenciamiento génico inducido. A continuación, informamos la generación de un borrador de secuencia del genoma de N. benthamiana con una cobertura de 63 veces y su disponibilidad en la red Sol Genomics Network tanto para búsquedas BLAST como para su descarga en servidores locales. El genoma estimado El tamaño de N. benthamiana es de 3 Gb (gigabases). El ensamblaje actual consta de aproximadamente 141.000 andamios, que abarcan 2,6 Gb con el 50% de la secuencia del genoma contenida en andamios & gt89 kilobases. De las aproximadamente 16.000 N. benthamiana unigenes disponibles en GenBank, & gt90 % están representados en la asamblea. La utilidad de la secuencia se demostró mediante la recuperación de N. benthamiana ortholog s para 24 genes asociados a la inmunidad de otras especies, incluidas Ago2, Ago7, Bak1, Bik1, Crt1, Fls2, Pto, Prf, Rar1 y proteína quinasas activadas por mitógenos. La secuencia también será útil para la genómica comparativa en la familia de las solanáceas como se muestra aquí por el descubrimiento de microsinteny entre N. benthamiana y tomate en la región que abarca los genes Pto y Prf ".

Flor de mono

La flor del monoMimulus guttatus) el genoma aún no está completo. La versión del genoma cargada actualmente en CoGe no está ensamblada en pseudomoléculas [1] pero contiene modelos de genoma. Lea más sobre el genoma de la flor de mono en fitozoma (se requiere creación de cuenta / inicio de sesión) o vea el ensamblaje actual en GenomeView aquí.

Phytozome sugiere citar este manuscrito si publica análisis a escala del genoma completo del genoma de la flor del mono.

Fresno común

Fraxinus excelsior No publicado pero disponible en Ft. Lauderdale de un grupo liderado por Richard Buggs en Inglaterra.

Genlisea aurea

"Genlisea aurea (Lentibulariaceae) es una planta carnívora con un tamaño de genoma inusualmente pequeño (63,6 Mb), una de las plantas superiores más pequeñas conocidas. Los datos sobre el tamaño del genoma y la filogenia de Genlisea sugieren que este es un estado derivado dentro del género. Por lo tanto, , G. aurea es un organismo modelo excelente para estudiar los mecanismos evolutivos de la contracción del genoma. Aquí informamos la secuenciación y el ensamblaje de novo del genoma de G. aurea. El ensamblaje consta de 10 687 contigs de una longitud total de 43.4 Mb e incluye 17755 completos y genes que codifican proteínas parciales. Su comparación con el genoma de Mimulus guttatus, otro representante del clado Lamiales de núcleo superior, revela diferencias notables en el contenido de genes y la longitud de las regiones no codificantes. La contracción del genoma era un proceso complejo, que implicaba la pérdida y reducción de genes de longitudes de intrones y regiones intergénicas, pero no pérdida de intrones. La pérdida de genes es más frecuente para los genes que pertenecen a familias multigénicas, lo que indica que t la redundancia genética es un requisito previo importante para la reducción del tamaño del genoma ".

Arándano

"Antecedentes: los arándanos son una rica fuente de antioxidantes y otros compuestos beneficiosos que pueden proteger contra enfermedades. La identificación de genes involucrados en la síntesis de compuestos bioactivos podría permitir la reproducción de variedades de bayas con mayores beneficios para la salud. Resultados: Con este fin, anotamos un borrador del genoma de los arándanos ensamblaje utilizando datos de RNA-Seq de cinco etapas de desarrollo y maduración de frutos de baya. El ensamblaje guiado por el genoma de alineaciones de lectura de RNA-Seq combinado con la salida de buscadores de genes ab initio produjo alrededor de 60.000 modelos de genes, de los cuales más de la mitad eran similares a proteínas de otras especies, típicamente la uva Vitis vinifera. La comparación de modelos genéticos con la base de datos PlantCyc de enzimas de vías metabólicas identificó genes candidatos involucrados en la síntesis de compuestos bioactivos, incluida la bixina, un apocarotenoide con propiedades potenciales para combatir enfermedades, y glucósidos cianogénicos relacionados con las defensas. que son tóxicos. Las enzimas biosintéticas de glucósidos cianogénicos (CG) fueron altamente expr essed en fruta verde, y una enzima de desintoxicación CG candidata fue regulada durante la maduración de la fruta. También se identificaron genes candidatos para etileno, antocianina y otras 400 vías biosintéticas. El perfil de expresión de RNA-Seq mostró que el crecimiento, la maduración y la maduración del arándano implican cambios dinámicos en la expresión génica, incluida la regulación ascendente y descendente coordinada de las enzimas de la vía metabólica, genes relacionados con el crecimiento celular y reguladores transcripcionales putativos. El análisis de las alineaciones de RNA-seq también identificó el empalme alternativo regulado por el desarrollo, el uso de promotores y la formación del extremo 3 '. Conclusiones: Divulgamos la secuencia del genoma, los modelos de genes, las anotaciones funcionales y los datos de expresión de RNA-Seq que proporcionan un nuevo recurso importante que permite estudios de alto rendimiento en arándanos. Los datos de RNA-Seq están disponibles gratuitamente para su visualización en Integrated Genome Browser, y el código de análisis está disponible en el repositorio de git en http://bitbucket.org/lorainelab/blueberrygenome ".

Arándano

"El arándano americano (Vaccinium macrocarpon Ait.) Es uno de los únicos tres cultivos frutales nativos de América del Norte ampliamente cultivados; los otros dos son el arándano (Vaccinium spp.) Y la uva nativa (Vitis spp.). En términos de taxonomía, los arándanos se encuentran en el núcleo de Ericales, un orden para el que actualmente faltan datos sobre la secuencia del genoma. Además, los arándanos rojos producen una gran cantidad de compuestos secundarios polifenólicos importantes, algunos de los cuales son beneficiosos para la salud humana. Mientras que la tecnología de secuenciación de próxima generación está permitiendo el avance de La secuenciación del genoma completo, un obstáculo importante para el ensamblaje exitoso de los datos de secuencia de lectura corta de organismos diploides complejos (y ploidía superior) es la heterocigosidad. El arándano tiene la ventaja de ser diploide (2n = 2x = 24) y autofértil. minimizar el problema de la heterocigosidad, secuenciamos el genoma de un genotipo consanguíneo de quinta generación (F ≥ 0,97) derivado de cinco generaciones de autofecundación originadas en el cultivar Ben Lear. El tamaño del genoma de V . macrocarpon se ha estimado en unos 470 Mb. Las secuencias genómicas se ensamblaron en 229.745 andamios que representan 420 Mbp (N50 = 4.237 pb) con una cobertura promedio de 20X. El número de genes previstos fue de 36.364 y ​​representa el 17,7% del genoma ensamblado. De los genes predichos, se asignaron 30.090 a genes candidatos basándose en la homología. Los genes respaldados por los datos del transcriptoma totalizaron 13.170 (36%). La secuenciación rápida del genoma del arándano, con una cobertura de secuenciación promedio de 20X, permitió un ensamblaje y una llamada de genes eficientes. Los genes candidatos identificados representan una colección útil para estudiar más a fondo las vías bioquímicas importantes y los procesos celulares y para utilizarlos en el desarrollo de marcadores para la reproducción y el estudio de las características hortícolas, como la resistencia a las enfermedades ".

Kiwi

"El kiwi (Actinidia chinensis) es un cultivo frutal de importancia económica y nutricional con un contenido notablemente alto de vitamina C. Aquí presentamos el borrador de la secuencia del genoma de un kiwi heterocigoto, ensamblado a partir de

Datos de secuenciación de próxima generación de 140 veces. El genoma ensamblado tiene una longitud total de 616,1 Mb y contiene 39.040 genes. El análisis genómico comparativo revela que el kiwi ha sufrido un antiguo evento de hexaploidización (γ) compartido por eudicots centrales y dos eventos más recientes de duplicación del genoma completo. Ambos eventos de duplicación recientes ocurrieron después de la divergencia del kiwi del tomate y la papa y han contribuido a la neofuncionalización de genes involucrados en la regulación de características importantes del kiwi, como la vitamina C del fruto, flavonoides y metabolismo de carotenoides. Como la primera especie secuenciada en las Ericales, la secuencia del genoma del kiwi proporciona un recurso valioso no solo para el descubrimiento biológico y la mejora de cultivos, sino también para el análisis genómico evolutivo y comparativo, particularmente en el linaje asterido ".

Café

"El café es una bebida valiosa debido a su sabor y aroma característicos y a los efectos estimulantes de la cafeína. Generamos un borrador del genoma de alta calidad de la especie Coffea canephora, que muestra un orden de genes cromosómicos conservados entre las angiospermas asteridas. Aunque muestra no hay señales de la triplicación del genoma completo identificado en especies de Solanaceae como el tomate, el genoma incluye varias expansiones de familias de genes específicas de especies, entre ellas N-metiltransferasas (NMT) involucradas en la producción de cafeína, genes relacionados con la defensa y enzimas alcaloides y flavonoides involucrados en la síntesis de compuestos secundarios. Los análisis comparativos de los NMT de cafeína demuestran que estos genes se expandieron a través de duplicaciones secuenciales en tándem independientemente de los genes del cacao y el té, lo que sugiere que la cafeína en los eudicots es de origen polifilético ".

Utricularia gibba

El genoma de la planta con flores más pequeño secuenciado hasta la fecha. (Declaración precisa a partir del otoño de 2014)

"Se ha argumentado que la evolución del tamaño del genoma de la planta es principalmente unidireccional y en aumento debido a la acción variada de las duplicaciones del genoma completo (WGD) y la proliferación de elementos móviles1. Sin embargo, se han informado reducciones extremas del tamaño del genoma en el árbol genealógico de las angiospermas. Aquí informamos la secuencia del genoma de 82 megabase de la planta carnívora bladderwort Utricularia gibba. A pesar de su pequeño tamaño, el genoma de U. gibba aloja un número típico de genes de una planta, con la principal diferencia con otros genomas de plantas que surgen de un reducción drástica en el ADN no génico. Inesperadamente, identificamos al menos tres rondas de WGD en U. gibba desde un ancestro común con tomate (Solanum) y uva (Vitis). La arquitectura comprimida del genoma de U. gibba indica que una pequeña fracción de ADN intergénico, con pocos o ningún retrotransposón activo, es suficiente para regular e integrar todos los procesos necesarios para el desarrollo y reproducción de un organismo complejo ".

Horseweed

"La hierba de caballo (Conyza canadensis), un miembro de la familia Compositae (Asteraceae), fue la primera maleza de hoja ancha en desarrollar resistencia al glifosato. La hierba de caballo, una de las malas hierbas más problemáticas del mundo, es un verdadero diploide (2n = 2x = 18 ), con el genoma más pequeño de todas las malas hierbas agrícolas conocidas (335 Mb).Por lo tanto, es un candidato apropiado para ayudarnos a comprender las bases genéticas y genómicas de la mala hierba. Realizamos un borrador del ensamblaje de novo del genoma de la hierba de caballo combinando datos de múltiples plataformas de secuenciación (454 GS-FLX, Illumina HiSeq 2000 y PacBio RS) utilizando varias bibliotecas con diferentes tamaños de inserción (aproximadamente 350 bp, 600 bp, 3 kb y 10 kb) de un biotipo de alga de caballo resistente al glifosato al que se accede en Tennessee. A partir de 116,3 Gb (aproximadamente 350 × cobertura) de datos, el genoma se ensambló en 13.966 andamios con el 50% del ensamblaje = 33.561 pb. El ensamblaje cubrió el 92,3% del genoma, incluido el genoma completo del cloroplasto (aproximadamente 153 kb) y un genoma mitocondrial casi completo (aproximadamente 450 kb en 120 andamios). El genoma nuclear está compuesto por 44.592 genes que codifican proteínas. Se realizó la resecuenciación del genoma de siete biotipos adicionales de cola de caballo. Estos datos de secuencia se reunieron y utilizaron para analizar la variación del genoma. Se estudiaron polimorfismos de repetición de secuencia simple y de un solo nucleótido. Se detectaron patrones genómicos asociados a biotipos resistentes o susceptibles al glifosato. El borrador del genoma será útil para comprender mejor la maleza y la evolución de la resistencia a los herbicidas y para diseñar nuevas estrategias de manejo. El genoma también será útil como otro genoma de referencia en las Compositae. Hasta donde sabemos, este artículo representa el primer borrador del genoma publicado de una maleza agrícola ".

Rosids

Uva

La uva se separó temprano de los dos grupos principales de especies en las rosidas (eurosides I y eurosides II) y no ha experimentado ninguna duplicación del genoma completo desde esa divergencia, lo que la convierte en un grupo importante para las comparaciones con otras especies de rosidas, además de proporcionar un gran recurso para estudiando la antigua hexaploidía que precede a la radiación de las especies rosid (y posiblemente la radiación de las especies eudicot).

La versión del genoma de la uva en CoGe contiene

500 megabases de secuencia y 26346 genes anotados distribuidos en 19 cromosomas.

Jaillon, O., Aury, J., Noel, B., Policriti, A., Clepet, C., Casagrande, A., Choisne, N., Aubourg, S., Vitulo, N., Jubin, C., Vezzi, A., Legeai, F., Hugueney, P., Dasilva, C., Horner, D., Mica, E., Jublot, D., Poulain, J., Bruyère, C., Billault, A., Segurens, B., Gouyvenoux, M., Ugarte, E., Cattonaro, F., Anthouard, V., Vico, V., Del Fabbro, C., Alaux, M., Di Gaspero, G., Dumas, V ., Felice, N., Paillard, S., Juman, I., Moroldo, M., Scalabrin, S., Canaguier, A., Le Clainche, I., Malacrida, G., Durand, E., Pesole, G., Laucou, V., Chatelet, P., Merdinoglu, D., Delledonne, M., Pezzotti, M., Lecharny, A., Scarpelli, C., Artiguenave, F., Pè, M., Valle, G., Morgante, M., Caboche, M., Adam-Blondon, A., Weissenbach, J., Quétier, F. y Wincker, P. (2007). La secuencia del genoma de la vid sugiere una hexaploidización ancestral en los principales filos de angiospermas Naturaleza, 449 (7161), 463-467 DOI: 10.1038 / nature06148

Rosa árbol de goma / eucalipto

Una de las varias especies de árboles a las que se hace referencia con el nombre común "Eucalyptus", el árbol de goma rosa (Eucalyptus grandis) es originario de Australia, pero se considera un candidato para la producción de biocombustible en los EE. UU. El árbol de la goma de rosa es una rosid basal, como la uva, por lo que además del valor de esta secuencia del genoma para fines de reproducción de biocombustibles, este genoma sirve como un valioso grupo externo para las rosids centrales (enumeradas como Eurosids 1 y Eurosids 2 en este sitio). .

El genoma de la goma de rosa fue secuenciado a una cobertura de 8x por el Joint Genome Institute y se ensambla en 11 grupos de ligamiento / cromosomas. La liberación inicial del genoma incluye 691 MB de datos de secuencia y 41.204 genes codificadores de proteínas ubicados en los supuestos conjuntos de cromosomas. Leer más / descargar la secuencia de Phytozome (es necesario crear una cuenta / iniciar sesión).

Malpighiales

Diferentes personas que utilizan diferentes líneas de evidencia debaten si los Malpighiales pertenecen a Eurosids I o Eurosids II. Hasta que se resuelva esa incertidumbre, se presentan como una rama separada dentro de las Rosids.

Álamo

370 megabases de secuencia y 41377 genes codificadores de proteínas distribuidos en 19 cromosomas.

El artículo del genoma: Tuskan, G., DiFazio, S., Jansson, S., Bohlmann, J., Grigoriev, I., Hellsten, U., Putnam, N., Ralph, S., Rombauts, S., Salamov, A., Schein, J., Sterck, L., Aerts, A., Bhalerao, R., Bhalerao, R., Blaudez, D., Boerjan, W., Brun, A., Brunner, A., Busov, V., Campbell, M., Carlson, J., Chalot, M., Chapman, J., Chen, G., Cooper, D., Coutinho, P., Couturier, J., Covert, S., Cronk, Q., Cunningham, R., Davis, J., Degroeve, S., Dejardin, A., dePamphilis, C., Detter, J., Dirks, B., Dubchak, I., Duplessis, S., Ehlting, J., Ellis, B., Gendler, K., Goodstein, D., Gribskov, M., Grimwood, J., Groover, A., Gunter, L., Hamberger, B., Heinze, B., Helariutta, Y., Henrissat, B., Holligan, D., Holt, R., Huang, W., Islam-Faridi, N., Jones, S., Jones-Rhoades, M., Jorgensen, R., Joshi, C., Kangasjarvi , J., Karlsson, J., Kelleher, C., Kirkpatrick, R., Kirst, M., Kohler, A., Kalluri, U., Larimer, F., Leebens-Mack, J., Leple, J. , Locascio, P., Lou, Y., Lucas, S., Martin, F., Montanini, B., Napoli, C., Nelson, D., Nelson, C., Nieminen, K., Nilsson, O., Pereda, V., Peter, G., Philippe, R., Pilate, G., Poliakov, A., Razumovskaya, J., Richardson, P., Rinaldi, C., Ritland, K., Rouze, P., Ryaboy, D., Schmutz, J., Schrader, J., Segerman, B., Shin, H., Siddiqui, A., Sterky, F., Terry, A., Tsai, C., Uberbacher, E., Unneberg, P., Vahala, J., Wall, K., Wessler, S., Yang, G., Yin, T., Douglas, C., Marra, M., Sandberg, G., Van de Peer, Y. y Rokhsar, D. (2006). El genoma del álamo negro, Populus trichocarpa (Torr. & Amp Gray) Ciencia, 313 (5793), 1596-1604 DOI: 10.1126 / science.1128691

Sauce Arbusto

Salix purpurea No publicado pero disponible en Ft. Lauderdale

"Esta es una versión 1.0 de la secuencia del genoma del clon femenino 94006 de Salix purpurea. Salix purpurea es un arbusto diploide nativo de Europa y naturalizado en América del Norte. El clon 94006 se obtuvo de las orillas de un río al norte de Syracuse, NY. Salix purpurea e híbridos interespecíficos se están desarrollando como un cultivo de bioenergía propagado clonalmente que se maneja en sistemas de monte bajo de rotación corta que generalmente se cosechan cada tres años con rebrotes vigorosos después de cada cosecha. Salix purpurea es un pariente cercano de la Especie de árbol modelo insignia del DOE, Populus trichocarpa, de la familia Salicaceae ".

De Phytozome en JGI (donde también puede descargar el genoma después de crear una cuenta de JGI e iniciar sesión).

Linaza (Linum usitatissimum) es un antiguo cultivo de fibra que se cultiva para producir lino y también se utiliza como cultivo de semillas oleaginosas para producir aceite de linaza (también llamado, lo adivinaste, "aceite de linaza"). El lino tiene un tamaño de genoma total pequeño (estimado en

350 megabases) y el ensamblaje actual v1.0 fue producido en su totalidad por la secuenciación de Illumina. Este ensamblaje inicial consta de una gran cantidad de andamios (& gt88,000), sin embargo, 290 megabases del genoma de la linaza están presentes en solo 664 andamios, un número mucho más manejable. El proyecto del genoma del lino es una colaboración entre BGI y un grupo de investigadores canadienses. Descargue a través de phytozome (se requiere la creación de una cuenta / inicio de sesión).

El papel del genoma: Wang Z. (2012) "El genoma del lino (Linum usitatissimum) ensamblado de novo a partir de lecturas cortas de secuencia". El diario de la planta DOI: 10.1111 / j.1365-313X.2012.05093.x

Ricino

La haba de ricinoRicinus communis) es una planta de semillas oleaginosas que es la fuente de aceite de ricino y el veneno mortal ricina. El ricino no debe confundirse con el frijol común (Phaseolus vulgaris) que está en proceso de secuenciación del Joint Genome Institute.

El genoma de ricino publicado se basa en una cobertura de 4.6x del genoma utilizando secuenciación solexa.

La versión actual consta de 31,237 modelos de genes distribuidos en 25,800 andamios.

Se estima que el genoma completo es

320 megabases de tamaño y contiene 10 cromosomas.

Papel del genoma Agnes P Chan et al., "Borrador de la secuencia del genoma de la especie de semillas oleaginosas Ricinus communis", Nature Biotechiology, DOI 10.1038 / nbt.1674

Mandioca

MandiocaManihot esculenta) es el cultivo más importante del que la mayoría de la gente en América y Europa nunca ha oído hablar (excepto quizás en forma de tapioca). Originalmente domesticada en América del Sur, la yuca es ahora una importante fuente de alimento en el sudeste de Asia y África. El borrador actual del genoma está disponible a través de phytozome (se requiere creación de cuenta / inicio de sesión) y consta de 416 megabases de secuencia distribuidas en 11.243 contigs. Esto es solo un poco más del 50% del tamaño total estimado del genoma de la yuca, pero las personas involucradas en la secuenciación y el ensamblaje creen que representa la mayoría del genoma no repetitivo. La versión actual también incluye 47,164 genes predichos.

El artículo del genoma: Prochnik S et al (2012) "El genoma de la yuca: progreso actual, direcciones futuras". DOI: 10.1007 / 12042-011-9088-z & lt-- Este es realmente el documento que Phytozome dice que debe citar cuando se usa el genoma de la yuca.

Árbol de goma

Mientras que otras plantas también producen caucho natural, la gran mayoría de lo que se produce comercialmente proviene de esta especie (Hevea brasiliensis). Si bien el ensamblaje del genoma actual cubre solo la mitad del tamaño estimado del genoma del árbol del caucho (1,1 GB ensamblados a partir de un genoma de 2,15 GB) y está muy fragmentado (N50 =

3,000), los autores presentan evidencia de que su ensamblaje captura la mayor parte del espacio genético del genoma del caucho.

La anotación actual del genoma contiene casi 70.000 genes putativos basados ​​en alineaciones de proteínas de especies relacionadas, RNA-seq y paquetes de software de predicción de genes de novo. El genoma del árbol del caucho está formado por 18 cromosomas.

The Genome Papper: Yamin Abdul Rahman, A et al (2013) "Borrador de la secuencia del genoma del árbol del caucho Hevea brasiliensis". BMC Genomics doi: 10.1186 / 1471-2164-14-75

En este momento, parece el único lugar para obtener el ensamblaje del genoma de caucho en NCBI.

Eurosids 1

Abedul enano

El abedul enano ('Betula nana'). Agrega más detalles aquí.

El artículo del genoma: Wang N et al (2012) "Secuencia del genoma del abedul enano (Betula nana) y marcadores RAD de especies cruzadas". Ecología molecular DOI: 10.1111 / mec.12131

Quercus robur (roble)

Muchas especies diferentes caen en el roble de nombre común. Esta especie en particular Quercus robur puede denominarse "roble inglés" o "roble francés". Dadas esas opciones y el alcance internacional de Internet, probablemente sea más seguro seguir con el nombre científico. Este es un genoma de prepublicación y prelanzamiento, sin embargo, esta sección se ha agregado como un marcador de posición para hacer que debería haber un ensamblaje para Q. rubor producido con el apoyo de INRA en Francia disponible para descargar en un futuro cercano: https: / /w3.pierroton.inra.fr/QuercusPortal/index.php?p=OAK_GENOME_SEQUENCING

Cucurbitáceas
Pepino

La publicación también incluyó un mapa genético con una longitud total de 581 cM basado en 1.885 marcadores. Los recursos de esta versión del genoma del pepino están disponibles en este sitio.

Independientemente, un grupo de investigadores de EE. UU. Ha publicado un borrador de una secuencia del genoma de pepino de la línea endogámica Gy14. Esta versión del genoma se ensambló a partir de 454 lecturas de secuenciación y la versión actual consta de 203 megabases de secuencia y una predicción de 21491 genes codificadores de proteínas distribuidos en 4219 andamios. Esta versión está disponible en Phytozome.

Una tercera versión del genoma del pepino, esta del cultivar Borszczagowski línea B10, fue producida por un grupo de investigación polaco y publicada en 2011 y los datos resultantes están disponibles aquí.

El artículo del genoma: Huang, S., Li, R., Zhang, Z., Li, L., Gu, X., Fan, W., Lucas, W., Wang, X., Xie, B., Ni, P., Ren, Y., Zhu, H., Li, J., Lin, K., Jin, W., Fei, Z., Li, G., Staub, J., Kilian, A., van der Vossen, E ., Wu, Y., Guo, J., He, J., Jia, Z., Ren, Y., Tian, ​​G., Lu, Y., Ruan, J., Qian, W., Wang, M ., Huang, Q., Li, B., Xuan, Z., Cao, J., Asan,., Wu, Z., Zhang, J., Cai, Q., Bai, Y., Zhao, B. , Han, Y., Li, Y., Li, X., Wang, S., Shi, Q., Liu, S., Cho, W., Kim, J., Xu, Y., Heller-Uszynska, K., Miao, H., Cheng, Z., Zhang, S., Wu, J., Yang, Y., Kang, H., Li, M., Liang, H., Ren, X., Shi, Z., Wen, M., Jian, M., Yang, H., Zhang, G., Yang, Z., Chen, R., Liu, S., Li, J., Ma, L., Liu, H., Zhou, Y., Zhao, J., Fang, X., Li, G., Fang, L., Li, Y., Liu, D., Zheng, H., Zhang, Y., Qin, N., Li, Z., Yang, G., Yang, S., Bolund, L., Kristiansen, K., Zheng, H., Li, S., Zhang, X., Yang, H., Wang, J., Sun, R., Zhang, B., Jiang, S., Wang, J., Du, Y. y Li, S. (2009). El genoma del pepino, Cucumis sativus L. Genética de la naturaleza, 41(12), 1275-1281 DOI: 10.1038 / ng.475

Melón

Melón (Cucumis melo es un pariente cercano del pepino (puedes saberlo porque comparten el mismo nombre de género. o recordando cuán similares se veían las plantas si tuvieras un jardín mientras crecías). El genoma secuenciado del melón es de una línea haploide doble llamada DHL92 y se estima que cubre el 83% del genoma total (375 y 450 megabases respectivamente). El genoma se secuenció de forma primaria con 454 lecturas (cobertura 13,5x), aunque se utilizó la secuenciación de Sanger de los extremos de BAC para ayudar en el ensamblaje, y las lecturas de Illumina se utilizaron para corregir errores en las regiones de homopolímero (una serie de AAAA, TTTT, CCCC o GGGG & lt-- 454 tiene problemas para calcular cuántas copias totales de un nucleótido están presentes en secuencias como estas).

El genoma se ensambló en 12 pseodomoléculas con la ayuda de un mapa genético. Estas doce pseudomoléculas contienen 316 megabases de secuencia (aproximadamente el 70% del tamaño total estimado del genoma del melón).

Garci-Mas J et al (2012) "El genoma del melón (Cucumis melo L.) " PNAS DOI: 10.1073 / pnas.1205415109

Descargar datos de secuencia:

Sandía

El genoma de la sandía (Citrullus lanatus) es otro genoma que nos trajo el Instituto de Genómica de Beijing. El genoma de 425 megabase se secuenció a una profundidad de & gt100x usando secuenciación de lectura corta de Illumina. El ensamblaje del genoma resultante incluyó 353,5 megabases de secuencia, 330 megabases de las cuales se colocaron en 11 pseudomoléculas que representan cada cromosoma de sandía.

El artículo del genoma: Guo et al (2012) "El borrador del genoma de la sandía (Citrullus lanatus) y la resecuenciación de 20 accesiones diversas" Genética de la naturaleza DOI: 10.1038 / ng.2470

Fresa del bosque

La fresa del bosqueFragaria vesca) no es la especie que produce la mayoría de las fresas que se ven hoy en los estantes de las tiendas de comestibles. Generalmente son de la fresa de jardín. Sin embargo, las fresas de jardín son octoploides, lo que hace que la secuenciación de su genoma sea relativamente difícil, mientras que la fresa de bosque posee un genoma diploide mucho más manejable. Para obtener más información sobre la secuencia de la fresa del bosque, consulte esta fascinante historia de uno de los científicos detrás del artículo sobre el genoma.

El genoma de la fresa publicado consta de 7 cromosomas / pseudomoléculas.

El artículo del genoma: Vladimir Shulaev et al., "El genoma de la fresa del bosque (Fragaria vesca)", Nature Genetics 43: 109-116. DOI: 10.1038 / ng.740

Manzana

La manzana (Malus x domestica) se publicó a finales de agosto de 2010. Se estima que el genoma total tiene un tamaño de 742,3 MB, distribuido en 17 cromosomas. El genoma publicado incluye 600 megabases de secuencia ensambladas en 17 pseudomoléculas y varios contigs no anclados más pequeños. El genoma de la manzana contiene 57.386 genes putativos, un gran número atribuible, al menos en parte, a una duplicación del genoma completo en el linaje de la manzana que data de hace 30-65 millones de años. El genoma de la manzana aún no se ha cargado en CoGe y aún no parece estar disponible para su descarga; sin embargo, hay un navegador de genoma disponible.

Riccardo Velasco et al., “El genoma de la manzana domesticada (Malus [times] domestica Borkh.)”, Nature Genetics, DOI: 10.1038 / ng.654

La pera (Pyrus bretschneideri Rehd. CV. Dangshansuli) ha sido secuenciado por un grupo chino con sede en la Universidad Agrícola de Nanjing. El artículo sobre el genoma no se publicó inicialmente, sin embargo, es posible solicitar una copia previa a la publicación del genoma a través del sitio web del proyecto pear genome. El artículo sobre el genoma se publicó en noviembre de 2012.

Si bien no he examinado el ensamblaje del genoma de la pera (la mayoría de las cosas que me interesan se considerarían análisis reservados), la descripción del genoma es muy prometedora, ya que los investigadores dicen que utilizaron un enfoque BAC-by-BAC a la secuenciación y también generó un mapa genético denso que cubre los 17 cromosomas de pera. Ambos enfoques darán como resultado conjuntos de genomas más grandes y precisos de lo que son posibles cuando se utilizan tecnologías de secuenciación de lectura corta como Illumina e Ion Torrent. (La desventaja es que la secuenciación de BAC por BAC lleva más tiempo y cuesta más, por lo que ya no es tan común).

Wu et al (2012) "El genoma de la pera (Pyrus bretschneideri Rehd.)" Investigación del genoma doi: 10.1101 / gr.144311.112

Canabis

El genoma del cannabis (Cannabis sativa) se publicó en Genome Biology en octubre de 2011. La secuencia del genoma se completó utilizando una mezcla 454 y la secuenciación de Illumina, con pares de apareamiento utilizados para cerrar las brechas en las regiones ensambladas. Como resultado, aunque solo se ensamblaron 534 megabases del genoma, el genoma abarca & gt786 Mb de secuencia (los 200 MB adicionales son NNNNNN que representan secuencias repetidas no ensambladas, transposones, de longitud conocida entre regiones secuenciadas del genoma). Además del genoma en sí, el mismo grupo de investigación generó una gran cantidad de datos de secuencia de ARN específicos de tejido de múltiples cultivares de cannabis.

Papel del genoma: Harm van Bakel et al "El borrador del genoma y transcriptoma de Cannabis sativa". Biología del genoma DOI: 10.1186 / gb-2011-12-10-r102

El lúpulo es un componente esencial en la producción de cerveza. También existe la segunda especie de Cannabaceae para la que se ha publicado una secuencia del genoma (después del cannabis anterior).

"La flor femenina del lúpulo (Humulus lupulus var. Lupulus) es un ingrediente esencial que le da aroma, amargor y durabilidad / estabilidad característicos a la cerveza. Sin embargo, la base genética molecular para identificar marcadores de ADN en el lúpulo para la reproducción y para estudiar su domesticación ha sido mal establecido. Aquí, proporcionamos genomas preliminares para dos cultivares de lúpulo (cv. Saazer [SZ] y cv. Shinshu Wase [SW]) y un lúpulo salvaje japonés (H. lupulus var. cordifolius también conocido como Karahanasou [KR] ). La secuenciación y el ensamblaje de novo de ADN genómico de plantas de SW heterocigotas generaron andamios con un tamaño total de 2,05 gigabases (Gb), lo que corresponde a aproximadamente el 80% del tamaño estimado del genoma del lúpulo (2,57 Gb). Los andamios contenían 41.228 proteínas putativas -genes codificadores.Las secuencias del genoma para SZ y KR se construyeron alineando sus lecturas de secuencia corta con el genoma de referencia SW y luego reemplazando los nucleótidos en los sitios SNP. El análisis de secuenciación de ARN de novo (RNA-Seq) de SW reveló la regulación del desarrollo de genes involucrados en procesos metabólicos especializados que impactan el gusto y el sabor de la cerveza. La aplicación de una novedosa herramienta bioinformática, el ARN-Seq comparativo filogenético (PCP-Seq), que se basa en la profundidad de lectura de los ADN y ARN genómicos, permitió identificar genes relacionados con la biosíntesis de aromas y sabores que se enriquecen en SW. Nuestros resultados no solo sugieren la importancia del proceso histórico de selección humana para mejorar las biosíntesis de aroma y amargor en cultivares de lúpulo, sino que también sirven como información crucial para el mejoramiento de variedades con alta calidad y rendimiento ".

Pastilla

El azufaifo (Ziziphus jujuba Mill.), Un miembro de la familia Rhamnaceae, es una fruta seca importante y una medicina tradicional a base de hierbas para más de mil millones de personas. Aquí presentamos una secuencia de alta calidad para el genoma de azufaifo complejo, la primera secuencia del genoma de Rhamnaceae, utilizando una estrategia integrada. El ensamblaje final abarca 437,65 Mb (98,6% del estimado) con 321,45 Mb anclados a los 12 pseudocromosomas y contiene 32.808 genes. El genoma de la azufaifa ha sufrido frecuentes fusiones entre cromosomas y duplicaciones segmentarias, pero ninguna duplicación reciente del genoma completo. Los análisis adicionales de los genes específicos de la azufaifa y los datos del transcriptoma de 15 tejidos revelan los mecanismos moleculares que subyacen a algunas propiedades específicas de la azufaifa. Su alto contenido de vitamina C se puede atribuir a un alto nivel de expresión único de genes implicados tanto en la biosíntesis como en la regeneración. Nuestro estudio proporciona información sobre la biología específica de la azufaifa y valiosos recursos genómicos para la mejora de las plantas de Rhamnaceae y otros árboles frutales.

Durazno

200 contigs no colocados más pequeños. La secuencia total liberada es de 227 megabases e incluye 27.852 genes anotados. El genoma se secuenció a una cobertura de 7,7x utilizando secuenciación de Sanger.

En marzo de 2013 se publicó en Nature Genetics el artículo que describe el genoma del melocotón:

Iniciativa Internacional del Genoma del Melocotón 2013 "El borrador del genoma del melocotón (Prunus persica) de alta calidad identifica patrones únicos de diversidad genética, domesticación y evolución del genoma" DOI: 10.1038 / ng.2586

Ciruela china / Mei

La ciruela china (o albaricoque japonés, básicamente los europeos no eran creativos en lo que respecta a la creación de nombres en inglés para productos asiáticos) es, como el melocotón, un miembro del género Prunus. Específicamente Prunus mume. También, como el melocotón, tiene un genoma ridículamente pequeño (280 megabases) que se ha ensamblado bien en ocho pseudomoléculas utilizando mapeo genético y óptico. El genoma de la ciruela china se secuenció a una cobertura de 100x utilizando la secuenciación de Illumina.

Los datos del genoma y las anotaciones son proporcionados por este sitio web: http://prunusmumegenome.bjfu.edu.cn/

Qixiang Zhang et al "El genoma de Prunus mume". Comunicaciones de la naturaleza DOI de 2012: 10.1038 / ncomms2290

Legumbres

Leguminosas (la familia de plantas Fabaceae) contenidas dentro del clado eurosid II. La familia es quizás mejor conocida por el hecho de que muchas de las especies que contiene forman relaciones simbióticas con bacterias fijadoras de nitrógeno. Las bacterias están protegidas y se alimentan dentro de nódulos especiales en las raíces de estas plantas y, a cambio, la planta se beneficia de la capacidad de las bacterias para convertir el nitrógeno en nuestra atmósfera en formas biodisponibles (el nitrógeno biodisponible es a menudo un nutriente limitante para otras especies de plantas). .

Medicago

Medicago (Medicago truncatula) es una pequeña leguminosa utilizada como especie modelo para la formación de nódulos y la fijación de nitrógeno, al igual que Lotus. La última versión del genoma de medicago es Mt3.0, que incluye 240 megabases de secuencia asociadas con los ocho cromosomas de Medicago, más 16,6 megabases de secuencia no anclada. Lea más en la página web de International Medicago Genome Annotation Group.

Papel del genoma: Young ND et al (2011) El genoma de Medicago proporciona información sobre la evolución de las simbiosis de rizobios. Naturaleza DOI: 10.1038 / nature10625

Garbanzo

El garbanzoCicer arietinum) se cultiva ampliamente en todo el mundo, aunque los centros de producción y consumo son Oriente Medio e India. Si bien los garbanzos fueron el ingrediente principal del delicioso chana masala que sostuvo a su humilde autor durante muchas noches encorvado sobre su computadora en la escuela de posgrado, en la mayoría de la cocina occidental, los garbanzos se encontrarán con mayor frecuencia triturados para hacer hummus. Dependiendo de la tienda de comestibles, los garbanzos enlatados también pueden etiquetarse como garbanzos. ¡Pero vamos al genoma!

El genoma del garbanzo se deriva de la accesión CDC Frontier que es miembro de la kabuli subtipo. Con base en la abundancia de kmer, los autores estiman que el tamaño total del genoma es

740 megabases de tamaño. Usando una gran cantidad de datos de Illumina (& gt 100 veces la cobertura del genoma después del recorte de calidad), los autores pudieron ensamblar 545 megabases en contigs. Utilizando mapas genéticos y secuencias finales de BAC, los autores pudieron colocar 345 megabases en la secuencia en ocho pseudomoléculas.

Papel del genoma: Varshney RK et al (2013) "El borrador de la secuencia del genoma del garbanzo (Cicer arietinum) proporciona un recurso para la mejora de los rasgos". Biotecnología de la naturaleza DOI: 10.1038 / nbt.2491

También se ha publicado un segundo genoma de garbanzo. Este proyecto se centró en el garbanzo tipo desi y dio como resultado un ensamblaje del genoma de 520 megabase:

Papel del genoma: Jain M et al (2013) "Un borrador de la secuencia del genoma del garbanzo de cultivo de legumbres (Cicer arietinum L.)". El diario de la planta DOI: 10.1111 / tpj.12173

Lotus japonicus

Lotus japonicus es una pequeña leguminosa que se utiliza como modelo para la formación de nódulos y la fijación de nitrógeno, al igual que Medicago. La versión actual del genoma de Lotus es la v2.5, que incluye 315 megabases de secuencia ensamblada (un 67% estimado del genoma). En v2.5, se han ensamblado 201 megabases de secuencia en seis pseudomoléculas correspondientes a los seis cromosomas de Lotus. El Instituto de Investigación del ADN de Kazusa prueba estadísticas adicionales y enlaces para descargar el genoma.

Papel del genoma: Sato S et al (2008) Estructura del genoma de la leguminosa, Lotus japonicus. Investigación de ADN DOI: 10.1093 / dnares / dsn008

Haba de soja

El genoma de la soja se publicó a principios de 2010 y contenía 950 megabases de secuencia, así como 46.430 genes codificadores de proteínas predichos distribuidos en veinte cromosomas. Los ancestros de la soja pasaron por dos duplicaciones del genoma completo desde la antigua hexaploidía como la base del linaje eudicot, y se estima que la más antigua ocurrió hace 59 millones de años y la más reciente se estima que ocurrió hace 13 millones de años.

El papel del genoma: Schmutz, J., Cannon, S., Schlueter, J., Ma, J., Mitros, T., Nelson, W., Hyten, D., Song, Q., Thelen, J., Cheng, J. , Xu, D., Hellsten, U., May, G., Yu, Y., Sakurai, T., Umezawa, T., Bhattacharyya, M., Sandhu, D., Valliyodan, B., Lindquist, E. , Peto, M., Grant, D., Shu, S., Goodstein, D., Barry, K., Futrell-Griggs, M., Abernathy, B., Du, J., Tian, ​​Z., Zhu, L., Gill, N., Joshi, T., Libault, M., Sethuraman, A., Zhang, X., Shinozaki, K., Nguyen, H., Wing, R., Cregan, P., Specht, J., Grimwood, J., Rokhsar, D., Stacey, G., Shoemaker, R. y Jackson, S. (2010). Secuencia del genoma de la soja paleopoliploide Naturaleza, 463 (7278), 178-183 DOI: 10.1038 / nature08670

  • Un pariente silvestre de la soja domesticada (Gliceno soja) se ha vuelto a secuenciar utilizando la tecnología Illumina y alineando las lecturas con las Glycine max montaje. El documento que describe este esfuerzo de re-secuenciación se puede encontrar aquí.
Gandul

Los gandulesCajanus cajan) se cultivan en áreas con escasas precipitaciones como una fuente importante de proteínas para los agricultores y una fuente importante de nitrógeno fijo en el suelo para cualquier cultivo del año siguiente. Se consideran un cultivo huérfano (una especie de gran importancia para la alimentación de las personas en todo el mundo, la principal fuente de proteínas para 1 MIL MILLONES DE PERSONAS según el documento del genoma), pero cultivada principalmente por pequeños agricultores en países en desarrollo, lo que significa que la especie no se ha beneficiado de los aumentos de rendimiento que pueden producir las prácticas modernas de mejoramiento).

El genoma del gandul se publicó en Nature Biotechnology en noviembre de 2011. El genoma se secuenció principalmente con lecturas cortas de Illumina, aunque el ensamblaje fue asistido por una serie de secuencias de envío de BAC producidas utilizando lecturas largas de secuenciación tradicional de Sanger. El ensamblaje contiene 606 megabases de secuencia, un poco menos de las tres cuartas partes del tamaño total estimado del genoma de 833 megabases, e incluye un estimado de 48,680 genes. Mientras que el genoma del pidgeon pea está compuesto por 11 cromosomas, el ensamblaje actual consiste en

El papel del genoma: Varshney RK et al (2011) Borrador de la secuencia del genoma del guandú (Cajanus cajan), un cultivo de leguminosas huérfanas de agricultores de escasos recursos. Biotecnología de la naturaleza DOI: 10.1038 / nbt.2022

Frijol común

La versión actual del genoma del frijol común es 1.0 y se ensambló a partir de

Cobertura 20 veces mayor del genoma con 454 lecturas (y un número menor de lecturas finales emparejadas). Este ensamblaje incluyó 521 megabases de secuencia ensamblada y tal como se ensambló al nivel del andamio. Al agregar BAC y secuencias finales de fosmidos, así como un mapa genético con 7015 marcadores (¡eso es mucho!), La versión 1.0 pudo aumentar el ensamblaje desde el andamio hasta el nivel de pseudomolécula. Lea más y descargue el genoma en phytozome (se requiere la creación de una cuenta / inicio de sesión).

El genoma del frijol común está publicado y ahora está disponible gratuitamente:

Frijol mungo

Nombre científico Vigna radiata

"El frijol mungo (Vigna radiata) es un cultivo de leguminosas de estación cálida de rápido crecimiento que se cultiva principalmente en los países en desarrollo de Asia. Aquí construimos un borrador de la secuencia del genoma del frijol mungo para facilitar la investigación del genoma del subgénero Ceratotropis, que incluye varios leguminosas en Asia, y para permitir una mejor comprensión de la evolución de las especies de leguminosas. Sobre la base del ensamblaje de novo de especies adicionales de frijol mungo silvestre, la divergencia de lo que finalmente fue domesticado y las especies silvestres de frijol mungo muestreadas parece haber sido anterior a la domesticación. Además, el ensamblaje de novo de una especie tetraploide de Vigna (V. reflexo-pilosa var. glabra) proporciona evidencia genómica de un evento alopoliploide reciente. El árbol de especies se construye utilizando ensamblajes de novo de secuencia de ARN de 22 accesiones de 18 especies de Vigna y conjuntos de proteínas de Glycine max. El presente conjunto de V. radiata var. radiata facilitará la investigación del genoma y acelerará la reproducción molecular del subgénero Cerat otropis ".

Lupino

"El lupino (Lupinus angustifolius L.) es el cultivo domesticado más recientemente en los principales cultivos agrícolas. Sus semillas son ricas en proteínas y fibra dietética, pero bajas en aceite y almidón. Estudios médicos y dietéticos han demostrado que el consumo de alimentos enriquecidos con lupino tiene un beneficios para la salud. Presentamos el borrador del ensamblaje de un conjunto de datos de secuenciación de escopeta de genoma completo para esta especie de leguminosa con una cobertura de 26.9x del genoma, que se prevé que contenga 57.807 genes. El análisis de los genes anotados con rutas metabólicas proporcionó una comprensión parcial de algunos características del altramuz, como el perfil de aminoácidos de las proteínas de almacenamiento en semillas. Además, aplicamos la tecnología de secuenciación RAD basada en NGS para obtener 8.244 marcadores de secuencia definida para anclar las secuencias genómicas. Un total de 4.214 andamios de la secuencia del genoma conjunto se alinearon en el mapa genético. La combinación del conjunto preliminar y un mapa genético definido por secuencia hizo posible localizar y estudiar genes funcionales de interés agronómico. La identificación de marcadores de SNP co-segregantes, secuencias de andamiaje y anotación de genes facilitó la identificación de un gen R candidato asociado con la resistencia a la antracnosis de la enfermedad principal de los altramuces. Demostramos que la combinación de secuenciación del genoma de profundidad media y un mapa de ligamiento genético de alta densidad mediante la aplicación de la tecnología NGS es un enfoque rentable para generar datos de secuencia del genoma y una gran cantidad de marcadores moleculares para estudiar la genómica, genética y funcional. genes del lupino, y aplicarlos al fitomejoramiento molecular. Esta estrategia no requiere un conocimiento previo del genoma, lo que potencia su aplicación a una amplia gama de especies no modelo ".

Maní

No publicado pero disponible para descargar.

"El maní cultivado, Arachis hypogaea, es un alotetraploide (2n = 4x = 40) que contiene dos genomas completos, denominados genomas A y B. A. duranensis (2n = 2x = 20) probablemente haya contribuido con el genoma A y A. ipaensis probablemente ha contribuido con el genoma B. Puede ser útil recordar estas dos asociaciones usando el mnemónico: "A" viene antes que "B" y "duranensis" viene antes que "ipaensis" ". Actualmente, los dos progenitores diploides han sido secuenciados y los ensamblajes del genoma se pueden descargar desde el enlace a continuación (también la fuente del texto citado anteriormente).

Eurosids 2

Algodón

La primera (potencialmente de varias) especies de algodón en tener su genoma secuenciado es Gossypium raimonddi. G. raimonddi aporta el genoma "D" a la especie de algodón alotetraploide (genomas A + D) G. hirsutum, que proporciona la mayor parte de la producción mundial de algodón. El genoma de G. raimonddi fue secuenciado por JGI y está disponible en phytozome, pero aún no se ha publicado.

El ensamblaje del genoma actual representa

750 megabases de secuencia y el 98% de ella se incorpora en 13 pseudomoléculas y otros 22 andamios grandes no colocados (& gt 50 kb).

Un segundo ensamblaje del genoma del algodón fue publicado por un grupo de científicos chinos que trabajaban con BGI en agosto de 2012. En el momento de escribir estas líneas, el ensamblaje del genoma de BGI no parece estar disponible para descargar en ningún lado. El documento contiene este enlace que conduce a una página web "próximamente". Esperamos que tenga más suerte cuando visite esta página en el futuro.

Estadísticas de la versión BGI: 775 MB de secuencia ensamblada total, 570 MB incorporados en 13 pseudomoléculas. 40,976 genes anotados, la mayoría de los cuales fueron respaldados por datos de RNA-seq.

Wang K et al (2012) "El borrador del genoma de un algodón diploide Gossypium raimondii" Genética de la naturaleza doi: 10.1038 / ng.2371

Chocolate

El genoma del árbol que nos da el chocolate Theobroma cacao ha sido secuenciado independientemente por dos grupos. Un ensamblaje del genoma, de la variedad llamada Criollo de Belice ha estado en Nature Genetics. Un segundo ensamblaje de una raza llamada Matina 1-6 está disponible en la base de datos del genoma de Cacao desde antes de la publicación de la secuencia del genoma Criollo, pero aún no se ha publicado. Ambos conjuntos están completos al nivel de pseudomoléculas.

El chocolate no ha experimentado ninguna duplicación del genoma completo desde la antigua hexaploidía compartida por todas las rosas secuenciadas.

Papel del genoma (versión Criollo):

Xavier Argout y col., "El genoma de Theobroma cacao", Nature Genetics 43 (2): 101-108. DOI: 10.1038 / ng.736

Aquilaria

"La madera de agar se deriva de los árboles de Aquilaria, cuyo comercio se ha sometido a un estricto control con una inclusión en el Apéndice II de la Convención sobre el Comercio Internacional de Especies Amenazadas de Fauna y Flora Silvestres. Se sabe que muchos metabolitos secundarios de la madera de agar tienen valor medicinal para humanos, incluidos compuestos que se ha demostrado que producen efectos sedantes y exhiben propiedades anticancerígenas. Sin embargo, se sabe poco sobre el genoma, el transcriptoma y las vías biosintéticas responsables de producir tales metabolitos secundarios en la madera de agar. En este estudio, presentamos un borrador del genoma y una vía putativa para la cucurbitacina E e I, compuestos con valor medicinal conocido, de madera de agar de Aquilaria agallocha in vitro. Los datos de ADN y ARN se utilizan para anotar muchos genes y funciones de proteínas en el borrador del genoma. Los cambios de expresión para la cucurbitacina E y Se ha demostrado que soy coherente con las respuestas conocidas de A. agallocha al estrés biótico y un conjunto de genes homólogos en Arabidopsis thalia. Se presenta y valida mediante qRT-PCR na relacionada con la biosíntesis de cucurbitacina. Este estudio es el primer intento de identificar cucurbitacina E e I a partir de madera de agar in vitro y el primer borrador del genoma para cualquier especie de Aquilaria. Los resultados de este estudio ayudarán en futuras investigaciones de las rutas de metabolitos secundarios en Aquilaria y otras plantas medicinales que no son modelo ".

NeemAzadirachta indica) es un pariente de la caoba que se encuentra en la India y los países vecinos. El árbol tiene una amplia gama de usos que van desde flores comestibles, proporcionando un aceite utilizado en varios jabones y sirviendo como repelente de insectos. El genoma de Neem tiene un tamaño de aproximadamente 370 megabases. Los datos de secuencia para Neem se pueden descargar aquí.

Papel del genoma: Krishnan NM et al (2012) "Un borrador del genoma y cuatro transcriptomas de una angiosperma medicinal y pesticida Azadirachta indica" BMC Genomics DOI: 10.1186 / 1471-2164-13-464

Frutas cítricas (género Agrios)

Los cítricos, desde limones hasta naranjas, pomelos y pomelos pertenecen a un género único. Muchas frutas que consideramos especies separadas pueden reproducirse entre sí, lo que dificulta la definición adecuada de las barreras entre especies.

Naranja dulce / común

La naranja dulceCitrus sinensis) se secuenció utilizando una combinación de tecnología de secuenciación Sanger (antigua, cara, pero larga y fácil de montar) y 454 (mucho más barata, rápida y algo más corta). La versión actual es solo la versión 0.1 y el genoma todavía está dividido en 12,574 andamios que cubren 319 megabases combinadas del genoma de la naranja dulce. A diferencia del genoma de la clementina que se describe a continuación, el proyecto del genoma de la naranja dulce utilizó ADN de un individuo diploide, lo que dificulta un poco el ensamblaje del genoma, ya que las inconsistencias entre las secuencias alineadas podrían ser simplemente el resultado de la variación entre las dos copias del genoma de ese individuo diploide. Esta versión de la publicación del genoma incluye 25 376 genes codificadores de proteínas anotados. Puede leer más o descargar datos aquí (es necesario crear una cuenta / iniciar sesión).

Mandarina clementina

(genoma no publicado y no ensamblado por completo)

El genoma de una naranja Clementina haploide (Clementina cítrica) fue secuenciado por el International Citrus Genome Consortium con una cobertura de 6,5 veces. El genoma aún no está ensamblado en pseudomoléculas, pero consta de 1.128 andamios que contienen un total de 296 megabases de datos de secuencia. Los genes se predijeron utilizando tanto la secuenciación de tecnologías ecológicamente racionales como la homología con los genes de otras especies de plantas secuenciadas, lo que dio como resultado un total de 25.385 genes que codifican proteínas. Descargue los datos de la secuencia de clementina y las anotaciones de phytozome aquí (se requiere la creación de una cuenta / inicio de sesión).

Papaya

Se estima que el genoma de la papaya tiene un tamaño de 372 megabases, se distribuye en nueve cromosomas y contiene 28.629 genes. La versión de papaya dentro de CoGe está organizada en supercontigs, pero contiene una serie de lagunas.

Ming R y col. (2008) El borrador del genoma del árbol de frutas tropicales transgénicas papaya (Carica papaya Linnaeus) Naturaleza, 452 (7190), 991-996 DOI: 10.1038 / nature06856

Especies y aliados de Arabidopsis

Espere que esta categoría crezca sustancialmente durante el próximo año. La categoría de genomas privados, en curso y planificados a continuación incluye 7 especies y parientes más de arabidopsis.

Arabidopsis thaliana

El genoma de Arabidopsis es

120 megabases de secuencia repartidas en cinco cromosomas.

El artículo del genoma: La Iniciativa del Genoma de Arabidopsis (2000). Análisis de la secuencia del genoma de la planta con flores Arabidopsis thaliana. Naturaleza, 408 (6814), 796-815 DOI: 10.1038 / 35048692

  • El proyecto 1001 genomas [2] planea secuenciar los genomas de 1001 variedades diferentes de Arabidopsis. Actualmente hay 88 disponibles con más en progreso. Un análisis de los primeros 80 genomas se publicó en Nature Genetics en septiembre de 2011 (consulte el artículo aquí).
Arabidopsis lyrata

Arabidopsis lyrata es un pariente cercano de Arabidopsis thaliana. Los antepasados ​​de las dos especies se separaron hace unos diez millones de años, lo que los hace algo más cercanos que el maíz y el sorgo entre los pastos. A. lyrata es autocomparable, mientras que A. thaliana se reproduce principalmente a través de la autofertilización. El genoma de lyrata también es sustancialmente más grande que el de thaliana, con un peso de 207 MB, distribuido en siete cromosomas (en comparación con los 5 cromosomas de thaliana y el genoma de 125 megabase).

El genoma de lyrata está disponible en CoGe, o puede descargarlo de JGI.

Documento sobre el genoma: Tina T. Hu et al. (2011) "La secuencia del genoma de Arabidopsis lyrata y la base del rápido cambio de tamaño del genoma". Genética de la naturaleza 43: 476–481 DOI: 10.1038 / ng.807

Arabidopsis halleri

No publicado pero disponible en Ft. Lauderdale.

"Arabidopsis halleri es una planta perenne, exógena y polinizada por insectos que se encuentra típicamente a 600 m - 2300 m sobre el nivel del mar en prados cubiertos de hierba, márgenes de bosques y grietas rocosas en toda Europa y Asia oriental. A. halleri tiene la capacidad inusual de colonizar suelos con alto contenido de metales pesados contenido, lo que lo ha convertido en un modelo para el estudio de la tolerancia y acumulación de metales pesados ​​en las plantas, así como para comprender la evolución y la especiación de las plantas en respuesta al cambio ambiental ".

Desde phytozome [1] (donde también puede descargar el ensamblaje del genoma actual después de crear una cuenta JGI).

Leavenworthia alabamica

"(i) Leavenworthia alabamica (linaje 1 en la tribu Camelineae), una especie de planta modelo con autoincompatibilidad perdida recientemente en algunas poblaciones"

Sisymbrium irio

"(ii) Sisymbrium irio (linaje 2 de la tribu Sisymbrieae), una anual autocompatible estrechamente relacionada con el género Brassica pero que carece de la triplicación derivada del genoma completo"

Aethionema arabicum

"(iii) Aethionema arabicum (tribu Aethionemeae), un grupo hermano de ramificación temprana autocompatible con el resto del núcleo Brassicaceae"

Camelina

"Camelina sativa es una semilla oleaginosa con atributos agronómicos y de calidad aceitosa deseables para un cultivo de plataforma petrolera industrial viable. Aquí generamos la primera secuencia del genoma de referencia de alta calidad a escala cromosómica para C. sativa y 89.418 genes codificadores de proteínas anotados, lo que representa un Evento de triplicación del genoma completo relativo al modelo de crucífera Arabidopsis thaliana. C. sativa representa la primera especie de cultivo en ser secuenciada del linaje I de Brassicaceae. La estructura del genoma hexaploide bien conservado de C. sativa refleja sorprendentemente la del anfidiploide Brassica de importancia económica especies de cultivo del linaje II, así como trigo y algodón. Los tres genomas de C. sativa no muestran evidencia de sesgo de fraccionamiento y un sesgo de nivel de expresión limitado, ambas características comúnmente asociadas con la evolución poliploide. El genoma poliploide altamente indiferenciado de C. sativa presenta consecuencias significativas para la reproducción y manipulación genética de este cultivo industrial oleaginoso ".

Brassica rapa

El genoma de Brassica rapa fue publicado en Nature Genetics en septiembre de 2011 por un consorcio de investigadores liderado por el Instituto de Genómica de Beijing (BGI). Si bien la variedad de Brassica rapa secuenciada (Chiifu-401-42) es una raza de repollo chino, los nabos son en realidad otros cultivares de la misma especie. Brassica rapa es también una de las dos especies parentales de Brassica napus una especie alotetraploide que nos da tanto el colinabo vegetal como la canola (también conocida como colza, pero en serio, ¿quién quiere comprar una botella llamada "aceite de colza"?). Brassica rapa es la primera esquina del Triángulo de U que se secuenciará. Desde esta publicación, se han publicado secuencias genómicas adicionales para Brassica oleracea y Brassica napus (y una esquina adicional del ensayo de U y la especie alotetraploide formada por un cruce entre B. oleracea y B. rapa respectivamente.

Además de la antigua hexaploidía compartida por rosids y asterids y las dos tetraploidies adicionales que se encuentran en el linaje compartido Arabidopsis / Brassica, el linaje Brassica experimentó una antigua hexaploidía adicional para una duplicación total de 36 veces (3 * 2 * 2 * 3) relativa al antepasado común antes de la triplicación de los asteridos y rosidos.

Papel del genoma: El Consorcio del Proyecto de Secuenciación del Genoma Brassica rapa. (2011) "El genoma de la especie de cultivo mesopoliploide Brassica rapa". Genética de la naturaleza DOI: 10.1038 / ng.919

Brassica napus

"Se formó colza (Brassica napus L.)

Hace 7500 años por hibridación entre B. rapa y B. oleracea, seguida de duplicación de cromosomas, un proceso conocido como alopoliploidía. Junto con poliploidizaciones más antiguas, esto confirió una multiplicación genómica agregada de 72 × desde el origen de las angiospermas y un alto contenido de genes. Examinamos el genoma de B. napus y las consecuencias de su reciente duplicación. Los subgenomas constituyentes An y Cn participan en una sutil intercomunicación estructural, funcional y epigenética, con abundantes intercambios homeólogos. Han comenzado la pérdida incipiente de genes y la divergencia de expresión. La selección en tipos de semillas oleaginosas de B. napus ha acelerado la pérdida de genes de glucosinolato, al tiempo que ha preservado la expansión de los genes de biosíntesis de aceite. Estos procesos proporcionan información sobre la evolución alopoliploide y su relación con la domesticación y mejora de cultivos ".

Brassica oleracea

"La poliploidización ha proporcionado mucha variación genética para la evolución adaptativa de las plantas, pero los mecanismos por los cuales la evolución molecular de los genomas poliploides establece la arquitectura genética subyacente a la diferenciación de especies no están claros. Brassica es un modelo ideal para aumentar el conocimiento de la evolución poliploide. Aquí describimos un borrador del genoma secuencia de Brassica oleracea, comparándola con la de su especie hermana B. rapa para revelar numerosos reordenamientos cromosómicos y pérdida de genes asimétricos en bloques genómicos duplicados, amplificación asimétrica de elementos transponibles, co-retención de genes diferencial para vías específicas y variación en la expresión génica, incluido el empalme alternativo, entre un gran número de genes parálogos y ortólogos. Los genes relacionados con la producción de fitoquímicos contra el cáncer y las variaciones morfológicas ilustran las consecuencias de la duplicación del genoma y la divergencia de genes, impartiendo variación bioquímica y morfológica a B. oleracea. Este estudio proporciona s conocimientos sobre la evolución del genoma de Brassica y respaldará la investigación de los muchos cultivos importantes de este género ".

Raphanus raphanistrum

Rábano silvestre. "Los eventos de poliploidización son frecuentes entre las plantas con flores, y los genes duplicados producidos a través de tales eventos contribuyen significativamente a la evolución de la planta. Secuenciamos el genoma del rábano silvestre (Raphanus raphanistrum), una especie de Brassicaceae que experimentó un evento de triplicación del genoma completo antes de divergir de Brassica rapa. A pesar de las ganancias genéticas sustanciales en estas dos especies en comparación con Arabidopsis thaliana y Arabidopsis lyrata, aproximadamente el 70% de los grupos ortólogos experimentaron pérdidas genéticas en R. raphanistrum y B. rapa, y la mayoría de las pérdidas se produjeron antes de su divergencia. Los duplicados retenidos muestran una divergencia sustancial en la secuencia y la expresión. Basado en la comparación de los niveles de expresión floral de A. thaliana y R. raphanistrum ortholog, los duplicados de rábano retenidos divergieron principalmente a través del mantenimiento del nivel de expresión ancestral en una copia y la reducción del nivel de expresión en otras. Además , los duplicados retenidos diferían significativamente de los genes que revertían a singl Estado eton en función, composición de secuencia, patrones de expresión, conectividad de red y tasas de evolución. Usando estas propiedades, establecimos un modelo de aprendizaje estadístico para predecir si un duplicado se retendría después de la poliploidización. En general, nuestro estudio proporciona nuevos conocimientos sobre los procesos de pérdida, retención y divergencia funcional de duplicados de plantas, y destaca la necesidad de comprender mejor los factores que controlan el destino de genes duplicados ".

"Consecuencias de la triplicación del genoma completo reveladas por análisis genómicos comparativos del rábano silvestre Raphanus raphanistrum y otras tres especies de Brassicaceae". http://www.ncbi.nlm.nih.gov/pubmed/24876251

Capsella rubéola

Capsella es "el género bien caracterizado más cercano" a la arabidopsis y, de hecho, las plantas se parecen bastante a los ojos de alguien que no estudia la arabidopsis para ganarse la vida. La especie de Capsella más conocida (y la única con su propia página de wikipedia mientras escribo esto) es Capsella bursa-pastoris, que se conoce con el nombre común de "bolso de shepard". Sin embargo, C. bursa-pastoris es un tetraploide con todos los desafíos que implica el ensamblaje del genoma y el análisis genético. En lugar de enredarse con la genética tetraploide de bursa-pastoris, JGI apuntó sus secuenciadores a las especies hermanas estrechamente relacionadas. Capsella rubéola que tiene un genoma diploide mucho mejor comportado.

El ensamblaje actual de Capsella rubéola se generó a partir de secuenciación 22x con 454 lecturas, incluye 134 megabases de secuencia ensamblada y se ha ensamblado al nivel de andamios. Los genes se anotaron utilizando la alineación de los datos de secuencia de ARN de Capsella y la homología con los genes de otros eudicots secuenciados.

El ensamblaje actual del genoma de Capsella rubéola está disponible en phytozome (es necesario crear una cuenta / iniciar sesión).

Publicado en Nature Genetics en 2013:

Thellungiella parvula

La mayoría de la gente no había oído hablar de este pariente de la arabidopsis antes de la publicación de su genoma en agosto de 2011. Thellungiella, que se conoce con el nombre común de "berro de sal", es de interés debido a su gran tolerancia al estrés abiótico (sal, frío , etc.) en relación con su relativo Arabidopsis thaliana mucho mejor estudiado. El artículo sobre el genoma informó un genoma de aproximadamente 140 megabases de tamaño, ensamblado en siete pseudomoléculas y enfatizó el papel de los duplicados en tándem para impulsar la notable tolerancia al estrés de esta especie.

Recursos de Thellungiella:

Papel del genoma: Maheshi Dassanayake et al (2011) "El genoma del crucífero extremófilo Thellungiella parvula". Genética de la naturaleza DOI: 10.1038 / ng.889

Thellungiella / Eutrema Eutrema salsugineum

Una segunda especie de Thellungiella fue secuenciada de forma independiente por la Academia de Ciencias de China. El genoma se secuenció a una profundidad de 134 veces la cobertura utilizando la secuenciación de Illumina.

Papel del genoma: Hua-Jun Wu et al (2012) "Información sobre la tolerancia a la sal del genoma de Thellungiella salsuginea". PNAS DOI: 10.1073 / pnas.1209954109

Una segunda versión del genoma de la misma especie (secuenciada usando tecnología Sanger) fue publicada por un grupo de JGI y la Universidad de Arizona. Este artículo asignó la especie a un género diferente "Eutrema".

Papel del genoma: Yang R et al (2013) "El genoma de referencia de la planta halófila Eutrema salsugineum" Fronteras en la ciencia de las plantas DOI: 10.3389 / fpls.2013.00046

Flor de araña

Tarenaya hassleriana (anteriormente Cleome hassleriana) es un grupo externo de las otras especies incluidas en la categoría "arabidopsis y sus aliados". El genoma fue secuenciado por un grupo en el que participó Eric Schranz de la Universidad de Wageningen.

Un pariente de hassleriana, Cleome violacea está siendo secuenciado por JGI. Si bien estas especies pertenecen al mismo clado que divergió del otro grupo de arabidopsis y aliados, han estado evolucionando por separado durante aproximadamente tanto tiempo como la divergencia entre Arabidopsis y Brassica, lo que indica que la genómica comparativa entre las dos especies debería ser interesante.

"La Brassicaceae, incluidos los cultivos de Arabidopsis thaliana y Brassica, es incomparable entre las plantas en su riqueza de datos moleculares genómicos y funcionales y ha servido durante mucho tiempo como modelo para comprender la evolución de genes, genomas y rasgos. Sin embargo, la información del genoma procedente de un grupo externo filogenético que es esencial para inferir la direccionalidad del cambio evolutivo. Por lo tanto, secuenciamos el genoma de la flor de araña (Tarenaya hassleriana) de la familia hermana de las Brassicaceae, las Cleomaceae. Mediante un análisis comparativo de los dos linajes, mostramos que la evolución del genoma después de la poliploidía antigua y los eventos de duplicación de genes afectan rasgos de importancia reproductiva. Encontramos una triplicación del genoma antiguo en Tarenaya (Th-α) que es independiente de la duplicación específica de Brassicaceae (At-α) y la triplicación de Brassica anidada (Br-α). Para mostrar el potencial del análisis del genoma del linaje hermano, investigamos el estado de los genes de desarrollo floral y mostramos que Brassica retiene dos veces tantos genes MADS florales (para MINICHROMOSOME MAINTENANCE1, AGAMOUS, DEFICIENS y SERUM RESPONSE FACTOR) como Tarenaya que probablemente contribuyan a la diversidad morfológica en Brassica. También realizamos un análisis de síntesis de familias de genes que confieren autoincompatibilidad en Brassicaceae y descubrimos que el gen crítico del receptor SERINE RECEPTOR KINASE se deriva de una duplicación en tándem específica de linaje. El genoma de T. hassleriana facilitará la investigación futura hacia el esclarecimiento de la historia evolutiva de los genomas de Brassicaceae ".


EXPRESIONES DE GRATITUD

Agradecemos a la NSF por financiar el taller y a los participantes del taller por su arduo trabajo y contribución. G. H. agradece a M. Timmermans (Laboratorio Cold Spring Harbor) y M. Scanlon (Universidad de Cornell) por la oportunidad de becas de la facultad y a R. Reams (FAMU) por brindar acceso a equipo adicional y asistencia con la configuración del taller. Una beca para G. Hacisalihoglu, el taller en la Universidad Florida A & # x00026M y el desarrollo del sitio de Internet Dynamic Genes fueron financiados por subvenciones de la Iniciativa Nacional del Genoma Vegetal de la NSF. El plan de estudios y el sitio de Internet de Greenomes se desarrollaron con el apoyo del programa de desarrollo de cursos, planes de estudios y laboratorio de NSF.


Ver el vídeo: Clase 14 Anotación de genomas y práctica (Diciembre 2022).