Información

Secuenciación de una región específica de un genoma

Secuenciación de una región específica de un genoma


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En primer lugar, soy nuevo en bioinformática y estoy aprendiendo sobre la secuenciación del ADN.

Digamos que sabía que una región específica de un genoma contenía información sobre una enfermedad (si una persona tenía la enfermedad o no).

Tendría sentido que solo quisiéramos secuenciar esa parte del genoma para hacer un detector de esta enfermedad.

¿Sería posible 'cortar' esta región del genoma y secuenciar solo esa parte (para que no tengamos que secuenciar todo)? Si no es así, ¿cómo secuenciaríamos solo esta parte del genoma (no tiene sentido secuenciar las otras partes ya que no nos dan información)?

Gracias por adelantado.


Sí, es posible secuenciar una región específica del genoma. El método, como mencionaste, se llama secuenciación dirigida. La resecuenciación consiste básicamente en secuenciar algo que ya se ha secuenciado. Esto significa que en lugar de ensamblar todas sus secuencias de lectura desde cero, puede alinearlas con la secuencia de referencia (en su caso, se ha secuenciado todo el genoma humano). La resecuenciación dirigida significa que está secuenciando una región específica, como un gen. Esto requiere concentración del ADN específico que desea secuenciar y puede realizarse mediante amplificación por PCR (usando cebadores que flanquean su secuencia deseada) o hibridación (usando sondas complementarias a su secuencia deseada que se fijan a una superficie), entre otros métodos.

Para obtener información sobre los métodos para enriquecer una secuencia de ADN, lea esto:

Mamanova, L. et al. Estrategias de enriquecimiento de objetivos para la secuenciación de próxima generación. Nat. Métodos. 7, 111-118 (2010).


Aislamiento eficiente de secuencias específicas de fragmentos de ADN y cromatina mediante tecnología enChIP in vitro utilizando ribonucleoproteínas CRISPR recombinantes

El sistema de repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR) se utiliza ampliamente para diversas aplicaciones biológicas, incluida la edición del genoma. Desarrollamos inmunoprecipitación de cromatina mediada por moléculas de unión a ADN (enChIP) utilizando CRISPR para aislar las regiones genómicas diana de las células para su caracterización bioquímica. En este estudio, desarrollamos 'enChIP in vitro' utilizando ribonucleoproteínas CRISPR recombinantes (RNP) para aislar regiones genómicas objetivo. enChIP in vitro tiene la gran ventaja sobre enChIP convencional de no requerir la expresión de complejos CRISPR en las células. Primero mostramos que enChIP in vitro que usa CRISPR RNP recombinantes se puede usar para aislar el ADN diana de mezclas de ADN purificado de una manera específica de secuencia. Además, demostramos que esta tecnología se puede utilizar para aislar eficazmente regiones genómicas diana, conservando sus interacciones moleculares intracelulares, con contaminación insignificante de regiones genómicas irrelevantes. Por tanto, la tecnología enChIP in vitro tiene un uso potencial para el aislamiento de ADN específico de secuencia, así como para la identificación de moléculas que interactúan con regiones genómicas de interés in vivo en combinación con análisis posteriores.

© 2016 Los Autores. Genes to Cells publicado por la Sociedad de Biología Molecular de Japón y John Wiley & Sons Australia, Ltd.


Secuenciación de lectura larga para comprender la biología del genoma y la función celular

La determinación de la secuencia de moléculas de ADN y ARN tiene un gran impacto en la comprensión de la biología y función celular. Los avances recientes en las tecnologías de secuenciación de lectura corta (NGS) de próxima generación, las caídas en el costo y una resolución hasta el nivel de una sola célula dieron forma a nuestra visión actual sobre la estructura y función del genoma. Los métodos de secuenciación de tercera generación (TGS) completan aún más el conocimiento sobre estos procesos basados ​​en lecturas largas y la capacidad de analizar ADN o ARN a nivel de una sola molécula. La secuenciación de lectura larga ofrece posibilidades adicionales para estudiar la arquitectura del genoma y la composición de regiones muy complejas y para determinar las modificaciones epigenéticas de las bases de nucleótidos a nivel de todo el genoma. Discutimos los principios y avances de la secuenciación de lectura larga y sus aplicaciones en la biología del genoma.

Palabras clave: Genómica Secuenciación de lectura larga Secuenciación de nanoporos Secuenciación SMRT Secuenciación de tercera generación.


Resultados

Diseño del estudio

Para evaluar la heterogeneidad dentro de los gliomas, diseccionamos cada uno de los 14 tumores en 3 a 5 regiones por tumor (Figura & # x000a0 1 A Tabla S1 en el archivo adicional 1). Utilizamos el ensayo smMIP en ADN genómico aislado de cada región para identificar variantes de un solo nucleótido y amplificaciones de copia de alto nivel (Figura & # x000a0 1 B Figura S1 en el archivo adicional 1). Las sondas smMIP capturan la secuencia diana en moléculas circulares unidas covalentemente después de la extensión y ligación de la polimerasa. Después de códigos de barras-PCR, agrupación de muestras, secuenciación, deduplicación y alineación, identificamos amplificaciones de alto nivel y mutaciones puntuales (Figura & # x000a0 1 B, C Figura S1 en el archivo adicional 1).

Enfoque experimental. (A) Cada tumor se dividió en tres a cinco regiones para analizar la heterogeneidad intratumoral. Cada región individual se subdividió en cuatro partes para su uso en secuenciación de próxima generación (NGS), histología, cultivo celular y xenotrasplante. (B) Método de sonda de inversión molecular. Las sondas de oligonucleótidos se diseñaron previamente contra 33 genes del cáncer [6]. Los MIP tienen una secuencia principal común, una secuencia de etiqueta molecular, así como brazos de dirección homólogos a las regiones que flanquean las dianas de interés. Después de la extensión y ligación de la polimerasa, la secuencia objetivo se captura dentro de una molécula circular. Las secuencias capturadas se amplifican en una reacción de PCR con códigos de barras y se agrupan y secuencian varias muestras en el mismo carril. Después de la corrección de la etiqueta (no mostrada), las lecturas correspondientes a cada región tumoral se mapean en la secuencia de referencia humana que se utilizará para identificar las amplificaciones del número de copias y las mutaciones puntuales específicas de una región u otra. Se proporcionan detalles adicionales en la Figura S1 en el archivo adicional 1. (C) Ejemplo de comparaciones: las capturas MIP de las regiones C y D pueden detectar ambos TP53 heterogeneidad de mutaciones puntuales y EGFR heterogeneidad de amplificación dentro de un tumor. Se requirió que los tumores con heterogeneidad mutacional compartieran una mutación puntual o una alteración del número de copias (en este caso, la mutación de PTEN) en todas las regiones para asegurar que las diferencias en la mutación observada no se debieran a niveles variables de celularidad tumoral.

En los 14 tumores y 33 genes considerados en este análisis, identificamos un total de 33 supuestas mutaciones que alteran las proteínas (Tablas S1 y S2 en el archivo adicional 1). Los tumores tenían entre cero y 16 supuestas mutaciones que alteran las proteínas, con una mediana de dos. TP53 fue el gen mutado con más frecuencia, con mutaciones encontradas en 8 de los 14 tumores (Figura & # x000a0 2 A Tabla S3 en el archivo adicional 1). Un tumor, BI12, tenía muchas más mutaciones somáticas candidatas que otros tumores (n & # x02009 = & # x0200916 frente a la mediana n & # x02009 = & # x020092 en otros tumores). Las mutaciones en este GBM fueron predominantemente transversiones de G & # x02009 & # x0003e & # x02009T (o C & # x02009 & # x0003e & # x02009A) (8 de 16 en total), posiblemente representando una mutación de daño de 8-oxo-guanina no reparado. La mayoría de las mutaciones se observaron en todas las regiones tumorales de BI12, lo que coincide con un defecto en la reparación del ADN que surge temprano en el desarrollo del tumor.

Resumen de la heterogeneidad observada en todas las muestras. (A) Se detectaron mutaciones que alteran las proteínas en todas las regiones tumorales. Los genes mutados dos veces en la misma región tumoral no se identifican aquí, pero se pueden encontrar en una tabla de todas las mutaciones (Tabla S3 en el archivo adicional 1). (B) Amplificaciones de genes de alto nivel detectadas por ensayo smMIP. El número de copias se estimó comparando todas las muestras de tumores con 12_X, un control universal de BI12 (consulte la Figura S2 en el archivo adicional 1 para el análisis con controles emparejados por pacientes). & # x02018Amplification & # x02019 indica genes con una cobertura tres veces mayor que la cobertura media en una muestra. & # x02018High Amplification & # x02019 indica genes con cobertura seis veces mayor que la cobertura media en una muestra. La región X se refiere al tejido cerebral que no está muy afectado por el tumor. Nuestro enfoque pasaría por alto cualquier amplificación de genes de bajo nivel dentro de estos tumores.

Para identificar amplificaciones de genes de alto nivel en tumores, comparamos la profundidad de lectura de las regiones dirigidas a smMIP en cada tumor con la de un tejido de control. Como la secuenciación de smMIP sugirió que un subconjunto de tejidos de control estaban contaminados con células tumorales, realizamos análisis utilizando controles emparejados con el paciente (Figura S2 en el archivo adicional 1) o un control & # x02018universal & # x02019 (Figura & # x000a0 2 B). Para este último, seleccionamos tejido de control del tumor BI12, ya que parecía tener la menor contaminación tumoral basada en la fracción alélica de mutaciones puntuales patogénicas conocidas, y análisis de número de copias restringido a objetivos con cobertura & # x0003e30 & # x000d7 en tejido de control de BI12 como así como objetivos cuyo porcentaje de GC osciló entre el 30 y el 60% (n & # x02009 = & # x02009885 sondas de captura). Una revisión cuidadosa de las llamadas discrepantes cuando se usa un control emparejado con el paciente versus un control universal indicó que el uso del control universal fue más sensible para identificar De buena fe eventos de amplificación (confirmados con los ensayos de Taqman) secundarios a la contaminación de un subconjunto de tejidos de control con células tumorales. Después de aplicar nuestros filtros (consulte Materiales y métodos), se pudo analizar un total de 21 genes en un total de 62 regiones en 14 tumores (Figura & # x000a0 2 B).

La proporción de cobertura de cada sonda se calculó en relación con el tejido de control (de BI12). Usamos DNACopy [8] para segmentar genes y obtener R, la proporción media de cobertura relativa al control para cada gen. Estimamos el número de copias de cada gen dividiendo R para cada gen por el valor mediano de R en todos los genes de cada tejido. Los genes con proporciones superiores a 3 se denominaron amplificados. Los genes con proporciones superiores a 6 se denominaron altamente amplificados. No medimos la deleción de genes con este método.

Este proceso identificó cinco tumores con amplificaciones de genes, y tres tenían una o más regiones con un gen altamente amplificado (Figura & # x000a0 2 B). Tres tumores tenían amplificación de ambos PDGFRA y EQUIPO, y tres tumores tenían amplificación de EGFR. Validamos las estimaciones del número de copias para un subconjunto de llamadas utilizando una variedad de métodos diferentes, incluida la PCR cuantitativa de Taqman (qPCR en todos los tumores para EGFR y tumores BI05, BI06 y BI15 para PDGFRA), así como la secuenciación del genoma completo (en el tumor BI15 para EGFR). Estimaciones del número de copias de MIP de EGFR estaban altamente correlacionados (R 2 & # x02009 = & # x020090.90) con el delta Ct obtenido por Taqman qPCR en comparación con las 62 regiones secuenciadas (Figura S3 en el archivo adicional 1). Además, para cinco regiones tumorales de BI15 que se sometieron a secuenciación del genoma completo de luz, EGFR Las estimaciones del número de copias fueron consistentes entre la secuenciación del genoma completo y las técnicas smMIP (métodos complementarios y la figura S4 en el archivo adicional 1).

Los tumores en los que solo un subconjunto de regiones poseen una amplificación o mutación puntual sin otra mutación compartida entre regiones pueden ser el resultado de heterogeneidad mutacional dentro de un tumor o de niveles variables de contenido tumoral entre diferentes regiones tumorales. Como ejemplo, el tumor BI15 se denominó amplificado para EGFR en dos de cada cinco regiones sin otras mutaciones somáticas / mutaciones puntuales detectadas en el tumor (Figuras S5 y S6 en el archivo adicional 1). Tras una inspección minuciosa de los portaobjetos histológicos preparados a partir de tejido adyacente, la diferencia observada en la amplificación probablemente se debió a una menor celularidad tumoral dentro de otras regiones de este tumor en lugar de a la heterogeneidad genética intratumoral. Esto también se observó en el tumor BI04, donde una región sin detectable PDGFRA La amplificación también tenía frecuencias más bajas de un TP53 mutación observada en todas las regiones. Por esta razón, optamos por restringir nuestra interpretación de la heterogeneidad intratumoral a tumores en los que todas las regiones también compartían una mutación puntual o amplificación genética. Tres tumores cumplieron con estos criterios y se describen a continuación.

Heterogeneidad espacial de TP53 y RB1 mutaciones puntuales

Un tumor mostró una clara heterogeneidad espacial con respecto a las mutaciones puntuales dentro de los 33 genes investigados (Figura & # x000a0 3). BI09, un IDH1oligodendroglioma anaplásico mutante, tenía una fracción de alelos alta (& # x0003e30% lee la mutación de apoyo) que inactiva la mutación (R248H) en TP53 en solo dos regiones del tumor (A y B). Este tumor tenía una alta fracción de alelos mutantes en RB1 exclusivamente en otras dos regiones (D y E) dentro del mismo tumor. Ambos TP53 y RB1 las mutaciones estaban presentes a niveles de traza (& # x0003c1%) dentro de la región C.Como el estudio clínico indicó que BI09 tenía un IDH1 mutación, investigamos todas las regiones de este tumor mediante secuenciación de Sanger y encontramos que las regiones A a E compartían la IDH1 Mutación R132H. La secuenciación de Sanger también validó la TP53 mutación en las regiones A y B, así como la RB1 mutación en las regiones D y E (Figura S7 en el archivo adicional 1). La inmunohistoquímica de la expresión de p53 e IDH1-R132H en el tejido adyacente a las regiones A a E proporcionó evidencia confirmatoria adicional (Figura S8 en el archivo adicional 1). Estos hallazgos son consistentes con un IDH1-tumor mutante que posteriormente diverge para formar subclones con mutaciones en RB1 y TP53 [9,10]. Un neuropatólogo (LFG-C) puntuó el grado y el diagnóstico de cada una de estas muestras sin conocer el tipo de mutación. Curiosamente, la presencia de TP53 mutación correlacionada con la histología de grado superior (Tabla S4 en el archivo adicional 1). Se desconoce la importancia clínica, pero esto sirve como un ejemplo potencial de cómo la heterogeneidad genómica puede afectar la histología de un tumor.

Heterogeneidad intratumoral de TP53 y RB1 determinado a partir de la secuenciación de smMIP. El tumor BI09 se seccionó en cinco regiones (A a E). Se usó como control (X) tejido cerebral que no estaba afectado en gran medida por el tumor. Cada región fue analizada para mutaciones en 33 genes, incluyendo TP53 y RB1. Este gráfico muestra el equilibrio de alelos de TP53 y RB1 mutaciones dentro de cada región tumoral. Las regiones A y B tienen una mutación de fracción de alelos alta en TP53, mientras que las regiones D y E tienen una mutación de fracción de alelos alta en RB1. Resultados de Sanger validados TP53 y RB1 mutaciones en cada región y también reveló que todas las regiones compartían una mutación R132H en IDH1 (Figura S7 en el archivo adicional 1).

Heterogeneidad espacial de PDGFRA y EQUIPO amplificaciones

Nuestra técnica smMIP detectó amplificación de PDGFRA, EQUIPO y EGFR dentro del tumor BI05, un IDH1-glioblastoma de tipo salvaje. En este tumor EGFR se observó amplificación en todas las regiones tumorales, mientras que la amplificación de ambos PDGFRA y EQUIPO se detectó en dos de las cinco regiones (Figura & # x000a0 4 A). Como EQUIPO se encuentra cerca PDGFRA en el cromosoma 4, se espera una amplificación compartida de estos genes [11]. Los ensayos de PCR en tiempo real de Taqman realizados por cuadruplicado confirmaron tanto la amplificación en EGFR y la amplificación en PDGFRA en todas las regiones analizadas (Figura & # x000a0 4 B). Inmunohistoquímica de PDGFRA y EGFR en el tejido adyacente a las regiones A a E proporcionó evidencia confirmatoria adicional (Figura S9 en el archivo adicional 1).

Heterogeneidad de PDGFRA amplificación en BI05. (A) Copiar estimaciones de número basadas en datos de la sonda smMIP. PDGFRA la amplificación (marcada) ocurre en las regiones A y B sin amplificación en las regiones C, D o E. (B) Resultados de la qPCR de Taqman dirigida a ambos PDGFRA y EGFR realizado por cuadriplicado. PDGFRA la amplificación ocurre en las regiones A y B (entre cuatro y ocho veces la amplificación) sin una amplificación significativa en las regiones C, D y E. EGFR la amplificación se produce en todas las regiones de BI05, de acuerdo con los resultados de la secuenciación de MIP. Heterogeneidad de PDGFRA La amplificación también se confirmó mediante inmunohistoquímica de las regiones A y E (Figura S9 en el archivo adicional 1). Las barras de error representan la media +/- una desviación estándar de los valores cuadriplicados.

Del mismo modo, detectamos heterogeneidad de PDGFRA amplificación dentro de BI06, una IDH1-glioblastoma mutante. Este tumor tenía amplificación de PDGFRA y EQUIPO en la región A no detectado en otras regiones (Figura & # x000a0 5 A). La qPCR de Taqman confirmó la amplificación de la región A, una leve amplificación en la región B y ninguna amplificación en las regiones C, D y E (Figura & # x000a0 5 B). Todas las demás regiones de este tumor tenían mutaciones somáticas en PTEN, de modo que la celularidad tumoral reducida es una explicación poco probable de nuestras observaciones.

Heterogeneidad de PDGFRA amplificación en BI06. (A) Copiar estimaciones de número basadas en datos de la sonda smMIP. PDGFRA La amplificación (marcada) ocurre en la región A con solo una amplificación leve en la región B y sin una amplificación detectable clara en las regiones C, D o E. (B) Resultados de la segmentación por qPCR de Taqman PDGFRA realizado por cuadriplicado. La región X se refiere a una región de tejido cerebral que no está muy afectada por el tumor. PDGFRA la amplificación se produce en la región A (aproximadamente cuatro veces la amplificación) con sólo una amplificación leve en las regiones B, C, D y E. Las barras de error representan la media +/- una desviación estándar de los valores cuadriplicados.

Los casos adicionales de heterogeneidad son posibles mutaciones pasajeras

Una mutación sin sentido en KRAS se observó en una fracción de alelos moderada (10% de las lecturas) en la región D del glioblastoma BI12 y no se detectó en al menos otra región (Tabla S3 en el archivo adicional 1). Como esta mutación no ocurre dentro de los puntos calientes de mutación conocidos y se encuentra en un tumor con signos de hipermutación (BI12), la importancia clínica de esta heterogeneidad sigue sin estar clara. Otras mutaciones puntuales somáticas son heterogéneas en un tumor individual, pero ocurren dentro de genes que tienen otra mutación distribuida de manera ubicua. BI12 tiene mutaciones sin sentido en PTEN que se observan en las regiones A, B y C y no en la región D (Tabla S3 en el archivo adicional 1). Este tumor también tiene otra mutación de fracción de alelos alta en este gen que está presente en todas las regiones de este tumor. Un escenario similar se ve en el astrocitoma BI08. Las regiones D y E de este tumor tienen mutaciones puntuales de fracción de alelos baja en TP53, pero todas las regiones comparten otra mutación de fracción de alelos altos en el mismo gen. Estos resultados sugieren que las mutaciones observadas heterogéneamente son más probablemente mutaciones pasajeras secundarias que ocurrieron después PTEN y TP53 se inactivaron en los tumores BI12 y BI08, respectivamente (Tabla S3 en el archivo adicional 1). Una posibilidad alternativa es que los tumores puedan contener distintas subpoblaciones en las que los genes fueron inactivados por una mutación diferente.


Referencias

Turner, W. La teoría celular, pasado y presente. J. Anat. Physiol. 24, 253–287 (1890).

Avery, O. T., Macleod, C. M. & amp McCarty, M. Estudios sobre la naturaleza química de la sustancia que induce la transformación de tipos neumocócicos: inducción de transformación por una fracción de ácido desoxirribonucleico aislada de Pneumococcus tipo III. J. Exp. Medicina. 79, 137–158 (1944).

Amberger, J., Bocchini, C. A., Scott, A. F. & amp Hamosh, Herencia mendeliana en línea de A. McKusick en el hombre (OMIM). Ácidos nucleicos Res. 37, D793-D796 (2009).

Tringe, S. G. y col. Metagenómica comparada de comunidades microbianas. Ciencias 308, 554–557 (2005).

Marcy, Y. et al. Disección de la “materia oscura” biológica con análisis genético unicelular de microbios TM7 raros y no cultivados de la boca humana. Proc. Natl Acad. Sci. Estados Unidos 104, 11889–11894 (2007). Este estudio muestra que podemos identificar microorganismos no cultivados mediante secuenciación unicelular.

McConnell, M. J. y col. Variación del número de copias en mosaico en neuronas humanas. Ciencias 342, 632–637 (2013). Este artículo proporciona la primera evidencia de que la NVC en mosaico puede ser más común de lo que se pensaba anteriormente.

Wang, Y. et al. Evolución clonal en el cáncer de mama revelada por la secuenciación del genoma de un solo núcleo. Naturaleza 512, 155–160 (2014). El estudio es un ejemplo de datos de secuenciación de cáncer unicelular de alta calidad, que ha permitido nuevos conocimientos sobre la patogénesis del cáncer de mama.

Emmert-Buck, M. R. y col. Microdisección por captura láser. Ciencias 274, 998–1001 (1996).

Navin, N. E. Genómica del cáncer: una célula a la vez. Genome Biol. 15, 452 (2014).

Zhou, J., Bruns, M. A. & amp Tiedje, J. M. Recuperación de ADN de suelos de composición diversa. Apl. Reinar. Microbiol. 62, 316–322 (1996).

Ham, R. G. Crecimiento clonal de células de mamíferos en un medio sintético químicamente definido. Proc. Natl Acad. Sci. Estados Unidos 53, 288–293 (1965).

Zong, C., Lu, S., Chapman, A. R. & amp Xie, X. S. Detección de todo el genoma de variaciones de un solo nucleótido y del número de copias de una sola célula humana. Ciencias 338, 1622–1626 (2012).

Gole, J. y col. Clonación de polimerasa masivamente paralela y secuenciación del genoma de células individuales utilizando micropocillos de nanolitros. Nat. Biotechnol. 31, 1126–1132 (2013).

Landry, Z. C., Giovanonni, S. J., Quake, S. R. & amp Blainey, P. C. Selección de células optofluídicas de comunidades microbianas complejas para análisis de un solo genoma. Métodos Enzymol. 531, 61–90 (2013).

Navin, N. et al. Evolución del tumor inferida por secuenciación unicelular. Naturaleza 472, 90–94 (2011). Este estudio proporciona la primera evidencia de que la secuenciación unicelular se puede utilizar para diseccionar la heterogeneidad intratumor.

Leung, M. L., Wang, Y., Waters, J. & amp Navin, N. E. SNES: secuenciación del exoma de un solo núcleo. Genome Biol. 16, 55 (2015).

Rinke, C. y col. Obtención de genomas de microorganismos ambientales no cultivados utilizando genómica unicelular basada en FACS. Nat. Protocolos. 9, 1038–1048 (2014).

White, A. K. et al. RT-qPCR microfluídico de celda única de alto rendimiento. Proc. Natl Acad. Sci. Estados Unidos 108, 13999–14004 (2011).

Leung, K. y col. Un dispositivo de microfluidos programable basado en gotas aplicado al análisis multiparamétrico de microbios individuales y comunidades microbianas. Proc. Natl Acad. Sci. Estados Unidos 109, 7665–7670 (2012).

Macosko, E. Z. et al. Perfiles de expresión de todo el genoma altamente paralelos de células individuales utilizando gotitas de nanolitros. Celda 161, 1202–1214 (2015). El estudio presenta microfluidos basados ​​en gotas como una opción viable para secuenciar de manera eficiente los transcriptomas de miles de células.

Blainey, P. C. El futuro es ahora: genómica unicelular de bacterias y arqueas. FEMS Microbiol. Rvdo. 37, 407–427 (2013).

Shapiro, E., Biezuner, T. & amp Linnarsson, S. Las tecnologías basadas en secuenciación unicelular revolucionarán la ciencia del organismo completo. Nat. Rev. Genet. 14, 618–630 (2013).

Lichter, P., Ledbetter, S. A., Ledbetter, D. H. & amp Ward, D. C. Fluorescencia en el lugar hibridación con sondas de reacción en cadena de la polimerasa Alu y L1 para la caracterización rápida de cromosomas humanos en líneas celulares híbridas. Proc. Natl Acad. Sci. Estados Unidos 87, 6634–6638 (1990).

Troutt, A. B., McHeyzer-Williams, M. G., Pulendran, B. & amp Nossal, G. J. PCR anclada por ligadura: una técnica de amplificación simple con especificidad de un solo lado. Proc. Natl Acad. Sci. Estados Unidos 89, 9823–9825 (1992).

Telenius, H. et al. PCR cebada con oligonucleótidos degenerados: amplificación general del ADN diana mediante un cebador degenerado único. Genómica 13, 718–725 (1992).

Zhang, L. y col. Amplificación del genoma completo de una sola célula: implicaciones para el análisis genético. Proc. Natl Acad. Sci. Estados Unidos 89, 5847–5851 (1992).

Dean, F. B., Nelson, J. R., Giesler, T. L. & amp Lasken, R. S. Amplificación rápida de ADN de plásmido y fago usando ADN polimerasa Phi29 y amplificación por círculo rodante con cebado múltiple. Genome Res. 11, 1095–1099 (2001). Este artículo proporciona la primera evidencia de que la amplificación isotérmica podría usarse para analizar de manera eficiente genomas completos.

Zhang, D. Y., Brandwein, M., Hsuih, T. & amp Li, H. B. Amplificación de ramificación: un nuevo método de amplificación de ADN isotérmico. Mol. Diagn. 6, 141–150 (2001).

de Bourcy, C. F. et al. Una comparación cuantitativa de los métodos de amplificación del genoma completo de una sola célula. Más uno 9, e105585 (2014).

Lasken, R. S. & amp Stockwell, T. B. Mecanismo de formación de quimeras durante la reacción de amplificación de desplazamiento múltiple. BMC Biotechnol. 7, 19 (2007).

Marcy, Y. et al. Los reactores de nanolitros mejoran la amplificación por desplazamiento múltiple de genomas de células individuales. PLoS Genet. 3, 1702–1708 (2007).

Zhang, K. y col. Secuenciación de genomas de células individuales mediante clonación de polimerasa. Nat. Biotechnol. 24, 680–686 (2006).

Langmore, J. P. Rubicon Genomics, Inc. Farmacogenómica 3, 557–560 (2002).

Hou, Y. et al. Comparación de la detección de variaciones entre los métodos de amplificación del genoma completo utilizados en la resecuenciación unicelular. Gigascience 4, 37 (2015).

Huang, L., Ma, F., Chapman, A., Lu, S. & amp Xie, X. S. Amplificación y secuenciación del genoma completo de una sola célula: metodología y aplicaciones. Annu. Rev. Genomics Hum. Gineta. 16, 79–102 (2015).

Blainey, P. C. & amp Quake, S. R. MDA digital para la enumeración de la contaminación total de ácido nucleico. Ácidos nucleicos Res. 39, e19 (2011).

Yu, Z., Lu, S. & amp Huang, Y. Un dispositivo de amplificación de genoma completo microfluídico para secuenciación de células individuales. Anal. Chem. 86, 9386–9390 (2014).

Nishikawa, Y. et al. Gotas de picolitro monodispersas para reacciones de bajo sesgo y sin contaminación en la amplificación del genoma completo de una sola célula. Más uno 10, e0138733 (2015).

Fu, Y. et al. Secuenciación unicelular uniforme y precisa basada en la amplificación del genoma completo en emulsión. Proc. Natl Acad. Sci. Estados Unidos 112, 11923–11928 (2015).

Gawad, C., Koh, W. & amp Quake, S. R. Disección de los orígenes clonales de la leucemia linfoblástica aguda infantil mediante genómica unicelular. Proc. Natl Acad. Sci. Estados Unidos 111, 17947–17952 (2014). Este documento utiliza microfluidos para resecuenciar de manera eficiente los genomas de casi 1.500 células, lo que permite nuevos conocimientos sobre el desarrollo de la leucemia.

Hughes, A. E. et al. Arquitectura clonal de la leucemia mieloide aguda secundaria definida por secuenciación unicelular. PLoS Genet. 10, e1004462 (2014).

Zhang, C. Z. y col. Calibración del sesgo de cobertura genómica y alélica en la secuenciación unicelular. Nat. Comun. 6, 6822 (2015).

Daley, T. & amp Smith, A. D. Modelado de la cobertura del genoma en secuenciación unicelular. Bioinformática 30, 3159–3165 (2014).

Clingenpeel, S., Clum, A., Schwientek, P., Rinke, C. & amp Woyke, T. Reconstrucción del genoma de cada célula dentro de comunidades microbianas complejas: ¿sueño o realidad? Parte delantera. Microbiol. 5, 771 (2014).

Nikolenko, S. I., Korobeynikov, A. I. & amp Alekseyev, M. A. BayesHammer: agrupamiento bayesiano para la corrección de errores en la secuenciación unicelular. BMC Genomics 14, S7 (2013).

Baslan, T. et al. Análisis del número de copias de todo el genoma de células individuales. Nat. Protocolos. 7, 1024–1041 (2012).

Zhang, C. y col. Un método basado en un solo nivel de celda para el análisis de la variación del número de copias mediante secuenciación masivamente paralela de baja cobertura. Más uno 8, e54236 (2013).

Cheng, J. y col. Detección de variación del número de copias de una sola celda. Genome Biol. 12, R80 (2011).

Bankevich, A. et al. SPAdes: un nuevo algoritmo de ensamblaje del genoma y sus aplicaciones a la secuenciación unicelular. J. Comput. Biol. 19, 455–477 (2012). Este método supera algunos artefactos de amplificación del genoma completo, lo que da como resultado ensamblajes genómicos unicelulares más precisos.

Peng, Y., Leung, H. C., Yiu, S. M. & amp Chin, F. Y. IDBA-UD: a de novo ensamblador para datos de secuenciación unicelulares y metagenómicos con una profundidad muy desigual. Bioinformática 28, 1420–1428 (2012).

Eisen, M. B., Spellman, P. T., Brown, P. O. & amp Botstein, D. Análisis de conglomerados y visualización de patrones de expresión en todo el genoma. Proc. Natl Acad. Sci. Estados Unidos 95, 14863–14868 (1998).

Jaccard, P. Étude comparativo de la distribución floral en una porción de Alpes et des Jura. Toro. Société Vaudoise Sci. Naturelles37, 547–579 (en francés) (1901).

Fraley, C. & amp Raftery, A. E. Agrupación basada en modelos, análisis discriminante y estimación de densidad. Mermelada. Estadístico. Associ. 97, 611–631 (2002).

Dempster, A. P., Laird, N. M. & amp Rubin, D. B. Máxima probabilidad de datos incompletos a través del algoritmo EM. J. R. Statiscal Soc. 39, 1–38 (1977).

Fraley, C. & amp Raftery, A. E. ¿Cuántos grupos? ¿Qué método de agrupación? Respuestas a través del análisis de conglomerados basado en modelos. Computadora J. 41, 578–588 (1998).

Fraley, C. & amp Raftery, A. E. MCLUST: software para el análisis de conglomerados basado en modelos. J. Classif. 16, 297–306 (2014).

Bentley, D. R. y col. Secuenciación precisa del genoma humano completo utilizando química terminador reversible. Naturaleza 456, 53–59 (2008).

Kim, K. I. y Simon, R. Uso de datos de secuenciación de células individuales para modelar la historia evolutiva de un tumor. Bioinformática BMC 15, 27 (2014).

Yang, Z. & amp Rannala, B. Filogenética molecular: principios y práctica. Nat. Rev. Genet. 13, 303–314 (2012).

Podar, M. y col. Acceso dirigido a los genomas de organismos de baja abundancia en comunidades microbianas complejas. Apl. Reinar. Microbiol. 73, 3205–3214 (2007).

Youssef, N. H., Blainey, P. C., Quake, S. R. & amp Elshahed, M. S. Ensamblaje parcial del genoma para una sola célula candidata de división OP11 de un manantial anóxico (Zodletone Spring, Oklahoma). Apl. Reinar. Microbiol. 77, 7804–7814 (2011).

Campbell, J. H. et al. UGA es un codón de glicina adicional en bacterias SR1 no cultivadas de la microbiota humana. Proc. Natl Acad. Sci. Estados Unidos 110, 5540–5545 (2013).

McLean, J. S. et al. El genoma del phylum TM6 candidato recuperado de un biofilm del fregadero de un hospital proporciona información genómica sobre este phylum no cultivado. Proc. Natl Acad. Sci. Estados Unidos 110, E2390-E2399 (2013).

Dodsworth, J. A. et al. Los análisis unicelulares y metagenómicos indican un estilo de vida fermentativo y sacarolítico para los miembros del linaje OP9. Nat. Comun. 4, 1854 (2013).

Rinke, C. y col. Información sobre la filogenia y el potencial de codificación de la materia oscura microbiana. Naturaleza 499, 431–437 (2013). Este estudio identifica nuevos filos de microorganismos de diversos entornos, lo que permite nuevos conocimientos sobre la biología de esos ecosistemas.

Parks, D. H., Imelfort, M., Skennerton, C. T., Hugenholtz, P. & amp Tyson, G. W. CheckM: evaluación de la calidad de los genomas microbianos recuperados de aislados, células individuales y metagenomas. Genome Res. 25, 1043–1055 (2015).

Tennessen, K. y col. ProDeGe: un protocolo computacional para la descontaminación completamente automatizada de genomas. ISME J. 10, 269–272 (2015).

Fitzsimons, M. S. et al. Los genomas casi terminados producidos mediante el cultivo de microgotas en gel revelan una diversidad genómica intraespecífica sustancial dentro del microbioma humano. Genome Res. 23, 878–888 (2013).

Woyke, T. et al. Una célula bacteriana, un genoma completo. Más uno 5, e10314 (2010).

Chitsaz, H. y col. Eficiente de novo ensamblaje de genomas bacterianos unicelulares a partir de conjuntos de datos de lectura corta. Nat. Biotechnol. 29, 915–921 (2011).

Mason, O. U. et al. La secuenciación de metagenoma, metatranscriptoma y unicelular revela la respuesta microbiana al derrame de petróleo de Deepwater Horizon. ISME J. 6, 1715–1727 (2012).

Lasken, R. S. & amp McLean, J. S. Avances recientes en la secuenciación del ADN genómico de especies microbianas de células individuales. Nat. Rev. Genet. 15, 577–584 (2014).

Tadmor, A. D., Ottesen, E. A., Leadbetter, J. R. & amp Phillips, R. Sondeo de bacterias ambientales individuales en busca de virus mediante el uso de PCR digital microfluídica. Ciencias 333, 58–62 (2011).

Roux, S. et al. Ecología y evolución de virus que infectan bacterias SUP05 no cultivadas según lo revelado por la genómica unicelular y metagenómica. eLife 3, e03125 (2014).

Roux, S., Hallam, S. J., Woyke, T. & amp Sullivan, M. B. La materia oscura viral y las interacciones virus-huésped se resolvieron a partir de genomas microbianos disponibles públicamente. eLife 4, e08490 (2015).

Roux, S., Enault, F., Hurwitz, B. L. & amp Sullivan, M. B. VirSorter: extracción de señales virales a partir de datos genómicos microbianos. PeerJ 3, e985 (2015).

Yoon, H. S. et al. La genómica unicelular revela interacciones de organismos en protistas marinos no cultivados. Ciencias 332, 714–717 (2011). Este artículo muestra que la secuenciación unicelular se puede utilizar para estudiar las interacciones de bacterias, protistas y virus con resolución unicelular.

Consorcio del Proyecto del Microbioma Humano. Estructura, función y diversidad del microbioma humano sano. Naturaleza 486, 207–214 (2012).

Martínez-García, M. et al. Revelando en el lugar interacciones entre protistas marinos y bacterias a través de secuenciación unicelular. ISME J. 6, 703–707 (2012).

Hirschhorn, K., Decker, W. H. & amp Cooper, H. L. Intersexualidad humana con mosaicismo cromosómico de tipo XY / XO. Informe de un caso. N. Engl. J. Med. 263, 1044–1048 (1960).

Happle, R. Mosaicismo en piel humana. Comprender los patrones y mecanismos. Arco. Dermatol. 129, 1460–1470 (1993).

Weinstein, L. S. et al. Activación de mutaciones de la proteína G estimulante en el síndrome de McCune-Albright. N. Engl. J. Med. 325, 1688–1695 (1991).

Groesser, L. et al. Poscigótico HRAS y KRAS las mutaciones causan nevo sebáceo y síndrome de Schimmelpenning. Nat. Gineta. 44, 783–787 (2012).

Lindhurst, M. J. y col. Un mosaico que activa la mutación en AKT1 asociado con el síndrome de Proteus. N. Engl. J. Med. 365, 611–619 (2011).

Lindhurst, M. J. y col. El crecimiento excesivo del mosaico con hiperplasia fibroadiposa es causado por mutaciones somáticas activantes en PIK3CA. Nat. Gineta. 44, 928–933 (2012).

Conlin, L. K. y col. Mecanismos de mosaicismo, quimerismo y disomía uniparental identificados por análisis de matriz de polimorfismo de un solo nucleótido. Tararear. Mol. Gineta. 19, 1263–1275 (2010).

Drake, J. W., Charlesworth, B., Charlesworth, D. y Crow, J. F. Tasas de mutación espontánea. Genética 148, 1667–1686 (1998).

Bianconi, E. et al. Una estimación del número de células del cuerpo humano. Ana. Tararear. Biol. 40, 463–471 (2013).

Behjati, S. et al. La secuenciación del genoma de las células normales revela linajes de desarrollo y procesos mutacionales. Naturaleza 513, 422–425 (2014).

Piotrowski, A. et al. Mosaicismo somático para la variación del número de copias en tejidos humanos diferenciados. Tararear. Mutat. 29, 1118–1124 (2008).

Wang, J., Fan, H. C., Behr, B. & amp Quake, S. R. Análisis de una sola célula en todo el genoma de la actividad de recombinación y de novo tasas de mutación en el esperma humano. Celda 150, 402–412 (2012). Este estudio establece la viabilidad de utilizar la secuenciación unicelular para identificar variantes estructurales genómicas y SNV en todo el genoma.

Lu, S. y col. Sondeo de recombinación meiótica y aneuploidía de espermatozoides individuales mediante secuenciación del genoma completo. Ciencias 338, 1627–1630 (2012).

Hou, Y. et al. Análisis del genoma de ovocitos humanos individuales. Celda 155, 1492–1506 (2013).

Cai, X. et al. La secuenciación unicelular de todo el genoma identifica la variación del número de copias somáticas clonales en el cerebro humano. Rep. Celular 8, 1280–1289 (2014).

Knouse, K. A., Wu, J., Whittaker, C. A. & amp Amon, A. La secuenciación de células individuales revela niveles bajos de aneuploidía en tejidos de mamíferos. Proc. Natl Acad. Sci. Estados Unidos 111, 13409–13414 (2014).

Lodato, M. A. et al. La mutación somática en neuronas humanas individuales rastrea la historia de desarrollo y transcripción. Ciencias 350, 94–98 (2015).

Handyside, A. H., Kontogianni, E. H., Hardy, K. & amp Winston, R. M. Embarazos de embriones humanos preimplantacionales sometidos a biopsia sexados mediante amplificación de ADN específico de Y. Naturaleza 344, 768–770 (1990).

Geraedts, J. et al. Matriz de cuerpos polares CGH para la predicción del estado del ovocito correspondiente. Parte I: resultados clínicos. Tararear. Reprod. 26, 3173–3180 (2011).

Alfarawati, S., Fragouli, E., Colls, P. & amp Wells, D. Primeros nacimientos después del diagnóstico genético preimplantacional de anomalías cromosómicas estructurales utilizando hibridación genómica comparativa y análisis de microarrays. Tararear. Reprod. 26, 1560–1574 (2011).

Cancer Genome Atlas Research Network et al. El proyecto de análisis Pan-Cancer del Atlas del genoma del cáncer. Nat. Gineta. 45, 1113–1120 (2013).

Ding, L. et al. Evolución clonal en la leucemia mieloide aguda recidivante revelada por secuenciación del genoma completo. Naturaleza 481, 506–510 (2012).

Gerlinger, M. y col. Intratumor heterogeneity and branched evolution revealed by multiregion sequencing. N. Engl. J. Med. 366, 883–892 (2012).

Hou, Y. et al. Single-cell exome sequencing and monoclonal evolution of a JAK2-negative myeloproliferative neoplasm. Celda 148, 873–885 (2012).

Xu, X. et al. Single-cell exome sequencing reveals single-nucleotide mutation characteristics of a kidney tumor. Celda 148, 886–895 (2012).

Li, Y. et al. Single-cell sequencing analysis characterizes common and cell-lineage-specific mutations in a muscle-invasive bladder cancer. Gigascience 1, 12 (2012).

Yu, C. et al. Discovery of biclonal origin and a novel oncogene SLC12A5 in colon cancer by single-cell sequencing. Cell Res. 24, 701–712 (2014).

Ni, X. et al. Reproducible copy number variation patterns among single circulating tumor cells of lung cancer patients. Proc. Natl Acad. Sci. Estados Unidos 110, 21083–21088 (2013).

Lohr, J. G. et al. Whole-exome sequencing of circulating tumor cells provides a window into metastatic prostate cancer. Nat. Biotechnol. 32, 479–484 (2014).

Potter, N. E. et al. Single-cell mutational profiling and clonal phylogeny in cancer. Genome Res. 23, 2115–2125 (2013).

Papaemmanuil, E. et al. RAG-mediated recombination is the predominant driver of oncogenic rearrangement in ETV6RUNX1 acute lymphoblastic leukemia. Nat. Gineta. 46, 116–125 (2014).

Jan, M. et al. Clonal evolution of preleukemic hematopoietic stem cells precedes human acute myeloid leukemia. Sci. Transl Med. 4, 149ra118 (2012).

Shintaku, H., Nishikii, H., Marshall, L. A., Kotera, H. & Santiago, J. G. On-chip separation and analysis of RNA and DNA from single cells. Anal. Chem. 86, 1953–1957 (2014).

Macaulay, I. C. et al. G&T-seq: parallel sequencing of single-cell genomes and transcriptomes. Nat. Métodos 12, 519–522 (2015).

Dey, S. S., Kester, L., Spanjaard, B., Bienko, M. & van Oudenaarden, A. Integrated genome and transcriptome sequencing of the same cell. Nat. Biotechnol. 33, 285–289 (2015).

Stahlberg, A., Thomsen, C., Ruff, D. & Aman, P. Quantitative PCR analysis of DNA, RNAs, and proteins in the same single cell. Clin. Chem. 58, 1682–1691 (2012).

Lee, J. H. et al. Highly multiplexed subcellular RNA sequencing en el lugar. Ciencias 343, 1360–1363 (2014). This study presents a method for acquiring single-cell transcriptomic data while retaining intercellular and intracellular spatial information.

Satija, R., Farrell, J. A., Gennert, D., Schier, A. F. & Regev, A. Spatial reconstruction of single-cell gene expression data. Nat. Biotechnol. 33, 495–502 (2015).

Achim, K. et al. High-throughput spatial mapping of single-cell RNA-seq data to tissue of origin. Nat. Biotechnol. 33, 503–509 (2015).

Yachida, S. & Iacobuzio-Donahue, C. A. Evolution and dynamics of pancreatic cancer progression. Oncogén 32, 5253–5260 (2013).


Genomics of Infectious Diseases and Private Industry

2.1 Sanger Sequencing

Sanger sequencing uses the SBS approach in which a DNA polymerase generates DNA reads from a template that is the DNA molecule to be analyzed. The nature of the nucleotide at a given position is now determined using specific dyes.

Sanger sequencing, although too laborious and expensive for WGS, remains routinely used when sequencing of specific genes or fragment of genes is needed, for example, for viral or bacterial genotyping or for resistance testing when SNPs are associated with specific genome regions. For bacterial WGS, biological amplification by culture and single colony picking is needed whereas PCR amplification of specific genes is done for both viruses and bacteria before amplicons are sequenced. Since 1987 and during the last four decades, Sanger sequencing has been mostly done on ABI sequencers (Thermo Fisher Scientific) instruments, a brand that now proposes a series of capillary electrophoresis sequencers ranging from 1 to 96 capillaries and covering the needs of different laboratories in terms of throughput. All current ABI DNA sequencing kits use cycle sequencing protocols with two different chemistries: dye primer chemistry or dye terminator chemistry.


Métodos

Animals and sample collection

The six ram at fetus (110 days old, 1.36 ± 0.14 kg) and adult (2 years old, 77.98 ± 3.19 kg) stages (norte = 3) were supplied from Taizhou Hailun Sheep Industry Co., Ltd. (Taizhou, China). The sheep were raised under the same conditions, with natural light and free access to food and water. All animals were fasted overnight and were then euthanized by captive bolt stunning and exsanguination. The LD muscle samples were collected from between the 12th and 13th thoracic vertebrae of the right side at the fetus and adult stages, immediately frozen in liquid nitrogen, and stored at − 80 °C until use.

Library preparation

DNA was isolated from LD muscle samples using a DNA extraction kit (Tiangen, Beijing, China). The DNA concentration and quality were determined by NanoDrop (NanoDrop Technologies, Wilmington, DE, USA) and agarose gel electrophoresis. Three DNA libraries were constructed for each group. Equal amounts of genomic DNA (2 μg per sample) were fragmented to 400–500 bp by ultrasonication, followed by adenylation and end-repair. The selected fragments were treated with bisulfite and then amplified by PCR to generate the sequencing libraries.

WGBS and identification of DMRs

The library was sequenced using an IlluminaHiSeqTM2500 platform (Biomarker Technologies, Beijing, China). The peak signal was transformed into sequence data by base calling, following which the raw reads were quality-filtered to obtain the clean reads. First, reads were trimmed of the 3′ adapter sequence. Then, reads with > 10% unknown bases (N) and those of low quality (more than 50% of bases with a PHRED score ≤ 5) were removed. We also calculated the Q30 and GC content.

The clean reads were aligned to the sheep reference genome (Oar_v3.1) and the bisulfite mapping of methylation sites was performed using Bismark software. The duplicates were reads that aligned with the same region of the genome, and can estimated the sequencing depth and coverage. The bisulfite conversion rate is the percentage of methylated clean reads to the total number of clean reads in the genome. The binomial distribution test for each C site was used to confirm C-site methylation by screening conditions for coverage ≥4× and false discovery rate (FDR) < 0.05.

To identify the differentially methylated regions (DMRs) between fetal and adult samples, we referenced the model of [16] to estimate the methylation level. All C sites with read coverage > 10× were used for DMR analysis with MOABS [46]. Subsequently, DMRs were defined by the presence of at least three methylation sites in the region, and in which the difference in methylation levels was > 0.2 (> 0.3 for the CG context) and the PAG-value from Fisher’s exact test was < 0.05.

Functional enrichment analysis

The DMR-related genes (DMGs) were compared against functional databases such as GO and KEGG by BLAST for annotation of gene function. GO enrichment analysis of the DMGs was implemented by the GOseq R packages based on the Wallenius non-central hypergeometric distribution [47]. KOBAS software was used to test the significance of DMR-related gene enrichment in the KEGG pathway analysis [48]. Pathways with a corrected P-value < 0.05 were considered to be significantly enriched. The STRING database was used to analyze interaction networks of selected DMGs (http://string-db.org/) [49].

Quantitative reverse transcription-PCR

The expression levels of DNA methyltransferase-related genes and validate the DMGs by qRT-PCR. Total RNA was isolated from LD muscles using Trizol reagent (Invitrogen, Carlsbad, USA). cDNA was reverse transcribed from total RNA using the PrimeScript RT kit (Takara, Dalian, China). qPCR was performed on a StepOnePlus Real-Time PCR System (Life Technologies, USA) using SYBR Green Master Mix (Roche Applied Science, Mannheim, Germany). The gene primers are listed in Additional file 1. The relative expression of each gene was normalized to that of GAPDH using the 2 −ΔΔCt method [50].

Bisulfite sequencing PCR

The bisulfite sequencing PCR was used to validate DNA methylation levels of selected candidate genes. Genomic DNA was modified with sodium bisulfite using the EZ DNA Methylation-Gold™ Kit (ZymoResearch, Los Angeles, USA). Then, bisulfite-converted gDNA was subjected to PCR amplification using Zymo Taq™ DNA polymerase (ZymoResearch). The PCR products were purified using a Gel Extraction Kit (Shenggong, Shanghai, China), ligated, and cloned into the pUC18-T vector (Shenggong). Fifteen clones of each sample were randomly selected for DNA sequencing. The quantification tool for methylation analysis was used to analyze bisulfite sequencing data (QUMA http://quma.cdb.riken.jp/). Gene sequence-specific primers are listed in Additional file 2.

Association analysis

We previously screened many genes related to muscle development at two stages of Hu sheep (fetus and adult) using the Illumina platform, [15]. By association analysis of the differentially methylated genes and the differentially expressed genes, a set of differentially methylation DEGs at the intersection of the two was obtained. Negative correlations between DMR methylation level and the corresponding gene expression level were identified by correlation analysist (r with a negative value).

Análisis estadístico

Statistical analyses were performed by the independent samples t-test with the SPSS 25.0 software package (SPSS Inc., Chicago, IL, USA). Results of the qRT-PCR data were expressed as means ± standard error of the mean (SEM) of three samples with three biological replicates. Differences were regarded as significant at PAG & lt 0,05.


Referencias

Skaletsky, H. et al. Naturaleza 423, 825–837 (2003).

Rozen, S. et al. Naturaleza 423, 873–876 (2003).

Ohno, S. Sex Chromosomes and Sex-Linked Genes (Springer, Berlin, 1967).

Burgoyne, P. S. Tararear. Gineta. 61, 85–90 (1982).

International Human Genome Sequencing Consortium Naturaleza 409, 860–921 (2001).

Venter, J. C. et al. Ciencias 291, 1304–1351 (2001).

Bailey, J. A. et al. Ciencias 297, 1003–1007 (2002).

Marshall Graves, J. A. Trends Genet. 18, 259–264 (2002).

Cavalli-Sforza, L. L. & Feldman, M. W. Nature Genet. 33, 266–275 (2003).

Lahn, B. T. & Page, D. C. Ciencias 278, 675–680 (1997).

Carrel, L., Cottle, A. A., Goglin, K. C. & Willard, H. F. Proc. Natl Acad. Sci. Estados Unidos 96, 14440–14444 (1999).


Introducción

Gaining a single-cell view of tumor heterogeneity is crucial for improving our understanding of tumor evolution and enabling future advances in cancer research. The standard paradigm is bulk sequencing of genomic DNA derived from millions of heterogeneous cells. In bulk sequencing, the ability to resolve sub-clonality is confounded relying on indirect inference, frequently resulting in an ensemble view dominated by the majority clone 1,2 . While bulk sequencing has provided major insights into tumor biology, lower throughput single-cell methods such as spectral karyotyping are often necessary to understand sub-clonal complexity and tumor evolution. Previously, methods for sequencing DNA of single-cells using next-generation sequencing approaches have often been laborious or limited to multiplexing hundreds of cells or nuclei 3,4,5,6,7,8 . In this study, we used newly emerging droplet-based shallow genome sequencing to simultaneously sequence 1475 single-cells from one of the most well-studied and well-characterized benchmark cell lines, COLO829 9 , as a means to better understand limitations and insights gained by single-cell sequencing at shallow depth. We follow this analysis with a deep-dive, examining data by multiple technologies and multiple samples on COLO829, in order to better understand the resulting sub-clonality, its major hallmark features, and the underlying driving biology.

The melanoma COLO829 and germline COLO829-BL tumor/normal pair have been extensively analyzed using multiple methods and technologies, making it an ideal vehicle for new and emerging genomic technologies 1,2,10,11 . This line was one of the first tumor/normal pairs to be subjected to whole-genome sequencing, where Pleasance et al. identified several hallmark events including a homozygous 12 kb deletion in PTEN, BRAF 600V/E, and a CDK2NA 2 bp deletion. Previous studies using bulk sequencing of the tumor-line COLO829 have focused largely on developing tools and standardizations to improve copy number estimation and cancer characterization 2 . While a few of the studies found cell line complexity inconsistent with the assumption of clonality and suggestive of multiple sub-clones, in general, most analyses presumed COLO829 to be a single clone. Of papers looking at copy number, Craig et al. observed differences among samples in chromosome 1p, and Gusnanto et al. found evidence for a mixture of clones but they were unable to resolve the individual components using bulk data and methods. Much of the work on this tumor-line highlighted major CNV hallmark events, as well as a series of inconsistent findings that point towards bulk sequencing methods being lossy and unable to resolve the complexity of COLO829 11 .

Beyond the difficulty of resolving clonal mixtures, an additional challenge of bulk sequencing even in the context of a paired normal is that without single-cell resolution there are limited informatic options to resolve relative differences in read-depth to integer copy number states. At some point, most algorithms require assumptions, such as a diploid region or tumor purity, and the veracity of these assumptions shape overall accuracy. Even so, even with a uniform set of algorithms applied on the same cell line, variable results are observed across samples, suggesting that there may be differences with some sub-populations of cells impacting their expansion 11 . In this paper, we performed shallow single-cell sequencing of genomic DNA across 1475 cells from the same cell-line, COLO829, and show that it is in fact a complex mixture and identify key structural variants that contribute to its sub-clonal evolution.


GENOME PROJECTS: UNCOVERING THE BLUEPRINTS OF BIOLOGY

In the early days of genetics, scientists did not have the resources to look at more than a few genes at a time. This made the process of understanding the influence of genetics on an organism slow and arduous. Scientists were faced with the enormous task of attempting to understand genetic influence with little information to complete the task. The understanding of genes would have been very helpful in solving this problem.

The year 1995 saw the completion of the first two complete non-viral genomes, Haemophilus influenzae [1] and Mycoplasma genitalium [1], two bacteria that can cause human disease. Since then, over 100 genomes have been fully sequenced, including those of higher organisms like baker’s yeast, the fruit fly, and the nematode [2]. With the announcement in June of 2001 that the first draft of the human genome had been completed [3], scientists’ approach to biology completely changed. The entire set of human genes was now available. This represented an irresistible amount of data that breached the bioinformatic gap that lay between biologists and their understanding of genetics.

To begin to see the significance of such an historical event, it is necessary to look at why uncovering a genome is an important biological task.

The genome refers to all DNA present in an organism.

DNA is the “genetic blueprint” that determines the genotypic make-up of each organism. In its barest form, DNA consists of two strings of nucleotides, or bases (abbreviated A, C, G, and T), wound around each other. The bases composing DNA have specific binding capabilities: A always binds to T, and C always binds to G. These binding capabilities are useful for scientists to understand since, if the nucleotide sequence of one DNA strand is determined, complementary binding allows the sequence of other strand to be deduced.

In the case of humans, DNA is organized into 24 structural units called chromosomes. Each chromosome consists of compacted coils of DNA. While much of this DNA has no known function (these stretches of DNA are conveniently referred to as spacer DNA or junk DNA), a significant portion of the DNA codes for genes. Each gene provides the information necessary to produce a protein, which is responsible for carrying out cellular functions. The complement of proteins in an organism is very important, with diseases often manifesting when a protein does not function properly.

Why Sequence Genomes, Especially Non-Human Genomes?

One of the interesting things about biological organisms is their remarkable similarity at the molecular level, despite their obvious outward differences. For instance, many genes are found in morphologically different organisms despite the phylogenetic distance between them4. Not only are these genes very similar in their DNA sequence composition they also tend to perform the same functions. Thus, by understanding the function of a gene in one organism, scientists can get an idea of what function that gene may perform in a more complex organism such as humans. The knowledge gained can then be applied to various fields such as medicine, biological engineering and forensics.

The Sequencing Reaction: How the Nucleotide Composition of DNA is Determined

To understand how DNA is sequenced, one must first know a little about the structure of DNA:

  • A segment of DNA, which is ordinarily double stranded, has a specific orientation, as it has a 5′ (read as 𔄝 prime”) and a 3′ (𔄛 prime”) end. This can be simply thought of as a front and tail end to the DNA segment.
  • When DNA is synthesized in the lab, the two strands are separated and new bases are added to the 3′ end-thus DNA is assembled from the 5′ to 3′ end.
  • DNA cannot be synthesized from scratch. A short piece of DNA, called a primer, is required for the reaction to begin.
  • Primers are designed such that they are able to bind to the target DNA, the binding of which is the initiator for DNA synthesis.

DNA sequencing is accomplished by the Fredrick Sanger method (see Figure 1), for which he won his second Nobel Prize in 1980.


Figure 1. The Sanger sequencing reaction. Single stranded DNA is amplified in the presence of fluorescently labelled ddNTPs that serve to terminate the reaction and label all the fragments of DNA produced. The fragments of DNA are then separated via polyacrylamide gel electrophoresis and the sequence read using a laser beam and computer.

This method essentially involves amplifying a single stranded piece of DNA many times [5]. Normally, when DNA is amplified, new desoxi-nucleotides ( dNTPs) are added as the strand of DNA grows. The Sanger method employs special bases called didesoxi-nucleotides ( ddNTPs). These are similar to dNTPs, except for two important differences: they have fluorescent tags attached to them (a different tag for each of the 4 ddNTPs) and are missing a crucial atom that prevents new bases from being added to a DNA strand after a ddNTPs has been added. Thus, once a ddNTP is inserted into a growing DNA strand, synthesis of that strand is stopped. After many repeated cycles of amplification this will result in all the possible lengths of DNA being represented and every piece of synthesized DNA containing a fluorescent label at its terminus.

Amplified DNA can then be separated according to size via gel electrophoresis. As the fluorescent DNA reaches the bottom of the gel (now separated from smallest to largest), a laser can pick up the fluorescence of each piece of DNA. The trick to the Sanger method lies in the fact that each ddNTP emits a different fluorescent signal, so that the presence of a ddNTP at the terminus can be recorded on a computer (see Figure 2). The reaction is set up so that a fluorescent ddNTP is present at every position in the DNA strand (i.e. every possible size of DNA strand is present) so that every nucleotide in the strand can be determined. A computer program can then compile the data into a coloured graph showing the determined sequence.

In the past, the separation of the DNA strands by electrophoresis was a time consuming step, requiring the use of radioisotopes for labelling ddNTPs. This was less than trivial, as four different sequencing reactions were required (one for each ddNTP) and the resulting sequencing gel needed to be analyzed manually. Today, fluorescent labels and new advances in gel electrophoresis have made DNA sequencing not only fast and far more accurate, but also almost fully automated, including the read out of the final sequence.


Figure 2. An electropherogram of a finished sequencing reaction. As the fragments from the sequencing reaction are resolved via electrophoresis, a laser reads the fluorescence of each fragment (blue, green, red or yellow) and compiles the data into an image. Each colour, or fluorescence intensity, represents a different nucleotide (e.g. blue for C) and reveals where that nucleotide is in the sequence.

While the Sanger method is the accepted method for sequencing DNA, one cannot sequence a complete genome using this method alone. The main reason for this is that as the pieces of DNA get larger, resolving two pieces by one base becomes virtually impossible [6]. In fact, only about 1000 bases can be sequenced accurately, a far cry from the 50 to 250 million bases that comprise a human chromosome. Furthermore, as stated above, a primer of known sequence is required for each sequencing reaction. Thus, one cannot take any piece of DNA and “just sequence it.” A known starting point, and thus some knowledge of the sequence, is required to begin the reaction. To circumvent this problem, DNA is usually cut up into smaller, more manageable chunks and then placed into a small circular piece of DNA known as a plasmid or cloning vector (a process generally referred to as cloning). The cloning vector’s sequence is known and therefore allows any piece of DNA introduced into it to be sequenced.

With these ideas in mind, scientists set out to design methods to make possible the sequencing of an entire genome. No small task when you consider that the human genome contains approximately three billion bases that needed to be sequenced.

The first method of sequencing a genome, employed by the publicly funded Human Genome Project, involves cloning a large piece of DNA into smaller pieces called sub-clones. With the use of known genetic markers (i.e. physical characteristics that have been attributed to specific areas of a chromosome) a simple and poorly resolved map of where the sub-clones would be located on a chromosome is prepared. This allows the sub-clones to be placed in an order based on the structure of the chromosome. Each individual sub-clone is then sequenced. The resulting sequence is used to create a new primer to sequence flanking regions of the DNA that could not be sequenced in the first round of reactions. This process is continued until the sequences overlap (are contiguous). These contiguous sequences can then be assembled into a group of overlapping sequences, termed a contig. As this method progresses, larger and larger contigs will be produced, until a single ordered contig of the genome is achieved.

A common named for the above method is a ‘top-down’ approach (See Figure 3). If you look at a jigsaw puzzle as an analogy, a top-down approach is similar to starting the puzzle form one corner and working your way down and across in an ordered manner, always building on the last piece that was added. The advantages of this method are that each individual clone can be sent to different people for sequencing and that each stretch of DNA only needs to be sequenced once, as the DNA has already been mapped. However, a large disadvantage to this method is the slow process of sub-cloning and mapping of the clones, requiring significant human manipulation.


Figure 3. The top-down sequencing method. In this approach, a large source clone is first physically mapped before it is broken up into smaller sub-clones. This is done by taking the fragmented source clone and sequentially ordering the sub-clones, based on their original order in the source clone. This requires a physical map of the source clone to work, meaning you need to know that #1 (blue) comes before #2 (yellow) in the source clone. Once the clones have been ordered, each sub-clone is sequenced, and using the overlapping sequences of neighbouring sub-clones, the whole piece is put together.

A second method is the so-called ‘shotgun’ method of sequencing (see Figure 4), which was employed by the privately funded company Celera Genomics to sequence the human genome. This method was the subject of a good deal of debate, as it is relatively crude in comparison to the method employed by the Human Genome Project. It involves each contig being sub-cloned into smaller fragments in the same way as the top-down approach, with the exception that a physical genetic map is not created. Instead, each clone is sequenced first, and then overlapping sequences are joined together to create the contig. In other words, random clones are sequenced (as they are not ordered) in the hopes that overlapping sequences will be found to piece together the contiguous sequence.


Figure 4. Shotgun Sequencing. A relatively crude method of sequencing, shotgun sequencing does not produce a physical map of the source clone first. Instead, the source clone is fragmented, producing a random mixture, and a random sub-clone (i.e. an unordered sequencing clone of blue, yellow, black, red or green) is selected for sequencing by the Sanger method. To ensure that that the whole source clone has been sequenced, this stretch of DNA must be sequenced numerous times (represented by multiples of a single coloured sub-clone) to produce an ordered overlapping sequence. Gaps in this process will occur where a sub-clone is not fully sequenced (blue coloured sub-clone).

Using the jigsaw puzzle analogy again, the shotgun method is similar to starting with random pieces of the puzzle and looking for pieces that fit to it, regardless of where in the puzzle the piece originated from. One major problem with this method is uncertainty. You lack an initial map to guide you, making it difficult to be sure that the entire contig is represented. To get around this problem, the same contig needs to be sequenced many times to ensure that the probability of missing a sub-clone is less than 1%. After which the gaps between contigs must still be filled in, usually through the use of a technique called chromosome walking. The shotgun method is advantageous in that the laborious process of mapping and sub-cloning, requiring human hands, is eliminated. So, while this method requires much more sequencing compared to the first, it proves to be much more economical and faster due to the sequencing reactions being virtually fully automated and the sequences being assembled by computer programs.

When is a Genome Sequence Finished?

When it was announced that the first draft of the human genome was completed [3], it was commonly misreported by many media outlets that the human genome was sequenced. In fact, much more sequencing needs to be done to finish the job. This is because the genome sequence was still in the ‘draft’ stage, meaning that the genome had been sequenced about 4 to 5 times, and the data organized into fragments that are approximately 10,000 bases in size.

To prepare a high quality sequence of the human genome, potential errors in the sequence must still be statistically removed. This is done primarily by closing the gaps between contigs with additional sequencing, ultimately reducing ambiguity and ensuring that there is at most 1 error in every 10,000 bases. The finished version will require that a chromosome be sequenced about 9 to 10 times. Furthermore, not all regions of the chromosome can be cloned, resulting in them being unavailable for sequencing. Luckily, these regions, called heterochromatin, consist of telomeres and centromeres (the tips and centre of the chromosome, respectively), which are rich in repeating sequences (making cloning very difficult) and low in genes. Most of the genes reside in euchromatin, the part of the chromosome that can be sequenced. Therefore, a complete genome sequence actually refers to a high quality sequence of an organism’s euchromatin.

Benefits of Sequencing Projects

Why do we want to determine the A’s, T’s, C’s, and G’s of an organism?

When you get right down to it, a genome is the blueprint of how an organisms functions. If we are interested in understanding the complexity of life (and every biologist and doctor is), having a genome to study is a big step forward.

Scientists are revving up their computers to study genomes and the benefits of this are already being seen. Take the field of medicine as an example. As the population begins to become increasingly health conscious, more attention is being paid to the ongoing research in the medical sciences. As the chromosome maps have become more detailed, genes associated with genetic diseases such as Alzheimer’s disease [7] and familial breast cancer [8] have been identified. This has led to the hope that these diseases can be identified early and that new drugs and treatments can be discovered.

Genome projects also give us insight into other organisms, which has many applications in the industrial sector [9]. Increasing knowledge about domesticated plants and animals can reduce costs in agriculture, for example, by reducing the need for pesticides. Microbes are also an important resource. It has already been shown that bacteria can be used to clean up toxic chemical and oil spills and aid in the clean-up of sewage and waste. Bacteria have also been used to replace many industrial processes that require large amounts of toxic reagents or harsh conditions, making many workplaces, and their surrounding environment, much safer.

Final Words: Where is Genome Science Taking Us?

Even though the numbers of completed genomes is ever increasing, the real work is just beginning. New advances in technology must accommodate the increasing amount of data, as the information available to researchers can be overwhelming. Already new fields of science have been created by the sequencing of genomes. An example of this is functional genomics, which aims to look at the practical aspects of sequenced genomes by looking at genome-wide responses to various elements.

Finally, a whole can of ethical issues have been opened as researchers have begun patenting genes in the hopes of financial reward. Is it right to patent genes that are present in all humans? Who controls the genetic information? Can the use of genetic information oppress and control people, like in the movie Gattaca? Only education, debate and time will produce these answers.

Texts Consulted and Additional Reading

1. Dale JW, von Schantz M. 2002. From Genes to Genomes: Concepts and Applications of DNA Technology. West Sussex, England / New York: Wiley. 360p.

2. Town C, ed. 2002. Functional Genomics. Dordrecht/Boston: Kluwer Academic. 200p.

3. Caporale LH. 2003. Darwin in the Genome: Molecular Strategies in Biological Evolution. New York: McGraw-Hill. 245p.

4. Rangel P, Giovannetti J. 2002. Genomes and databases on the Internet: A Practical Guide to Functions and Applications. Wymondham: Horizon Scientific. 223p.

5. Primrose SB, Twyman RM. 2003. Principles of genome analysis and genomics. Malden, MA: Blackwell Pub. 263p.

1. Two Bacterial Genomes Sequenced. 1995. Human Genome News, May-June 7(1).

2. Genome-Scale Science. National Centre for Biotechnology Information:

3. The Genome International Sequencing Consortium. 2001. Initial sequencing and analysis of the human genome. Nature 409: 860-921.

4. Griffiths et al, eds. 2002. Modern Genetic Analysis: Integrating Genes and Genomes. New York: W.H. Freeman and Co. 736p.

6. Alphey L. 1997. DNA Sequencing: From Experimental Methods to Bioinformatics. New York: Springer. 206p.

7. Lahiri DK, et al. 2003. A Critical Analysis of New Molecular Targets and Strategies for Drug Developments in Alzheimer’s Disease. Curr Drug Targets 4(2): 97-112.

8. Marsh D, Zori R. 2002. Genetic Insights into Familial Cancers — Update and Recent Discoveries. Cancer Lett 181(2): 125-64.

9. Goujon P. 2001. From Biotechnology to Genomes: The Meaning of the Double Helix. NJ: World Scientific. 728p.


Ver el vídeo: Qué es la EPIGENÉTICA? (Diciembre 2022).