Información

Cómo obtener la frecuencia del genotipo poblacional a partir de 1000 genomas API de Perl

Cómo obtener la frecuencia del genotipo poblacional a partir de 1000 genomas API de Perl


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Publicó una pregunta similar en Biostars pero no obtuvo respuesta. ¿No estás seguro de poder vincularme a él? Básicamente quiero tirar genotipo datos de frecuencia para un grupo de población (como CEU) en lugar de datos de frecuencia de alelos, a través de la API de Perl para 1000 genomas. Tengo tabix y perl API instalados. Esto es para más de 100.000 SNP, por lo que es de esperar que la solución no implique la descarga manual del genotipo y el cálculo de la frecuencia manualmente en un bucle for. Mi entendimiento también es que no existe una solución en BioMart (de acuerdo con la respuesta de Biostars).

Siguiendo las instrucciones aquí, puedo ver cómo obtener genotipos específicos para todos los individuos como una lista.

Ej .: Entrada -> Algunos snp, CEU… Salida -> G / G 0.87, G / A 0.13 (frecuencia de algunos snp para la población de CEU).

Necesito hacer esto para más de 100,000 SNP, así que imagino que extraer manualmente todos los genotipos para cada SNP y calcular la frecuencia manualmente en un bucle no sería práctico.


Si desea frecuencias alélicas específicas de una población, tiene tres opciones: * Para una única variante, puede buscar en la página de genética de poblaciones una variante en nuestro navegador. Esto le brinda gráficos circulares y una tabla para un solo sitio. * Para una región genómica, puede usar nuestra herramienta calculadora de frecuencia de alelos que proporciona un conjunto de frecuencias de alelos para poblaciones seleccionadas * Si desea frecuencias de alelos de subpoblaciones para un archivo completo, es mejor usar la herramienta de línea de comandos vcftools.

Esto se hace usando una combinación de dos comandos vcftools llamados vcf-subset y fill-an-ac

Un ejemplo de conjunto de comandos con archivos de nuestra versión de fase 1 se vería así

grep CEU Integrated_call_samples.20101123.ALL.panel | cut -f1> CEU.samples.list

vcf-subset -c CEU.samples.list ALL.chr13.integrated_phase1_v3.20101123.snps_indels_svs.genotypes.vcf.gz | fill-an-ac | bgzip -c> CEU.chr13.phase1.vcf.gz

Una vez que tenga este archivo, puede calcular su frecuencia dividiendo AN (número de alelos) por AC (recuento de alelos)

Tenga en cuenta que algunos de los primeros archivos VCF del proyecto principal usaban información LD y otras variables para ayudar a estimar la frecuencia de los alelos. Esto significa que en estos archivos el AF no siempre es igual a AC / AN. En las versiones de fase 1 y fase 3, AC / AN siempre debe coincidir con la frecuencia de alelos citada.


Otra posibilidad es utilizar glactools. Mostraré esto usando datos de los 1000 genomas.

Primero, descargamos los nombres y la longitud de los cromosomas para la referencia:

wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.fai

Luego requerimos información sobre los paneles del archivo VCF:

wget https://personal.broadinstitute.org/armartin/ginger/integrated_call_samples_v3.20130502.ALL.panel.txt grep -v ^ sample Integrated_call_samples_v3.20130502.ALL.panel.txt | cut -f 1,3> panel.txt

Puede ejecutar lo siguiente para transformar VCF en formato de conteo de alelos (ACF):

tabix -h ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr2.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz 2: 136486829-136653337 | glactools vcfm2acf --onlyGT2acf -fai human_g1k_v37.fasta.fai - | glactools meld -f panel.txt - | vista de glactools -h -

Esto imprimirá los recuentos de alelos:

#chr coord REF, ALT raíz anc AFR AMR EAS EUR SAS 2 136486850 G, T 0,0: 0 0,0: 0 1322,0: 0 694,0: 0 1008,0: 0 1006,0: 0 974, 4: 0 2 136486967 C, T 0,0: 0 0,0: 0 1321,1: 0 694,0: 0 1007,1: 0 1006,0: 0 978,0: 0 2 136487007 C, T 0, 0: 0 0,0: 0 1322,0: 0 694,0: 0 1007,1: 0 1006,0: 0 978,0: 0 2 136487181 C, T 0,0: 0 0,0: 0 1322, 0: 0 693,1: 0 1008,0: 0 1005,1: 0 978,0: 0 2 136487214 G, A 0,0: 0 0,0: 0 1321,1: 0 694,0: 0 1008, 0: 0 1006,0: 0 978,0: 0 2 136487246 G, A 0,0: 0 0,0: 0 1282,40: 0 693,1: 0 1008,0: 0 1006,0: 0 978, 0: 0 2 136487336 G, T 0,0: 0 0,0: 0 1322,0: 0 694,0: 0 1008,0: 0 1006,0: 0 977,1: 0 2 136487417 G, A 0, 0: 0 0,0: 0 1321,1: 0 693,1: 0 1008,0: 0 1006,0: 0 978,0: 0 2 136487504 A, C 0,0: 0 0,0: 0 1316, 6: 0 694,0: 0 1008,0: 0 1006,0: 0 978,0: 0

Consulte el tutorial de Ensembl Core para obtener una buena descripción de las convenciones de codificación que se utilizan normalmente en Ensembl. Intentamos en la medida de lo posible ceñirnos a estas reglas en Variación.

La conexión a una base de datos de variaciones de Ensembl se simplifica utilizando el módulo Bio :: EnsEMBL :: Registry:

El uso del registro garantiza que cargará las versiones correctas de las bases de datos de Ensembl para la versión de software que puede encontrar en una instancia de base de datos. Con el objeto de registro, puede crear cualquier número de adaptadores de base de datos. Cada uno de estos adaptadores es responsable de generar un objeto de un tipo. La API de variación de Ensembl utiliza varios tipos de objetos que se relacionan con los datos almacenados en la base de datos. Por ejemplo, para generar objetos de variación, primero debe crear un adaptador de variación:

El método get_adaptor creará automáticamente una conexión a la base de datos relevante en el ejemplo anterior, se realizará una conexión a la base de datos de variación para humanos. Los tres parámetros pasados ​​especifican la especie, la base de datos y el tipo de objeto que necesita. A continuación se muestra una lista no exhaustiva de los adaptadores de variación de Ensembl que se utilizan con más frecuencia

  • IndividualAdaptor para buscar Bio :: EnsEMBL :: Variation :: Objetos individuales
  • LDFeatureContainerAdaptor para recuperar objetos Bio :: EnsEMBL :: Variation :: LDFeatureContainer
  • PopulationAdaptor para recuperar Bio :: EnsEMBL :: Variation :: Objetos de población
  • ReadCoverageAdaptor para recuperar objetos Bio :: EnsEMBL :: Variation :: ReadCoverage
  • TranscriptVariationAdaptor para recuperar objetos Bio :: EnsEMBL :: Variation :: TranscriptVariation
  • VariationAdaptor para buscar objetos Bio :: EnsEMBL :: Variation :: Variation
  • VariationFeatureAdaptor para recuperar objetos Bio :: EnsEMBL :: Variation :: VariationFeature

Solo algunos de estos adaptadores se utilizarán como ilustración como parte de este tutorial a través del código de scripts de perl comentado.


¿Están disponibles las variantes de IGSR en los navegadores del genoma?

Los datos del Proyecto 1000 Genomas están disponibles tanto en Ensembl como en UCSC Genome Browser.

Ensembl proporciona información sobre las consecuencias de las variantes. Las variantes que se cargan en la base de datos Ensembl y tienen asignados tipos de consecuencias se muestran en la vista Variación. Ensembl también puede ofrecer predicciones de consecuencias usando su Variant Effect Predictor (VEP).

Puede ver información de genotipos individuales en el navegador Ensembl mirando la sección de Genotipos individuales de la página en el menú del lado izquierdo.


Todos los archivos están comprimidos con gzip y el formato se ve así, con un patrón repetido de cuatro líneas

Muchas de nuestras personas tienen varios archivos fastq. Esto se debe a que muchos de nuestros individuos fueron secuenciados usando más de una ejecución de una máquina secuenciadora.

Cada conjunto de archivos con el nombre ERR001268_1.filt.fastq.gz, ERR001268_2.filt.fastq.gz y ERR001268.filt.fastq.gz representan toda la secuencia de una ejecución de secuenciación.

Las etiquetas con _1 y _2 representan archivos de pares de extremos. Mate1 se encuentra en un archivo etiquetado como _1 y mate2 se encuentra en el archivo etiquetado como _2. Los archivos que no tienen un número en su nombre son lecturas de terminación individual, esto puede deberse a dos razones, algunas secuencias al principio del proyecto se terminaron de manera individual, también, ya que filtramos nuestros archivos fastq como se describe en nuestro README si es uno de un un par de lecturas se rechaza, la otra lectura se coloca en el archivo único.

Cuando una persona tiene muchos archivos con diferentes accesiones de ejecución (por ejemplo, ERR001268), esto significa que se secuenciaron varias veces. Esto puede ser para el mismo experimento, algunos centros usaron multiplexación para tener un mejor control sobre sus niveles de cobertura para la secuenciación de baja cobertura, o porque se secuenciaron usando diferentes protocolos o en diferentes plataformas.

Para obtener una descripción completa de la secuenciación realizada para el proyecto, consulte nuestro archivo sequence.index


Las herramientas

  • llenar-aa
  • llenar-un-ac
  • fill-fs
  • relleno-ref-md5
  • fill-rsIDs
  • vcf-anotar
  • comparar vcf
  • vcf-concat
  • consenso vcf
  • contraste vcf
  • vcf-convert
  • filtro vcf
  • vcf-fix-newlines
  • vcf-fix-ploidy
  • vcf-indel-stats
  • vcf-isec
  • vcf-merge
  • vcf-phased-join
  • consulta vcf
  • vcf-shuffle-cols
  • vcf-sort
  • vcf-stats
  • subconjunto vcf
  • vcf a pestaña
  • vcf-tstv
  • vcf-validador
  • Vcf.pm

Llenar-un-ac

Complete o recalcule los campos AN y AC INFO.

zcat file.vcf.gz | fill-an-ac | bgzip -c & gt out.vcf.gz

Fill-fs

Anota el archivo VCF con una secuencia de flanqueo (etiqueta INFO / FS) que enmascara las variantes conocidas con N. Útil para diseñar imprimaciones.

fill-fs -r /path/to/refseq.fa | vcf-query '% CHROM t% POS t% INFO / FS n' & gt out.tab

Relleno-ref-md5

Complete la información de referencia faltante y secuencia MD5 en el encabezado VCF.

fill-ref-md5 -i "SP: Homo Sapiens" -r ref.fasta in.vcf.gz -d ref.dict out.vcf.gz

Fill-rsIDs

Complete los rsID que faltan. Este script ha sido descontinuado, use vcf-annotate en su lugar.

Vcf-annotate

La secuencia de comandos agrega o elimina filtros y anotaciones personalizadas a los archivos VCF. Para agregar anotaciones personalizadas a archivos VCF, cree un archivo delimitado por TAB con anotaciones como

#CHR DESDE HASTA ANOTACIÓN 1 12345 22345 gen1 1 67890 77890 gen2

Comprima el archivo (usando anotaciones bgzip), indexe (usando tabix -s 1 -b 2 -e 3 annotations.gz) y ejecute

cat in.vcf | vcf-annotate -a annotations.gz
-d clave = INFO, ID = ANN, Número = 1, Tipo = Entero, Descripción = 'Mi anotación personalizada'
-c CROMO, DESDE, HACIA, INFO / ANN & gt out.vcf

La secuencia de comandos también se utiliza habitualmente para aplicar filtros. Hay una serie de filtros predefinidos y los filtros personalizados se pueden agregar fácilmente; consulte vcf-annotate -h para ver ejemplos. Algunos de los filtros predefinidos aprovechan las etiquetas agregadas por bcftools, a continuación se muestran las descripciones de los más frecuentes:

Nota: Ahora está disponible una versión rápida htslib C de esta herramienta (consulte la anotación de bcftools).

Comparar vcf

Compara posiciones en dos o más archivos VCF y genera el número de posiciones contenidas en uno, pero no en los otros archivos, dos pero no en los otros archivos, etc., lo que resulta útil al generar diagramas de Venn. El script también calcula números como tasas de discordancia sin referencias (incluidos sitios multialélicos), compara la secuencia real (útil al comparar indeles), etc.

vcf-compare -H A.vcf.gz B.vcf.gz C.vcf.gz

Nota: Ya está disponible una versión rápida htslib C de esta herramienta (consulte las estadísticas de bcftools).

Vcf-concat

Concatena archivos VCF (por ejemplo, divididos por cromosomas). Tenga en cuenta que los VCF de entrada y salida tendrán el mismo número de columnas, el script no fusiona los VCF por posición (consulte también vcf-merge).

En el modo básico, no hace nada elegante, excepto una verificación de cordura de que todos los archivos tienen las mismas columnas. Cuando se ejecuta con la opción -s, realizará una clasificación de combinación parcial, observando un número limitado de archivos abiertos simultáneamente.

vcf-concat A.vcf.gz B.vcf.gz C.vcf.gz | gzip -c & gt out.vcf.gz

Consenso vcf

Aplique variantes de VCF a un archivo fasta para crear una secuencia de consenso.

cat ref.fa | vcf-archivo de consenso.vcf.gz & gt out.fa

Vcf-convert

Convierta entre versiones de VCF, actualmente de VCFv3.3 a VCFv4.0.

zcat file.vcf.gz | vcf-convert -r reference.fa & gt out.vcf

Contraste vcf

Una herramienta para encontrar diferencias entre grupos de muestras, útil en análisis de trío, genomas de cáncer, etc.

En el siguiente ejemplo, se consideran variantes con una calidad de mapeo promedio de 30 (-f MinMQ = 30) y una profundidad mínima de 10 (-d 10). Solo se informan alelos nuevos (-n). Luego, vcf-query se usa para extraer las anotaciones INFO / NOVEL * en una tabla. Finalmente, los sitios se ordenan según la confianza de que el sitio es diferente en el niño (-k5,5nr).

vcf-annotate -f MinMQ = 30 archivo.vcf | vcf-contrast -n + Niño -Madre, Padre -d 10 -f | vcf-query -f '% CHROM% POS t% INFO / NOVEDAD t% INFO / NOVELAL t% INFO / NOVELGT [ t% SAMPLE% GTR% PL] n' | sort -k3,3nr | cabeza

Filtro vcf

Por favor, eche un vistazo a la vista vcf-annotate y bcftools que hace lo que está buscando. Disculpas por la nomenclatura no intuitiva.
Nota: Ahora está disponible una versión HTSlib C rápida de una herramienta de filtrado (consulte el filtro bcftools y la vista bcftools).

Vcf-fix-newlines

Corrige genotipos diploides frente a haploides en los cromosomas sexuales, incluidas las regiones pseudoautosómicas.

Vcf-fix-ploidy

Corrige genotipos diploides frente a haploides en los cromosomas sexuales, incluidas las regiones pseudoautosómicas.

Vcf-indel-stats

Nota: Ya está disponible una versión rápida htslib C de esta herramienta (consulte las estadísticas de bcftools).

Vcf-isec

Crea intersecciones y complementos de dos o más archivos VCF. Dados varios archivos VCF, puede generar la lista de posiciones que son compartidas por al menos N archivos, como máximo N archivos, exactamente N archivos, etc. El primer ejemplo a continuación muestra posiciones compartidas por al menos dos archivos y las segundas salidas posiciones presentes en los archivos A pero ausente en los archivos B y C.

vcf-isec -n +2 A.vcf.gz B.vcf.gz | bgzip -c & gt out.vcf.gz
vcf-isec -c A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c & gt out.vcf.gz

Nota: Ahora está disponible una versión rápida htslib C de esta herramienta (consulte bcftools isec).

Vcf-merge

Fusiona dos o más archivos VCF en uno para que, por ejemplo, si dos archivos fuente tuvieran una columna cada uno, en la salida se imprimirá un archivo con dos columnas. Consulte también vcf-concat para concatenar los VCF divididos por cromosomas.

vcf-merge A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c & gt out.vcf.gz

Tenga en cuenta que este script no está diseñado para concatenar archivos VCF. Para esto, use vcf-concat en su lugar.
Nota: Ahora está disponible una versión rápida htslib C de esta herramienta (ver combinación de bcftools).

Vcf-phased-join

Concatena múltiples VCF superpuestos preservando la fase.

Consulta vcf

Potente herramienta para convertir archivos VCF al formato definido por el usuario. Admite la recuperación de subconjuntos de posiciones, columnas y campos.

vcf-query file.vcf.gz 1: 10327-10330
vcf-query file.vcf -f '% CHROM:% POS% REF% ALT [% DP] n'

Nota: Ahora está disponible una versión rápida htslib C de esta herramienta (consulte la consulta de bcftools).

Vcf-shuffle-cols

vcf-shuffle-cols -t template.vcf.gz file.vcf.gz> out.vcf

Vcf-sort

Vcf-stats

Muestra algunas estadísticas básicas: el número de SNP, indels, etc.

Nota: Ya está disponible una versión rápida htslib C de esta herramienta (consulte las estadísticas de bcftools).

Subconjunto vcf

Elimine algunas columnas del archivo VCF.

vcf-subconjunto -c NA0001, NA0002 file.vcf.gz | bgzip -c & gt out.vcf.gz

Nota: Ahora está disponible una versión HTSlib C rápida de esta herramienta (consulte la vista bcftools).

Vcf-tstv

Un guión ligero para el cálculo rápido de la relación Ts / Tv.

Nota: Ya está disponible una versión rápida htslib C de esta herramienta (consulte las estadísticas de bcftools).

Vcf a pestaña

Un script simple que convierte el archivo VCF en un archivo de texto delimitado por tabulaciones que enumera las variantes reales en lugar de índices ALT.

zcat file.vcf.gz | vcf-to-tab & gt out.tab

Vcf-validador

Vcf.pm

Para ver ejemplos de cómo usar la API de Perl, es mejor mirar algunos de los scripts más simples, por ejemplo, vcf-to-tab. La documentación detallada se puede obtener ejecutando


Cómo obtener la frecuencia del genotipo poblacional a partir de 1000 genomas API de Perl - Biología

Aumento de datos de genómica a escala poblacional basado en redes adversarias generativas condicionales

Aunque las tecnologías de secuenciación de próxima generación han hecho posible generar rápidamente una gran colección de genomas, a veces no es factible (por ejemplo, en estudios de enfermedades raras donde las muestras son limitadas) producir rápidamente una gran cantidad de genomas. Además, debido a preocupaciones sobre la privacidad y la seguridad, los datos de genómica humana no son fáciles o de fácil acceso. Los modelos construidos sobre conjuntos de datos pequeños y desequilibrados pueden, por lo tanto, estar sesgados o ser inexactos, como resultado, las conclusiones pueden ser propensas a errores o injustas. Para abordar este problema, desarrollamos un aumento de datos genómicos a escala poblacional basado en redes adversas generativas condicionales (PG-cGAN) para mejorar la cantidad y diversidad de datos genómicos transformando muestras que ya están en los datos en lugar de recolectar nuevas muestras. PG-cGAN se apila con capas convolucionales, con el objetivo de capturar estructuras subyacentes como patrones de desequilibrio de ligamiento (LD) en datos genómicos. Demostramos la aplicación del modelo PG-cGAN propuesto para aumentar los datos de genotipos humanos para regiones de antígenos leucocitarios humanos (HLA), utilizando genotipos del proyecto 1000 Genomes con 2.504 muestras de cinco superpoblaciones en todo el mundo. Nuestros resultados para aumentar los genotipos en las regiones del antígeno leucocitario humano (HLA) mostraron que PC-cGAN puede generar nuevos genotipos con una estructura de población similar, distribuciones de frecuencia variable y patrones de LD. PG-cGAN también puede generar y aumentar los datos genómicos humanos para cualquier población específica con la etiqueta de población correspondiente como información de condición de entrada. Esta ventaja del aumento flexible hace que PG-cGAN tenga un gran potencial para mejorar la confiabilidad y la equidad del análisis posterior. Dado que la única entrada para PC-cGAN son los datos genómicos originales sin suposiciones sobre los parámetros del modelo o las distribuciones de datos, se puede ampliar para enriquecer muchos otros tipos de datos biomédicos y más.

(a) Arquitectura de GAN condicional sobre datos genómicos (b) Arquitecturas del generador y discriminador

Figura 1. Arquitectura del modelo PG-cGAN propuesto para el aumento de datos genómicos. El generador acepta una etiqueta de población como condición y luego la incrusta en la misma dimensión con un vector de ruido para unirse con la entrada de ruido por multiplicación. El discriminador también acepta una etiqueta de población como condición, y luego la incrusta en la misma dimensión con el genotipo vector, para unirse con la entrada del genotipo por multiplicación.

Estas instrucciones le proporcionarán una copia del proyecto en funcionamiento en su máquina local con fines de desarrollo y prueba. El código se realiza en un Jupyter Notebook, porque Jupyter Notebook proporciona una forma interactiva de desarrollo y prueba, que es muy conveniente para fines prácticos.

Junjie Chen, Mohammad Erfan Mowlaei y Xinghua Shi *. 2020. Aumento de datos genómicos a escala poblacional basado en redes adversarias generativas condicionales. En Actas de la 11a Conferencia Internacional ACM sobre Bioinformática, Biología Computacional e Informática de la Salud (BCB '20), 21-24 de septiembre de 2020, Evento virtual, EE. UU. ACM, NuevaYork, NY, EE. UU., 6 páginas. https://doi.org/10.1145/3388440.3412475


Implementación

interPopula proporciona una API de Python para acceder al conjunto de datos de HapMap. Se admiten interfaces para todas las fases de HapMap, incluidos los datos de la fase 2 con menos poblaciones pero más SNP genotipados por individuo y la fase 3 que cubre más poblaciones. interPopula proporciona acceso a conjuntos de datos de frecuencia, genotipo, desequilibrio de ligamiento y fases. El conjunto de datos reciente de la CNV también está respaldado junto con las relaciones familiares para las 5 poblaciones donde se realizó el muestreo para los tríos familiares (madre, padre y un hijo).

El soporte para la información de anotación que se necesita comúnmente para procesar los datos de HapMap también se proporciona a través de una API tanto para el conjunto de datos UCSC Known Genes [8] de la base de datos del navegador del genoma UCSC [9] como para la base de datos de anotación de genes Ensembl [10].

La API se construyó de acuerdo con las siguientes pautas de diseño:

1. La API es sencilla y autónoma. La API principal requiere solo un intérprete de Python, no tiene dependencias adicionales y una sobrecarga administrativa mínima.

2. Los datos descargados se almacenan en una base de datos SQL para un acceso más rápido. Todos los datos se almacenan usando sqlite [11], que es compatible de forma nativa con Python, lo que reduce los costos de mantenimiento del sistema. interPopula también se puede conectar a bases de datos de nivel empresarial que admiten múltiples usuarios, uso concurrente y grandes conjuntos de datos para los cuales el backend estándar de sqlite podría no ser suficiente (se proporciona un ejemplo de PostgreSQL).

3. La gestión de datos (es decir, la descarga desde el sitio de HapMap y la construcción de la base de datos local) está completamente automatizada: el subconjunto de datos requerido se descarga bajo demanda solo una vez y se almacena localmente, lo que reduce la carga tanto en el cliente como en el servidor.

4. Si bien las interfaces SQL están disponibles en los proyectos UCSC y Ensembl para sus bases de datos de anotaciones, interPopula usa la misma estrategia de implementación para el conjunto de datos HapMap: los archivos se descargan y almacenan localmente de manera inteligente. Esto proporciona una interfaz coherente para estos dos conjuntos de datos que proporcionan información de anotación importante que se utiliza con frecuencia para procesar los datos de HapMap.

5. El marco es extensible y está diseñado para integrarse fácilmente con otras herramientas de Python y bases de datos externas. El sitio web proporciona varios ejemplos de integración con herramientas estándar utilizadas en Python para bioinformática como Biopython [12], NumPy [13] y matplotlib [14].

6. La integración con Biopython permite el acceso a la base de datos de Entrez SNP y las herramientas de genética de poblaciones compatibles con Biopython, como Genepop [15], lo que permite el análisis automatizado de conjuntos de datos.

7. Se proporcionan instalaciones para exportar datos de HapMap al formato Genepop que permiten el análisis (no automatizado) del conjunto de datos de HapMap con la plétora de software de genética de poblaciones que admite este formato. La exportación de datos también se puede utilizar para inicializar simuladores de genética de poblaciones como el simuPOP [16] basado en Python, lo que permite inicializar simulaciones computacionales con conjuntos de datos reales.

8. Se incluye un gran conjunto de scripts, que sirven tanto como utilidades para analizar los datos como ejemplos de integración de bases de datos y herramientas externas. Actualmente proporcionamos ejemplos de integración con bases de datos Entrez (nucleótidos y SNP), la suite de genética de poblaciones Genepop y bibliotecas de gráficos.

9. Se desarrolló un conjunto de pautas y guiones para facilitar una visión coherente entre bases de datos heterogéneas. Es posible que las bases de datos de HapMap, Ensembl, UCSC Known Gene y Entrez no sean completamente coherentes entre sí y, si no se tiene cuidado, los esfuerzos de integración de la base de datos podrían conducir a resultados erróneos. El problema principal es el uso de diferentes compilaciones de referencia NCBI en diferentes bases de datos, en particular, HapMap todavía se basa en la compilación 36, mientras que otras bases de datos admiten múltiples compilaciones o solo la compilación 37 más reciente.

10. Se implementa un sólido proceso de desarrollo de software de código abierto: se utiliza una plataforma web pública completa (alojada en Launchpad) para mantener la infraestructura de código y las pruebas unitarias se acercan al 100% de cobertura.


Referencias

MacArthur J, Bowler E, Cerezo M, Gil L, Hall P, Hastings E, Junkins H, McMahon A, Milano A, Morales J, et al. El nuevo Catálogo NHGRI-EBI de estudios publicados de asociación de todo el genoma (Catálogo GWAS). Ácidos nucleicos Res. 201745: D896–901.

Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, Collins FS, Manolio TA. Posibles implicaciones etiológicas y funcionales de los loci de asociación de todo el genoma para las enfermedades y los rasgos humanos. Proc Natl Acad Sci U S A. 2009106: 9362–7.

Popejoy AB, Fullerton SM. La genómica está fallando en diversidad. Naturaleza. 2016538: 161–4.

Manolio TA. En retrospectiva: una década de asociaciones genómicas compartidas. Naturaleza. 2017546: 360–1.

Martin AR, Gignoux CR, Walters RK, Wojcik GL, Neale BM, Gravel S, Daly MJ, Bustamante CD, Kenny EE. La historia demográfica humana afecta la predicción del riesgo genético en diversas poblaciones. Soy J Hum Genet. 2017100: 635–49.

Bustamante CD, Burchard EG, De la Vega FM. Genómica para el mundo. Naturaleza. 2011475: 163–5.

Marigorta UM, Navarro A. La alta replicabilidad transétnica de los resultados de GWAS implica variantes causales comunes. PLoS Genet. 20139: e1003566.

Palmer C, Pe’er I. La corrección estadística de la maldición del ganador explica la variabilidad de la replicación en estudios de asociación de rasgos cuantitativos en todo el genoma. PLoS Genet. 201713: e1006916.

Shriner D. Ascendencia mixta y transferibilidad del riesgo de enfermedad. Informes de Curr Genet Med. 20153: 151–7.

Coram MA, Fang H, Candille SI, Assimes TL, Tang H. Aprovechamiento de la evidencia multiétnica para la evaluación de riesgos de rasgos cuantitativos en poblaciones minoritarias. Soy J Hum Genet. 2017101: 218–26.

Hindorff LA, Bonham VL, Brody LC, Ginoza MEC, Hutter CM, Manolio TA, Green ED. Priorizar la diversidad en la investigación en genómica humana. Nat Rev Genet. 201819: 175–85.

Chatterjee N, Shi J, Garcia-Closas M. Desarrollo y evaluación de modelos de predicción de riesgo poligénico para la prevención estratificada de enfermedades. Nat Rev Genet. 201617: 392–406.

Consorcio Internacional de Esquizofrenia, Purcell SM, Wray NR, Stone JL, Visscher PM, O’Donovan MC, Sullivan PF, Sklar P. La variación poligénica común contribuye al riesgo de esquizofrenia y trastorno bipolar. Naturaleza. 2009460: 748–52.

Shi J, Park JH, Duan J, Berndt ST, Moy W, Yu K, Song L, Wheeler W, Hua X, Silverman D, et al. La corrección de la maldición de Winner y el umbral variable mejoran el rendimiento del modelo de riesgo poligénico basado en datos a nivel de resumen del estudio de asociación de todo el genoma. PLoS Genet. 201612: e1006493.

Corona E, Chen R, Sikora M, Morgan AA, Patel CJ, Ramesh A, Bustamante CD, Butte AJ. Análisis de la base genética de la enfermedad en el contexto de las relaciones humanas y la migración en todo el mundo. PLoS Genet. 20139: e1003447.

Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, McCarthy MI, Ramos EM, Cardon LR, Chakravarti A, et al. Encontrar la heredabilidad faltante de enfermedades complejas. Naturaleza. 2009461: 747–53.

Wray NR, Yang J, Hayes BJ, Price AL, Goddard ME, Visscher PM. Errores de predecir rasgos complejos a partir de SNP. Nat Rev Genet. 201314: 507–15.

McClellan J, King MC. Heterogeneidad genética en enfermedades humanas. Celda. 2010141: 210–7.

Warnecke RB, Oh A, Breen N, Gehlert S, Paskett E, Tucker KL, Lurie N, Rebbeck T, Goodwin J, Flack J. Aproximación a las disparidades de salud desde una perspectiva de población: los Institutos Nacionales de los Centros de Salud para la Salud de la Población y las Disparidades de Salud . Soy J Salud Pública. 200898: 1608–15.

Woolf SH, Braveman P. Dónde comienzan las disparidades en salud: el papel de los determinantes sociales y económicos, y por qué las políticas actuales pueden empeorar las cosas. Health Aff (Millwood). 201130: 1852–9.

Consorcio Proyecto 1000 Genomas. Una referencia mundial para la variación genética humana. Naturaleza. 2015526: 68–74.

Li JZ, Absher DM, Tang H, Southwick AM, Casto AM, Ramachandran S, Cann HM, Barsh GS, Feldman M, Cavalli-Sforza LL, Myers RM. Relaciones humanas en todo el mundo inferidas de patrones de variación en todo el genoma. Ciencias. 2008319: 1100–4.

Laberge AM, Michaud J, Richter A, Lemyre E, Lambert M, Brais B, Mitchell GA. Historia de la población y su impacto en la genética médica en Quebec. Clin Genet. 200568: 287–301.

Macgregor S, Bellis C, Lea RA, Cox H, Dyer T, Blangero J, Visscher PM, Griffiths LR. Legado de motín en la recompensa: efecto fundador y mezcla en la isla Norfolk. Eur J Hum Genet. 201018: 67–72.

Timpson Nueva Jersey, Greenwood CMT, Soranzo N, Lawson DJ, Richards JB. Arquitectura genética: la forma de la contribución genética a los rasgos y enfermedades humanos. Nat Rev Genet. 201819: 110–24.

Visscher PM, Wray NR, Zhang Q, Sklar P, McCarthy MI, Brown MA, Yang J. 10 años de descubrimiento de GWAS: biología, función y traducción. Soy J Hum Genet. 2017101: 5–22.

Lohmueller KE. La distribución de la variación genética deletérea en poblaciones humanas. Curr Opin Genet Dev. 201429: 139–46.

Henn BM, Botigue LR, Peischl S, Dupanloup I, Lipatov M, Maples BK, Martin AR, Musharoff S, Cann H, Snyder MP, et al. La distancia desde el África subsahariana predice la carga mutacional en diversos genomas humanos. Proc Natl Acad Sci U S A. 2016113: E440–9.

Jones D. Una visión EXTRAÑA de la naturaleza humana sesga los estudios de los psicólogos. Ciencias. 2010328: 1627.

Henrich J, Heine SJ, Norenzayan A. La mayoría de la gente no es EXTRAÑA. Naturaleza. 2010466: 29.

Logan DC. Conocimientos conocidos, incógnitas conocidas, incógnitas desconocidas y la propagación de la investigación científica. J Exp Bot. 200960: 712–4.

Pulit SL, Voight BF, de Bakker PI. Los estudios de asociación genética multiétnica mejoran el poder para el descubrimiento de locus. Más uno. 20105: e12600.

Clark AG, Hubisz MJ, Bustamante CD, Williamson SH, Nielsen R. Sesgo de verificación en estudios de polimorfismo en todo el genoma humano. Genome Res. 200515: 1496–502.

McCarthy MI, Abecasis GR, Cardon LR, Goldstein DB, Little J, Ioannidis JP, Hirschhorn JN. Estudios de asociación de todo el genoma para rasgos complejos: consenso, incertidumbre y desafíos. Nat Rev Genet. 20089: 356–69.

Nielsen R. Análisis genético de poblaciones de datos de SNP comprobados. Hum Genomics. 20041: 218–24.

Lachance J, Tishkoff SA. Sesgo de determinación de SNP en análisis genéticos de poblaciones: por qué es importante y cómo corregirlo. Bioensayos. 201335: 780–6.

Albrechtsen A, Nielsen FC, Nielsen R. Los sesgos de verificación en los chips SNP afectan las medidas de divergencia de la población. Mol Biol Evol. 201027: 2534–47.

Los alelos asociados a enfermedades de Lachance J. en estudios de asociación de todo el genoma están enriquecidos para alelos derivados de baja frecuencia en relación con HapMap y expectativas neutrales. BMC Med Genet. 20103: 57.

Di Rienzo A, Hudson RR. Un marco evolutivo para enfermedades comunes: el modelo de susceptibilidad ancestral. Trends Genet. 200521: 596–601.

Ramachandran S, Deshpande O, Roseman CC, Rosenberg NA, Feldman MW, Cavalli-Sforza LL. Soporte de la relación de la distancia genética y geográfica en poblaciones humanas para un efecto fundador en serie que se origina en África. Proc Natl Acad Sci U S A. 2005102: 15942–7.

Skol AD, Scott LJ, Abecasis GR, Boehnke M. El análisis conjunto es más eficiente que el análisis basado en la replicación para estudios de asociación de dos etapas en todo el genoma. Nat Genet. 200638: 209–13.

Lachance J, Berens AJ, Hansen MEB, Teng AK, Tishkoff SA, Rebbeck TR. El autostop genético y los cuellos de botella de la población contribuyen a las disparidades del cáncer de próstata en los hombres de ascendencia africana. Cancer Res. 201878: 2432–43.

Benjamin EJ, Virani SS, Callaway CW, Chamberlain AM, Chang AR, Cheng S, Chiuve SE, Cushman M, Delling FN, Deo R. Heart disease and stroke statistics — Actualización de 2018: un informe de la American Heart Association. Circulación. 2018137: e67 – e492.

Slatkin M, Rannala B. Estimación de la edad del alelo. Annu Rev Genomics Hum Genet. 20001: 225–49.

Novembre J, Barton NH. Pisa en la interpretación de las pruebas poligénicas de selección a la ligera. Genética. 2018208: 1351–5.

Braveman P, Egerter S, Williams DR. Los determinantes sociales de la salud: mayoría de edad. Annu Rev Salud Pública. 201132: 381–98.

Manrai AK, Funke BH, Rehm HL, Olesen MS, Maron BA, Szolovits P, Margulies DM, Loscalzo J, Kohane IS. Diagnósticos genéticos erróneos y la posibilidad de disparidades en la salud. N Engl J Med. 2016375: 655–65.

Stearns SC, Medzhitov R. Medicina evolutiva. Sunderland: Sinauer Associates, Inc., editores de 2016.

Crespi BJ. El surgimiento de la genómica médica evolutiva humana. Evol Appl. 20114: 292–314.

Bigham AW, Magnaye K, Dunn DM, Weiss RB, Bamshad M. Firmas complejas de selección natural en GYPA. Hum Genet. 2018137: 151–60.

Shriner D, Rotimi CN. Los haplotipos basados ​​en la secuencia del genoma completo revelan un origen único del alelo falciforme durante la fase húmeda del Holoceno. Soy J Hum Genet. 2018102: 547–56.

Hunter DJ. Interacciones gen-ambiente en enfermedades humanas. Nat Rev Genet. 20056: 287–98.

Hemminki K, Bermejo JL, Försti A. Opinión: el equilibrio entre la etiología hereditaria y ambiental de las enfermedades humanas. Nat Rev Genet. 20067: 958.

Haugaard JJ, Hazan C. Adopción como experimento natural. Dev Psychopathol. 200315: 909–26.

Sankar P, Cho MK, Condit CM, Hunt LM, Koenig B, Marshall P, Lee SS, Spicer P. Investigación genética y disparidades en la salud. JAMA. 2004291: 2985–9.

Bien MJ, Ibrahim SA, Thomas SB. El papel de la raza y la genética en la investigación de las disparidades en salud. Soy J Salud Pública. 200595: 2125–8.

Reisberg S, Iljasenko T, Läll K, Fischer K, Vilo J. Comparación de distribuciones de puntajes de riesgo poligénico de diabetes tipo 2 y enfermedad coronaria dentro de diferentes poblaciones. Más uno. 201712: e0179238.

Maples BK, Gravel S, Kenny EE, Bustamante CD. RFMix: un enfoque de modelado discriminativo para una inferencia de ascendencia local rápida y robusta. Soy J Hum Genet. 201393: 278–88.

Guan Y. Detectando estructura de haplotipos y ascendencia local. Genética. 2014196: 625–42.

Vilhjalmsson BJ, Yang J, Finucane HK, Gusev A, Lindstrom S, Ripke S, Genovese G, Loh PR, Bhatia G, Do R, et al. Modelar el desequilibrio de ligamiento aumenta la precisión de las puntuaciones de riesgo poligénico. Soy J Hum Genet. 201597: 576–92.

Rosenberg NA, Huang L, Jewett EM, Szpiech ZA, Jankovic I, Boehnke M. Estudios de asociación de todo el genoma en diversas poblaciones. Nat Rev Genet. 201011: 356–66.

Berens AJ, Cooper TL, Lachance J. La salud genómica de los homínidos antiguos. Hum Biol. 201789: 5–17.

Lachance J: ConstartainmentBias_GWAS. Repositorio de Github 2018. https://github.com/LachanceLab/AscertainmentBias_GWAS. Consultado el 24 de agosto de 2018.


How to get Population Genotype Frequency from 1000 genomes Perl API - Biology

PopLDdecay: A new simple and efficient software for Linkage Disequilibrium Decay analysis based Variant Call Format


Method1 For linux/Unix y Mac OS

Nota: If fail to link,try to re-install the libraries zlib

Method2 For linux/Unix y Mac OS

Nota: If fail to link,try to re-install the libraries zlib

see more detailed Usage in the Documentation

Linkage disequilibrium (LD) decay[1] is the most important and most common analysis in the population resequencing[2]. Special in the self-pollinated crops, the LD decay may not only reveal much about domestication and breed history[3], but also can reveal gene flow phenomenon, selection regions[1].However, to measure the LD decay, it takes too much resources and time by using currently existent software and tools. The LD decay studies also generate extraordinarily large amounts of data to temporary storage when you using the mainstream software "Haploview"[4], the classical LD processing tools. Effective use and analysis to get the LD decay result remains a difficult task for individual researchers. Here, we introduce PopLDdecay, a simple- efficient software for LD decay analysis, which processes the Variant Call Format (VCF)[5] file to produce the LD decay statistics results and plot the LD decay graphs. PopLDdecay is designed to use compressed data files as input or output to save storage space and it facilitates faster and more computationally efficient than the currently existent softwares. This software makes the LD decay pipeline significantly

Used Data of this web site to test follow software, with only two based site in chr22 (minimal SNP database) of the 1000 Genomes Project ALL the pair-wise SNP R^2 is the same.


Expresiones de gratitud

We thank two anonymous reviewers, whose comments improved our manuscript. This work was supported by National Science Foundation grant DEB-1257806 and National Institutes of Health grant NIH-NIGMS R01-GM101672. It was also supported by the National Center for Genome Analysis Support, funded by National Science Foundation grant DBI-1458641 to Indiana University, and Indiana University Research Technology’s computational resources.

Note added in proof: See Ye et al. 2017 (pp. 1405) in this issue and Ackerman et al. 2017 (pp. 105) and Lynch et al. 2017 (pp. 315) in the GENETICS May issue for related work.


Ver el vídeo: Ejercicios de genética de poblaciones I (Diciembre 2022).