Acasă Adult69 Datand varsta amestecului prin analiza de transformare a undelor a datelor la...

Adult69

Datand varsta amestecului prin analiza de transformare a undelor a datelor la nivelul genomului

139

Metoda
Acces deschis
Publicat: 25 februarie 2011

Irina Pugach1,
Rostislav Matveyev2,
Andreas Wollstein3,4,
Manfred Kayser4 &
Mark Stoneking1

Genoma Biology volum 12 , Numar articol: R19 (2011) Citeste acest articol

Accesuri 17k
52 referinte
9 Altmetric
Detalii metrice

Abstract

Descriem o abordare de scanare a genomului bazata pe PCA pentru a analiza structura de amestec a genomului, si introducem analiza de transformare a undelor ca o metoda pentru estimarea timpului de amestec. Testam metoda de transformare a undelor prin simulari si o aplicam datelor SNP pe genom din opt populatii umane amestecate. Metoda de transformare a undelor ofera o rezolutie mai buna decat metodele existente pentru amestecarea datarii si poate fi aplicata fie datelor SNP, fie datelor de secventa de la oameni sau alte specii.

fundal

O populatie amestecata apare atunci cand indivizii din doua sau mai multe populatii distincte incep sa faca schimb de materiale genetice. Studierea populatiilor amestecate poate fi utila in special pentru a intelege diferentele de prevalenta a bolii si raspunsul la medicamente intre diferite populatii. Exista numeroase dovezi ca populatiile umane au o susceptibilitate diferita la boli, care prezinta o variatie substantiala a frecventelor alelelor de risc [1]. De exemplu, predispozitia genetica la astm difera intre populatiile hispanice cu adaos diferentiat ale Statelor Unite, cu cea mai mare prevalenta observata la purta-ricans. Variantele genetice responsabile de cresterea prevalentei astmului la aceasta populatie au fost localizate folosind o abordare de cartografiere a amestecului [2]. Aceasta metoda permite identificarea variantelor cauzatoare de boli prin estimarea stramosilor de-a lungul genomului, si restrangerea cautarii catre regiunile genomice cu origini dintr-o populatie care prezinta un risc mai mare pentru boala [3, 4]. Aceeasi abordare a fost utilizata pentru a identifica loci genetici care influenteaza sensibilitatea la obezitate, care este de aproximativ 1,5 ori mai frecventa in afro-americani decat in europenii-americani [5].

Populatiile amestecate sunt, de asemenea, de interes pentru geneticienii populatiei, deoarece ofera perspective de nepretuit asupra impactului diverselor migratii umane. De exemplu, populatiile polineziene sunt de dubla descendenta melanesiana si austroneziana, cu o mai mare descendenta materna austroneziana si paterna melanesiana, subliniind importanta proceselor specifice sexului in migratiile umane [6]. Analiza modelului de impartire a regiunilor cromozomiale intre populatii a oferit informatii importante asupra istoriei colonizarii umane, incluzand mai multe valuri de migratie in America si o miscare complexa de oameni in Europa [7]. Un studiu asupra modelelor de amestec in populatiile indiene a relevat faptul ca majoritatea indienilor isi urmaresc astazi stramosii in doua populatii antice, divergente genetic [8].

Analizele modelelor de amestec la populatiile umane s-au dovedit utile si pentru studiile de selectie locala. S-a examinat distributia genomatica a stramosilor si au fost identificate semnale de selectie recenta in populatii amestecati din Puerto Rico [9] si afro-americani [10].

De-a lungul anilor au fost dezvoltate diverse metode pentru a studia stramosii genetici atat la nivelul unei intregi populatii [11], cat si la nivelul indivizilor din populatiile amestecate [4, 10, 12–17]. Deoarece recombinarea genetica descompun genomii parentali in segmente de dimensiuni diferite, genomul unui descendent al unui eveniment de amestec este compus din combinatii diferite ale acestor segmente ancestrale, sau „blocuri”. Distributia proportiilor de descendenta in cadrul unei populatii si structura unui genom amestecat poate oferi astfel informatii despre momentul evenimentului amestecat in sine. Anterior, a fost dezvoltata o metoda bazata pe probabilitate (HAPMIX) pentru a deduce timpul evenimentelor de amestec din informatiile despre blocul haplotip [17]. Aici introducem o abordare de scanare a genomului bazata pe PCA pentru detectarea si data evenimentelor de amestec. Analiza componenta principala in pas este realizata de-a lungul fiecarui cromozom al unei populatii si a populatiilor parentale amestecate, iar descompunerea spectrala a semnalului rezultat este utilizata pentru a deduce data amestecului. Validam metoda pe seturi de date simulate si pe un esantion de afro-americani, ca populatie cu istoric de amestec cunoscut. Pentru a testa cum se compara performantele abordarii noastre cu HAPMIX, care foloseste o metodologie fundamental diferita pentru a deduce originea locala, aplicam metoda noastra pe populatiile Panoului pentru genomul uman al diversitatii (HGDP) [18] pentru care amestecul european a fost estimat si datat folosind HAPMIX [17]. In cele din urma, aplicam metoda pentru a elucida structura si proportiile de amestec, si estimam timpul de amestec, intr-o populatie fijiana si intr-un esantion divers de polinezieni [19].

rezultate si discutii

Prezentare generala a metodei

Ideea din spatele metodei este simpla: cand se adauga doua populatii, recombinarea genetica incepe sa rupa genomii „ancestrali” in blocuri de dimensiuni diferite, astfel incat genomii descendentilor unui eveniment de amestec sunt compuse din combinatii diferite ale acestor blocuri ancestrale (Figura 1 ). Prin urmare, prin screeningul genomului unui individ cu stramosi mixti, identificam intinderi ale genomului care sunt mostenite de la oricare dintre populatiile ancestrale. Mai mult, structura unui genom amestecat contine informatii cu privire la momentul evenimentului de amestec. Numarul de blocuri de amestec reflecta evenimentele de recombinare din trecut si, in mod similar, latimea unor astfel de blocuri contine si informatii temporale, deoarece mai multe evenimente de recombinare ar duce la blocuri mai inguste, care sunt raspandite mai uniform de-a lungul si printre cromozomi.

figura 1

Diagrama care ofera o imagine de ansamblu a procesului de amestec . Cand se adauga doua populatii, recombinarea genetica incepe sa rupa genomii ancestrali in blocuri de dimensiuni diferite, astfel incat genomii descendentilor unui eveniment de amestec sunt compuse din combinatii diferite ale acestor blocuri ancestrale. Numarul si latimea blocurilor de amestec contin informatii despre perioada de la amestecare, deoarece mai multe evenimente de recombinare duc la un numar mai mare de blocuri, care cu timpul devin progresiv mai inguste si mai uniform raspandite de-a lungul si printre cromozomi.

Imagine completa

Pentru a analiza structura locala a amestecului genomic pentru un individ dintr-o populatie amestecata si pentru a utiliza o astfel de structura pentru a deduce data amestecului, introducem o metoda in doua parti. Prima parte a metodei, numita StepPCO, este o extensie a analizei componente principale (PCA) si este utilizata pentru a obtine un semnal de amestec de la un genom individual. A doua parte a metodei se bazeaza pe descompunerea in unda a acestui semnal de amestec pentru a extrage informatii despre data evenimentului de amestec. Aici oferim o imagine de ansamblu descriptiva a metodei; metodologia propriu-zisa este dezvoltata formal in sectiunea Materiale si metode de mai jos.

Incepem prin efectuarea unui PCA (StepPCO) secvential de-a lungul fiecarui cromozom al unui individ dintr-o populatie amestecata si a unor indivizi din populatiile parentale respective. Consideram o populatie amestecata ca un amestec de doua populatii ancestrale, in care amestecul a avut loc la un singur moment, si presupunem ca nu a avut loc nici o deriva genetica dupa evenimentul de amestec. Acestea, desigur, simplifica presupunerile, intrucat cele mai multe populatii umane sunt asteptate nu numai sa aiba numeroase incidente de amestec care au loc la diferite momente in timp si intre diferite populatii, dar si sa experimenteze deriva genetica in raport cu populatiile parentale. Incercam sa evitam aceasta problema gasind prima axa principala (PA1) pe baza esantioanelor de la populatiile ancestrale propuse sau reprezentantii acestora, si apoi proiecteaza setul de date admis pe axa de variatie definita de aceste populatii ancestrale, excluzand astfel orice semnal care ar putea provoca din deriva si / sau din alte surse ancestrale [8, 20]. Luam in considerare apoi o fereastra glisanta de-a lungul fiecarui cromozom. Marimea acestei ferestre nu este fixata, dar la fiecare pozitie este determinata de proprietatile statistice ale colectiei SNP-urilor din fereastra. Luam puncte distantate uniform de-a lungul fiecarui cromozom (distantate uniform in ceea ce priveste distantele genetice); si fiecare punct serveste ca centru pentru urmatoarea fereastra. Numarul de puncte (ferestre) este ales astfel incat ferestrele sa intinda intregul cromozom, fara a lasa goluri intre ele. Pentru a simplifica analiza ulterioara a transformarilor de unda, dorim, de asemenea, numarul de ferestre (sau pubele) egal cu o putere de doua. Incepand din centrul fiecarei ferestre, marim fereastra pana cand coordonatele medii PC1 pentru populatiile parentale sunt separate prin trei abateri standard de la fiecare medie. Scopul este de a realiza o separare completa a populatiilor parentale in cadrul fiecarei ferestre, astfel incat nu exista ambiguitate in alocarea segmentelor cromozomiale intr-un genom amestecat nici unei populatii ancestrale. Deoarece populatiile umane sunt strans legate, exista o intrerupere evidenta intre rezolutia semnalului si incertitudinea in estimarea stramosilor; facand dimensiunea variabila a ferestrei si dependenta de numarul de site-uri informative dintr-o anumita regiune cromozomiala, gasim intotdeauna cea mai mica fereastra posibila care ne ofera o rezolutie optima a semnalului, fara a introduce erori in exces in estimarea ancestrala. Folosind coeficientii PA1 ca greutati, gasim valoarea medie a SNP-urilor in fiecare fereastra. Valorile rezultate sunt apoi normalizate, astfel incat populatiile ancestrale corespund valorilor cu 1 si, respectiv, -1. Astfel, pentru fiecare individ obtinem o valoare pentru fiecare dintre ferestre, iar ferestrele sunt distantate uniform de-a lungul cromozomului. Pentru un individ amestecat, valoarea fiecarei ferestre va corespunde fie uneia dintre populatiile ancestrale, fie are o valoare intermediara corespunzatoare existentei unui segment cromozomial din fiecare populatie ancestrala (folosim date nesfazate, ca trepte la nivelul unui intreg cromozom infectioneaza haplotipuri cu erori semnificative in trepte (comutare) [14, 21], ceea ce face ca aceste date sa fie inutilizabile pentru timp de la estimarea amestecului). Astfel pentru fiecare individ si fiecare cromozom obtinem un semnal StepPCO, constand dintr-o secventa de valori de-a lungul cromozomului dat. Aceasta parte a metodei este similara cu o abordare publicata recent [10], in care estimarile amestecurilor genomice locale sunt deduse utilizand analiza PC pe o grila de puncte de-a lungul genomului (si nu la nivelul genomului); spre deosebire de metoda noastra, aceasta abordare functioneaza cu ferestre foarte mici de 15 SNP-uri si necesita un model Markov ascuns (HMM) pentru a deduce starea de ancestralitate in fiecare fereastra. Implementarea noastra este, de asemenea, diferita prin faptul ca nu numai ca estimam nivelul genomic local al amestecului, ci folosim si structura blocului ascendent identificat pentru a produce evenimente de amestec. si necesita un model Markov ascuns (HMM) pentru a deduce starea stramosilor in fiecare fereastra. Implementarea noastra este, de asemenea, diferita prin faptul ca nu numai ca estimam nivelul genomic local al amestecului, ci folosim si structura blocului ascendent identificat pentru a produce evenimente de amestec. si necesita un model Markov ascuns (HMM) pentru a deduce starea stramosilor in fiecare fereastra. Implementarea noastra este, de asemenea, diferita prin faptul ca nu numai ca estimam nivelul genomic local al amestecului, ci folosim si structura blocului ascendent identificat pentru a produce evenimente de amestec.

Asa cum am mentionat anterior, deoarece majoritatea SNP-urilor nu sunt fixate intre populatiile umane, este necesar sa se utilizeze ferestre relativ mari pentru a avea suficienta putere pentru a atribui in mod fiabil segmente cromozomiale unei populatii ancestrale. Ferestrele mari inseamna ca locatia exacta si latimea blocurilor ancestrale din datele empirice este dificil de determinat, deoarece blocurile mici, dar informative pot fi ratate, in timp ce blocurile mai mari care sunt de fapt zgomot pot fi umflate si considerate in mod fals un adevarat semnal. Prin urmare, mai degraba decat pentru a incerca o estimare directa a numarului de puncte de intrerupere [17], am dezvoltat o metoda bazata pe analiza spectrala a semnalului cu ajutorul undelor Wavelets [22]. Transformarea de unda reprezinta semnalul StepPCO (descris mai sus), ca suma undelor simple, fiecare caracterizata prin frecventa (sau perioada) si pozitie. Aceste frecvente de val sunt apoi utilizate ca masura a latimii blocurilor ancestrale. Exista mai multe avantaje pentru abordarea transformarii undelor. In primul rand, transformarea de unda a semnalului discret este fara pierderi si descrie complet datele [22]. Adica, coeficientii transformati in unda pot fi folositi pentru a recupera exact semnalul initial. In al doilea rand, transformarea de unda permite, de asemenea, reducerea zgomotului, care in acest context este definit ca oscilatii de inalta frecventa sau de joasa amplitudine care nu sunt informative, dar pot fi considerate in mod fals drept semnale adevarate. Prin eliminarea coeficientilor de unda de analiza corespunzatoare undelor de inalta frecventa sau de joasa amplitudine din semnal, suntem in masura sa reducem mult zgomotul si sa distilam semnalul de amestec cuprins in date. In cele din urma,

Deoarece rata de recombinare este inegala de-a lungul cromozomului, cu 80% din evenimentele de recombinare la om care se petrec in interiorul hotspoturilor [23], pentru a masura distantele de-a lungul cromozomului, folosim distante de harta genetica (masurate in cM) si nu distante fizice (masurate in perechi de baze ). Interpolam distantele genetice de la ratele de recombinare la nivelul genomului estimate ca parte a proiectului HapMap [24].

Simularile

Validarea initiala a metodei s-a facut folosind o abordare interna de simulare inainte. Incepem cu doua populatii distincte (A si B), simuland cromozomii ca un interval de la zero la unu. Alegem rata de recombinare pentru a fi 2,78 evenimente per cromozom pe generatie, ceea ce corespunde ratei de recombinare observata pentru cromozomul uman 1 [25, 26]. La vremea T0 dimensiunea efectiva a populatiei A este egala cu 1.000 de indivizi si primeste 1%, 5%, 10%, 20%, 30% sau 40% migranti din populatia B. Simularea continua apoi pentru 2.000 de generatii; populatia din fiecare generatie este impartita la intamplare in perechi si fiecare pereche produce un numar aleatoriu de primavara, extras din distributia Poisson, cu media in functie de rata de crestere specificata. Rata de crestere este aleasa astfel incat populatia sa creasca de la o dimensiune efectiva de la 1.000 la 10.000 in 2.000 de generatii. Intrucat ne intereseaza doar dinamica recombinarii, urmarim doar punctele de recombinare, cu coordonatele lor de-a lungul cromozomului date ca procente din lungimea totala a cromozomului. Aceasta reduce semnificativ timpul de calcul si face posibila modelarea dinamicii de recombinare. Am efectuat seturi independente de simulari folosind fie harta genetica [25], fie harta de pozitie fizica cu rate variabile de recombinare de-a lungul cromozomului, folosind valori ale parametrilor descrise anterior pentru rezistenta si distantarea punctelor fierbinti [27]. Harta recombinarii a fost generata la inceputul fiecarei rulari de simulare. Am efectuat 100 de simulari pentru fiecare dintre parametrii de migratie si din fiecare simulare am prelevat 100 de cromozomi la punctele de timp in crestere exponentiala si am colectat statistici privind cantitatea totala de amestec, numarul de puncte de rupere si latimea blocurilor de amestec (masurate de coeficientii de transformare a undelor) pentru fiecare cromozom in fiecare generatie esantionata. sau harta pozitiei fizice cu rate variabile de recombinare de-a lungul cromozomului, folosind valori ale parametrilor descrise anterior pentru rezistenta si distantarea punctelor fierbinti [27]. Harta recombinarii a fost generata la inceputul fiecarei rulari de simulare. Am efectuat 100 de simulari pentru fiecare dintre parametrii de migrare si din fiecare simulare am prelevat 100 de cromozomi la punctele de timp in crestere exponential si am colectat statistici privind cantitatea totala de amestec, numarul de puncte de rupere si latimea blocurilor de amestec (masurate de coeficientii de transformare a undelor) pentru fiecare cromozom in fiecare generatie esantionata. sau harta pozitiei fizice cu rate variabile de recombinare de-a lungul cromozomului, folosind valori ale parametrilor descrise anterior pentru rezistenta si distantarea punctelor fierbinti [27]. Harta recombinarii a fost generata la inceputul fiecarei rulari de simulare. Am efectuat 100 de simulari pentru fiecare dintre parametrii de migratie si din fiecare simulare am prelevat 100 de cromozomi la punctele de timp in crestere exponentiala si am colectat statistici privind cantitatea totala de amestec, numarul de puncte de rupere si latimea blocurilor de amestec (masurate de coeficientii de transformare a undelor) pentru fiecare cromozom in fiecare generatie esantionata.

Estimarile generale ale ratei de amestec, pe care le obtinem, sunt foarte concordante cu parametrul ratei de migratie stabilite initial pentru fiecare simulare, iar aceasta estimare nu este influentata de timpul de la amestec (Figura 2a).

Figura 2

Date din 100 de simulari pentru valori de migrare de 1%, 5%, 10%, 20%, 30% si 40% . Fiecare curba reprezinta o singura populatie amestecata. Pentru a genera parcele, s-au prelevat 100 de cromozomi de la fiecare populatie la momente de crestere exponentiala si s-au colectat urmatoarele statistici pentru fiecare cromozom in fiecare generatie esantionata: (a) rata de amestec; (b) numarul de puncte de intrerupere; liniile negre indica valoarea asteptata, data de: N bkpts = 2 T gen R ( Eα (1 – Eα ) – var α ); si (c)centrele WT. Inset: numar mediu de puncte de intrerupere pentru fiecare parametru de simulare. Liniile negre indica valoarea asteptata.

Imagine completa

Numarul punctelor de intrerupere fata de timp (figura 2b) este aproape liniar, cu o oscilatie mica in cadrul fiecarei simulari. Se pare ca exista o perioada stocastica imediat dupa evenimentul de amestec, cand procesele aleatorii par sa influenteze puternic panta. In general, numarul punctelor de intrerupere creste mai repede cu rate de amestec mai mari (figura 2b). Pana la aproximativ 50 de generatii, numarul de repere observate se potriveste strans cu valoarea preconizata:

N bkpts = 2 T gen R (E α (1 – E α) – var α),

(1)

unde N reprezinta numarul de puncte de intrerupere, T gen denota timpul de la amestecul in generatii, R corespunde numarului de evenimente de recombinare pentru fiecare generatie, α indica rata de amestecare pentru un individ, iar E si var α sunt media si variatia α . Abaterea numarului observat de repere de la cel asteptat dupa 50 de generatii (figura 2b) se datoreaza faptului ca populatiile infinite modelul blocurilor ancestrale (latimea si distributia lor de-a lungul cromozomilor) devine mai uniform cu timpul, adica evenimentele de recombinare nu mai sunt independenti.

Pentru calculul coeficientilor de transformare a undelor (WT), cromozomii simulati au fost asociati la intamplare pentru a forma diploide care sa corespunda datelor empirice. De asemenea, din coeficientii WT calculati excludem toti coeficientii care descriu undele de inalta frecventa (niveluri WT mai mari decat nivelul sapte, asa cum este descris in Materiale si metode, sectiunea de transformare Wavelet) si normalizam lungimea cromozomului scazand jurnalul cromozomului lungime, care ar corespunde pragului si normalizarii impuse datelor empirice pentru cromozomul 1 (deoarece cromozomii simulati au aceeasi lungime ca cromozomul 1). Distributiile nivelurilor WT, care indica modul in care spectrul de transformare a undelor se schimba cu timpul de la amestec, sunt prezentate in figura 3. Cu timpul centrul spectrului WT trece de la stanga la dreapta, de la undele cu frecventa predominant scazute pana la predominant ridicate. In figura 2c, centrele WT calculate pentru diferite puncte de timp sunt reprezentate in timp de la amestec. Centrele cresc exponential cu timpul, sunt destul de independente de rata amestecului si sunt foarte consecvente in toate simularile, mai ales daca rata de amestec este de peste 1%. Aceasta masura incepe sa se niveleze la aproximativ 400 de generatii de la amestec, ceea ce se datoreaza eliminarii nivelurilor care contin undele de cea mai mare frecventa (efectuate pentru a concura cu filtrarea aplicata datelor empirice). Pentru datele empirice, aceasta inlaturare a undelor de inalta frecventa se face pentru a elimina zgomotul, care la randul sau reflecta densitatea relativ mica a SNP-urilor informative prezente in date; cu date SNP mai dense (sau date cu secventa completa),

Figura 3

Distributiile nivelurilor WT, care ilustreaza modul in care spectrul de transformare a undelor se schimba cu timpul de la amestecare . Pentru fiecare punct de timp ilustrat, sunt reprezentate niveluri WT din 10 simulari alese aleatoriu (fiecare bara reprezinta o simulare, rezultand 10 bare pentru fiecare nivel). Inaltimea coloanelor indica abundenta undelor cu frecventa speciala prezenta in semnal, incepand cu cele mai mici frecvente de unda (cele mai largi blocuri de recombinare) din stanga si progresand spre cele mai inalte frecvente de unda (cele mai inguste blocuri de recombinare) din dreapta. Centrele WT din aceasta diagrama nu sunt ajustate pentru lungimea cromozomilor si, astfel, par a fi mai mari decat valorile pe care le prezentam pentru datele genomaticului.

Imagine completa

Sensibilitatea metodei la dimensiunile efective mai mici ale populatiei si migratia continua

Pentru a testa sensibilitatea metodei noastre in raport cu marimea efectiva initiala a populatiei, am efectuat simulari suplimentare in care dimensiunea efectiva a populatiei A la T0 este egal cu 500 sau 200 de indivizi si primeste fie 5%, 10% sau 20% migranti din populatia B. Rata de crestere a noii populatii amestecate a fost aleasa astfel incat in 2.000 de generatii populatia sa creasca la 10.000 sau, respectiv, 2.000 de persoane. Rezultatele sunt prezentate in Figura S1 in fisierul suplimentar 1. Nu exista nicio influenta a marimii initiale a populatiei asupra performantei metodei pentru timpii de amestec pana acum aproximativ 20 de generatii. Pentru populatiile cu mici evenimente Ne si amestecuri mai vechi cu peste 20 de generatii in urma, abordarea noastra va tinde sa supraestimeze data amestecului pentru evenimente mai recente si sa nu poata detecta mai multe evenimente antice. Aparent, diversitatea in distributia blocurilor ancestrale diminueaza (se stabilizeaza) mai repede in populatiile mai mici, facand astfel ca noi evenimente de recombinare sa fie nedetectabile. Acelasi fenomen este responsabil pentru abaterea numarului de repere de recombinare observate in simularile noastre de la valoarea prevazuta de ecuatia 1. Rezultatele noastre sugereaza in plus ca nu este atat Neul mic, ci mai degraba rata de crestere a populatiei, care este in primul rand responsabil pentru aceste abateri. Mai mult, efectul este mai accentuat atunci cand rata de amestec este scazuta.

In plus, am efectuat simulari pentru a testa modul in care amestecul continuu in timp afecteaza metoda. Din nou incepem cu o populatie A, care la T0 cuprinde 1.000 de indivizi si primeste fie 5%, fie 20% migranti din populatia B, pe parcursul a 10 sau 30 de generatii. Rata de crestere a noii populatii amestecate a fost aleasa astfel incat in 2.000 de generatii populatia sa creasca la 10.000 si s-au efectuat 100 de simulari pentru fiecare scenariu. Rezultatele sunt prezentate in figura S2 in fisierul aditional 1. Deoarece sunt introduse continuu noi blocuri ancestrale pe parcursul a 10 sau 30 de generatii, eliminand potential structura blocurilor mai vechi prin inlocuirea blocurilor stramosilor mai inguste cu noi blocuri mai largi, asteptam sa se reduca continuu amestecul coeficientii de transformare a undelor si, prin urmare, conduc la o subestimare a timpului de la amestecare. Acesta este intr-adevar ceea ce observam: indiferent de viteza de amestec, pe toata durata amestecului (10 sau 30 de generatii), coeficientii de transformare a undelor sunt mai mici decat cei observati intr-o populatie cu aceeasi rata de amestec, dar care nu a cunoscut un eveniment continuu, ci un singur amestec de amestec. Odata ce fluxul de materiale genetice noi in populatia A se opreste, traiectoria de crestere a coeficientilor de transformare a undelor este recuperata lent.

Sensibilitatea metodei la niveluri de dezechilibru de legatura

Dupa cum este descris in Prezentarea generala a metodei, pentru a masura distantele de-a lungul cromozomului, folosim distante de harta genetica (masurate in cM) si nu distante fizice (masurate in bp). Pe masura ce masuram distantele in unitatile de frecventa de recombinare, regiunile cromozomiale cu LD ridicat, adica inclinatie scazuta spre recombinare, vor parcurge distante mai mici si vor fi reprezentate de un numar mai mic de ferestre, iar regiunile invers genomice care adapostesc puncte de recombinare vor fi umflate si reprezentate de un numar mai mare de ferestre. Prin urmare, nu ne asteptam ca nivelurile de LD sa ne afecteze rezultatele. Pentru a demonstra acest lucru, am masurat LD [28] in ferestre fixe pe cromozomii 6 si 8 in trei populatii HAPMAP: indivizi cu stramose europene (CEU), indivizi Yoruban (YRI) si indivizi cu origini africane din sud-vestul SUA (ASW) . Datele genotipului au fost descarcate de pe pagina de start a proiectului International HapMap [29]. Marimea ferestrei fixe a fost aleasa ca o fractiune dintr-o lungime a cromozomilor pentru a corespunde in medie la 500 kb sau la 0,5 cM. In conformitate cu asteptarile noastre, am observat ca nivelul LD variaza de-a lungul cromozomului daca distantele sunt masurate in perechi de baze, dar nu variaza la fel de mult daca distantele sunt masurate in cM (Figura S3 din fisierul suplimentar 1).

Estimarea marimii esantionului

Pentru unele dintre populatiile luate in considerare in acest studiu, marimea esantionului a fost limitata la 25 de indivizi. Pentru a ne asigura ca metoda StepPCO are o putere adecvata, prin urmare, am calculat cat de mare este necesara o dimensiune a esantionului pentru estimari corecte si fiabile ale timpului de amestec. Am esantionat de la 1 la 50 de indivizi la intamplare dintr-o populatie simulata aleasa la intamplare la 12 puncte de timp diferite. Centrele WT medii, pe baza diferitelor dimensiuni ale esantionului, au fost calculate si utilizate pentru a deduce timpul de la amestec, comparand centrele WT observate cu cele obtinute folosind intregul set de date simulat. Rezultatele (figura S4 din fisierul aditional 1) indica faptul ca o dimensiune a esantionului de 10 este suficienta pentru o estimare a timpului destul de precisa, cu intervale inguste de incredere de pana la aproximativ 200 de generatii in urma. Estimarile punctuale devin mai putin precise, iar intervalele de incredere devin mult mai largi, momentele depasind acum 500 de generatii. Acest lucru este cauzat de pragul impus asupra datelor simulate sa concureze cu aceeasi limitare care este prezenta in datele empirice, datorita eliminarii nivelurilor care contin undele de inalta frecventa (eliminarea zgomotului, asa cum este descris mai sus).

Comparatie cu HAPMIX: date simulate

Au fost dezvoltate diferite metode de cuantificare a semnalului de amestec de-a lungul cromozomilor individuali, cum ar fi ANCESTRYMAP [4], SABER [14], LAMP si LAMP-ANC [15], uSWITCH si uSWITCH-ANC [16] si HAPMIX [17]. Pentru a testa performanta abordarii StepPCO in raport cu aceste alte programe, am ales sa comparam metoda doar cu HAPMIX, deoarece s-a demonstrat ca aceasta abordare are o performanta mai buna in raport cu celelalte metode in prezicerea tranzitiilor ancestrale, in special pentru segmentele mai mici de ascendenta care poarta informatii despre evenimente de amestec mai vechi [17].

Pentru a se compara cu HAPMIX, am construit un set de date amestecat artificial din genotipurile pe etape ale indivizilor Yoruban (YRI) si ale persoanelor cu stramosi europeni (CEU), descarcate de pe pagina de start a proiectului International HapMap [30]. Patru patru genomi haploizi amestecati au fost construiti asa cum s-a descris anterior [17], si anume pentru fiecare cromozom simulat, am ales la intamplare un Yoruban haploid si un genom CEU haploid, si am construit o harta de recombinare prin extragerea dintr-o distributie exponentiala cu greutatea λ , astfel incat comutarea stramosilor s-a produs cu probabilitatea 1 – e-λg pentru fiecare distanta de g Morgans. Incepand de la inceputul fiecarui cromozom si la fiecare dintre punctele de recombinare de pe harta recombinarii, am esantionat stramosul european cu probabilitatea αsi descendenta africana cu probabilitatea 1 – α , unde valoarea α a fost esantionata o data de la o distributie beta cu media 0,20 si abaterea standard 0,10, tipica pentru afro-americanii [17]. Am simulat urmatoarele valori ale λ : 6, 10, 20, 40, 60, 100, 200, 400. Odata construit un genom artificial, cromozomii parentali nu au fost niciodata reutilizati. Perechile genomilor haploizi adixizati artificial au rezultat au fost imbinate pentru a crea 20 de indivizi amititi diploizi.

Apoi am comparat performanta metodei noastre de descompunere spectrala cu HAPMIX pe aceste genome amestecate artificial. Am efectuat o analiza StepPCO, urmata de descompunerea WT a semnalului de amestec StepPCO rezultat. Pentru a investiga modul in care frecventa de unda dominanta este legata de λ pentru acest set de date artificiale, am generat un set de date separat de hibrizi. Hartile evenimentelor de recombinare pentru fiecare dintre aceste genomuri hibride suplimentare pentru valorile λ: 6, 10, 20, 40, 60, 100, 200, 400 au fost construite asa cum este descris in paragraful anterior. 20 de genomi de hibrizi au fost construiti pentru fiecare valoare a λ si analiza descompunerii spectrale a fost realizata pe semnalul de amestec rezultat. Folosind numarul cunoscut de puncte de intrerupere in acesti hibrizi simulati, am constatat ca frecventa de unda dominanta este in mod liniar legata de logaritmul numarului mediu (pe Morgan) de comutatoare ancestrale (puncte de intrerupere); regresia liniara a fost utilizata pentru a gasi coeficientii si pentru a estima numarul mediu de comutatoare ancestrale pe unitatea de distanta genetica in principalul set de date simulat.

Am rulat, de asemenea, HAPMIX pe aceleasi probe amestecate artificial, folosind 40 de genuri YU haploide si 40 de gene CEU haploide ca populatii parentale de referinta si folosind parametrii de intrare recomandati anterior [17]. Am calculat numarul de comutatoare ancestrale detectate de HAPMIX, deoarece iesirea de HAPMIX produce probabilitatea asociata cu fiecare genotip SNP din genomul amestecat. Am comparat apoi numarul adevarat de comutatoare ascendente pe Morgan de distanta genetica (cunoscute pentru datele simulate) cu estimarile produse fie prin descompunerea HAPMIX, fie prin WT a semnalului de amestec. Rezultatele (figura 4) arata ca HAPMIX subestimeaza in mod constant numarul de puncte de rupere, in timp ce estimarile obtinute prin analiza WT sunt mai exacte, in special pentru valori mai mari de λ, tipice evenimentelor de amestec mai vechi.

Figura 4

Performanta analizei Hapmix si a transformarii wavelet-ului in recuperarea numarului mediu de puncte de intrerupere de recombinare pe Morgan la distanta genetica fata de datele simulate . Cele doua metode au fost aplicate la 20 de persoane amestecate artificial, create folosind o medie a genomiei de 20% europene si 80% stramosi africani. Pentru datele simulate, numarul mediu de comutatoare ancestrale (sau puncte de intrerupere) a fost extras dintr-o distributie exponentiala cu greutatea λ, astfel incat comutatorul ancestral a avut loc cu probabilitatea 1 – e -λg pentru fiecare distanta de g Morgans. Au fost simulate urmatoarele valori ale λ: 6, 10, 20, 40, 60, 100, 200, 400. Deoarece in genomurile simulate este cunoscut numarul adevarat de puncte de rupere, aratam exactitatea ambelor metode in recuperarea acestor informatii.

Imagine completa

Cu toate acestea, estimarea exacta a punctelor de intrerupere nu implica o estimare exacta a timpului de amestec. Asa cum s-a demonstrat anterior (figura 2b), numarul punctelor de intrerupere poate devia semnificativ de la valoarea prevazuta de ecuatia 1, in special cu rate de amestec mai mari, Ne ancestral inferior si / sau timpuri de amestec mai vechi. Mai mult decat atat, inferenta punctelor de intrerupere necesita transformarea semnalului genomic „brut” intr-un semnal discret corespunzator prezentei sau absentei unui comutator ancestral, prin urmare, inferenta directa a numarului de puncte de franare este inevitabil predispusa la erori. Aceste erori, oricat de mici, se vor acumula pe parcursul numeroaselor masuratori luate. Analiza WT evita astfel de erori deoarece, mai degraba decat deducerea directa a evenimentelor de recombinare,

Date empirice

Genotipuri filtrate de calitate pentru aproximativ un milion de SNP-uri pentru 25 polinezieni (PLY), 25 Fijieni (FIJ), 23 Borneans (BOR) si 25 de indivizi din zonele inalte din Papua Noua Guinee (MEL), dactilografiate cu tablele Affymetrix 6.0, au fost obtinute de la un studiu anterior [19] si sunt disponibile de la autori la cerere. Genotipuri filtrate de calitate obtinute cu tablourile Illumina Human1 M si Affymetrix 6.0 pentru 20 de Yorubani din Ibadan, Nigeria (YRI), 20 de indivizi cu origini europene din nordul si vestul Europei, care traiesc in Utah (CEU) si 20 de indivizi stramosi africani din sud-vestul SUA ( ASW), au fost descarcate de pe pagina de start a proiectului HapMap International [29]. SNP-urile au fost contopite folosind instrumentul PLINK [31], pentru a include doar markeri care au fost genotipati si au trecut filtrele de calitate in ambele seturi de date. Datele de date finale au cuprins 653.498 de SNP. De asemenea, am analizat si datat amestecul in grupurile Mandenka, Mozabite, Beduin, Palestina si Druze din CEPH-HGDP [18]. Aceste grupuri au fost analizate anterior prin HAPMIX si s-au raportat ca au o descendenta in domeniul european, de la 2% la 97%, cand au fost analizate folosind africani si europeni din HapMap ca populatie de referinta [17]. Aceste probe au fost genotipate pentru 650.000 de SNP pe platforma Illumina [18]. Datele au fost descarcate din baza de date genotipului HGDP CEPH [32]. 000 de SNP-uri pe platforma Illumina [18]. Datele au fost descarcate din baza de date genotipului HGDP CEPH [32]. 000 de SNP-uri pe platforma Illumina [18]. Datele au fost descarcate din baza de date genotipului HGDP CEPH [32].

Pentru analizele empirice ale amestecurilor, grupurile parentale sunt: francezii si iorubii pentru grupurile Mandenka, Mozabite, beduine, palestiniene si druze amestecate; grupurile YRI si CEU pentru grupul ASW amestecat; grupele BOR si MEL pentru grupul PLY amestecat; si grupurile MEL si PLY pentru grupul FIJ amestecat. Abordarea StepPCO a fost utilizata pentru a elucida structura locala a semnalului de amestec pentru fiecare individ amestecat de-a lungul fiecarui cromozom. Apoi, am estimat proportiile de amestec in fiecare grup amestecat si am comparat rezultatele StepPCO pentru fiecare cromozom cu proportiile de amestec, estimate utilizand algoritmul bazat pe probabilitatea maxima implementat in frappe[13]. Am aplicat apoi analiza de transformare a undelor pe semnalul StepPCO si am utilizat coeficientii de transformare a undelor pentru a deduce timpul de la amestec. Dupa ce au fost calculati coeficientii de transformare a undelor, am aplicat trei proceduri de filtrare la semnal. In primul rand, dupa cum am explicat anterior, am inlocuit cu zero toti coeficientii mai mici decat o valoare de prag constatata, pentru a elimina oscilatiile de amplitudine mica, caracteristice zgomotului (adica undele de inaltime mica). Aceasta valoare de prag a fost aleasa astfel incat oscilatiile mici prezente numai in distributia indivizilor parentali sa fie ignorate. In al doilea rand, am eliminat nivelurile de WT care corespund undelor cu frecvente cele mai inalte, care sunt, de asemenea, caracteristice zgomotului (adica undele sunt prea inguste). Apoi am calculat media coeficientilor pe fiecare nivel si am gasit o amplitudine a pragului, care este prezenta in fiecare individ indiferent daca este amestecata sau nu, si consideram tot ceea ce este sub el ca zgomot (de fapt, asta inseamna ca scadem semnalul parental, adica atunci cand analizam semnal de amestec in FIJ, de exemplu, cu PLY si MEL fiind populatiile ancestrale, faptul ca PLY in sine gazduieste amestecul melanesian nu are efect asupra inferentei datei amestecului pentru FIJ). In cele din urma, gasim frecventa dominanta prezenta in semnal (centrul WT) si o folosim pentru a deduce timpul amestecului prin compararea acestei frecvente dominante observate cu cea obtinuta in datele simulate generate folosind rata de amestecare observata in datele empirice. si consideram tot ce se afla sub el ca zgomot (de fapt, asta inseamna ca scadem semnalul parental, adica atunci cand analizam semnalul de amestec din FIJ, de exemplu, PLY si MEL fiind populatiile ancestrale, faptul ca PLY in sine gazduieste amestecul melanesian are niciun efect asupra inferentei datei amestecului pentru FIJ). In cele din urma, gasim frecventa dominanta prezenta in semnal (centrul WT) si o folosim pentru a deduce timpul amestecului prin compararea acestei frecvente dominante observate cu cea obtinuta in datele simulate generate folosind rata de amestecare observata in datele empirice. si consideram tot ce se afla sub el ca zgomot (de fapt, asta inseamna ca scadem semnalul parental, adica atunci cand analizam semnalul de amestec din FIJ, de exemplu, PLY si MEL fiind populatiile ancestrale, faptul ca PLY in sine gazduieste amestecul melanesian are niciun efect asupra inferentei datei amestecului pentru FIJ). In cele din urma, gasim frecventa dominanta prezenta in semnal (centrul WT) si o folosim pentru a deduce timpul amestecului prin compararea acestei frecvente dominante observate cu cea obtinuta in datele simulate generate folosind rata de amestecare observata in datele empirice. Faptul ca PLY in sine gazduieste amestecul melanesian nu are niciun efect asupra inferentei datei amestecului pentru FIJ). In cele din urma, gasim frecventa dominanta prezenta in semnal (centrul WT) si o folosim pentru a deduce timpul amestecului prin compararea acestei frecvente dominante observate cu cea obtinuta in datele simulate generate folosind rata de amestecare observata in datele empirice. Faptul ca PLY in sine gazduieste amestecul melanesian nu are niciun efect asupra inferentei datei amestecului pentru FIJ). In cele din urma, gasim frecventa dominanta prezenta in semnal (centrul WT) si o folosim pentru a deduce timpul amestecului prin compararea acestei frecvente dominante observate cu cea obtinuta in datele simulate generate folosind rata de amestecare observata in datele empirice.

Afro-americani, polinezieni si fijieni

Graficele StepPCO pentru un ASW, un PLY si un FIJ sunt prezentate in figura 5. Modelul segmentelor cromozomiale care alterneaza intre doua stari ancestrale este caracteristic tuturor indivizilor amestecati si este observat pe toti cromozomii. Pentru unele segmente cromozomiale se observa valori intermediare ale PCA1, care indica faptul ca individul amestecat contine segmente cromozomiale din ambele populatii parentale (a se vedea figura S5 in fisierul suplimentar 1 pentru rezultatele StepPCO pentru ceilalti cromozomi de la acesti trei indivizi). Asa cum s-a descris in Prezentarea generala a metodei, numarul SNP-urilor pe fereastra glisanta a analizei StepPCO este permis sa varieze, pentru a obtine o alocare sigura a segmentelor cromozomiale la persoanele amestecate la grupul parental corect. Numarul mediu de SNP pe fereastra glisanta StepPCO pentru cromozomul 1, care a continut un total de 42.499 SNP dupa filtrare, a fost: 280 pentru afro-americani, 519 pentru polinezieni si 1015 pentru Fiji. Aceasta variatie reflecta diferitele niveluri de diferentiere intre populatiile ancestrale ale acestor trei grupuri amestecate. Cea mai mare dimensiune medie a ferestrei glisante este observata pentru Fiji, unde PLY si MEL sunt utilizate ca grupuri parentale. Intrucat PLY insisi au stramosi melanesieni, PLY si MEL sunt mult mai putin diferentiati decat CEU si YRI, populatiile parentale ale afro-americanilor. Prin urmare, sunt necesare mai multe SNP-uri pentru a aloca in mod fiabil segmente cromozomiale din grupul FIJ oricareia dintre populatiile ancestrale, decat sunt necesare pentru ASW. Aceasta variatie reflecta diferitele niveluri de diferentiere intre populatiile ancestrale ale acestor trei grupuri amestecate. Cea mai mare dimensiune medie a ferestrei glisante este observata pentru Fiji, unde PLY si MEL sunt utilizate ca grupuri parentale. Intrucat PLY insisi au stramosi melanesieni, PLY si MEL sunt mult mai putin diferentiati decat CEU si YRI, populatiile parentale ale afro-americanilor. Prin urmare, sunt necesare mai multe SNP-uri pentru a aloca in mod fiabil segmente cromozomiale din grupul FIJ oricareia dintre populatiile ancestrale, decat sunt necesare pentru ASW. Aceasta variatie reflecta diferitele niveluri de diferentiere intre populatiile ancestrale ale acestor trei grupuri amestecate. Cea mai mare dimensiune medie a ferestrei glisante este observata pentru Fiji, unde PLY si MEL sunt utilizate ca grupuri parentale. Intrucat PLY insisi au stramosi melanesieni, PLY si MEL sunt mult mai putin diferentiati decat CEU si YRI, populatiile parentale ale afro-americanilor. Prin urmare, sunt necesare mai multe SNP-uri pentru a aloca in mod fiabil segmente cromozomiale din grupul FIJ oricareia dintre populatiile ancestrale, decat sunt necesare pentru ASW. populatiile parintesti ale afro-americanilor. Prin urmare, sunt necesare mai multe SNP-uri pentru a aloca in mod fiabil segmente cromozomiale din grupul FIJ oricareia dintre populatiile ancestrale, decat sunt necesare pentru ASW. populatiile parintesti ale afro-americanilor. Prin urmare, sunt necesare mai multe SNP-uri pentru a aloca in mod fiabil segmente cromozomiale din grupul FIJ oricareia dintre populatiile ancestrale, decat sunt necesare pentru ASW.

Figura 5

Rezultatele PCA si StepPCO pentru cromozomul 1 . Liniile solide centrate in jurul valorii de 1 si -1 indica coordonata medie PC1 pentru fiecare populatie parentala; umbrirea progresiva mai usoara care inconjoara media fiecarui grup parental indica +/- 1, +/- 2 sau +/- 3 abateri standard de la medie. (a) Panoul superior: PC1 vs PC2 pentru populatiile de CEU, YRI si ASW. Panoul inferior: cromozomul 1 fara fata al unui individ cu stramosi afro-americani; Populatiile europene (albastre) si yoruba (rosii) sunt utilizate ca grupuri parentale. (b) Panoul superior: PC1 vs PC2 pentru populatii de MEL, BOR si PLY. Panoul inferior: cromozomul 1 nefazat al unui individ din Polinezia; Populatiile Borneo (verde) si Noua Guinee (portocaliu) sunt utilizate ca grupuri parentale. (c)Panoul superior: PC1 vs PC2 pentru populatii de MEL, PLY si FIJ. Panoul inferior: cromozomul 1 fara fata al unui individ din Fiji; Populatiile din Polinezia (maro) si Noua Guinee (portocalie) sunt utilizate ca grupuri parentale.

Imagine completa

Proportiile medii de amestec determinate prin metoda StepPCO pentru afro-americani, polinezieni si fijieni sunt de 19% stramosi europeni, 24,9% stramosi melanesieni, respectiv 40,2% stramosi melanesieni (Figura 6a). Estimarile de amestecuri individuale variaza substantial in randul afro-americanilor, unele persoane prezentand o descendenta europeana foarte mica (mai putin de 5%), iar unele substantial mai mari (mai mult de 40%). Aceste rezultate au fost justificate de frappe[13] analiza, care sunt de acord destul de strans cu estimarile ascendente per-cromozomiale din analiza StepPCO (Figura 6b). Un model similar este observat in Fiji, cu o ancestralitate melanesiana cuprinsa intre 22% si 63%. In ciuda faptului ca esantionul polinezian este foarte divers, provenind de la sapte insule diferite [19], nivelul stramosilor melanesiene este mult mai uniform in randul indivizilor (variind intre 18 si 28%).

Figura 6

Estimarile de amestec . (a) Estimari ale amestecului la nivelul genomului bazate pe StepPCO pentru afro-americani, polinezieni si fijieni. (b) Comparatia estimarilor de amestec obtinute prin StepPCO vs. Frappe, pentru cromozomul 1 pentru 20 de afro-americani.

Imagine completa

Analiza spectrala a semnalului StepPCO a relevat faptul ca frecventa dominanta medie pentru afro-americani este situata la nivelul 1.

8, ceea ce ar corespunde unei abundente de wavelete de joasa frecventa (adica blocuri mai ascendente), in timp ce pentru fijieni si polinezieni frecventa dominanta medie este la nivelul 3,06, respectiv 3,63, ceea ce indica blocuri ancestrale mult mai restranse (figura 7). Pe baza simularilor, centrul WT de 1,8 corespunde unui timp de amestec de acum 6 generatii (95% CI: 4-8 generatii) pentru afro-americanii. Presupunand un timp de generatie de 30 de ani [33], rezultatele noastre indica faptul ca amestecul in afro-americanii a inceput in urma cu aproximativ 180 de ani. In mod similar, simularile indica faptul ca centrul WT de 3,63 pentru polinezieni corespunde unui timp de amestec de 90 de generatii (95% CI: 77-131 generatii), sau cu aproximativ 2.700 de ani in urma (figura 8). Estimarea timpului pentru Fiji se bazeaza pe date simulate cu o rata de amestec 40% (pentru a se potrivi cu cea mai mare rata de amestec a Fiji), iar aici centrul WT de 3,06 corespunde unui timp de amestec de 37 de generatii (95% CI: 29-39 ) sau acum aproximativ 1.100 de ani.

Figura 7

Centre medii ale coeficientilor WT, calculate pentru fiecare individ .

Imagine completa

Figura 8

Timpul de adaos estimeaza pentru afro-americani, polinezieni si fijieni . Sunt prezentate date simulate din 100 de simulari cu o rata de migratie de 20% si 40%. Fiecare curba reprezinta o singura populatie amestecata. Centrele WT medii calculate pentru 100 de cromozomi extrasi la intamplare de la fiecare populatie la punctele de timp in crestere exponentiala sunt reprezentate in functie de timp. Masuratorile obtinute pentru populatiile ASW, PLY si FIJ sunt prezentate prin linii orizontale albastre. Liniile verticale rosii indica estimarea timpului, iar casetele umbrite definesc intervalele de incredere. Estimarea timpului pentru ASW si PLY se bazeaza pe simulari cu o rata de amestec de 20%, in timp ce estimarea timpului pentru FIJ se bazeaza pe simulari cu o rata de amestec 40%.

Imagine completa

Populatii HGDP

Pentru a testa cum se compara performantele abordarii noastre cu HAPMIX, am aplicat metoda noastra la populatiile Mandenka, Mozabite, Beduin, Druze si Palestina din CEPH-HGDP [18], care au fost analizate anterior folosind HAPMIX [17]. Estimarile HAPMIX pentru originea europeana in aceste populatii au variat de la 2% la 97%, cand au fost analizate folosind africani si europeni din HapMap ca populatie de referinta (tabelul 1). Timpul de la amestecarea in aceste populatii a fost dedus prin calcularea numarului de tranzitii ancestrale genomewide (sau numarul de puncte de intrerupere), iar rezultatele sunt raportate in tabelul 1.

Tabelul 1 Comparatia rezultatelor de la HAPMIX si StepPCO

Tabel cu dimensiuni complete

Desi am estimat proportii similare de amestec pentru aceste populatii (tabelul 1), analiza spectrala ulterioara a semnalului de amestec in Mandenka, Mozabite, Beduin, Palestina si Druze a dezvaluit date de amestec mai vechi pentru populatiile Mozabite si Druze (tabelul 1 si figura S6 din Dosar suplimentar 1). Populatia beduina pare sa fie structurata, 24 din 45 de indivizi avand o proportie mult mai mare de stramosi legati de Europa (figura S7 in dosarul suplimentar 1). Daca acesti indivizi sunt eliminati din analiza, estimarea timpului de amestec in beduini se schimba la 97 de generatii in urma (CI: 83-131).

Toate programarile si analiza datelor au fost efectuate folosind R (vers. 2.10.1) [34]. Toate scripturile sunt disponibile gratuit [35].

concluzii

Utilizarea datelor genetice pentru a deduce timpul migratiilor a fost intotdeauna dificila, iar estimarile de timp obtinute adesea se incadreaza in intervale largi de incredere, ceea ce face ca aceste date sa nu fie fiabile si inferentele sa fie problematice. Aici, am introdus o abordare care profita de date SNP la nivelul genomului dens pentru a imbunatati precizia si a reduce prejudecatile in realizarea inferentelor despre momentul migratiilor umane. Folosind o populatie amestecata, se poate valorifica proprietatea genomului de a recombina fiecare generatie, producand cromozomi care sunt un amestec de material genetic parental. Structura unui genom amestecat contine informatii temporale despre un eveniment de amestec, deoarece un numar mai mare si o latime mai restransa a blocurilor ancestrale indica mai multe evenimente de recombinare si, prin urmare, o adancime mai mare in timp.

Simularile indica faptul ca coeficientii WT pot fi folositi pentru a obtine estimari exacte ale timpului amestecului din date SNP adecvate la nivelul genomului. Prin urmare, am aplicat metoda pe trei seturi de date, constand din aproximativ 650.000 SNP, pentru a estima cantitatea si timpul amestecului pentru trei populatii umane: afro-americani, polinezieni si fijieni. In plus, am analizat si datat amestecul in cinci populatii de HGDP de origine africana si din Orientul Mijlociu. La prima vedere, poate parea ca datele simulate si empirice difera prin faptul ca simularile au utilizat populatii complet diferentiate, ceea ce nu este cazul datelor empirice. Cu toate acestea, asa cum este explicat mai detaliat in Rezultate si discutii (sectiunea Setare de baza),

Pentru afro-americani, estimam o medie de 19% stramosi europeni, cu o gama larga de mai putin de 5% pana la mai mult de 40% stramosi europeni pentru persoane fizice. Atat media, cat si observarea unei game largi de estimari ale amestecurilor individuale sunt in conformitate cu studiile anterioare [10, 17, 36, 37]. Durata estimata a amestecului este de aproximativ 180 de ani in urma (IC 95%: acum 120-240 de ani), ceea ce este probabil o subestimare, deoarece amestecul in populatia afro-americana este in desfasurare (ceea ce implica faptul ca noile blocuri ancestrale sunt introduse continuu prin noua recombinare evenimente, care elimina potential structura blocurilor mai vechi prin inlocuirea blocurilor stramosii mai inguste cu blocuri noi, mai largi).

Am testat performanta metodei pe fijieni si polinezieni, intrucat ambele populatii sunt de origine asiatica si melanesiana amestecate [6]. Analizele demografice anterioare ale datelor SNP la nivelul genomului utilizate in acest studiu sustin cu tarie atat o descendenta asiatica / melanesiana amestecata pentru fijieni si polinezieni, cat si fluxul suplimentar de gene ulterioare din Melanesia in Fiji, dar nu si Polinezia [19]. Pe baza acestui scenariu stabilit anterior, am estimat o medie de aproximativ 25% (de la 18 la 28%) stramosi melanesieni la polinezieni, in acord cu estimarile anterioare bazate pe aceleasi [19] sau alte date [6, 38-40]. . Timpul estimat de amestecare este de aproximativ 90 de generatii in urma, sau 2.700 de ani (IC 95%: 2.300-3900 ani), in acord cu o estimare anterioara de aproximativ 3.000 de ani in urma, bazata pe o abordare de simulare ABC pentru aceleasi date [19] . Pentru Fiji, cantitatea estimata de stramosi melanesieni a fost de aproximativ 40%, iar timpul pentru aceasta amestecare este estimat sa fi avut aproximativ 37 de generatii in urma, sau 1.100 de ani (IC 95%: 870-1170 de ani). O abordare bazata pe simulare ABC pentru aceleasi date a dat o data estimata de 62 de generatii pentru aceasta amestecare in Fiji, cu aproximativ doua ori mai mult decat estimarea noastra. Speculam ca, la fel ca in cazul afro-americanilor, estimarea bazata pe coeficientii WT poate fi partinitoare catre date mai recente daca fluxul genic in Fiji a avut loc intr-o perioada de timp, deoarece fluxul genic mai recent inlocuieste stramosii mai vechi si mai restranse. blocuri cu blocuri mai vechi, mai largi. Estimarile individuale ale stramosilor melanesiene sunt mult mai largi pentru Fiji (de la 22 la 63%) decat pentru Polinezia (de la 18 la 28%), ceea ce poate indica intr-adevar o perioada mai lunga de flux de gene in Fiji. cantitatea estimata de descendenta melanesiana a fost de aproximativ 40%, iar timpul pentru aceasta amestecare este estimat sa fi avut aproximativ 37 de generatii in urma, sau 1.100 de ani (IC 95%: 870-1170 ani). O abordare bazata pe simulare ABC pentru aceleasi date a dat o data estimata de 62 de generatii pentru aceasta amestecare in Fiji, cu aproximativ doua ori mai mult decat estimarea noastra. Speculam ca, la fel ca in cazul afro-americanilor, estimarea bazata pe coeficientii WT poate fi partinitoare catre date mai recente daca fluxul genic in Fiji a avut loc intr-o perioada de timp, deoarece fluxul genic mai recent inlocuieste stramosii mai vechi si mai restranse. blocuri cu blocuri mai vechi, mai largi. Estimarile individuale ale stramosilor melanesiene sunt mult mai largi pentru Fiji (de la 22 la 63%) decat pentru Polinezia (de la 18 la 28%), ceea ce poate indica intr-adevar o perioada mai lunga a fluxului de gene in Fiji. cantitatea estimata de descendenta melanesiana a fost de aproximativ 40%, iar timpul pentru aceasta amestecare este estimat sa fi avut aproximativ 37 de generatii in urma, sau 1.100 de ani (IC 95%: 870-1170 ani). O abordare bazata pe simulare ABC pentru aceleasi date a dat o data estimata de 62 de generatii pentru aceasta amestecare in Fiji, cu aproximativ doua ori mai mult decat estimarea noastra. Speculam ca, la fel ca in cazul afro-americanilor, estimarea bazata pe coeficientii WT poate fi partinitoare catre date mai recente daca fluxul genic in Fiji a avut loc intr-o perioada de timp, deoarece fluxul genic mai recent inlocuieste stramosii mai vechi si mai restranse. blocuri cu blocuri mai vechi, mai largi. Estimarile individuale ale stramosilor melanesiene sunt mult mai largi pentru Fiji (de la 22 la 63%) decat pentru Polinezia (de la 18 la 28%), ceea ce poate indica intr-adevar o perioada mai lunga de flux de gene in Fiji.

Rezultatele noastre pentru populatiile Mozabite, Mandenka, Beduin, Druze si Palestina sunt similare cu cele pentru HAPMIX pentru deducerea stramosilor locale si in plus, metoda noastra pare sa functioneze mai bine in ceea ce priveste evenimentele de amestec mai vechi (asa cum se arata si cu datele simulate: Figura 4). In special, am dat evenimentul de amestec in Mozabite si Druze la 131 si respectiv 90 de generatii in urma, cu 30 de generatii mai mult decat estimarile corespunzatoare obtinute cu HAPMIX [17]. HAPMIX estimarea timpului de la amestecare se bazeaza pe numarul de tranzitii ancestrale calculate (adica numarul de puncte de intrerupere); atat simularile noastre, cat si simularile anterioare [17] indica faptul ca populatiile de marime infinita numarul de puncte nu se mareste cu timpul in functie de asteptari (a se vedea Ecuatia 1 de mai sus), ci se stabilizeaza, ceea ce duce la subestimare in datele de amestec (figura 2b). Mai mult, deoarece populatiile umane sunt strans legate si nu sunt foarte bine diferentiate, estimarea directa a numarului de puncte de intrerupere si a latimii blocului ca masura de timp, deoarece amestecul pentru datele genetice umane este problematic din doua motive. In primul rand, pentru a avea suficienta putere pentru a aloca segmente cromozomiale in mod fiabil unei populatii ancestrale, este necesar sa se utilizeze ferestre genomice relativ mari, ceea ce corespunde reduce detectarea punctelor de intrerupere stranse. Si in al doilea rand, pentru fiecare locatie din genomul care poate avea un punct de intrerupere, trebuie luata o decizie formala pentru a considera daca este un punct de break adevarat sau nu. Aceasta transformare a semnalului „brut” intr-un semnal discret poate duce la trecerea in considerare a unor puncte de intrerupere care nu sunt bine definite, sau invers efectele aleatorii devin umflate si false considerate ca un adevarat semnal. Aceste erori, oricat de mici, se vor acumula pe parcursul numeroaselor masuratori luate. In schimb, abordarea de analiza spectrala implementata aici nu necesita nicio transformare de date si se aplica direct semnalului „brut”. Acest lucru are avantajul de a pastra natura statistica a semnalului pana la ultima etapa medie si, astfel, nu implica detectarea locatiei exacte (si a prezentei) punctelor de intrerupere, unde pot aparea inevitabil erori mari de estimare. Desi am urmat Price abordarea de analiza spectrala implementata aici nu necesita nicio transformare de date si se aplica direct semnalului „brut”. Acest lucru are avantajul de a pastra natura statistica a semnalului pana la ultima etapa medie si, prin urmare, nu implica detectarea locatiei exacte (si a prezentei) punctelor de rupere, unde pot aparea inevitabil erori mari de estimare. Desi am urmat Price abordarea de analiza spectrala implementata aici nu necesita nicio transformare de date si se aplica direct semnalului „brut”. Acest lucru are avantajul de a pastra natura statistica a semnalului pana la ultima etapa medie si, astfel, nu implica detectarea locatiei exacte (si a prezentei) punctelor de intrerupere, unde pot aparea inevitabil erori mari de estimare. Desi am urmat Pricesi colab. 2009 in utilizarea grupurilor parentale africane si europene pentru grupurile Mozabite, Mandenka, Beduin, Druze si Palestiniene amestecate din CEPH-HGDP, de fapt, studii anterioare au aratat ca populatiile druze, beduine si palestiniene sunt amestecate in primul rand de-a lungul unei zone europene-asiatice centrale axa, cu adaos mic african, si Mandenka prezinta foarte putin amestec european [18, 41]. Aici, raportam datele pentru presumptiv fluxul genic european, pentru a compara rezultatele noastre cu studiul anterior [17], dar este important sa retinem ca metoda noastra (ca toate metodele de amestec) necesita utilizarea de grupuri parentale predefinite . Identificarea incorecta a grupurilor ancestrale care contribuie la un grup amestecat va duce, evident, la concluzii eronate, de aceea trebuie acordata o atentie atenta la identificarea grupurilor parentale. Acest lucru este valabil mai ales pentru grupurile despre care s-a sugerat ca au experimentat amestecuri cu mult timp in urma si, prin urma

Datand varsta amestecului prin analiza de transformare a undelor a datelor la nivelul genomului

Abstract

fundal

rezultate si discutii

Prezentare generala a metodei

Simularile

Sensibilitatea metodei la dimensiunile efective mai mici ale populatiei si migratia continua

Sensibilitatea metodei la niveluri de dezechilibru de legatura

Estimarea marimii esantionului

Comparatie cu HAPMIX: date simulate

Date empirice

Afro-americani, polinezieni si fijieni

Populatii HGDP

concluzii

Populare

Afacere proprie, angajat la stat sau angajat la privat? Pro &...

Cum alegi cel mai bun brad de Crăciun?

Afla cum iti poti lansa o mica afacere folosind un spatiu...

Top 10 cele mai supraevaluate filme din toate timpurile

10 regizori care au facut un film de groaza si au...

10 documentare care au schimbat perceptia publicului

Top 10 interviuri controversate cu celebritati din toate timpurile

Top 10 cele mai memorabile momente ale premiilor Oscar

Cum se schimba viata atunci cand intri in cercurile sociale ale...

10 povesti ciudate din lumea rap pe care sa le cunosti