Fråga:
Enkel härledning av Kimuras approximation för sannolikheten för fixering av en mutation
WYSIWYG
2018-05-15 14:02:41 UTC
view on stackexchange narkive permalink

Kimuras approximation för sannolikheten för fixering av en mutation under urval finner återkommande användning i populationsgenetiska modeller till dags dato. Jag försöker förstå den matematiska grunden för denna ekvation men ingen av de läroböcker eller online-resurser som jag har kontrollerat ger en enkel härledning av denna approximation utan citerar bara Kimuras 1962-uppsats.

$$ P_ \ text {fix} \ approx \ frac {1-e ^ {- 4Nsp}} {1-e ^ {- 4Ns}} \ qquad (1) $$

Så , Jag läste originalet, men den medföljande härledningen verkar inte tydlig för mig.


Detaljer

Kimura börjar med definition av sannolikhet för förändring av allelfrekvensen som:

$$ u (p, t + \ delta t) = \ int f (p + \ delta p; \ delta t) \ u (p + \ delta p, t) \ d (\ delta p) \ qquad (2) $$

där (citeras exakt)

  • $ u (p, t) $ är sannolikheten för att en allel kommer att fixas i ett tidsintervall $ t $ med tanke på att dess initiala frekvens är $ p $.
  • $ f (p + \ delta p; \ delta t) $ är sannolikhetsdensiteten för förändringen från $ p $ till $ p + \ delta p $


Sedan använder han Taylor-serien approximation för att få en ekvation av denna form:

$$ \ frac {\ partial u (p, t)} {\ partial t} = \ frac {V} {2} \ frac {\ partial ^ 2u} {\ partial p ^ 2} + M \ frac {\ partial u} {\ partial p} \ qquad (3) $$

Han definierar $ M $ och $ V $ som medelvärde och varians av förändring på $ p $ per generation. Dessa definieras formellt som:

$$ M = \ lim _ {\ delta t \ to 0} \ frac {1} {\ delta t} \ int (\ delta p). \ F (p + \ delta p; \ delta t). \ d (\ delta p) $$

$$ V = \ lim _ {\ delta t \ till 0} \ frac {1} {\ delta t} \ int (\ delta p) ^ 2. \ f (p + \ delta p; \ delta t). \ d (\ delta p) $$

($ V $ borde faktiskt bara vara det andra ögonblicket enligt den matematiska definitionen och inte variansen)

Sedan löser han ekvation 3 vid steady state med gränsvillkor $ u (0, t) = 0 $ och $ u (1, t) = 1 $ för att få detta:

$$ u (p) = \ frac {\ displaystyle \ int_0 ^ p G (x) dx} {\ displaystyle \ int_0 ^ 1 G (x) dx} \ qquad (4) $$

där:

$$ G (x) = \ exp \ left (- \ int \ frac {2M} {V} dx \ right) $$

Jag förstod härledningen till denna punkt.

Sedan sätter han bara:

$$ M = sx (1-x) $$$ $ V = x (1-x) / 2N $$

och får ekvation 1.


Kort sagt

Finns det en enkel härledning för ekvation 1?
Om inte, kan någon förklara mig hur M och V uppskattades som ovan?

trevlig fråga! Det kan vara värt att tyras för att fråga det här om matte stackexchange (eller vad det än heter), eftersom de flesta biologer förmodligen inte får matematiken bakom detta (jag inkluderar mig själv här och jag har förmodligen mer matematisk bakgrund än genomsnittet)
@Nicolai Kanske kan matematikerna känna till dessa metoder riktigt bra men jag är rädd utan sammanhang, bara att veta att de matematiska metoderna inte kommer att vara till någon nytta. Jag försöker läsa Kimuras bok som är mer detaljerad. Jag tror att jag hittar ett svar där. När jag hittar det lägger jag upp det.
Ett svar:
user3658307
2018-10-10 11:47:18 UTC
view on stackexchange narkive permalink

Förmodligen har du löst det här, men om inte, beror det på att PDE är en Kolmogorov bakåtekvation, så första och andra ordningens koefficienter är medelvärdet och variansen för den underliggande stokastiska processen modelleras.

Betrakta i detalj en stokastisk differentialekvation (som har en lösning som ges genom en Ito-diffusionsprocess): $$ dp_t = \ mu (p_t, t) dt + \ sigma (p_t, t) dW_t $$ så gäller följande system (under vissa förhållanden): $$ - \ frac {\ partial} {\ partiell t} u (p, t) = \ mu (p, t) \ frac {\ partial} {\ partiell p} u (p, t) + \ frac {1} {2} \ sigma ^ 2 (p, t) \ frac {\ partial ^ 2} {\ partial p ^ 2} u (p, t) $$ där $ u $ är densiteten av $ p $ vid $ t $ .

Observera att drift (oändligt stort medelvärde) $ M = \ mu (p, t) $ och diffusionskoefficient (oändlig variation) $ V = \ sigma ^ 2 (p, t) $ är som i tidningen (förutom det negativa tecknet, vilket jag antar är okunnigt eftersom han mestadels verkar bry sig bara om fallet när $ \ partial_t u \ approx 0 $ ändå). Faktum är att de är ekvivalenta skrivna: \ begin {align} \ mu (p, t) & = \ lim _ {\ delta t \ rightarrow 0} \ frac {1} {\ delta t } \ mathbb {E} \ left [p_ {t + \ delta t} - p_t \ mid p_t = p \ right] =: M \\\ sigma ^ 2 (p, t) & = \ lim _ {\ delta t \ rightarrow 0} \ frac {1} {\ delta t} \ mathbb {E} \ left [(p_ {t + \ delta t} - p_t) ^ 2 \ mid p_t = p \ right] =: V \\\ end {align} som Kimura skriver.

Observera att en användbar approximation av övergångstätheten ges av: $$ \ mathbb {P} [p_ {t + \ delta t} \ mid p_t] \ approx \ mathcal {N} (p_ {t + \ delta t} \ mid p_t + \ mu (p_t, t) \, \ delta t, \ sigma ^ 2 (p_t, t ) \, \ delta t) \ tag {TD} $$

Okej, så allt ovan är bara grundläggande teori om stokastiska processer. Om vi ​​har en stokastisk modell för populationsdynamiken kan vi härleda värden för $ M $ och $ V $ från den (genom att beräkna dess ögonblick), och de kommer att överföras till den bakåtgående Kolmogorov-ekvationen, på vilken Kimuras arbete vilar.

Här visar min okunnighet om befolkningsdynamik. Eftersom Kimura nämner Fisher och Wright, letade jag upp Wright-Fisher-modellen. Det verkar som om Kimura använder diffusionsprocessnäringen för Wright-Fisher-modellen. Detta verkar vara en väl studerad och stormodell som jag inte kan beskriv här; istället tyckte jag att arbetet av Tataru et al, Statistisk inferens i Wright – Fisher-modellen med allelfrekvensdata var en utmärkt beskrivning av det, även om jag inte låtsas att förstå mycket av det.

Det som är viktigt är dock att förändringen i gener (övergångstäthet) kan beskrivas med en binomial fördelning. Detta kan approximeras med en normalfördelning: $$ \ mathbb {P} [p_ {t + \ delta t} \ mid p_t] \ approx \ mathcal {N} (p_ {t + \ delta t} \ mitt p_t + a (p_t) \ delta t, \, p_t (1-p_t) \ delta t) $$ med standard approximation till binomialet. Detta ger oss sedan en framåt Kolomogorov-ekvation (inte bakåt) skriven: $$ \ frac {\ partial} {\ partial t} u = - \ frac {\ partial} {\ partial p} \ vänster [a (p_t) u (p_t) \ höger] + \ frac {1} {2} \ frac {\ partial ^ 2} {\ partial p ^ 2} \ left [p_t (1-p_t) u (p_t) \ right] $$ Detta innebär i princip att $ V = p (1-p) $ .

(Jag märkte att ett annat sätt att bevisa detta är att lägga märke till att Wright-Fisher ungefärlig diffusion (utan några val osv ... så $ a \ equiv 0 $ span>) har en oändlig generator genererad av: $ \ mathfrak {G} f (p) = p (1-p) \ partial_ {tt} f (p) / 2 $ . Detta innebär omedelbart $ V = p (1-p) $ . Men kan vara mindre enkelt att förstå.)

Förvirrande, papperet har dock ändrat tidsskalor (variabler) så att $ \ delta t \ leftarrow \ Delta t / (2N) $ , och ställ sedan in $ \ delta t $ till $ 1 $ (förmodligen för att de inte skulle behöva skriva $ 2N $ överallt). Om vi ​​ångrar denna omvandling får vi $$ \ mathbb {P} [p_ {t + \ delta t} \ mid p_t] \ approx \ mathcal {N} (p_ {t + \ delta t} \ mid p_t + a (p_t) \ delta t, \, p_t (1-p_t) \ delta t / (2N)) $$ Om du jämför detta med vår ungefärliga övergångstäthet ovan (ekvation (TD )), ser du att detta innebär: $$ \ sigma ^ 2 = V = p (1-p) / [2N] $$ som önskat.

Vad är det oändliga medelvärdet nu, dvs. $ a $ eller $ M $ ? Detta beror helt klart på urvalsmodellen, eftersom den styr hur "miljön" påverkar processen deterministiskt. Kimura beskriver detta som en "konstant selektionsfördel" med koefficient $ s $ . Tataru-papperet konstaterar att diffusionens approximation till Wright-Fisher under genetisk drift, mutation och urval ges av: $$ a (p) = - \ nu p + \ xi (1-p) + 2N \ tau p (1-p) [h- (1-2h ) p] $$ Om vi ​​(1) ignorerar mutation genom att ställa in $ \ nu = \ xi = 0 $ , (2) tar vi bort allelins dominanseffekter genom att ställa in $ h = 1/2 $ och (3) definierar $ s: = N \ tau $ , vi får: $$ a (p) = sp (1-p) =: M $$ vilket vi naturligtvis ser genom att notera $ M = a (p ) $ matchar $ \ mu $ i ekvationen (TD) ovan. (Observera att $ 2N $ -transformationen också inträffade här, men den var dold i $ s $ ).

Således har vi härledt var Kimuras $ M $ och $ V $ kommer från, om än förmodligen inte på det enklaste möjliga sättet.

Allt som återstår är att härleda (steady-state) ekvationen för $ u $ . Jag antar att jag gör det för fullständighet.

Om vi ​​ignorerar steady-state-prenumerationer får vi: \ begin {align} G (x) & = \ exp \ left (- \ int \ frac {2M} {V} dx \ right) = \ exp \ left (- \ int 4sN dx \ right) = \ exp \ left (-4sNx \ right) \\ [0,15 cm] u (p) & = \ frac {\ displaystyle \ int_0 ^ p G (x) dx} {\ displaystyle \ int_0 ^ 1 G (x) dx} = \ frac {\ displaystyle \ frac {1} {4Ns} \ left [ \ exp \ left (-4sNx \ right) \ right] _0 ^ p} {\ displaystyle \ frac {1} {4Ns} \ left [\ exp \ left (-4sNx \ right) \ right] _0 ^ 1} = \ frac {\ displaystyle - \ left [\ exp \ left (-4sNp \ right) - 1 \ right]} {\ displaystyle - \ left [\ exp \ left (-4sN \ right) -1 \ right]} \\ & = \ frac {1 - \ exp (-4Nsp)} {1 - \ exp (-4Ns)} end {align} efter behov.


Ber om ursäkt för eventuella fel. (Jag är varken en modell för befolkningsdynamik eller en matematiker, så var snäll och peka på några problem).

Tack så mycket. Jag förstår inte riktigt bra KBE. Jag minns att jag läste om Fokker-Plank-ekvationen men jag är inte bekant med den i diffusionssammanhang. Jag har ingen bakgrund i SDE, så det kan ta ett tag att förstå.
@WYSIWYG Inga problem. Huvudidén tror jag är att allelfreq kan modelleras av en differentiell ekv med brus (SDE), vilket approximerar Wright-Fisher, då faller KBE ur det. Låt mig veta om det finns något jag kan utöka.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 4.0-licensen som det distribueras under.
Loading...