Methods
authorFabio Zanini <fabio.zanini@tuebingen.mpg.de>
Thu, 20 Dec 2012 20:01:37 +0000 (12:01 -0800)
committerFabio Zanini <fabio.zanini@tuebingen.mpg.de>
Thu, 20 Dec 2012 20:01:37 +0000 (12:01 -0800)
bib.bib
synmut.bbl
synmut.blg
synmut.out
synmut.tex

diff --git a/bib.bib b/bib.bib
index 5665a8d..9be9560 100644 (file)
--- a/bib.bib
+++ b/bib.bib
        author = {Neher, {R.A.} and Shraiman, {B.I.} and Fisher, {D.S.}},
        year = {2010},
        pages = {467},
+},
+
+@book{LANL2012,
+        title = {HIV Sequence Compendium 2012},
+       author = {Kuiken, Carla and Leitner, Thomas and Hahn, Beatrice and Mullins, James and Wolinsky, Steven and Foley, Brian and Apetrei, Cristian and Mizrachi, Ilene and Rambaut, Andrew and Korber, Bette},
+       year = {2012},
+       publisher = {Theoretical Biology and Biophysics Group T-6, Mail Stop K710 Los Alamos National Laboratory Los Alamos, New Mexico 87545 U.S.A.},
+},
+
+@article{edgar_muscle:_2004,
+       title = {{MUSCLE:} multiple sequence alignment with high accuracy and high throughput},
+       volume = {32},
+       issn = {0305-1048, 1362-4962},
+       shorttitle = {{MUSCLE}},
+       url = {http://nar.oxfordjournals.org/content/32/5/1792},
+       doi = {10.1093/nar/gkh340},
+       language = {en},
+       number = {5},
+       urldate = {2012-12-20},
+       journal = {Nucleic Acids Research},
+       author = {Edgar, Robert C.},
+       month = mar,
+       year = {2004},
+       pages = {1792--1797},
 }
index ffd552f..6a2d025 100644 (file)
@@ -67,6 +67,12 @@ Desai, M.~M. and Fisher, D.~S. (2007).
   positive selection.
 \newblock {\em Genetics\/}, {\bf 176}(3), 1759--98.
 
+\bibitem[Edgar(2004)Edgar]{edgar_muscle:_2004}
+Edgar, R.~C. (2004).
+\newblock {MUSCLE:} multiple sequence alignment with high accuracy and high
+  throughput.
+\newblock {\em Nucleic Acids Research\/}, {\bf 32}(5), 1792--1797.
+
 \bibitem[Fernandes {\em et~al.}(2012)Fernandes, Jayaraman, and
   Frankel]{fernandes_hiv-1_2012}
 Fernandes, J., Jayaraman, B., and Frankel, A. (2012).
@@ -102,6 +108,14 @@ Josefsson, L., King, M.~S., Makitalo, B., Br\"annstr\"om, J., Shao, W.,
 \newblock {\em Proceedings of the National Academy of Sciences\/}, {\bf
   108}(27), 11199--11204.
 
+\bibitem[Kuiken {\em et~al.}(2012)Kuiken, Leitner, Hahn, Mullins, Wolinsky,
+  Foley, Apetrei, Mizrachi, Rambaut, and Korber]{LANL2012}
+Kuiken, C., Leitner, T., Hahn, B., Mullins, J., Wolinsky, S., Foley, B.,
+  Apetrei, C., Mizrachi, I., Rambaut, A., and Korber, B. (2012).
+\newblock {\em HIV Sequence Compendium 2012\/}.
+\newblock Theoretical Biology and Biophysics Group T-6, Mail Stop K710 Los
+  Alamos National Laboratory Los Alamos, New Mexico 87545 U.S.A.
+
 \bibitem[Li {\em et~al.}(2012)Li, Kao, Gao, Sandig, Limmer, Pavon-Eternod,
   Jones, Landry, Pan, Weitzman, and David]{li_codon-usage-based_2012}
 Li, M., Kao, E., Gao, X., Sandig, H., Limmer, K., Pavon-Eternod, M., Jones,
index 4c3affa..f2acaf2 100644 (file)
@@ -3,44 +3,44 @@ Capacity: max_strings=35307, hash_size=35307, hash_prime=30011
 The top-level auxiliary file: synmut.aux
 The style file: natbib.bst
 Database file #1: bib.bib
-You've used 33 entries,
+You've used 35 entries,
             2378 wiz_defined-function locations,
-            729 strings with 12191 characters,
-and the built_in function-call counts, 18521 in all, are:
-= -- 1620
-> -- 1371
-< -- 15
-+ -- 423
-- -- 415
-* -- 1909
-:= -- 3299
-add.period$ -- 156
-call.type$ -- 33
-change.case$ -- 210
-chr.to.int$ -- 33
-cite$ -- 33
-duplicate$ -- 634
-empty$ -- 1066
-format.name$ -- 472
-if$ -- 3549
+            740 strings with 12677 characters,
+and the built_in function-call counts, 19568 in all, are:
+= -- 1706
+> -- 1452
+< -- 16
++ -- 448
+- -- 440
+* -- 2012
+:= -- 3492
+add.period$ -- 165
+call.type$ -- 35
+change.case$ -- 221
+chr.to.int$ -- 35
+cite$ -- 35
+duplicate$ -- 671
+empty$ -- 1127
+format.name$ -- 499
+if$ -- 3748
 int.to.chr$ -- 1
 int.to.str$ -- 0
-missing$ -- 33
-newline$ -- 170
-num.names$ -- 132
-pop$ -- 187
+missing$ -- 36
+newline$ -- 180
+num.names$ -- 140
+pop$ -- 202
 preamble$ -- 1
-purify$ -- 210
+purify$ -- 222
 quote$ -- 0
-skip$ -- 422
+skip$ -- 445
 stack$ -- 0
-substring$ -- 1131
-swap$ -- 118
+substring$ -- 1189
+swap$ -- 124
 text.length$ -- 0
 text.prefix$ -- 0
 top$ -- 0
-type$ -- 297
+type$ -- 312
 warning$ -- 0
-while$ -- 149
+while$ -- 157
 width$ -- 0
-write$ -- 432
+write$ -- 457
index da10c51..7ae5868 100644 (file)
@@ -5,5 +5,9 @@
 \BOOKMARK [2][-]{section*.5}{Deleterious mutations are brought to high frequency by hitch-hiking}{section*.2}% 5
 \BOOKMARK [1][-]{section*.6}{Discussion}{}% 6
 \BOOKMARK [1][-]{section*.7}{Methods}{}% 7
-\BOOKMARK [1][-]{section*.8}{Acknowledgements}{}% 8
-\BOOKMARK [1][-]{section*.9}{References}{}% 9
+\BOOKMARK [2][-]{section*.8}{Sequence data collection}{section*.7}% 8
+\BOOKMARK [2][-]{section*.9}{Sequence analisys}{section*.7}% 9
+\BOOKMARK [2][-]{section*.10}{Fixation probability and secondary structure}{section*.7}% 10
+\BOOKMARK [2][-]{section*.11}{Computer simulations}{section*.7}% 11
+\BOOKMARK [1][-]{section*.12}{Acknowledgements}{}% 12
+\BOOKMARK [1][-]{section*.13}{References}{}% 13
index 2fd911a..cf990f9 100644 (file)
@@ -465,7 +465,73 @@ recombine if rarely, hence clonal interference as studied in
 ref.~\citep{strelkowa_clonal_2012} is only a short-term effect.
 
 \section{Methods}
-\comment{to be written\dots}
+\subsection{Sequence data collection}
+Longitudinal intrapatient viral RNA sequences were collected for published
+studies~\citep{shankarappa_consistent_1999,
+liu_selection_2006, bunnik_autologous_2008} and downloaded from the Los Alamos
+National Laboratory (LANL) HIV sequence database~\citep{LANL2012}. The sequences from
+some patients showed signs of HIV compartimentalization into subpopulations and
+were discarded; a grand total of 11
+patients with approximately 6 time points each and 10 sequences per time point
+were analyzed. The time interval or resolution between two ocnsecutive sequences
+was approximately 6 to 18 months.
+
+\subsection{Sequence analisys}
+The good sequences were aligned within each patient
+via the translated amino acid sequence, using
+Muscle~\citep{edgar_muscle:_2004}, and to the NL4-3 reference sequence probed
+by \citet{watts_architecture_2009}. Within each patient, a consensus RNA
+sequence at the first time point was used to classify alleles as ancestral or
+derived at all sites. Problematic sites that included large frequencies of gaps
+were excluded from the analysis, because variable regions are known to be
+subject to frequent indels, while our analysis is limited to nucleotide
+substitutions. Time series of allele frequencies were extracted from the
+sequences.
+
+The synonymity of a mutation was assigned if the rest of the codon was
+in the ancestral state and using the standard genetic code. Cases where more
+than one mutation within the codon was observed were discarded. Slightly
+different criteria for synonymous/nonsynonymous discrimination yielded similar
+results.
+
+\subsection{Fixation probability and secondary structure}
+For the estimate of times to fixation/extinction, polymorphisms were
+binned by frequency and the time to reaching the first boundary (fixation or
+extinction) was stored. For the fixation probability, the long-time limit of the
+resulting curves was used, excluding polymorphisms that arose late in the
+clinical history (and would have had no time to reach either boundary).
+
+For the correlation analysis with RNA secondary structure, the SHAPE scores were
+downloaded from the journal website~\citep{watts_architecture_2009}. By virtue
+of the alignment of the longitudinal sequences with the reference used by
+\citet{watts_architecture_2009}, SHAPE reactivities were assigned to most sites.
+Problematic assignments in indel-rich regions were excluded from the analysis.
+In order to restrict the analysis to synonymous polymorphisms, a lower frequency
+threshold of 0.15 was used (other thresholds yielded the same results). Since
+very few polymorphisms hitchhike beyond, say, a frequency of 0.5, this pool is
+enriched for to-be-lost mutations; hence the "lost" curve in \FIG{SHAPEA}
+contains much more points than the "fixed" one.
+
+The V loops and flanking regions were identified manually starting from the
+annotated reference HXB2 sequence from the LANL HIV database~\citep{LANL2012}. A
+similar approach was used to label the C2-V5 region sequenced in
+ref.~\citep{shankarappa_consistent_1999}.
+
+\subsection{Computer simulations}
+Simulations were performed using the recently published software
+FFPopSim~\citep{zanini_ffpopsim:_2012}. Both full-length HIV genomes and
+\env{}-only simulations were performed and yielded comparable results. For each
+set of parameters, approximately 100 simulation runs were averaged over. In each
+run, a random fitness landscape with specified statistical properties (e.g.
+density of beneficial sites, average deleterious effect of synonymous changes) was generated.
+Although the curves shown in \FIG{simfixpvar} are not very smooth, small
+parameter changes resulted in overall consistent trends across many repetitions.
+
+For the discussion of simulation parameters, the areas below or above the neutral
+diagonal were estimated from the binned fixation probabilities using the linear
+interpolation between the bin centers. This measure is sufficiently precise for
+our purposes, because the HIV data are quite scarse themselves.
+
 \section*{Acknowledgements}
 \comment{to be written\dots}