review, more supplementary figures
authorFabio Zanini <fabio.zanini@tuebingen.mpg.de>
Sat, 15 Dec 2012 02:38:11 +0000 (18:38 -0800)
committerFabio Zanini <fabio.zanini@tuebingen.mpg.de>
Sat, 15 Dec 2012 02:38:11 +0000 (18:38 -0800)
bib.bib
figures/conservation_codons_genome.pdf
figures/conservation_codons_genome.svg
figures/fixation_loss_shortgenome_distance_ada_frac_del_eff_coi_various.pdf
figures/mixed_Shankarappa_Bunnik2008_fixation_loss_conservation_syn.pdf [new file with mode: 0644]
synmut.bbl
synmut.blg
synmut.out
synmut.tex

diff --git a/bib.bib b/bib.bib
index 248b364..5665a8d 100644 (file)
--- a/bib.bib
+++ b/bib.bib
        month = jul,
        year = {2000},
        pages = {909--19},
+},
+
+@article{yang_statistical_2000,
+       title = {Statistical methods for detecting molecular adaptation},
+       volume = {15},
+       issn = {0169-5347},
+       url = {http://www.sciencedirect.com/science/article/pii/S0169534700019947},
+       doi = {10.1016/S0169-5347(00)01994-7},
+       number = {12},
+       urldate = {2012-12-14},
+       journal = {Trends in Ecology \& Evolution},
+       author = {Yang, Ziheng and Bielawski, Joseph P.},
+       month = dec,
+       year = {2000},
+       pages = {496--503},
+},
+
+@article{neher_rate_2010,
+       title = {Rate of adaptation in large sexual populations},
+       volume = {184},
+       url = {http://www.genetics.org/cgi/content/abstract/184/2/467},
+       doi = {10.1534/genetics.109.109009},
+       number = {2},
+       journal = {Genetics},
+       author = {Neher, {R.A.} and Shraiman, {B.I.} and Fisher, {D.S.}},
+       year = {2010},
+       pages = {467},
 }
index fa169d6..c01cf69 100644 (file)
Binary files a/figures/conservation_codons_genome.pdf and b/figures/conservation_codons_genome.pdf differ
index 1107ecd..9f83a74 100644 (file)
         <dc:format>image/svg+xml</dc:format>
         <dc:type
            rdf:resource="http://purl.org/dc/dcmitype/StillImage" />
-        <dc:title></dc:title>
+        <dc:title />
       </cc:Work>
     </rdf:RDF>
   </metadata>
     <text
        xml:space="preserve"
        style="font-size:25px;font-style:normal;font-variant:normal;font-weight:normal;font-stretch:normal;text-indent:0;text-align:start;text-decoration:none;line-height:125%;letter-spacing:0px;word-spacing:0px;text-transform:none;direction:ltr;block-progression:tb;writing-mode:lr-tb;text-anchor:start;baseline-shift:baseline;color:#000000;fill:#000000;fill-opacity:1;fill-rule:nonzero;stroke:none;stroke-width:1px;marker:none;visibility:visible;display:inline;overflow:visible;enable-background:accumulate;font-family:Bitstream Vera Sans;-inkscape-font-specification:Bitstream Vera Sans"
-       x="544.89001"
+       x="518.89001"
        y="147.80441"
        id="text20797"
        sodipodi:linespacing="125%"><tspan
          sodipodi:role="line"
          id="tspan20799"
-         x="544.89001"
-         y="147.80441">RRE</tspan></text>
+         x="518.89001"
+         y="147.80441">RRE</tspan><tspan
+         sodipodi:role="line"
+         x="518.89001"
+         y="179.05441"
+         id="tspan3764">hairpin</tspan></text>
   </g>
 </svg>
index 1c31dd3..13b5a2d 100644 (file)
Binary files a/figures/fixation_loss_shortgenome_distance_ada_frac_del_eff_coi_various.pdf and b/figures/fixation_loss_shortgenome_distance_ada_frac_del_eff_coi_various.pdf differ
diff --git a/figures/mixed_Shankarappa_Bunnik2008_fixation_loss_conservation_syn.pdf b/figures/mixed_Shankarappa_Bunnik2008_fixation_loss_conservation_syn.pdf
new file mode 100644 (file)
index 0000000..d0ba05c
Binary files /dev/null and b/figures/mixed_Shankarappa_Bunnik2008_fixation_loss_conservation_syn.pdf differ
index fdf5da9..ffd552f 100644 (file)
@@ -61,6 +61,12 @@ Coleman, J.~R., Papamichail, D., Skiena, S., Futcher, B., Wimmer, E., and
 \newblock Virus attenuation by genome-scale changes in codon pair bias.
 \newblock {\em Science\/}, {\bf 320}(5884), 1784--1787.
 
+\bibitem[Desai and Fisher(2007)Desai and Fisher]{desai_beneficial_2007}
+Desai, M.~M. and Fisher, D.~S. (2007).
+\newblock Beneficial mutation selection balance and the effect of linkage on
+  positive selection.
+\newblock {\em Genetics\/}, {\bf 176}(3), 1759--98.
+
 \bibitem[Fernandes {\em et~al.}(2012)Fernandes, Jayaraman, and
   Frankel]{fernandes_hiv-1_2012}
 Fernandes, J., Jayaraman, B., and Frankel, A. (2012).
@@ -144,6 +150,11 @@ Neher, R. and Leitner, T. (2010).
   evolution.
 \newblock {\em {PLoS} Comput Biol\/}, {\bf 6}(1), e1000660.
 
+\bibitem[Neher {\em et~al.}(2010)Neher, Shraiman, and Fisher]{neher_rate_2010}
+Neher, R., Shraiman, B., and Fisher, D. (2010).
+\newblock Rate of adaptation in large sexual populations.
+\newblock {\em Genetics\/}, {\bf 184}(2), 467.
+
 \bibitem[Neher and Shraiman(2011)Neher and Shraiman]{neher_genetic_2011}
 Neher, R.~A. and Shraiman, B. (2011).
 \newblock Genetic draft and quasi-neutrality in large facultatively sexual
@@ -223,6 +234,11 @@ Williamson, S. (2003).
   disease progression.
 \newblock {\em Molecular biology and evolution\/}, {\bf 20}(8), 1318--25.
 
+\bibitem[Yang and Bielawski(2000)Yang and Bielawski]{yang_statistical_2000}
+Yang, Z. and Bielawski, J.~P. (2000).
+\newblock Statistical methods for detecting molecular adaptation.
+\newblock {\em Trends in Ecology \& Evolution\/}, {\bf 15}(12), 496--503.
+
 \bibitem[Zanini and Neher(2012)Zanini and Neher]{zanini_ffpopsim:_2012}
 Zanini, F. and Neher, R.~A. (2012).
 \newblock {FFPopSim:} an efficient forward simulation package for the evolution
index 09bd2de..4c3affa 100644 (file)
@@ -3,46 +3,44 @@ Capacity: max_strings=35307, hash_size=35307, hash_prime=30011
 The top-level auxiliary file: synmut.aux
 The style file: natbib.bst
 Database file #1: bib.bib
-Warning--I didn't find a database entry for "smth"
-You've used 30 entries,
+You've used 33 entries,
             2378 wiz_defined-function locations,
-            713 strings with 11764 characters,
-and the built_in function-call counts, 17074 in all, are:
-= -- 1472
-> -- 1299
-< -- 13
-+ -- 403
-- -- 395
-* -- 1773
-:= -- 3054
-add.period$ -- 143
-call.type$ -- 30
-change.case$ -- 190
-chr.to.int$ -- 30
-cite$ -- 30
-duplicate$ -- 578
-empty$ -- 970
-format.name$ -- 445
-if$ -- 3261
+            729 strings with 12191 characters,
+and the built_in function-call counts, 18521 in all, are:
+= -- 1620
+> -- 1371
+< -- 15
++ -- 423
+- -- 415
+* -- 1909
+:= -- 3299
+add.period$ -- 156
+call.type$ -- 33
+change.case$ -- 210
+chr.to.int$ -- 33
+cite$ -- 33
+duplicate$ -- 634
+empty$ -- 1066
+format.name$ -- 472
+if$ -- 3549
 int.to.chr$ -- 1
 int.to.str$ -- 0
-missing$ -- 30
-newline$ -- 155
-num.names$ -- 120
-pop$ -- 171
+missing$ -- 33
+newline$ -- 170
+num.names$ -- 132
+pop$ -- 187
 preamble$ -- 1
-purify$ -- 190
+purify$ -- 210
 quote$ -- 0
-skip$ -- 382
+skip$ -- 422
 stack$ -- 0
-substring$ -- 1032
-swap$ -- 108
+substring$ -- 1131
+swap$ -- 118
 text.length$ -- 0
 text.prefix$ -- 0
 top$ -- 0
-type$ -- 270
+type$ -- 297
 warning$ -- 0
-while$ -- 135
+while$ -- 149
 width$ -- 0
-write$ -- 393
-(There was 1 warning)
+write$ -- 432
index b617557..da10c51 100644 (file)
@@ -1,8 +1,8 @@
 \BOOKMARK [1][-]{section*.1}{Introduction}{}% 1
 \BOOKMARK [1][-]{section*.2}{Results}{}% 2
 \BOOKMARK [2][-]{section*.3}{Synonymous polymorphisms in env, C2-V5 are mostly deleterious}{section*.2}% 3
-\BOOKMARK [3][-]{section*.4}{Synonymous mutations in C2-V5 tend to disrupt conserved RNA stems}{section*.3}% 4
-\BOOKMARK [4][-]{section*.5}{Deleterious mutations are brought to high frequency by hitch-hiking}{section*.4}% 5
+\BOOKMARK [2][-]{section*.4}{Synonymous mutations in C2-V5 tend to disrupt conserved RNA stems}{section*.2}% 4
+\BOOKMARK [2][-]{section*.5}{Deleterious mutations are brought to high frequency by hitch-hiking}{section*.2}% 5
 \BOOKMARK [1][-]{section*.6}{Discussion}{}% 6
 \BOOKMARK [1][-]{section*.7}{Methods}{}% 7
 \BOOKMARK [1][-]{section*.8}{Acknowledgements}{}% 8
index 42ba9bc..2fd911a 100644 (file)
@@ -5,14 +5,14 @@
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 \newcommand{\Author}{Fabio~Zanini and Richard~A.~Neher}
-\newcommand{\Title}{Deleterious synonymous mutations hitch-hike to high frequency in HIV \env~evolution}
+\newcommand{\Title}{Deleterious synonymous mutations hitchhike to high frequency in HIV \env~evolution}
 \newcommand{\Keywords}{{HIV}, {synonymous}, {population genetics}}
 \usepackage[english]{babel}
 \usepackage[utf8x]{inputenc}
-\usepackage{amsmath,amsfonts,amssymb,eucal,eurosym}
+\usepackage{amsmath,amsfonts,amssymb,eucal,eurosym,textcomp}
 \usepackage{color}
-\usepackage{subfig}
 \usepackage{graphicx}
+\usepackage[caption=false]{subfig}
 \usepackage{natbib}
 \usepackage{pslatex}
 \usepackage[colorlinks,linkcolor=red,citecolor=red]{hyperref}
@@ -34,6 +34,7 @@
 \newcommand{\env}{\textit{env}}
 \newcommand{\rev}{\textit{rev}}
 \newcommand{\FIG}[1]{Fig.~\ref{fig:#1}}
+\newcommand{\FIGS}[2]{Figs.~\ref{fig:#1} and~\ref{fig:#2}}
 
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
@@ -66,28 +67,32 @@ selective sweeps are less dense and the genetic architecture less constrained.
 \maketitle
 
 \section{Introduction}
-
 HIV evolves rapidly within a single host during the course of the infection.
 This evolution is driven by strong selection imposed by the host immune system
 via killer T cells (CTLs) and neutralizing antibodies
 (AB)~\citep{pantaleo_immunopathogenesis_1996} and facilitated by the high
 mutation rate of HIV~\citep{mansky_lower_1995}. When the host develops a CTL or
-AB response against a particular viral epitope, mutations that reduce or prevent
+AB response against a particular HIV epitope, mutations in the viral genome that reduce or prevent
 recognition of the epitope frequently emerge. Escape mutations in epitopes
-targeted by CTLs typically evolve early in infection and spread rapidly through
-the population~\citep{mcmichael_immune_2009}. Later in infection, the most
+targeted by CTLs typically evolve during early infection and spread rapidly through
+the population~\citep{mcmichael_immune_2009}. During chronic infection, the most
 rapidly evolving part of the HIV genome are the so called variable loops of the
 envelope protein gp120, which need to avoid recognition by neutralizing ABs.
 Mutations in \env~, the gene encoding for gp120, spread through the population
-within a few months (see \figurename~\ref{fig:aft}, solid lines). During chronic
-infection, the (Malthusian) effect size of this beneficial mutations is of the
+within a few months (see \figurename~\ref{fig:aft}, solid lines).
+The (Malthusian) effect size of these beneficial mutations is of the
 order of $s_a \sim 0.01$~\citep{neher_recombination_2010}.
 
-These escape mutations are selected for their effect on the amino acid sequence
-of the viral proteins. The viral genome, however, needs to meet additional
-constraints such as efficient processing and translation, nuclear export, and
-packaging into the viral capsid: all these processes operate at the RNA level. A
-few important RNA elements are well characterized. For example, a certain RNA
+These escape mutations are strongly selected for their effect on the amino acid
+sequence of the viral proteins. Conversely, synonymous mutations are commonly
+used as approximate neutral markers in studies of viral evolution. Neutral
+markers are very useful in practice, because they can be used to make inferences
+about the stochastic forces driving evolution~\citep{yang_statistical_2000}.
+The viral genome, however, needs to satisfy further constraints in addition to
+immune escape, such as efficient processing and translation, nuclear export, and
+packaging into the viral capsid: all these processes operate at the RNA level
+and are sensitive to synonymous changes. A
+few functionally important RNA elements are well characterized. For example, a certain RNA
 sequence, called \rev{} response element (RRE), is used by HIV to enhance
 nuclear export of some of its transcripts~\citep{fernandes_hiv-1_2012}. Another
 well studied case is the interaction between viral reverse transcriptase, viral
@@ -104,76 +109,55 @@ should be restricted to amino acid sequences.
 
 INFLUENZA PSEUDO VACCINE.
 
-SYNONYMOUS CONSERVATION. DO WE HAVE A PLOT OF GENOME WIDE CONSERVATION, MAYBE FOR SUPPLEMENT?
-
-Despite evidence for functional importance of specific RNA sequences, synonymous
-mutations are commonly used as approximate neutral markers in studies of viral
-evolution. Neutral markers allow to make inference about the stochastic forces
-driving evolution~\citep{smth}. Here, we characterize the dynamics of synonymous
-mutations in \env{} and show that a substantial fraction of these mutations are
-deleterious. The central quantity we investigate is the probability of fixation
-of a mutation, conditional on its population frequency. Even though the
-synonymous mutations are deleterious and cannot be used as neutral markers, we
-show that the degree to which they hitchhike with nearby non-synonymous
-mutations is very informative; their ability to hitchhike for extended times is
-itself rooted in the small recombination rate of
+%SYNONYMOUS CONSERVATION. DO WE HAVE A PLOT OF GENOME WIDE CONSERVATION, MAYBE
+%FOR SUPPLEMENT? YES
+
+Here, we characterize the dynamics of synonymous mutations in \env{} and show
+that a substantial fraction of these mutations are deleterious. We further show
+that, although such synonymous mutations cannot be used as neutral markers, the
+degree to which they hitchhike with nearby nonsynonymous mutations is very
+informative. Their ability to hitchhike for extended times, which is a core
+requirement for our analysis, is rooted in the small recombination rate of
 HIV~\citep{neher_recombination_2010, batorsky_estimate_2011}. Extending the
-analysis of fixation probabilities to the non-synonymous mutations, we show that
+analysis of fixation probabilities to the nonsynonymous mutations, we show that
 time dependent selection or strong competition of escape mutations inside the
 same epitope are necessary to explain the observed patterns of fixation and
-loss. 
-
-%One simple way to assess the neutrality of synonymous mutations is to look at
-%their level of conservation. Deleterious mutations at functional sites are
-%expected to be absent or rare across the viral population; vice versa, mutant
-%alleles that reach high frequencies are expected to be neutral. If genetic sites
-%are independent, the equilibrium frequency of a deleterious allele with fitness
-%$-s$ is $\mut / |s|$, where $\mut$ is the mutation rate per site per generation;
-%neutral alleles have no equilibrium frequency and can slowly fix via genetic
-%drift~\citep{ewens_mathematical_2004}. This intuitive picture does not hold in
-%presence of genetic linkage and, in particular, for HIV evolution, because
-%recombination is rare~\citep{neher_recombination_2010, batorsky_estimate_2011}.
-%A more likely scenario, at least in escape mutation-rich regions, is the
-%following: if the focal synonymous mutant is linked to a beneficial allele
-%nearby, the latter essentially carries the synonymous allele toward high
-%frequencies for a time on the order of the inverse of the recombination rate.
-%The two slowly decouple afterwards, and the fitness effect of the synonymous
-%allele starts to be visible on its own. On the one hand, genetic linkage and
-%hitchhiking confound the interprentation of conservation levels; on the other,
-%as we show below, purifying selection can be still observed with the help of
-%longitudinal data.
+loss.
 
 \section{Results}
-
+The central quantity we investigate is the probability of fixation
+of a mutation, conditional on its population frequency.
 A neutral mutation segregating at frequency $\nu$ has a probability $\nu$ to
-spread through the population and fix, while it is lost with probability
-$1-\nu$. This is a simple consequence of the fact that exactly one of present
-$N$ individuals will be the common ancestor of the entire population at a
-particular locus and this ancestor has a probability $\nu$ of carrying this
-mutations, see illustration in \FIG{fixp}. Deleterious or beneficial
-mutations, in contrast, should fix less or more often, respectively. Time series
-sequence data therefore suggest a simple way to investigate average properties
+spread through the population and fix; in the rest of the cases, i.e. with probability
+$1-\nu$, it goes extinct. This is a simple consequence of the fact that (a) exactly
+one of the $N$ individuals in the current population will be the common ancestor
+of the entire future population at a
+particular locus and (b) this ancestor has a probability $\nu$ of carrying the
+mutation, see illustration in \FIG{fixp}. Deleterious or beneficial
+mutations fix less or more often than neutral ones, respectively. Time series
+sequence data enable a direct observation of both the current frequency $\nu$ of
+any particular mutation and its future fate (fixation or extinction).
+They therefore represent a simple way to investigate average properties
 of different classes of mutations. 
 
-\paragraph{Synonymous polymorphisms in \env, C2-V5 are mostly deleterious}
+\subsection{Synonymous polymorphisms in \env, C2-V5 are mostly deleterious}
 
 \FIG{aft} shows time series data of the frequencies of all mutations observed
-\env, C2-V5, in patient 8\citep{shankarappa_consistent_1999,liu_selection_2006}.
-Despite many synonymous mutations reaching high frequency, very few fix. This
-observation in further quantified in panels \ref{fig:fixp1} and
-\ref{fig:fixp2}, that stratify the data of
-7-10 patients (see methods) according to the frequency at which different
-mutations are observed. Considering all mutations in a frequency interval
-$\nu_0$ at some time $t_i$, we calculate the fraction that is found at frequency
-1, frequency 0, or at intermediate frequency at later time points $t_f$.
-Plotting these fixed, lost, and polymorphic fraction against the time interval
-$t_f-t_i$, we see that most synonymous mutations segregate for roughly one year
-and are lost  much more frequently than expected. The ultimate probability of
-loss or fixation is shown as a function of the initial frequency $\nu_0$ in
-panel ??. In contrast to synonymous mutations, the non-synonymous seem to follow
-more a less the neutral expectation -- a point to which we will come back below. 
-
-
+\env~, C2-V5, in patient p8~\citep{shankarappa_consistent_1999,
+liu_selection_2006}. Despite many synonymous mutations reaching high frequency,
+very few fix. This observation is quantified in panels \ref{fig:fixp1} and
+\ref{fig:fixp2}, which stratify the data of 7-10 patients according to the
+frequency at which different mutations are observed (see methods). Considering
+all mutations in a frequency interval around $\nu_0$ at some time $t_i$, we
+calculate the fraction that is found at frequency 1, at frequency 0, or at
+intermediate frequency at later times $t_f$. Plotting these fixed, lost, and
+polymorphic fraction against the time interval $t_f-t_i$, we see that most
+synonymous mutations segregate for roughly one year and are lost much more
+frequently than expected. The long-time probability of fixation versus
+extinction is shown as a function of the initial frequency $\nu_0$ in
+panel~\ref{fig:fixp2}. In contrast to synonymous mutations, the nonsynonymous
+seem to follow more a less the neutral expectation -- a point to which we will
+come back below. 
 \begin{figure}
 \begin{center}
 \includegraphics[width=\linewidth]{Shankarappa_allele_freqs_trajectories_syn_nonsynp8}
@@ -182,27 +166,30 @@ more a less the neutral expectation -- a point to which we will come back below.
  Nonsynonymous and synonymous mutations are shown as solid and dashed lines,
  respectively. Colors indicate the position of the site along the C2-V5 region
  (red to blue) MAYBE MAKE FIGURE WITH SYNONYMOUS AND NONSYN
- SEPARATELY. While non-synonymous mutations frequently fix, very few synonymous
+ SEPARATELY. While nonsynonymous mutations frequently fix, very few synonymous
 mutations do even though they are frequently observed at intermediate
 frequencies.}
 \label{fig:aft}
 \end{center}
 \end{figure}
 
-\citet{bunnik_autologous_2008} present a longitudinal data sets on the entire
+\citet{bunnik_autologous_2008} present a longitudinal dataset on the entire
 \env~gene of 3 patients at $\sim 5$ time points with approximately 5-20
-sequences each. Repeating the above analysis separately on the C2-V5 region
+sequences each (see methods). Repeating the above analysis separately on the C2-V5 region
 studied above and the remainder of \env~ reveal strikingly different behavior
 inside and outside the hypervariable region. Within C2-V5, this data fully
 confirms the observations made in the data set by
 \citet{shankarappa_consistent_1999}. In the remainder of \env, however, observed
 synonymous mutations behave as if they were neutral; see \FIG{fixp}. 
 
-ARE OBSERVED SYNONYMOUS MUTATIONS OUTSIDE C2-V5 NEUTRAL? DOES LOSS/FIX CORRELATE WITH CONSERVATION. CAN WE LOOK AT THE AVERAGE LEVEL OF CONSERVATION STRATIFIED BY MAX FREQ? MAYBE WE COULD HAVE ONE -- COMPLETELY CIRCULAR -- FIGURE SHOWING LOSS/FIX VS CONSERVATION.
+%ARE OBSERVED SYNONYMOUS MUTATIONS OUTSIDE C2-V5 NEUTRAL? (?? SOME!)
+%DOES LOSS/FIX CORRELATE WITH CONSERVATION? YES.
+%MAYBE WE COULD HAVE ONE -- COMPLETELY CIRCULAR -- FIGURE SHOWING LOSS/FIX VS CONSERVATION: YES.
+%CAN WE LOOK AT THE AVERAGE LEVEL OF CONSERVATION STRATIFIED BY MAX FREQ? TRICKY: the maximal freq is achieved by hitchhiking...
 
-These observations suggest that many of the synonymous mutations in the part of
-\env~that includes the hypervariable regions are deleterious, while outside
-this regions mostly roughly neutral mutations are polymorphic.
+These observations suggest that many of the synonymous polymorphisms in the part
+of \env~that includes the hypervariable regions are deleterious, while outside
+this regions polymorphisms are mostly roughly neutral.
 
 \begin{figure}
 \begin{center}
@@ -222,18 +209,14 @@ Refs.~\cite{shankarappa_consistent_1999, bunnik_autologous_2008}.}
 \end{figure}
 
 
-\paragraph{Synonymous mutations in C2-V5 tend to disrupt conserved RNA stems}
+\subsection{Synonymous mutations in C2-V5 tend to disrupt conserved RNA stems}
 One possible {\it a priori} explanation for lack of fixation of synonymous
 mutations in C2-V5 are  secondary structures in the viral RNA. If any RNA
 secondary structures are relevant for HIV replication, mutations in nucleotides
-involved in those base pairs are expected  to be deleterious and to revert
-preferentially.  Many functionally important secondary structure elements have
-been characterized, including  the  \rev{} response element (RRE) to enhance
-nuclear export of some of its transcripts~\citep{fernandes_hiv-1_2012}. Another
-well studied case is the interaction between viral reverse transcriptase, viral
-ssRNA, and the host tRNA$^\text{Lys3}$: the latter is required for priming
-reverse transcription (RT) and bound by a specifical pseudoknotted RNA structure
-in the viral 5' untranslated region~\citep{barat_interaction_1991,
+involved in those base pairs are expected to be deleterious and to revert
+preferentially. Many functionally important secondary structure elements have
+been characterized, including  the RRE~\citep{fernandes_hiv-1_2012} the
+5' UTR pseudoknot interacting with thehost tRNA$^\text{Lys3}$~\citep{barat_interaction_1991,
 paillart_vitro_2002}. It has been suggested early on that parts of the viral
 genome that has the potential to form stems is better conserved that the
 remainder~\citep{forsdyke_reciprocal_1995}.
@@ -247,14 +230,15 @@ synonymous alleles observed at intermediate frequencies above 10-15\% depending
 on their final destiny (fixation or extinction). Subsequently, we align our
 sequences to the reference NL4-3 strain used in
 ref.~\citep{watts_architecture_2009} and assign them SHAPE reactivities. As
-shown in \FIG{SHAPE} (left panel) in a cumulative histogram, the reactivity of
-fixed alleles are systematically larger than of alleles that are doomed to
-extinction. In other words, alleles that are likely to be breaking RNA helices
-are also more likely to revert and finally be lost from the population. We then
-split the synonymous mutations in the C2-V5 region further into conserved and
+shown in \FIG{SHAPEA} in a cumulative histogram, the reactivity of fixed alleles
+are systematically larger than of alleles that are doomed to extinction
+(Kolmogorov-Smirnov test, $P\approx 2~\text{\textperthousand}$). In other
+words, alleles that are likely to be breaking RNA helices are also more likely
+to revert and finally be lost from the population.  As a complementary analysis,
+we split the synonymous mutations in the C2-V5 region further into conserved and
 variable regions and found that the biggest depression in fixation probability
 is observed in the conserved stems, while the variable loops show little
-deviations from the neutral signature; see \FIG{SHAPE}B
+deviation from the neutral signature, see \FIG{SHAPEB}
 
 In addition to RNA secondary structure, we have considered other possible
 explanations for a fitness effect of synonymous mutations, in particular codon
@@ -278,11 +262,11 @@ not very different from other parts of the HIV genome, whereas the reduced
 fixation probability is only observed there. In conclusion, although we cannot
 exclude an effect of CUB on fitness as a general rule, we expect it to be a
 minor effect in our context.
-
 \begin{figure}
 \begin{center}
-\subfloat{\includegraphics[width=0.9\linewidth]{mixed_Shankarappa_Bunnik2008_Liu_fixation_reactivity_Vandflanking_fromSHAPE}}\\
-\subfloat{\includegraphics[width=0.9\linewidth]{Shankarappa_fixmid_syn_V_regions.pdf}}
+\subfloat{\includegraphics[width=0.9\linewidth]{mixed_Shankarappa_Bunnik2008_Liu_fixation_reactivity_Vandflanking_fromSHAPE}
+\label{fig:SHAPEA}}\\
+\subfloat{\includegraphics[width=0.9\linewidth]{Shankarappa_fixmid_syn_V_regions.pdf}\label{fig:SHAPEB}}
 \caption{Watts et al. have measured the reactivity of HIV nucleotides to {\it
 in vitro} chemical attack and shown that some nucleotides are more likely to
 be involved in RNA secondary folds. C1-C5 regions, in particular, show
@@ -299,27 +283,27 @@ bunnik_autologous_2008, liu_selection_2006}.}
 \end{figure}
 
 
-\paragraph{Deleterious mutations are brought to high frequency by hitch-hiking}
+\subsection{Deleterious mutations are brought to high frequency by hitch-hiking}
 While the observation that some fraction of synonymous mutations is deleterious
 is not unexpected, it seems odd that we observe them at high population
-frequency -- at least in some regions of the genome. The region of \env~in which
+frequency -- at least in some regions of the genome. The region of \env~ in which
 we observe deleterious mutations at high frequency is special in that it
 undergoes frequent adaptive changes to evade recognition by neutralizing
 antibodies~\cite{williamson_adaptation_2003}. Due to the limited amount of
-recombination in HIV \cite{neher_recombination_2010,batorsky_estimate_2011},
+recombination in HIV~\cite{neher_recombination_2010,batorsky_estimate_2011},
 deleterious mutations that are linked to adaptive variants can reach high
 frequency~\citep{smith_hitch-hiking_1974}.
 
-The potential for hitch-hiking is already apparent from the allele frequency
+The potential for hitchhiking is already apparent from the allele frequency
 trajectories in \FIG{aft}, where many mutations appear to change rapidly in
 frequency as a flock. Deleterious synonymous mutations can be amplified
 exponentially by selection on linked nonsynonymous sites, a process known as
 {\it genetic draft}~\citep{gillespie_genetic_2000, neher_genetic_2011}. In order
 to be advected to high frequency by a linked adaptive mutation, the deleterious
 effect of the mutation has to be substantially smaller than the adaptive effect.
-The latter was estimated to be on the order of $s_a = 0.01$ per day. The
-approximate magnitude of the deleterious effects can be estimated from
-\FIG{fixp} (left panel), that shows the distribution of times for synonymous
+The latter was estimated to be on the order of $s_a = 0.01$ per day~\citep{neher_recombination_2010}.
+The approximate magnitude of the deleterious effects can be estimated from
+\FIG{fixp1}, that shows the distribution of times for synonymous
 alleles to reach the fix or get lost starting from intermediate frequencies. The
 typical time to loss is of the order of 500 days. If this loss is driven by the
 deleterious effect of the mutation, this corresponds to deleterious effects of
@@ -329,7 +313,7 @@ To get a better idea of the range of parameters that are compatible with the
 observations and our interpretation, we  perform computer simulations of
 evolving viral populations under selection and rare recombination. For this
 purpose, we use the recently published package FFPopSim, which includes a module
-dedicated to intra-patient HIV evolution~\citep{zanini_ffpopsim:_2012}. We
+dedicated to intrapatient HIV evolution~\citep{zanini_ffpopsim:_2012}. We
 analyze many combinations of parameters such as population size, recombination
 rate, selection coefficient and density of escape mutations, deleterious effect
 of synonymous mutation.
@@ -337,23 +321,34 @@ of synonymous mutation.
 The main result of the simulations is that genetic draft can indeed bring weakly
 deleterious mutations to high frequencies and result in a dependence of the
 fixation probability on initial frequency that is compatible with observations.
-We quantify the reduction in fixation probability by the area under the
-diagonal~\comment{EXPLAIN!} Since neutral mutations are much more likely to rise
-to high frequency than deleterious ones, the majority of the synonymous
-mutations needs to be slightly deleterious observe a significant reduction of
-$P_\text{fix}$. Furthermore, the two crucial parameters that control the fixation probability
-are the following: (a) the deleterious effects of hitchhikers compared to
-the beneficial effects of escape mutants, and (b) the density of escape
-mutations. Intuitively, a higher density of escape mutations (i.e., epitopes)
-enables a larger degree of genetic draft, because escape mutations start to
-combine and their effects add up. In \figurename~\ref{fig:simheat} (left panel),
+First of all, since neutral mutations
+are much more likely to rise to high frequency than deleterious ones, the
+majority of the synonymous mutations needs to be slightly deleterious observe a
+significant reduction of $P_\text{fix}$.
+In order to further quantify the reduction in fixation probability, we look at the
+difference between the neutral curve ($P(\nu) = \nu$) and the measured fixation
+probability and calculate its area (see inset of \FIG{simfixpvar}). The minimal and maximal values for this
+area are zero (neutral-like curve) and 0.5 (no fixation at all),
+respectively. The convex curve seen in the HIV data corresponds to an area of
+approximately 0.17. Various simulation curves are shown in \FIG{simfixpvar}, and
+the area of the data curve is shown in the inset.
+In \FIGS{simheat1}{simheat2}, we explore the parameter space: the combinations that yield areas close to the
+experimental result are roughly indicated by ellipses. The two crucial parameters
+that control the fixation probability are the following: (a) the deleterious
+effects of hitchhikers compared to the beneficial effects of escape mutants, and
+(b) the density of escape mutations. Intuitively, a higher density of escape
+mutations (i.e., epitopes) enables a larger degree of genetic draft, because
+escape mutations start to combine and their effects add up. In \FIG{simheat1},
 we show that this is indeed the case in simulations.
 
 \begin{figure}
 \begin{center}
-\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_distance_ada_frac_del_eff_coi_various.pdf}}\\
-\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_area_ada_frac_del_eff_coi_0_01_nescepi_6_heat.pdf}}\\
-\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_area_ada_frac_del_eff_coi_0_01_nescepi_6_nonsyn_heat.pdf}}
+\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_distance_ada_frac_del_eff_coi_various.pdf}
+\label{fig:simfixpvar}}\\
+\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_area_ada_frac_del_eff_coi_0_01_nescepi_6_heat.pdf}
+\label{fig:simheat1}}\\
+\subfloat{\includegraphics[width=0.9\linewidth]{fixation_loss_shortgenome_area_ada_frac_del_eff_coi_0_01_nescepi_6_nonsyn_heat.pdf}
+\label{fig:simheat2}}
 \caption{The depression in $P_\text{fix}$ depends on the deleterious effect size
  of the synonymous alleles (panel A). Simulations on the escape competition
  scenario show that the density of selective sweeps and the size of the
@@ -370,29 +365,31 @@ production.}
 \end{figure}
 
 
-However, if hitch-hiking is driven by non-synonymous mutations that are
-unconditionally beneficial, we should find that non-synonymous mutations almost
+However, if hitch-hiking is driven by nonsynonymous mutations that are
+unconditionally beneficial, we should find that nonsynonymous mutations almost
 always fix once they reach high frequencies -- in contrast with \FIG{fixp} that
-shows that non-synonymous mutations fix as if they were neutral. We know,
-however, that non-synonymous variation in the variable regions is driven by
-positive selection. Inspecting the trajectories of non-synonymous mutations
+shows that nonsynonymous mutations fix as if they were neutral. We know,
+however, that nonsynonymous variation in the variable regions is driven by
+positive selection. Inspecting the trajectories of nonsynonymous mutations
 suggest the rapid rise and fall of many alleles.  We test two possible such
 mechanisms that are biologically plausible and could explain the transient rise
-of non-synonymous mutations: time-dependent selection and within-epitope
-competition. If the immune starts recognizes the escape mutant before its
-fixation, the mutant might cease to be beneficial and disappears despite its
+of nonsynonymous mutations: time-dependent selection and within-epitope
+competition. If the immune system recognizes the escape mutant before its
+fixation, the mutant might cease to be beneficial and disappear despite its
 quick initial rise in frequency.  In support of this idea,
 \citet{richman_rapid_2003, bunnik_autologous_2008} report antibody responses to
 escape mutants. These respones are delayed by a few months, roughly matching the
 average sweep time of an escape mutant. Alternatively, several different escape
 mutations in the same epitope can arise almost simultaneously and start to
 spread. Their fitness benefits are not additive, because each of them is
-essentially sufficient to escape. As a consequence, several mutations rise to
-high frequency, while the escape with the smallest cost is most likely to
+essentially sufficient to escape. As a consequence, several escape mutations rise to
+high frequency, while the escape with the smallest cost in terms of replication,
+packaging, etc. is most likely to
 eventually fix. In simulations, this kind of epistatic interactions within
-epitopes reduces fixation probabilities in simulations.  The emergence of
+epitopes reduces the fixation probability. The emergence of
 multiple sweeping nonsynonymous mutations in real HIV infections has been shown
 previously~\citep{moore_limited_2009, bar_early_2012}.
+See the supplementary material for examples of successful simulations in both scenarios.
 
 \section{Discussion}
 Despite several known functional roles for RNA secondary structure in the HIV
@@ -400,65 +397,72 @@ genome, synonymous mutations are often used as approximately neutral markers in
 evolutionary studies of viruses. We have shown that the majority of synonymous
 mutations in the conserved regions C2-C5 of the \env~gene are deleterious.
 Comparison with recent biochemical studies of binding propensity of bases in RNA
-genome suggest that these mutations are deleterious in part because they disrupt
-stems in RNA secondary structure. Furthermore, we provide evidence that these
+genome suggest that these mutations are deleterious, at least in part, because they disrupt
+stems in RNA secondary structures. Furthermore, we provide evidence that these
 mutations are brought to high frequency through linkage to adaptive mutations.
-The latter  mutations are only transiently adaptive, either through a
+The latter mutations are only transiently adaptive, either through a
 coevolution with the immune system or redundant escape within an epitope. 
 
 Our observations and conclusion rely heavily on longitudinal data in which the
 dynamics of mutations can be explicitly observed. The fact that deleterious
-mutations can be brought to high frequencies through hitch-hiking underscores
-the vigorousness of the coevolution with the immune system. The fact that
+mutations can be brought to high frequencies through hitchhiking underscores
+the intensity of the coevolution with the immune system. The fact that
 multiple escape mutations in the same epitope -- as is indeed observed in
 studies of antibody escape~\citep{moore_limited_2009, bar_early_2012} -- are
-necessary to explain the patterns of fixation of non-synonymous mutations points
+necessary to explain the patterns of fixation of nonsynonymous mutations points
 towards a large populations size that rapidly discovers adaptive mutations. A
 similar point has been made recently by Boltz {\it et al.} in the context of
 preexisting drug resistance mutations~\citep{boltz_ultrasensitive_2012}. 
 
-The observed hitch-hiking highlights the importance of linkage due to infrequent
+The observed hitchhiking highlights the importance of linkage due to infrequent
 recombination for the evolution of HIV
 \citep{neher_recombination_2010,batorsky_estimate_2011,
 josefsson_majority_2011}. The recombination rate has been estimated to be on the
-order of $\rho = 10^{-5}$ per base and day. It takes roughly $t_{sw} = s^{-1}
-\log \nu_0$ generations for an adaptive mutation with growth rate $s$ to rise
+order of $\rho = 10^{-5}$ per base and day. It takes roughly $t_{sw} = s_a^{-1}
+\log \nu_0$ generations for an adaptive mutation with growth rate $s_a$ to rise
 from an initially low frequency $\nu_0\sim \mu$ to frequency one. This implies
-that a region of length $l = (\rho t_{sw})^{-1} = s/ \rho \log \nu_0$ remains
-linked to the adaptive mutation. With $s=0.01$, $l\approx 100$ bases which is
+that a region of length $l = (\rho t_{sw})^{-1} = s_a / \rho \log \nu_0$ remains
+linked to the adaptive mutation. With $s_a=0.01$, $l\approx 100$ bases which is
 consistent with strong linkage between the variable loops and the stems in
-between. Furthermore, we do not expect much hitch-hiking to extend far beyond
+between. Furthermore, we do not expect hitchhiking to extend far beyond
 the variable regions consistent with the lack of signal out side of C5-V5. In
 case of much stronger selection -- such as observed during early CTL escape or
-drug resistance evolution -- the linked  region is of course a lot larger. 
+drug resistance evolution -- the linked  region is of course much larger. 
 
 The functional significance of the insulating RNA structure stems between the
 hyper variable loops has been proposed
 previously~\citep{watts_architecture_2009, sanjuan_interplay_2011}.
 \citet{sanjuan_interplay_2011} have shown that insulating stems are relevant for
 viral fitness {\it in vivo}. Our analysis is limited by the availability of
-longitudinal data which requires a focus on the the variable regions of \env.
-Conserved RNA structures likely exist (and several are known) in different parts
-of the HIV genome. In absence of repeated adaptive substitutions in the vicinity
-that cause hitch-hiking, the deleterious synonymous mutations will remain at low
+longitudinal data which requires a focus on the the variable regions of \env~.
+Conserved RNA structures most likely exist in different parts
+of the HIV genome (several are known). In absence of repeated adaptive substitutions in the vicinity
+that cause hitchhiking, the deleterious synonymous mutations remain at low
 frequencies and can only be observed by deep sequencing methods. 
 
 As far as population genetics models are concerned, our study uncovers the
 subtle balance of evolutionary forces governing intrapatient HIV evolution. The
 fixation and extinction times and probabilities represent a rich and simple
-summary statistics to test sequencing data and computer simulation upon, as
-noted independently in ref.~\citep{strelkowa_clonal_2012} in the context of
-influenza. Furthermore, our results emphasize the inadequacy of independent-site
+summary statistics to test sequencing data and computer simulation upon. A
+similar method has been recently used in a longitudinal study of
+influenza~\citep{strelkowa_clonal_2012}. The propagators suggested in that
+paper, however, represent ratios between (certain kinds of) nonsynonymous
+mutations and synonymous ones, hence they are inadequate to investigate
+synonymous changes themselves. Those authors also conclude that several
+beneficial mutations segregate simultaneously in influenza, a scenario
+remarkably similar to our within-epitope competition picture. These results
+jointly suggest that viral evolution proceeds by multiple concurrent sweeps
+rather then by successive fixation~\citep{desai_beneficial_2007, neher_rate_2010}.
+
+Finally, our results emphasize the inadequacy of independent site
 models of HIV evolution, especially in the light of transient effects on
 sweeping sites, such as time-dependent selection and within-epitope negative
-epistasis. Although a final word about which of these mechanisms is more
+epistasis. Although a final word about which mechanism is more
 widespread is yet to be spoken, both intuition and biological evidence from the
 literature support a mixed scenario~\citep{richman_rapid_2003,
 moore_limited_2009, bar_early_2012}. Note also that, unlike influenza, HIV does
 recombine if rarely, hence clonal interference as studied in
-ref.~\citep{strelkowa_clonal_2012} is only a short-term effect. In conclusion,
-we regard two consequences of this state of affairs as particularly relevant for
-clinical purposes.
+ref.~\citep{strelkowa_clonal_2012} is only a short-term effect.
 
 \section{Methods}
 \comment{to be written\dots}