Merge branch 'master' of inn.eb.local:/ebio/ag-neher/home/fzanini/phd/papers/synmut
[synmut.git] / synmut.tex
index 14c3240..850623f 100644 (file)
@@ -70,7 +70,7 @@ confirmed by extensive computer simulations.
 HIV evolves rapidly within a single host during the course of the infection.
 This evolution is driven by strong selection imposed by the host immune system
 via killer T cells (CTLs) and neutralizing antibodies
-(ABs)~\citep{pantaleo_immunopathogenesis_1996} and facilitated by the high
+(ABs)~\citep{rambaut_causes_2004} and facilitated by the high
 mutation rate of HIV~\citep{mansky_lower_1995}. When the host develops a CTL or
 AB response against a particular HIV epitope, mutations in the viral genome that
 reduce or prevent recognition of the epitope frequently emerge. Escape mutations
@@ -78,20 +78,24 @@ in epitopes targeted by CTLs typically evolve during early infection and spread
 rapidly through the population~\citep{mcmichael_immune_2009}. During chronic
 infection, the most rapidly evolving part of the HIV genome are the so called
 variable loops of the envelope protein gp120, which need to avoid recognition by
-neutralizing ABs.  Mutations in \env~, the gene encoding for gp120, spread
+neutralizing ABs.  Mutations in \env, the gene encoding for gp120, spread
 through the population within a few months (see \figurename~\ref{fig:aft}, solid
-lines).  The (Malthusian) effect size of these beneficial mutations is of the
-order of $s_a \sim 0.01$~\citep{neher_recombination_2010}.
-
-Escape mutations are strongly selected for their effect on the amino acid
-sequence of the HIV proteins. Conversely, synonymous mutations are commonly
-used as approximate neutral markers in studies of viral evolution. Neutral
-markers are very useful in practice, because they can be used to make inferences
-about the stochastic forces driving evolution~\citep{yang_statistical_2000}.
-The viral genome, however, needs to satisfy further constraints in addition to
-immune escape, such as efficient processing and translation, nuclear export, and
-packaging into the viral capsid: all these processes operate at the RNA level
-and are sensitive to synonymous changes. A few functionally important RNA
+lines). Consistent with this time scale, it is found that serum from a
+particular time typically neutralizes virus extracted more than 3-6 month
+earlier \citep{richman_rapid_2003}.
+
+These escape mutations are strongly selected for their effect on the amino acid
+sequence of the viral proteins. Conversely, synonymous mutations are commonly
+used as approximately neutral markers in studies of viral evolution. Neutral
+markers are very useful in practice, because there evolution can be compared to
+that of putatively functional sites to detect purifying or directional selection
+\citep{Bhatt:2011p43255,Hurst:2002p32608,Chen:2004p22606}. In most species,
+however, it is  known that synonymous codons don't evolve completely neutrally
+but that some codons are favored over others \citep{plotkin_synonymous_2011}.
+In addition to maintaining protein function and avoiding immune
+recognition, the HIV genome has to ensure efficient processing and translation,
+nuclear export, and packaging into the viral capsid: all these processes operate at the RNA
+level and are sensitive to synonymous changes. A few functionally important RNA
 elements are well characterized. For example, a certain RNA sequence in the HIV
 genome, called \rev{} response element (RRE), enhances nuclear export of viral
 transcripts~\citep{fernandes_hiv-1_2012}. Another well studied case is the
@@ -102,13 +106,13 @@ untranslated region~\citep{barat_interaction_1991, paillart_vitro_2002}.
 Nucleotide-level fitness effects have been observed beyond RNA structure as
 well. Recent studies have shown that genetically engineered HIV strains with
 a skewed codon usage bias towards more or less abundant tRNAs
-replicate better or worse, respectively~\citep{ngumbela_quantitative_2008,
-li_codon-usage-based_2012}. A similar conclusion has been reached about
+replicate better or worse \comment{replicate better or produce more protein?},
+respectively~\citep{ngumbela_quantitative_2008, li_codon-usage-based_2012}. A similar conclusion has been reached about
 influenza, and codon-pessimized influenza strains have been shown to be good
 live attenuated vaccines in mice~\citep{mueller_live_2010}. Purifying selection
-beyond the protein sequence is therefore expected, but it seems reasonable
-that the bulk of positive selection through the immune system be restricted to
-amino acid sequences.
+beyond the protein sequence is therefore expected
+\citep{forsdyke_reciprocal_1995,snoeck_mapping_2011}, but it seems reasonable
+that the bulk of positive selection through the immune system be restricted to amino acid sequences.
 
 %SYNONYMOUS CONSERVATION. DO WE HAVE A PLOT OF GENOME WIDE CONSERVATION, MAYBE
 %FOR SUPPLEMENT? YES
@@ -117,8 +121,10 @@ In this paper, we characterize the dynamics of synonymous mutations in \env{}
 and show that a substantial fraction of these mutations is deleterious. We
 further show that, although such synonymous mutations cannot be used as neutral
 markers, the degree to which they hitchhike with nearby nonsynonymous mutations
-is very informative; their ability to hitchhike for extended times itself is
-rooted in the small recombination rate of
+is very informative both about their on deleterious effect, as well as the
+strength and nature of selection for nearby positively selected sites.
+Their ability to hitchhike for extended times, which is a core requirement for
+our analysis, is rooted in the small recombination rate of
 HIV~\citep{neher_recombination_2010, batorsky_estimate_2011}. Extending the
 analysis of fixation probabilities to the nonsynonymous mutations, we show that
 time dependent selection or strong competition of escape mutations inside the
@@ -130,34 +136,35 @@ loss.
 The central quantity we investigate is the probability of fixation of a
 mutation, conditional on its population frequency.  A neutral mutation
 segregating at frequency $\nu$ has a probability $P_\text{fix}(\nu) = \nu$ to
-spread through the population and fix; in the rest of the cases, i.e. with
-probability $1-\nu$, it goes extinct. As illustrated in the inset of \FIG{fixp},
+spread through the population and fix; in the rest of the cases, i.e.~with
+probability $1-\nu$, it goes extinct. As illustrated in the inset of \FIG{aftsyn},
 this is a simple consequence of the fact that
 (a) exactly one of the $N$ individuals in the current population will be
 the common ancestor of the entire future population at a particular locus and
-(b) this ancestor has a probability $\nu$ of carrying the mutation.
+(b) this ancestor has a probability $\nu$ of carrying the mutation (assuming
+the neutral mutation is not preferentially associated with genomes of high or
+low fitness).
 Deleterious or beneficial mutations fix less or
 more often than neutral ones, respectively. Time series sequence data enable a
 direct observation of both the current frequency $\nu$ of any particular
-mutation and its future fate (fixation or extinction). They therefore represent
-a simple way to investigate average properties of different classes of
-mutations. 
+mutation and its future fate (fixation or extinction). 
 
-\subsection{Synonymous polymorphisms in \env, C2-V5 are mostly deleterious}
+
+\subsection{Synonymous polymorphisms in \env, C2-V5, are mostly deleterious}
 
 \FIG{aft} shows time series data of the frequencies of all mutations observed
 \env~, C2-V5, in patient p8~\citep{shankarappa_consistent_1999}. Despite many
 synonymous mutations reaching high frequency, very few fix
-(panel~\ref{fig:aftsyn}); however, quite some nonsynonymous mutations reach
-fixation (panel~\ref{fig:aftnonsyn}).
+(panel~\ref{fig:aftsyn}); however, many nonsynonymous mutations fix
+(panel~\ref{fig:aftnonsyn}).
 These observations are quantified in \FIG{fixp}, which stratifies the data
-of 7 (resp. 10) patients according to the frequency at which
+of 7 (resp.~10) patients according to the frequency at which
 different mutations are observed (see methods). Considering all mutations in a
 frequency interval around $\nu_0$ at some time $t_i$, we calculate the fraction
 that is found at frequency 1, at frequency 0, or at intermediate frequency at
 later times $t_f$. Plotting these fixed, lost, and polymorphic fraction against
 the time interval $t_f-t_i$, we see that most synonymous mutations segregate for
-roughly two years and are lost much more frequently than expected (panel
+roughly one year and are lost much more frequently than expected (panel
 \ref{fig:fixp1}). The long-time probability of fixation versus extinction of
 synonymous mutations is shown as a function of the initial frequency $\nu_0$
 in panel~\ref{fig:fixp2} (red line). The nonsynonymous seem to follow more or
@@ -190,13 +197,13 @@ C2-V5 region studied above and the remainder of \env~ reveal striking
 differences (see \FIG{fixp2}). Within C2-V5, this data fully confirms the
 observations made in the data set by \citet{shankarappa_consistent_1999} (red
 line). In the remainder of \env, however, observed synonymous mutations behave
-neutrally (orange line). 
+neutrally (green line). 
 
-These observations suggest that many of the synonymous polymorphisms in the part
-of \env~that includes the hypervariable regions are deleterious, while outside
-this regions polymorphisms are mostly roughly neutral. Note that this does not imply that all 
-synonymous mutations are neutral -- only those mutations observed at high frequencies tend 
-to be neutral.
+These observations suggest that many of the synonymous polymorphisms at
+intermediate frequencies in the part of \env~that includes the hypervariable
+regions are deleterious, while outside this regions polymorphisms are mostly
+roughly neutral. Note that this does not imply that all synonymous mutations are
+neutral -- only those mutations observed at high frequencies tend to be neutral.
 
 \begin{figure}
 \begin{center}
@@ -204,12 +211,13 @@ to be neutral.
 \label{fig:fixp1}}\\
 \subfloat{\includegraphics[width=0.9\linewidth]{Bunnik2008_fixmid_syn_ShankanonShanka}
 \label{fig:fixp2}}
-\caption{Left panel: time course of loss and fixation of synonymous mutations
- observed in a frequency interval $\nu_0$. The ultimate fraction of synonymous
- mutations that fix as a function of intermediate frequency $\nu_0$ is the
- fixation probability.  Right panel: fixation probability of derived synonymous
+\caption{(Panel A) Time course of loss and fixation of synonymous mutations
+observed in a frequency interval $\nu_0$. The ultimate fraction of synonymous
+mutations that fix as a function of intermediate frequency $\nu_0$ is the
+fixation probability. (Panel B) Fixation probability of derived synonymous
 alleles is strongly suppressed in C2-V5 versus other parts of the {\it env}
-gene, and of nonsynonymous ones. Data from
+gene. The horizontal error bars on the abscissa are bin sizes, the vertical ones
+the standard deviation after 100 patient bootstraps of the data. Data from
 Refs.~\cite{shankarappa_consistent_1999, bunnik_autologous_2008}.}
 \label{fig:fixp}
 \end{center}
@@ -218,16 +226,10 @@ Refs.~\cite{shankarappa_consistent_1999, bunnik_autologous_2008}.}
 \subsection{Synonymous mutations in C2-V5 tend to disrupt conserved RNA stems}
 
 One possible {\it a priori} explanation for lack of fixation of synonymous
-mutations in C2-V5 are  secondary structures in the viral RNA. If any RNA
-secondary structures are relevant for HIV replication, mutations in nucleotides
-involved in those base pairs are expected to be deleterious and to revert
-preferentially. Many functionally important secondary structure elements have
-been characterized, including  the RRE~\citep{fernandes_hiv-1_2012} and the 5'
-UTR pseudoknot interacting with the host
-tRNA$^\text{Lys3}$~\citep{barat_interaction_1991, paillart_vitro_2002}. It has
+mutations in C2-V5 are  secondary structures in the viral RNA. It has
 been suggested early on that parts of the viral genome that has the potential to
 form stems is better conserved than the
-remainder~\citep{forsdyke_reciprocal_1995}.
+remainder~\citep{forsdyke_reciprocal_1995,snoeck_mapping_2011}.
 
 Recently, the propensity of nucleotides of the HIV genome to form base pairs has
 been measured using the SHAPE assay (a biochemical reaction preferentially
@@ -245,17 +247,19 @@ In other words, alleles that are likely to be
 breaking RNA helices are also more likely to revert and finally be lost from the
 population. As a control, the average over non-observed but potentially
 available polymorphisms lies between the two curves (green line), as expected
-(because only some of them will be helix breakers). Furthermore, as a
-complementary analysis, we split the synonymous mutations in the extended V1-V5
-region further into conserved and variable regions and found that the biggest
-depression in fixation probability is observed in the conserved stems, while the
-variable loops show little deviation from the neutral signature, see
-\FIG{SHAPEB}. 
+(because only some of these mutations will interfere with stem loop formation).
+To test the hypothesis that mutations in C2-V5 are lost since break stems
+in the conserved between the variable loops, we split the synonymous mutations
+in the extended V1-V5 region further into conserved and variable regions and
+found that the biggest depression in fixation probability is observed in the
+conserved stems, while the variable loops show little deviation from the
+neutral signature, see \FIG{SHAPEB}. This is consistent with important stem
+structures in conservered regions between loops.
 
 In addition to RNA secondary structure, we have considered other possible
 explanations for a fitness defect of synonymous mutations, in particular codon
 usage bias (CUB). HIV is known to prefer A-rich codons over highly expressed
-human housekeeping genes~\citep{jenkins_extent_2003}. Moreover, codon-optimized
+human codons~\citep{jenkins_extent_2003}. Moreover, codon-optimized
 and -pessimized viruses have recently been generated and shown to replicate
 better or worse than wild type strains,
 respectively~\citep{li_codon-usage-based_2012, ngumbela_quantitative_2008,
@@ -273,23 +277,24 @@ speciation~\citep{bronson_nucleotide_1994}. Fourth, CUB in the V1-C5 region is
 not very different from other parts of the HIV genome, whereas the reduced
 fixation probability is only observed there. In conclusion, although we cannot
 exclude an effect of CUB on fitness as a general rule, we expect it to be a
-minor effect in our context.
+minor effect in our context. \comment{Need to read literature}
 
 \begin{figure}
 \begin{center}
 \subfloat{\includegraphics[width=0.9\linewidth]{mixed_Shankarappa_Bunnik2008_Liu_fixation_reactivity_Vandflanking_fromSHAPE}
 \label{fig:SHAPEA}}\\
 \subfloat{\includegraphics[width=0.9\linewidth]{Shankarappa_fixmid_syn_V_regions.pdf}\label{fig:SHAPEB}}
-\caption{Watts et al. have measured the reactivity of HIV nucleotides to {\it
-in vitro} chemical attack and shown that some nucleotides are more likely to
-be involved in RNA secondary folds. C1-C5 regions, in particular, show
-conserved stem-loop structures~\citep{watts_architecture_2009}. We show that
-among all derived alleles in those regions reaching frequencies of order one,
-there is a negative correlation between fixation and involvement in a base
-pairing in a RNA stem (left panel). The rest of the genome does not show any
-correlation (right panel). There might be too few silent polymorphisms in the
-first place, or the signal might be masked by non-functional RNA
-structures. Data from Refs.~\cite{shankarappa_consistent_1999,
+\caption{Permissible synonymous mutations have
+high SHAPE reactivities. \comment{Is this C2-V5 only?} 
+Panel A) Synonymous substitions in the C2-V5 region have substantially higher
+SHAPE reactivities than mutations that reach frequencies above 15\%, but are
+susequently lost. This difference is quantified by a cumulative histogram
+($p=0.002$, Kolmogorov-Smirnov two sample test). Mutations that are never
+observered show an intermediate distribution of SHAPE values.
+Panel B shows the fixation probablility of synonymous mutations in C2-V5
+separately for variable loops and the connecting conserved regions, that
+harbor conserved RNA stems. As expected, fixation probability is lower inside
+the conserved regions. Data from Refs.~\cite{shankarappa_consistent_1999,
 bunnik_autologous_2008, liu_selection_2006}.}
 \label{fig:SHAPE}
 \end{center}
@@ -303,16 +308,16 @@ is not unexpected, it seems odd that we observe them at high population
 frequency -- at least in some regions of the genome. The region of \env~ in
 which we observe deleterious mutations at high frequency, however, is special in
 that it undergoes frequent adaptive changes to evade recognition by neutralizing
-antibodies~\cite{williamson_adaptation_2003}. Due to the limited amount of
+antibodies~\cite{williamson_adaptation_2003,richman_rapid_2003}. Due to the limited amount of
 recombination in HIV~\cite{neher_recombination_2010,batorsky_estimate_2011},
 deleterious mutations that are linked to adaptive variants can reach high
 frequency~\citep[genetic hitchhiking,][]{smith_hitch-hiking_1974}.
 
 The potential for hitchhiking is already apparent from the allele frequency
 trajectories in \FIG{aft}, where many mutations appear to change rapidly in
-frequency as a flock. Deleterious synonymous mutations can be amplified
-exponentially by selection on linked nonsynonymous sites, a process known as
-{\it genetic draft}~\citep{gillespie_genetic_2000, neher_genetic_2011}. In order
+frequency as a flock. Deleterious synonymous mutations can be brought to high
+frequency by selection on linked nonsynonymous sites, a process
+known as {\it genetic draft}~\citep{gillespie_genetic_2000, neher_genetic_2011}. In order
 to be advected to high frequency by a linked adaptive mutation, the deleterious
 effect of the mutation has to be substantially smaller than the adaptive effect.
 The latter was estimated to be on the order of $s_a = 0.01$ per day~\citep{neher_recombination_2010}.
@@ -329,61 +334,65 @@ roughly $s_d \sim - 0.002$ per day.
 \label{fig:simfixpvar}}\\
 \subfloat{\includegraphics[width=\linewidth]{simulations_syn.pdf}
 \label{fig:simsfig}}
-\caption{(Panel A) The depression in $P_\text{fix}$ depends on the deleterious
+\caption{Evolutionary parameters compatible with observations.
+Panel A) The depression in $P_\text{fix}$ depends on the deleterious
 effect size of the synonymous alleles (in HIV data is about $-0.2$).
-This parameter also reduces synonymous
+Increasing this parameter also reduces synonymous
 diversity, measured by the number of mutations at frequencies $0.25 < \nu < 0.75$,
 normalized by the number of possible mutations (first inset).
-(Panel B) To assess the parameter space that affects synonymous fixation and
-diversity, we run many simulations with random parameters for deleterious effect
-size, fraction of deleterious synonymous sites, average size of escape
-mutations (color, blue ($10^{-2.5}$) to red ($10^{-1.5}$)), and rate of
+Panel B) To assess the parameter space compatible with observations, we run many
+simulations with random parameters for deleterious effect size, fraction of
+deleterious synonymous sites, average size of escape mutations (color, blue ($10^{-2.5}$) to red ($10^{-1.5}$)), and rate of
 introduction of new epitopes (marker size, from $10^{-3}$ to $10^{-2}$ per
 generation). Mostly simulations with small deleterious effects and relatively
 high deleterious fractions of synonymous mutations reproduce synonymous HIV-like
-fixation probability and diversity.}
+fixation probability and diversity. Parameters are chosen uniformly on a
+logarithmic scale from the indicated windows. \comment{should we extend the
+parameters space maybe to $10^{-4}$?}}
 \label{fig:simheat}
 \end{center}
 \end{figure}
 
 To get a better idea of the range of parameters that are compatible with the
 observations and our interpretation, we perform computer simulations of
-evolving viral populations under selection and rare recombination. For this
-purpose, we use the recently published package FFPopSim, which includes a module
-dedicated to intrapatient HIV evolution~\citep{zanini_ffpopsim:_2012}. We
-pick many random combinations of the following four parameters: effect
-size and rate of appearance of beneficial escape mutations, and effect size
-and fraction of deleterious synonymous mutations. 
+evolving viral populations assuming a mix of positive and purifying selection
+and rare recombination.
+For this purpose, we use the simulation package FFPopSim, which includes a
+module dedicated to intrapatient HIV evolution~\citep{zanini_ffpopsim:_2012}. 
 
 The first result of the simulations is that genetic draft can indeed bring weakly
-deleterious mutations to high frequencies and result in a dependence of the
+deleterious mutations to high frequencies and results in a dependence of the
 fixation probability on initial frequency that is compatible with observations
 (see \FIG{simfixpvar}).
 The fixation probability of synonymous alleles decreases from the neutral
-expectation to zero as their fitness effect worsens (\FIG{simfixpvar},
-from $-0.0003$ in blue to $-0.003$ in red). Contextually,
-the number of alleles that reach high frequencies, which is a proxy for
-synonymous diversity, is reduced as well (\FIG{simfixpvar}, top inset).
+expectation to zero as their deleterious effect increases
+(\FIG{simfixpvar}, from $-0.0003$ in blue to $-0.003$ in red). Along with the
+reduction in fixation probability, the number of alleles that reach high
+frequencies, which is a proxy for synonymous diversity, is reduced as well (\FIG{simfixpvar}, top inset).
 
-To assess the reduction in fixation probability quantitatively, we calculathe
+To assess the reduction in fixation probability quantitatively, we calculate
 the area between the measured fixation probability and the diagonal, which is
 the neutral expectation (\FIG{simfixpvar}, lower inset). This area spans a range
 between $-0.5$ (no fixation at all), zero (neutral-like curve), and $+0.5$ (always
 fixed). The HIV data correspond to an area of approximately $-0.2$ for synonymous
 changes, and essentially zero for nonsynonymous changes.
 
+We pick many random combinations of the following four parameters: effect size
+and rate of appearance of beneficial escape mutations, and effect size and
+fraction of deleterious synonymous mutations.
 Among all simulations, we select the one that show a large depression in
-fixation probability of synonymous mutations but, simulteneously, a high
-synonymous diversity, as observed in HIV data. This selection imposes a strong
-constraint on the parameters, in particular on the ones related to synonymous
-changes, i.e. their deleterious fraction and effect size (see \FIG{simsfig}).
+fixation probability (>-0.??) of synonymous mutations but, simulteneously, a
+high synonymous diversity (>0.0? per site), as observed in HIV data. This
+selection imposes a strong constraint on the parameters, in particular on the
+ones related to synonymous changes, i.e.~their deleterious fraction and effect
+size (see \FIG{simsfig}).
 A high fraction ($\gtrsim 0.8$) of only slightly deleterious synonymous sites,
-with effect size $|s_d| \lesssim 0.002$, is required. This result fits well
-the expectation based on the fixation/extinction times above (see \FIG{fixp1}).
+with effect size $|s_d| \lesssim 0.002$, is required. This result fits well the
+expectation based on the fixation/extinction times above (see \FIG{fixp1}).
 Moreover, it corresponds to {\it a priori} theoretical expectations:
-(a) since high frequency bins are enriched in neutral mutations (it is easier for
-them to hitchhike), the hallmark of deleterious mutations will be visible there
-only if they are pervasive; (b) genetic draft stops working if the
+(a) since high frequency bins are enriched in neutral mutations (it is easier
+for them to hitchhike), the hallmark of deleterious mutations will be visible
+there only if they are pervasive; (b) genetic draft stops working if the
 deleterious effect size becomes comparable to the adaptive effect size of escape
 mutations, because the double mutant has little or no fitness advantage.
 
@@ -392,7 +401,7 @@ above, no strong correlation of the two nonsynonymous parameters, effect size
 and rate of appearance of epitopes, is observed; in \FIG{simsfig}, the points
 shown possess a variety of shapes and colors. In most of these simulations, 
 however, nonsynonymous mutations almost always fix once they reach high frequencies
--- their nonsynonymous fixation area is well above zero. This stands in contrast
+-- their nonsynonymous fixation area is well above zero. This is incompatible
 with the blue line in \FIG{fixp}: in an HIV infection, nonsynonymous mutations fix as if they
 were neutral. Although there are no doubts that nonsynonymous variation in the
 variable regions is driven by positive selection and not by genetic drift, the
@@ -411,10 +420,10 @@ escape mutants. These respones are delayed by a few months, roughly matching the
 average time needed by an escape mutant to cross frequencies of order one.
 In the alternative explanation, several different escape
 mutations within the same epitope might arise almost simultaneously and start to
-spread. Their fitness benefits are not additive, because each of them is
+spread. Their benefits are not additive, because each of them is
 essentially sufficient to escape. As a consequence, several escape mutations rise to
 high frequency rapidly, while the one with the smallest cost in terms of replication,
-packaging, etc. is most likely to eventually fix. The emergence of
+packaging, etc.~is most likely to eventually fix. The emergence of
 multiple sweeping nonsynonymous mutations in real HIV infections has been shown
 previously~\citep{moore_limited_2009, bar_early_2012}.
 We tested both hypotheses in our simulation framework and they both seem to
@@ -471,29 +480,32 @@ known). In absence of repeated adaptive substitutions in the vicinity that cause
 hitchhiking, the deleterious synonymous mutations remain at low frequencies and
 can only be observed by deep sequencing methods. 
 
-As far as population genetics models are concerned, our study uncovers the
+Our study uncovers the
 subtle balance of evolutionary forces governing intrapatient HIV evolution. The
 fixation and extinction times and probabilities represent a rich and simple
-summary statistics to test sequencing data and computer simulation upon. A
-similar method has been recently used in a longitudinal study of
+summary statistics useful to characterize sequencing data and compare to
+models via computer simulations.
+A similar method has been recently used in a longitudinal study of
 influenza~\citep{strelkowa_clonal_2012}. The propagators suggested in that
-paper, however, represent ratios between (certain kinds of) nonsynonymous
+paper, however, represent ratios between nonsynonymous
 mutations and synonymous ones, hence they are inadequate to investigate
-synonymous changes themselves. Those authors also conclude that several
+synonymous changes themselves. The authors also conclude that several
 beneficial mutations segregate simultaneously in influenza, a scenario
-remarkably similar to our within-epitope competition picture. These results
-jointly suggest that viral evolution proceeds by multiple concurrent sweeps
-rather then by successive fixation~\citep{desai_beneficial_2007, neher_rate_2010}.
-
-Finally, our results emphasize the inadequacy of independent site
-models of HIV evolution, especially in the light of transient effects on
-sweeping sites, such as time-dependent selection and within-epitope negative
-epistasis. With specific regard to these two scenarios, although a final word
-about which mechanism is more widespread is yet to be spoken, both intuition
-and biological evidence from the literature support a mixed scenario~\citep{richman_rapid_2003,
-moore_limited_2009, bar_early_2012}. Note also that, unlike influenza, HIV does
-recombine if rarely, hence clonal interference as studied in
-ref.~\citep{strelkowa_clonal_2012} is only a short-term effect.
+remarkably similar to our within-epitope competition picture. While
+recombination hardly affects evolution within an epitope, it might facilitate
+immune escape by easing competition between different epitopes
+\citep{neher_rate_2010,Rouzine:2005p17398}.
+
+Our results emphasize the inadequacy of independent site
+models of HIV evolution and the common assumption that selection is time
+independent. If genetic variation is only transiently beneficial, existing
+methods to quantify selection will yield substantial underestimates
+\citep{williamson_adaptation_2003,neher_rate_2010,OTHER}. To explain the
+observations regarding the fixation probabilities of non-synonymous mutations,
+either transient selection, or substational within-epitope competition are
+necessary. Which mechanism is more widespread is not clear as of now,
+there is evidence for both~\citep{richman_rapid_2003, moore_limited_2009,
+bar_early_2012}.
 
 \section{Methods}
 \subsection{Sequence data collection}
@@ -504,19 +516,22 @@ National Laboratory (LANL) HIV sequence database~\citep{LANL2012}. The sequences
 some patients showed signs of HIV compartimentalization into subpopulations and
 were discarded; a grand total of 11
 patients with approximately 6 time points each and 10 sequences per time point
-were analyzed. The time interval or resolution between two ocnsecutive sequences
+were analyzed. The time interval or resolution between two consecutive sequences
 was approximately 6 to 18 months.
 
-\subsection{Sequence analisys}
+\comment{How did you determine who to discard. Maybe we should include the PCA
+plots into the supplement.}
+
+
+\subsection{Sequence analysis}
 The good sequences were aligned within each patient
 via the translated amino acid sequence, using
-Muscle~\citep{edgar_muscle:_2004}, and to the NL4-3 reference sequence probed
-by \citet{watts_architecture_2009}. Within each patient, a consensus RNA
-sequence at the first time point was used to classify alleles as ancestral or
+Muscle~\citep{edgar_muscle:_2004}, and to the NL4-3 reference sequence used
+by \citet{watts_architecture_2009} in the SHAPE assay. Within each patient, a
+consensus RNA sequence at the first time point was used to classify alleles as ancestral or
 derived at all sites. Problematic sites that included large frequencies of gaps
-were excluded from the analysis, because variable regions are known to be
-subject to frequent indels, while our analysis is limited to nucleotide
-substitutions. Time series of allele frequencies were extracted from the
+were excluded from the analysis to avoid artefactual substitutions due to
+alignment errors. Time series of allele frequencies were extracted from the
 sequences.
 
 The synonymity of a mutation was assigned if the rest of the codon was
@@ -540,8 +555,8 @@ Problematic assignments in indel-rich regions were excluded from the analysis.
 In order to restrict the analysis to synonymous polymorphisms, a lower frequency
 threshold of 0.15 was used (other thresholds yielded the same results). Since
 very few polymorphisms hitchhike beyond, say, a frequency of 0.5, this pool is
-enriched for to-be-lost mutations; hence the "lost" curve in \FIG{SHAPEA}
-contains much more points than the "fixed" one.
+enriched for to-be-lost mutations; hence the ``lost" curve in \FIG{SHAPEA}
+contains much more points than the ``fixed" one.
 
 The V loops and flanking regions were identified manually starting from the
 annotated reference HXB2 sequence from the LANL HIV database~\citep{LANL2012}. A