merged conflicts
authorRichard <richard@ag-neher-imac1.eb.local>
Wed, 23 Jan 2013 16:17:35 +0000 (17:17 +0100)
committerRichard <richard@ag-neher-imac1.eb.local>
Wed, 23 Jan 2013 16:17:35 +0000 (17:17 +0100)
1  2 
synmut.tex

diff --cc synmut.tex
@@@ -133,24 -131,28 +135,27 @@@ The central quantity we investigate is 
  mutation, conditional on its population frequency.  A neutral mutation
  segregating at frequency $\nu$ has a probability $P_\text{fix}(\nu) = \nu$ to
  spread through the population and fix; in the rest of the cases, i.e. with
- probability $1-\nu$, it goes extinct. This is a simple consequence of the fact
- that (i) exactly one of the $N$ individuals in the current population will be
+ probability $1-\nu$, it goes extinct. As illustrated in the inset of \FIG{fixp},
+ this is a simple consequence of the fact that
+ (a) exactly one of the $N$ individuals in the current population will be
  the common ancestor of the entire future population at a particular locus and
- (ii) this ancestor has a probability $\nu$ of carrying the mutation, see
illustration in \FIG{fixp}.  Deleterious or beneficial mutations fix less or
+ (b) this ancestor has a probability $\nu$ of carrying the mutation.
+ Deleterious or beneficial mutations fix less or
  more often than neutral ones, respectively. Time series sequence data enable a
  direct observation of both the current frequency $\nu$ of any particular
 -mutation and its future fate (fixation or extinction). They therefore represent
 -a simple way to investigate average properties of different classes of
 -mutations. 
 +mutation and its future fate (fixation or extinction). 
  
 -\subsection{Synonymous polymorphisms in \env, C2-V5 are mostly deleterious}
 +
 +\subsection{Synonymous polymorphisms in \env, C2-V5, are mostly deleterious}
  
  \FIG{aft} shows time series data of the frequencies of all mutations observed
- \env, C2-V5, in patient p8~\citep{shankarappa_consistent_1999}. Despite many
- synonymous mutations reaching high frequency (dashed lines), very few fix. This
- observation is quantified in panels \FIG{fixp1} and \ref{fig:fixp2}, which
- stratify the data of 7 (resp. 10 ???) patients according to the frequency at
- which different mutations are observed (see methods). Considering all mutations in a
+ \env~, C2-V5, in patient p8~\citep{shankarappa_consistent_1999}. Despite many
+ synonymous mutations reaching high frequency, very few fix
+ (panel~\ref{fig:aftsyn}); however, quite some nonsynonymous mutations reach
+ fixation (panel~\ref{fig:aftnonsyn}).
+ These observations are quantified in \FIG{fixp}, which stratifies the data
+ of 7 (resp. 10) patients according to the frequency at which
+ different mutations are observed (see methods). Considering all mutations in a
  frequency interval around $\nu_0$ at some time $t_i$, we calculate the fraction
  that is found at frequency 1, at frequency 0, or at intermediate frequency at
  later times $t_f$. Plotting these fixed, lost, and polymorphic fraction against
@@@ -247,29 -245,27 +248,29 @@@ In other words, alleles that are likel
  breaking RNA helices are also more likely to revert and finally be lost from the
  population. As a control, the average over non-observed but potentially
  available polymorphisms lies between the two curves (green line), as expected
 -(because only some of them will be helix breakers). Furthermore, as a
 -complementary analysis, we split the synonymous mutations in the extended V1-V5
 -region further into conserved and variable regions and found that the biggest
 -depression in fixation probability is observed in the conserved stems, while the
 -variable loops show little deviation from the neutral signature, see
 -\FIG{SHAPEB}. 
 +(because only some of these mutations will interfere with stem loop formation).
 +To test the hypothesis that mutations in C2-V5 are lost since break stems
 +in the conserved between the variable loops, we split the synonymous mutations
 +in the extended V1-V5 region further into conserved and variable regions and
 +found that the biggest depression in fixation probability is observed in the
 +conserved stems, while the variable loops show little deviation from the
 +neutral signature, see \FIG{SHAPEB}. This is consistent with important stem
 +structures in conservered regions between loops.
  
  In addition to RNA secondary structure, we have considered other possible
- explanations for a fitness effect of synonymous mutations, in particular codon
+ explanations for a fitness defect of synonymous mutations, in particular codon
  usage bias (CUB). HIV is known to prefer A-rich codons over highly expressed
 -human housekeeping genes~\citep{jenkins_extent_2003}. Moreover, codon-optimized
 +human codons~\citep{jenkins_extent_2003}. Moreover, codon-optimized
  and -pessimized viruses have recently been generated and shown to replicate
  better or worse than wild type strains,
- respectively~\citep{li_codon-usage-based_2012,ngumbela_quantitative_2008,
- coleman_virus_2008}. We do not find, however, evidence for any contribution of
+ respectively~\citep{li_codon-usage-based_2012, ngumbela_quantitative_2008,
+ coleman_virus_2008}. We do not find, however, any evidence for a contribution of
  CUB to the ultimate fate of synonymous alleles. Several lines of thought support
- this result. First of all, although codon-optimized HIV seems to perform better
- {\it in vitro}, the distance in CUB between HIV and human genes is not shrinking
- at the macroevolutionary level REF?. Second, within a single patient, we do not
observe any bias towards more human-like CUB in the synonymous mutations that
reach fixation rather than extinction. Third, it is a common phenomenon for
+ this result. First of all, within a single patient, we do not observe any bias
+ towards more human-like CUB in the synonymous mutations that reach fixation
+ rather than extinction. Second, although codon-optimized HIV seems to perform
better {\it in vitro}, the distance in CUB between HIV and human genes is not
shrinking at the macroevolutionary level. Third, it is a common phenomenon for
  retroviruses to use variously different codons from their hosts, and CUB effects
  on fitness are thought to be so small that divergent nucleotide composition has
  been suggested as a possible mechanism for viral
@@@ -461,37 -466,34 +471,37 @@@ previously~\citep{watts_architecture_20
  \citet{sanjuan_interplay_2011} have shown that insulating stems are relevant for
  viral fitness {\it in vivo}. Our analysis is limited by the availability of
  longitudinal data which requires a focus on the the variable regions of \env.
- Conserved RNA structures most likely exist in different parts
- of the HIV genome (several are known). In absence of repeated adaptive substitutions in the vicinity
- that cause hitchhiking, the deleterious synonymous mutations remain at low
frequencies and can only be observed by deep sequencing methods. 
+ Conserved RNA structures exist in different parts of the HIV genome (several are
+ known). In absence of repeated adaptive substitutions in the vicinity that cause
+ hitchhiking, the deleterious synonymous mutations remain at low frequencies and
+ can only be observed by deep sequencing methods. 
  
 -As far as population genetics models are concerned, our study uncovers the
 +Our study uncovers the
  subtle balance of evolutionary forces governing intrapatient HIV evolution. The
  fixation and extinction times and probabilities represent a rich and simple
 -summary statistics to test sequencing data and computer simulation upon. A
 -similar method has been recently used in a longitudinal study of
 +summary statistics useful to characterize sequencing data and compare to
 +models via computer simulations.
 +A similar method has been recently used in a longitudinal study of
  influenza~\citep{strelkowa_clonal_2012}. The propagators suggested in that
 -paper, however, represent ratios between (certain kinds of) nonsynonymous
 +paper, however, represent ratios between nonsynonymous
  mutations and synonymous ones, hence they are inadequate to investigate
 -synonymous changes themselves. Those authors also conclude that several
 +synonymous changes themselves. The authors also conclude that several
  beneficial mutations segregate simultaneously in influenza, a scenario
 -remarkably similar to our within-epitope competition picture. These results
 -jointly suggest that viral evolution proceeds by multiple concurrent sweeps
 -rather then by successive fixation~\citep{desai_beneficial_2007, neher_rate_2010}.
 -
 -Finally, our results emphasize the inadequacy of independent site
 -models of HIV evolution, especially in the light of transient effects on
 -sweeping sites, such as time-dependent selection and within-epitope negative
 -epistasis. With specific regard to these two scenarios, although a final word
 -about which mechanism is more widespread is yet to be spoken, both intuition
 -and biological evidence from the literature support a mixed scenario~\citep{richman_rapid_2003,
 -moore_limited_2009, bar_early_2012}. Note also that, unlike influenza, HIV does
 -recombine if rarely, hence clonal interference as studied in
 -ref.~\citep{strelkowa_clonal_2012} is only a short-term effect.
 +remarkably similar to our within-epitope competition picture. While
 +recombination hardly affects evolution within an epitope, it might facilitate
 +immune escape by easing competition between different epitopes
 +\citep{neher_rate_2010,Rouzine:2005p17398}.
 +
 +Our results emphasize the inadequacy of independent site
 +models of HIV evolution and the common assumption that selection is time
 +independent. If genetic variation is only transiently beneficial, existing
 +methods to quantify selection will yield substantial underestimates
 +\citep{williamson_adaptation_2003,neher_rate_2010,OTHER}. To explain the
 +observations regarding the fixation probabilities of non-synonymous mutations,
 +either transient selection, or substational within-epitope competition are
 +necessary. Which mechanism is more widespread is not clear as of now,
 +there is evidence for both~\citep{richman_rapid_2003, moore_limited_2009,
 +bar_early_2012}.
  
  \section{Methods}
  \subsection{Sequence data collection}