+ added documentation
authorfabio <fabio@e1793c9e-67f9-0310-80fc-b846ff1f7b36>
Mon, 1 Sep 2008 12:48:07 +0000 (12:48 +0000)
committerfabio <fabio@e1793c9e-67f9-0310-80fc-b846ff1f7b36>
Mon, 1 Sep 2008 12:48:07 +0000 (12:48 +0000)
git-svn-id: http://svn.tuebingen.mpg.de/ag-raetsch/projects/QPalma@10492 e1793c9e-67f9-0310-80fc-b846ff1f7b36

doc/qpalma.tex [new file with mode: 0644]

diff --git a/doc/qpalma.tex b/doc/qpalma.tex
new file mode 100644 (file)
index 0000000..55c96c5
--- /dev/null
@@ -0,0 +1,130 @@
+\documentclass{article}
+\usepackage{a4}
+
+\begin{document}
+
+\newcommand{\QP}{{\sl QPALMA }}
+\newcommand{\QPA}{{\sl QPALMA alignment algorithm }}
+\newcommand{\QPH}{{\sl QPALMA approximation }}
+\newcommand{\QPP}{{\sl QPALMA pipeline }}
+
+\title{QPalma Documentation}
+\author{Fabio De Bona}
+\date{}
+
+\maketitle
+%
+%
+\section{Intro}
+%
+%
+\QP is an alignment tool targeted to align spliced reads produced by ``Next
+Generation'' sequencing platforms such as $Illumina Genome Analyzer$, $454$ or
+$SOLid$. We refer to the whole pipeline as the \QP pipeline and \QP
+respectively.
+
+
+
+Basically \QP assumes that you have the following data:
+\begin{itemize}
+\item The reads you want to align,
+\item parts/full genomic sequences of an organism,
+\item splice site scores predicted for the genomic sequences.
+\end{itemize}
+
+The project has two central configuration files: PipelineConf.py and
+QPalmaConf.py where the former stores the pipeline settings and the latter the
+alignment specific options.
+
+The project results directory (\emph{result\_dir}) contains then the subdirectories
+\begin{itemize}
+\item \emph{mapping} with subdirs main and spliced
+\item \emph{alignment}  with subdirs for the different parameters and \emph{heuristic}
+\item \emph{remapping}
+\end{itemize}
+
+%
+%
+\section{Pipeline}
+%
+%
+The full pipline constist of n steps
+Usually:
+
+\begin{enumerate}
+\item Find alignment seeds using a fast suffix array method (vmatch) for
+all given reads. This may take several rounds for subsets of the reads.
+\item Preprocess the reads and their seeds. Convert them to a qpalma format with some sanity checks.
+\item Use the \QPH to identify those reads that have a full seed but might be
+spliced anyways.
+\item Once we identified all potentially spliced reads we use \QPA to align
+those to their seed regions.
+\item One can choose between several post-processing steps in order to refine
+the quality of the alignments via filtering.
+\end{enumerate}
+
+%
+%
+\section{Usage}
+%
+%
+A typical run consists of 
+\begin{enumerate}
+\item Set your parameters (read size, number of mismatches, etc.) in the
+configuration files.
+\item Start the QPalma pipeline via \emph{start\_pipeline}.
+\end{enumerate}
+
+\section{Options}
+
+First one creates datasets using run-specific preprocessing tools. After
+dataset creation one checks the sets for consistency using the
+check\_dataset\_consistency.py script.
+
+\section{QPalma Commands}
+
+\subsection{check\_and\_init}
+
+Performs sanity checking of the configurations file(s). Initializes needed
+directories.
+
+
+\section{Data Standards}
+
+
+\subsection{Read format and internal representation}
+
+\begin{itemize}
+\item Which nucleotide bears the score of the splice site ?
+\item What exactly are the exon/intron boundaries pointing to (also are they 0/1-based) ?
+\end{itemize}
+
+We address the first question as follows:
+\texttt{
+----gt-------ag------
+    *         *
+}
+the score sits at the g's of the splice sites.
+    
+
+\section{Format Specifications}
+
+The format of the file containing the mapped short reads is as follows.  Each
+line corresponds to one short read. Each line has six tab separated entries,
+namely:
+\begin{enumerate}
+\item unique read id
+\item chromosome/contig id
+\item position of match in chromosome/contig
+\item strand 
+\item read sequence
+\item read quality
+\end{enumerate}
+
+
+\subsection{Splice Scores}
+
+%
+%
+%
+\end{document}