+ added settings in the form of a global and a run specific part
[qpalma.git] / doc / qpalma.tex
index 55c96c5..24799dd 100644 (file)
 \maketitle
 %
 %
-\section{Intro}
-%
 %
+\section{Intro}
+
 \QP is an alignment tool targeted to align spliced reads produced by ``Next
 Generation'' sequencing platforms such as $Illumina Genome Analyzer$, $454$ or
 $SOLid$. We refer to the whole pipeline as the \QP pipeline and \QP
 respectively.
 
-
-
 Basically \QP assumes that you have the following data:
 \begin{itemize}
 \item The reads you want to align,
@@ -45,11 +43,29 @@ The project results directory (\emph{result\_dir}) contains then the subdirector
 
 %
 %
-\section{Pipeline}
+%
+\section{Installation}
+
+QPalma has the following requirements:
+\begin{itemize}
+\item Numpy
+\item In order to use QPalma on a cluster you need the pythongrid package which
+can be found under the following URL:
+\item For training you need either one of the following optimization toolkits:
+\begin{itemize}
+\item CPLEX
+\item CVXOPT
+\item MOSEK
+\end{itemize}
+\end{itemize}
+
+
 %
 %
-The full pipline constist of n steps
-Usually:
+%
+\section{Pipeline}
+
+The full pipline consists of $n$ steps:
 
 \begin{enumerate}
 \item Find alignment seeds using a fast suffix array method (vmatch) for
@@ -65,9 +81,9 @@ the quality of the alignments via filtering.
 
 %
 %
-\section{Usage}
-%
 %
+\section{Usage}
+
 A typical run consists of 
 \begin{enumerate}
 \item Set your parameters (read size, number of mismatches, etc.) in the
@@ -87,8 +103,51 @@ check\_dataset\_consistency.py script.
 
 Performs sanity checking of the configurations file(s). Initializes needed
 directories.
+%
+%
+%
+\section{Training}
+
+QPalma needs some training examples
+For the training you need:
+
+\begin{itemize}
+\item Training examples i.e. correct alignments (you can artificially generate those see \ref)
+\item Splice site predictions
+\item Flat files of the genomic sequences you want to align to
+\end{itemize}
 
+A training example is definded as a $4$-tuple, with elements:
+\begin{enumerate}
+\item A sequence information tuple
+\item the read itself
+\item the quality tuple
+\item the alignment information
+\end{enumerate}
+
+A prediction example is defined as a $3$-tuple, with elements:
+\begin{enumerate}
+\item A sequence information tuple
+\item the read itself
+\item the quality tuple
+\end{enumerate}
 
+The sequence information tuple itself consists of
+\begin{enumerate}
+\item The read id
+\item Chromosome/Contig id
+\item Strand
+\item Start of the genomic region we want to align to
+\item Stop of the genomic region
+\end{enumerate}
+
+
+
+            currentSeqInfo 
+
+%
+%
+%
 \section{Data Standards}
 
 
@@ -107,6 +166,9 @@ We address the first question as follows:
 the score sits at the g's of the splice sites.
     
 
+%
+%
+%
 \section{Format Specifications}
 
 The format of the file containing the mapped short reads is as follows.  Each