+ update makefiles to fetch automatically valid Python includes and libs
[qpalma.git] / doc / qpalma-manual.tex
index 806c3d3..1fd7255 100644 (file)
@@ -67,8 +67,8 @@ For training \QP you need one of the following optimization toolkits:
 \item Install the Pythongrid and the Genefinding tool packages
 \item Update your PYTHONPATH variable to point to the above packages
 \item Unpack the QPalma tarball via
-\item[$\rightarrow$] tar -xzvf QPalma-1.0.tar.gz
-\item Enter the QPalma-1.0 directory and type:
+\item[$\rightarrow$] tar -xzvf QPalma-0.9.tar.gz
+\item Enter the QPalma-0.9 directory and type:
 \item[$\rightarrow$] python setup.py build
 \end{enumerate}
 \noindent
@@ -251,7 +251,6 @@ key = value
 \end{center}
 and ``\#'' for lines containing comments.
 
-
 \subsection{Read format and internal representation}
 
 The read input files for \QP contain the read sequences with their quality as
@@ -263,7 +262,7 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 \item unique read id
 \item chromosome/contig id
 \item position of match in chromosome/contig (0-based, relative to positive strand)
-\item strand 
+\item strand [D/P or +/-]
 \item read sequence (in strand specific direction)
 \item read quality (in strand specific direction)
 \end{enumerate}
@@ -271,6 +270,37 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 Strand specific direction means that \QP assumes that the reads are already in
 their true orientation and the qualities as well.
 
+
+\subsection{Training file format}
+
+The read input files for \QP contain the read sequences with their quality as
+well as some information from the first mapping / seed region finding. The
+format of the file containing the mapped short reads is as follows.  Each line
+corresponds to one short read. Each line has six tab-separated entries, namely:
+
+\begin{enumerate}
+\item unique read id
+\item chromosome/contig id
+\item strand [D/P or +/-]
+\item beginning of sequence fragment
+\item end of sequence fragment
+\item read sequence (in strand specific direction) with alignment information (see below)
+\item read quality (in strand specific direction)
+\item beginning of $1^{st}$ exon
+\item end of $1^{st}$ exon
+\item beginning of $2^{nd}$ exon
+\item end of $2^{nd}$ exon
+\end{enumerate}
+
+Strand specific direction means that \QP assumes that the reads are already in
+their true orientation and the qualities as well.
+\\ \noindent
+Alignment information means that an alignment of a read to a genomic sequence A
+mismatch is encoded as $[AG]$ if $A$ is on the sequence and $G$ on the read
+side.  A gap is denoted by $[-X]$ resp. $[X-]$ denotinge a gap on the sequence
+resp. read side with $X \in {A,C,G,T,N}$.
+
+
 \subsection{Splice Scores}
 
 As mentioned before the splice site scores where generated using a tool